중복 찾기

다른 언어: English Español Português Русский 中文

중복 찾기는 하나 이상의 파일에서 유사한 텍스트를 감지하기 위한 오픈 소스 애플리케이션입니다. 100% 중복과 유사하지만 동일하지 않은 콘텐츠를 찾는 데 사용할 수 있습니다. 이 도구는 일반 텍스트, Markdown, XML을 포함한 여러 형식과 호환됩니다.

중복 찾기 도구는 다음을 도와줍니다:

중복 콘텐츠 예

도구가 감지하는 것에 대한 아이디어를 얻을 수 있는 빠른 예입니다:

Chunk 1:
Open the Google Play Store on your Android device, search for "AwesomeApp", then tap "Install" to download and install the app.
Chunk 2:
Open the App Store on your iOS device, search for "AwesomeApp", then tap "Get" to download and install the app.

사용 방법

  1. 앱을 다운로드하세요. 또는 직접 빌드할 수 있습니다 소스.
  2. 컴퓨터에 Java 16 이상이 설치되어 있는지 확인하세요
  3. 터미널에서 다운로드한 .jar 파일이 있는 폴더를 엽니다
  4. 실행 java -jar duplicate-finder.jar 다음 매개변수와 함께:

    매개변수 의미
    -r / --root
    필수
    중복 콘텐츠를 검색하려는 폴더의 상대 경로 또는 절대 경로 -r=./my-project/
    -o / --output 분석 결과를 저장하고자 하는 폴더의 상대 또는 절대 경로입니다. 디렉토리를 지정하지 않으면 중복 검출기가 현재 작업 디렉토리를 사용합니다. -r=./my-project/duplicates/
    -f / --fileMask 분석할 파일 확장자를 쉼표로 구분한 목록입니다. 기본적으로 모든 파일이 분석됩니다. -f=md,mdx
    -i / --indexer

    텍스트 조각으로 간주할 항목. 다음 옵션을 사용할 수 있습니다:

    • md – 마크다운 요소
    • line – 한 줄의 텍스트
    • xml – XML 요소
    • file – 전체 파일의 내용
    • auto – 파일 마스크에서 유추하려고 시도
    -i=md
    -l / --minLength 분석할 텍스트 조각의 최소 길이(문자 수). 기본값: 100 (100자보다 짧은 텍스트 조각은 무시됨) -l=150
    -s / --minSimilarity 두 텍스트 조각이 중복으로 간주될 최소 유사도. 기본값: 0.9 (90%) -s=0.85
    -d / --minDuplicates 중복 그룹이 보고될 최소 중복 수입니다. 기본값: 1 (중복이 하나라도 있으면 됨) -d=5
    -h / --headless 중복 보기기를 열지 않고 결과를 파일에만 작성 -h
    -v / --verbose 진행 상황과 오류를 콘솔에 기록할지 여부입니다. 분석이 너무 오래 걸리고 문제가 의심되는 경우 이 옵션을 사용하십시오. 기본값: 로그 없음 -v
    -m / --memory 저메모리 모드 - 분석 속도의 대가로 중복 찾기 도구의 메모리 사용량을 최소화합니다. -m
    -g / --gram 고급 ngram 길이 – 속도, 메모리 사용량 및 분석 정확도에 영향을 줍니다. 차이는 콘텐츠의 특정 사항에 따라 다릅니다. -g=10

명령어 예제

여기 당신의 명령어가 어떻게 보일지에 대한 예시가 있습니다:

java -jar duplicate-finder.jar -r=/Users/me.user/my-site -i=md -f=md,mdx -s=0.85 -d=5 -l=200

위 명령어는 다음을 수행합니다:

결과

설정과 프로젝트의 크기에 따라 분석이 완료되는 데 잠시 기다려야 할 수도 있습니다. 그 후 결과는 중복 뷰어에서 열리고 '-o' 명령줄 옵션으로 정의된 폴더에 저장됩니다. 옵션이 지정되지 않은 경우 출력은 작업 디렉토리에 쓰여집니다.

이것이 중복 뷰어에서 보는 내용입니다:

Duplicate finder UI Duplicate finder UI
  1. 도구 모음: 글꼴 크기 설정, 정렬 순서, 각 중복 그룹에 대해 단일 참조 청크(2)만 볼지 여부를 구성합니다.
  2. 참조 청크 목록: 비교를 위한 참조로 사용할 청크를 선택합니다.
  3. 중복 청크 목록: 참조 청크(2)를 선택한 후 이 목록은 유사한 청크를 표시합니다. 중복을 미리 보려면 목록에서 선택하십시오.
  4. 참조 청크 미리 보기: 참조 청크(2)를 선택한 후에는 내용 미리 보기가 가능합니다. 공통 부분은 녹색으로 표시되며, 다른 부분은 빨간색으로 표시됩니다. 더 많은 중복 청크(3)가 이 부분을 공유할수록 더 녹색이 나타납니다.
  5. 중복 청크 미리 보기: 중복 청크를 선택한 후 미리 보기가 여기에 나타납니다. 선택한 참조 청크(4)와의 빠른 비교에 사용할 수 있습니다.

자세히 알아보기 및 연락처

이 도구의 개발에 관심이 있다면 관련 블로그 시리즈를 확인하세요:

피드백이 있으면 이 페이지 하단의 연락처를 사용하여 연락하십시오. 귀하의 의견과 기능 요청을 듣고 싶습니다.

라이센스

코드는 MIT 라이센스하에 라이센스가 부여되며, 이는 귀하가 어떠한 목적에서도 이를 자유롭게 사용할 수 있음을 의미합니다. 포크 및 수정할 수 있습니다.

all posts ->