중복 찾기
다른 언어: English Español Português Русский 中文
중복 찾기는 하나 이상의 파일에서 유사한 텍스트를 감지하기 위한 오픈 소스 애플리케이션입니다. 100% 중복과 유사하지만 동일하지 않은 콘텐츠를 찾는 데 사용할 수 있습니다. 이 도구는 일반 텍스트, Markdown, XML을 포함한 여러 형식과 호환됩니다.
중복 찾기 도구는 다음을 도와줍니다:
- 표절 감지
- 콘텐츠 관리
- SEO 최적화
- 데이터 중복 제거
중복 콘텐츠 예
도구가 감지하는 것에 대한 아이디어를 얻을 수 있는 빠른 예입니다:
사용 방법
- 앱을 다운로드하세요. 또는 직접 빌드할 수 있습니다 소스.
- 컴퓨터에 Java 16 이상이 설치되어 있는지 확인하세요
- 터미널에서 다운로드한 .jar 파일이 있는 폴더를 엽니다
-
실행
java -jar duplicate-finder.jar
다음 매개변수와 함께:매개변수 의미 예 -r
/--root
필수중복 콘텐츠를 검색하려는 폴더의 상대 경로 또는 절대 경로 -r=./my-project/
-o
/--output
분석 결과를 저장하고자 하는 폴더의 상대 또는 절대 경로입니다. 디렉토리를 지정하지 않으면 중복 검출기가 현재 작업 디렉토리를 사용합니다. -r=./my-project/duplicates/
-f
/--fileMask
분석할 파일 확장자를 쉼표로 구분한 목록입니다. 기본적으로 모든 파일이 분석됩니다. -f=md,mdx
-i
/--indexer
텍스트 조각으로 간주할 항목. 다음 옵션을 사용할 수 있습니다:
- md – 마크다운 요소
- line – 한 줄의 텍스트
- xml – XML 요소
- file – 전체 파일의 내용
- auto – 파일 마스크에서 유추하려고 시도
-i=md
-l
/--minLength
분석할 텍스트 조각의 최소 길이(문자 수). 기본값: 100 (100자보다 짧은 텍스트 조각은 무시됨) -l=150
-s
/--minSimilarity
두 텍스트 조각이 중복으로 간주될 최소 유사도. 기본값: 0.9 (90%) -s=0.85
-d
/--minDuplicates
중복 그룹이 보고될 최소 중복 수입니다. 기본값: 1 (중복이 하나라도 있으면 됨) -d=5
-h
/--headless
중복 보기기를 열지 않고 결과를 파일에만 작성 -h
-v
/--verbose
진행 상황과 오류를 콘솔에 기록할지 여부입니다. 분석이 너무 오래 걸리고 문제가 의심되는 경우 이 옵션을 사용하십시오. 기본값: 로그 없음 -v
-m
/--memory
저메모리 모드 - 분석 속도의 대가로 중복 찾기 도구의 메모리 사용량을 최소화합니다. -m
-g
/--gram
고급 ngram 길이 – 속도, 메모리 사용량 및 분석 정확도에 영향을 줍니다. 차이는 콘텐츠의 특정 사항에 따라 다릅니다. -g=10
명령어 예제
여기 당신의 명령어가 어떻게 보일지에 대한 예시가 있습니다:
java -jar duplicate-finder.jar -r=/Users/me.user/my-site -i=md -f=md,mdx -s=0.85 -d=5 -l=200
위 명령어는 다음을 수행합니다:
-
-r=/Users/me.user/my-site
– '/Users/me.user/my-site' 및 하위 디렉토리에서 유사한 콘텐츠 검색 -
-i=md
– 콘텐츠가 Markdown으로 작성되었다고 가정하고 Markdown 규칙에 따라 파싱 -
-f=md,mdx
– '.md' 및 '.mdx' 확장자를 가진 파일만 고려 -
-s=0.85
– 유사도가 85% 이상인 항목만 보고 -
-d=5
– 5회 이상 중복된 텍스트만 보고 -
-l=200
– 200자 이상인 텍스트만 보고
결과
설정과 프로젝트의 크기에 따라 분석이 완료되는 데 잠시 기다려야 할 수도 있습니다. 그 후 결과는 중복 뷰어에서 열리고 '-o' 명령줄 옵션으로 정의된 폴더에 저장됩니다. 옵션이 지정되지 않은 경우 출력은 작업 디렉토리에 쓰여집니다.
이것이 중복 뷰어에서 보는 내용입니다:
- 도구 모음: 글꼴 크기 설정, 정렬 순서, 각 중복 그룹에 대해 단일 참조 청크(2)만 볼지 여부를 구성합니다.
- 참조 청크 목록: 비교를 위한 참조로 사용할 청크를 선택합니다.
- 중복 청크 목록: 참조 청크(2)를 선택한 후 이 목록은 유사한 청크를 표시합니다. 중복을 미리 보려면 목록에서 선택하십시오.
- 참조 청크 미리 보기: 참조 청크(2)를 선택한 후에는 내용 미리 보기가 가능합니다. 공통 부분은 녹색으로 표시되며, 다른 부분은 빨간색으로 표시됩니다. 더 많은 중복 청크(3)가 이 부분을 공유할수록 더 녹색이 나타납니다.
- 중복 청크 미리 보기: 중복 청크를 선택한 후 미리 보기가 여기에 나타납니다. 선택한 참조 청크(4)와의 빠른 비교에 사용할 수 있습니다.
자세히 알아보기 및 연락처
이 도구의 개발에 관심이 있다면 관련 블로그 시리즈를 확인하세요:
피드백이 있으면 이 페이지 하단의 연락처를 사용하여 연락하십시오. 귀하의 의견과 기능 요청을 듣고 싶습니다.
라이센스
코드는 MIT 라이센스하에 라이센스가 부여되며, 이는 귀하가 어떠한 목적에서도 이를 자유롭게 사용할 수 있음을 의미합니다. 포크 및 수정할 수 있습니다.