Detecteur de Doublons pour Texte

Autres langues : English Español Deutsch 日本語 한국어 Português 中文

Cet article traite du développement de l'outil de recherche de doublons. Pour les téléchargements et les instructions d'utilisation, voir cette page

Quiconque a travaille sur de la documentation technique dans une grande equipe connait certainement le probleme de la duplication de contenu. Meme avec les meilleurs outils et pratiques a portee de main, la duplication est fondamentalement difficile a surmonter.

Au fur et a mesure que le projet grandit, du contenu duplique commencera a apparaitre. C’est particulierement vrai pour les grands projets incluant de nombreux produits ou fonctionnalites similaires.

Bien
Mal

definir une fois:

<p>
    If you encounter any issues, refer to the troubleshooting
    guide or contact support.
</p>

reutiliser ailleurs:

<TroubleshootingNote/>

<p>
    If you encounter any issues, refer to the troubleshooting
    guide or contact support.
</p>

<!-- same meaning, slightly different wording-->
<p>
    In case of problems, consult the troubleshooting guide
    or contact support
</p>

L’idee qui preconise contre la duplication est communement connue sous le nom de Principe DRY. Bien qu’il soit principalement associe a la programmation, la meme propriete est tres appreciee dans la documentation.

Presentation du projet

Les outils d’edition modernes ont generalement des fonctionnalites de reutilisation de contenu, ce qui rend les contraintes techniques moins preoccupantes. Le vrai probleme, en revanche, reside dans la detection des doublons. Avant d’extraire quelque chose vers un fragment reutilisable, vous devez savoir quoi extraire.

Si vous etes programmeur, votre IDE peut mettre en evidence le code duplique pour vous :

IntelliJ IDEA met en évidence le code dupliqué

Malheureusement, la meme fonctionnalite n’est pas adaptee a la documentation, car elle repose sur la comparaison d’arbres syntaxiques abstraits (AST). Cette approche ne fonctionne pas bien avec le texte.

L’un de mes projets en cours est d’implementer un detecteur de doublons pour la documentation. L’outil sera capable de trouver rapidement des correspondances non exactes, ou floues, telles que l’exemple mauvais ci-dessus.

Statut actuel

Au moment ou j’ecris ces lignes, le projet est en cours de developpement, mais il existe deja un prototype fonctionnel :

L'interface utilisateur du prototype de l'outil de recherche de doublons montrant plusieurs doublons détectés dans un projet fictif

L’algorithme prend moins de 30 secondes pour analyser un projet avec ~6000 fichiers sources sur mon MBP M1, et je prevois de l’ameliorer pour mettre instantanement en evidence les doublons pendant que vous tapez dans l’editeur.

Le prototype a deja aide moi et mes collegues a trouver beaucoup de doublons dans des projets reels, donc je suis assez enthousiaste quant aux resultats et aux ameliorations futures.

Et ensuite

Dans les prochains articles, je detaillerai l’algorithme etape par etape et effectuerai des benchmarks pour evaluer ses performances. Si vous aimez la programmation, vous etes invite a coder en parallele.

Alternativement, vous pouvez suivre les progres et utiliser le livrable final lorsque le projet sera termine. Une fois termine, cette fonctionnalite sera disponible dans Writerside, un excellent outil d’edition cree par mes collegues.

J’espere que la description du projet vous parle, et que vous trouverez le tutoriel utile.

A bientot dans les prochains articles !

all posts ->