FTI — Indexation en texte intégral (Full-Text Indexing)
Définition simple : FTI désigne la technique informatique qui crée un index des mots contenus dans des documents (textes, e‑mails, pages web, fiches produits, etc.) pour permettre de retrouver rapidement et précisément ces documents via une recherche par mot ou phrase.
Comment ça marche, en bref :
– On analyse le contenu (tokenisation) pour extraire les mots ou expressions.
– On normalise (minuscules, suppression des mots vides, éventuellement racinisation/stemming).
– On construit un index inversé qui associe chaque terme aux documents où il apparaît.
– Lors d’une requête, le moteur consulte l’index au lieu de relire tous les documents, ce qui accélère énormément les recherches et permet de classer les résultats par pertinence.
Où on le trouve : moteurs de recherche internes (site web, intranet), bases de données qui supportent la recherche textuelle, systèmes de gestion documentaire, outils d’e‑discovery, moteurs de recherche comme Elasticsearch ou Solr.
Avantages et limites :
– Avantages : recherche très rapide, pertinence améliorée (tris/pondérations), support de recherches avancées (phrases exactes, opérateurs booléens, fuzzy).
– Limites : taille et coût de maintien de l’index, complexité pour gérer plusieurs langues et formats, nécessité de mettre à jour l’index après modifications des documents.
Analogie : c’est comme l’index d’un livre qui liste les mots et les pages où ils apparaissent — sauf qu’en FTI l’index est automatique, consulté en millisecondes, et couvre des millions de documents.