L’index inversé permet à un moteur de recherche de répertorier des mots ou expressions de l’index afin de savoir dans quel page web ils/elles se trouvent.
Qu’est-ce qu’un index inversé?
Un index inversé est un système dans lequel une base de données d’éléments de texte est compilée avec des pointeurs vers les documents qui contiennent ces éléments. Ensuite, les moteurs de recherche utilisent un processus appelé “tokenisation” pour réduire les mots à leur signification fondamentale, réduisant ainsi la quantité de ressources nécessaires pour stocker et récupérer des données. Il s’agit d’une approche beaucoup plus rapide que de répertorier tous les documents connus par rapport à tous les mots-clés et caractères pertinents.
Prenons l’exemple de deux sites web inclus dans l’index « classique »:
- Le document A contient le texte: «le soleil brille en Chine».
- Le document B contient le texte: «On mange du riz en Chine».
L’index inversé, à son tour, compte les mots sur ces pages et leurs occurrences (combien de fois ils apparaissent):
- « soleil » apparaît une fois dans A.
- « manger » apparaît une fois dans B.
- « riz » apparaît une fois dans B.
- « Chine » apparaît deux fois, une fois dans A et une fois dans B.
En fonction des requêtes saisies par l’internaute, le moteur peut alors identifier rapidement les URL des pages liées à la question demandée et attribuer une note de validité à chaque document répertorié. Ce travail sera effectué pour tous les termes inclus sur les sites index classiques.