L’index est un système permettant aux moteurs de recherche de conserver/copier des pages, dans le but de conserver une vision globale du web à un instant T.
Un index est un autre nom de la base de données utilisé par un moteur de recherche. Les index contiennent les informations sur tous les sites Web que Google (ou tout autre moteur de recherche) a pu trouver. Si un site Web ne figure pas dans l’index d’un moteur de recherche, les utilisateurs ne pourront pas le trouver. Ce sont les données sources de l’index de Google qui déterminent en fin de compte la valeur des différents termes de recherche et mots clés. Les moteurs de recherche appliquent leurs algorithmes aux données disponibles et mesurent la fréquence de différents facteurs dans différentes conditions, quels facteurs sont liés les uns aux autres, etc. L’index comprend non seulement les URL, mais tout le contenu, y compris les textes, images, vidéos et, en principe, tout ce qui se trouve dans le code HTML de l’URL. Les informations recueillies grâce à cette analyse sont renvoyées dans l’algorithme de Google pour fournir une nouvelle évaluation des données d’index, qui tente de comprendre quel contenu correspond le mieux à l’intention de l’utilisateur. Les résultats de recherche Google, ou classements, sont ensuite calculés sur la base de cette évaluation de contenu.
Par définition, si un site Web ne figure pas dans l’index, il ne peut pas être affiché dans les résultats de recherche et il perdra toute sa valeur. Comprendre comment Google, etc. explore le Web et rendre un domaine techniquement accessible est essentiel, ce qui signifie que le robot d’exploration peut afficher toutes les pages – et tout le contenu de ces pages – sans difficulté et que toutes les URL d’un domaine peuvent être incluses dans l’index correspondant.