Les crawlers sont des robots d’exploration de contenus qui sont utilisés pour détecter les erreurs ou anomalies.
Un crawler, une araignée ou un robot de moteur de recherche télécharge et indexe le contenu sur Internet. Le but d’un tel bot est d’apprendre de quoi parle chaque page Web sur le Web, afin que les informations puissent être récupérées quand elles sont nécessaires. Ils sont appelés «robots d’exploration» car l’exploration est le terme technique pour accéder automatiquement à un site Web et obtenir des données via un logiciel.
Ces robots sont presque toujours exploités par des moteurs de recherche. En appliquant un algorithme de recherche aux données collectées par les robots d’exploration, les moteurs de recherche peuvent fournir des liens pertinents en réponse aux requêtes de recherche des utilisateurs, générant la liste des pages Web qui s’affichent après qu’un utilisateur a tapé une recherche dans Google ou un autre moteur de recherche.
Un robot d’exploration Web est comme quelqu’un qui parcourt tous les livres d’une bibliothèque désorganisée et crée un catalogue sur fiches afin que quiconque visite la bibliothèque puisse trouver rapidement et facilement les informations dont il a besoin. Pour aider à classer et trier les livres de la bibliothèque par sujet, l’organisateur lira le titre, le résumé et une partie du texte interne de chaque livre pour comprendre de quoi il s’agit. Cependant, contrairement à une bibliothèque, Internet n’est pas composé de piles physiques de livres, ce qui rend difficile de dire si toutes les informations nécessaires ont été correctement indexées ou si de grandes quantités sont négligées. Pour essayer de trouver toutes les informations pertinentes qu’Internet a à offrir, un robot d’exploration Web commencera avec un certain ensemble de pages Web connues, puis suivra les liens hypertexte de ces pages vers d’autres pages, suivra les liens hypertexte de ces autres pages vers des pages supplémentaires etc. On ne sait pas quelle partie de l’Internet accessible au public est réellement explorée par les robots des moteurs de recherche. Certaines sources estiment que seulement 40 à 70% de l’Internet est indexé pour la recherche – et cela représente des milliards de pages Web.