Le fichier robots.txt est un fichier texte dans le répertoire racine du site Web qui contient un ensemble de directives qui gèrent l’accès des robots de recherche au contenu du site Web. Le texte comprend au moins deux lignes (il peut avoir plusieurs groupes) – leur nombre dépend uniquement de la nécessité d’autoriser ou d’interdire l’indexation des pages. Une ligne comprend une directive. Il décrit généralement un certain répertoire, sous-répertoire ou page.
Mais ne soyez pas trop confus avec le fichier robots.txt et ne placez pas tous vos espoirs dessus. Ce n’est pas une baguette magique qui repousse tous les méchants. En juillet 2019, Google a officiellement annoncé que les directives dans robots.txt sont considérées comme de légers » indices » pour l’indexation, et non comme des règles strictes, ce qui signifie que même les interdictions dans robots.txt n’empêcheront pas les robots de recherche d’indexer les pages.
Pourquoi avez-vous besoin de Robots.txt?
S’il n’y a pas de fichier robots.txt, toutes les pages seront indexées de manière aléatoire, ce qui n’est pas la meilleure chose que vous puissiez faire pour l’optimisation d’un site Web. En tant que webmaster, vous savez quelles pages de votre site Web doivent être indexées, qui sont censées être privées et qui traversent leur période de création. Vous pouvez également choisir de masquer des pages telles que la connexion ou le paiement, qui méritent d’exister, mais pas pour les visiteurs arbitraires.
Vous pouvez gérer le budget du crawl que les moteurs de recherche paient pour votre site Web, le maximisant ainsi pour les pages à indexer.
Vous pouvez utiliser le fichier robots.txt comme une opportunité supplémentaire pour indiquer le miroir principal du site (votre réplique de site Web) et montrer le chemin vers le plan du site qui s’applique à votre domaine.