Le robots.txt est un fichier texte utilisant un format précis qui permet à un Webmaster de contrôler quelles zones de son site un robot d'indexation est autorisé à analyser. Ce fichier texte sera disponible à une URL bien précise pour un site donné, par exemple http://www.monsite.com/robots.txt
Pour bien comprendre à quoi sert un robots.txt, il faut comprendre la manière dont fonctionnent les robots d'indexation des moteurs de recherche (appelés aussi Web spiders, Web crawlers ou Bots) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu'ils analysent un site tel que www.monsite.com :
Il est important de bien comprendre que le robots.txt n'est en aucun cas une manière de sécuriser son site. Un robot 'bien élevé' tiendra compte de ce fichier pour ne pas télécharger les URLs non désirées par le webmaster. Mais un robot 'mal élevé' - par exemple un concurrent qui veut aspirer votre site, n'a aucune obligation technique d'en tenir compte. Evidemment, la totalité des robots des principaux moteurs de recherche (Google, Yahoo, Vista) sont bien élevés.
Il n'est pas du tout obligatoire pour un site web d'avoir un robots.txt. S'il n'y en pas, toutes les URLs que le robot pourra trouver seront analysées.
Pour savoir si vous avez besoin d'un fichier robots.txt sur votre site, posez vous cette simple question: y-a-t-il des zones non sécurisées sur votre site que vous ne désirez pas voir dans des résultats de recherche tels que Google, Yahoo, Bing... si la réponse est oui, alors vous avez besoin d'un robots.txt. Sinon, ce n'est pas utile.
Un fichier robots.txt contient un ensemble de règles. Une règle est définie par 3 valeurs:
Pour créer un fichier robots.txt, vous pouvez soit créer le fichier manuellement, soit utiliser un outil pour le générer automatiquement. Yakaferci vous conseille une approche mixte: générer un robots.txt automatiquement, puis le relire attentivement et éventuellement l'affiner manuellement.
Un bon outil de génération automatique de robots.txt est fourni par Google sur son site des Webmaster tools
Même si vous avez un bon niveau technique, nous vous déconseillons de créer des robots.txt trop sophistiqués. Deux raisons à cela :
Si cet article vous a donné envie de vous documenter davantage sur le sujet des Robots.txt, voici quelques liens utiles :