Robots.txt
                          Analyser votre site Web gratuitement : (?)

Articles

Le robots.txt pour le référencement naturel

Qu'est ce qu'un robots.txt ?

Le robots.txt est un fichier texte utilisant un format précis qui permet à un Webmaster de contrôler quelles zones de son site un robot de moteur de recherche va analyser. Ce fichier texte sera disponible à une URL bien précise pour un site donné, par exemple http://www.monsite.com/robots.txt

Pour bien comprendre à quoi sert un robots.txt, il faut comprendre la manière dont fonctionnent les robots d'analyse des moteurs de recherche (appelés aussi spiders ou crawlers) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu'ils analysent un site tel que www.monsite.com :

  • ils commencent par télécharger et analyser le fichier http://www.monsite.com/robots.txt.
  • ils analysent les règles de ce fichier pour savoir quelles URLs ils sont autorisés à téléchargér
  • Si le robots.txt l'autorise, ils téléchargent la racine du site, c'est à dire l'URL http://www.monsite.com/
  • ils analysent le contenu de cette page et en extraie notamment la liste des liens internes qu'elle contient.
  • tous ces liens internes sont à leur tour téléchargés (si les règles du fichier robots.txt ne les filtre pas), et leur liens internes extraits
  • récursivement tous ces liens sont téléchargés et analysés (s'ils sont nouveaux), jusqu'à ce que le robot n'en trouve plus de nouveaux.

Il est important de bien comprendre que le robots.txt n'est en aucun cas une manière de sécuriser son site. Un robot 'bien élevé' tiendra compte de ce fichier pour ne pas télécharger les URLs non désirées par le webmaster. Mais un robot 'mal élevé' - par exemple un concurrent qui veut aspirer votre site, n'a aucune obligation technique d'en tenir compte. Evidemment, la totalité des robots des principaux moteurs de recherche (Google, Yahoo, Vista) sont bien élevés.

Ai je besoin d'un robots.txt pour mon site ?

Il n'est pas du tout obligatoire pour un site web d'avoir un robots.txt. S'il n'y en pas, toutes les URLs que le robot pourra trouver seront analysées.

Pour savoir si vous avez besoin d'un fichier robots.txt sur votre site, posez vous cette simple question: y-a-t-il des zones non sécurisées sur votre site que vous ne désirez voir dans des résultats de recherche tels que Google, Yahoo, Bing... si la réponse est oui, alors vous avez besoin d'un robots.txt. Sinon, ce n'est pas utile.

Comment générer un fichier robots.txt ?

Un fichier robots.txt contient un ensemble de règles. Un règle est principalement définie par 3 valeurs:

  • Allow / Disallow: est-ce qui règle qui autorise ou au contraire qui filtres certaines URLs ?
  • le User-Agent: à qui s'adresse la régle ? (tous les robots, seulement google, seulement bing...)
  • l'expression régulière d'URL: à quelles URLs du site s'adresse la règle ?

Pour créer un fichier robots.txt, vous pouvez soit créer le fichier manuellement, soit utiliser un outil pour le générer automatiquement.

Généralement, si vous ressentez le besoin d'avoir un fichier robots.txt, c'est que votre site est au moins un peu sophistiquée. Si c'est le cas, techniquement vous aurez sans doute le niveau pour écrire vous-même ce fichier à partir d'exemples simples. Et vous aurez plus de flexibilité qu'avec un outil automatique.

Même si vous avez un bon niveau technique, nous vous déconseillons de créer des robots.txt trop sophistiquées. Deux raisons à cela :

  • plus le robots.txt est compliqué, plus il y a risque d'erreur. Et un erreur peut avoir une conséquence catastrophique: vos pages publiques ne seraient plus référencées par Google !
  • si vous désirez utilisez des expression régulières compliquées pour les URLs, sachez que seuls certains robots (Google notamment) sait les interpréter correctement. Vous prenez donc un risque de mauvaise interprétation pour les autres.

En savoir plus

Si cet article vous a donné envie de vous documenter davantage sur le sujet des Robots.txt, voici quelques liens utiles :