Le robots.txt pour le référencement naturel

Qu'est ce qu'un robots.txt ?

Le robots.txt est un fichier texte utilisant un format précis qui permet à un Webmaster de contrôler quelles zones de son site un robot d'indexation est autorisé à analyser. Ce fichier texte sera disponible à une URL bien précise pour un site donné, par exemple http://www.monsite.com/robots.txt

Pour bien comprendre à quoi sert un robots.txt, il faut comprendre la manière dont fonctionnent les robots d'indexation des moteurs de recherche (appelés aussi Web spiders, Web crawlers ou Bots) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu'ils analysent un site tel que www.monsite.com :

  • ils commencent par télécharger et analyser le fichier http://www.monsite.com/robots.txt.
  • ils analysent les règles de ce fichier pour savoir quelles URLs ils sont autorisés à télécharger
  • Si le robots.txt l'autorise, ils téléchargent la racine du site, c'est à dire l'URL http://www.monsite.com/
  • ils analysent le contenu de cette page et en extrait notamment la liste des liens internes qu'elle contient.
  • tous ces liens internes sont à leur tour téléchargés (si les règles du fichier robots.txt ne les filtrent pas), et leur liens internes extraits
  • récursivement tous ces liens sont téléchargés et analysés (s'ils sont nouveaux), jusqu'à ce que le robot n'en trouve plus de nouveau.

Il est important de bien comprendre que le robots.txt n'est en aucun cas une manière de sécuriser son site. Un robot 'bien élevé' tiendra compte de ce fichier pour ne pas télécharger les URLs non désirées par le webmaster. Mais un robot 'mal élevé' - par exemple un concurrent qui veut aspirer votre site, n'a aucune obligation technique d'en tenir compte. Evidemment, la totalité des robots des principaux moteurs de recherche (Google, Yahoo, Vista) sont bien élevés. Yakaferci également !

Ai je besoin d'un robots.txt pour mon site ?

Il n'est pas du tout obligatoire pour un site web d'avoir un robots.txt. S'il n'y en pas, toutes les URLs que le robot pourra trouver seront analysées.

Pour savoir si vous avez besoin d'un fichier robots.txt sur votre site, posez vous cette simple question: y-a-t-il des zones non sécurisées sur votre site que vous ne désirez pas voir dans des résultats de recherche tels que Google, Yahoo, Bing... si la réponse est oui, alors vous avez besoin d'un robots.txt. Sinon, ce n'est pas utile.

Comment générer un fichier robots.txt ?

Pour créer un fichier robots.txt, il vaut mieux utiliser un traitement de texte très simple tel que Blocnote, Textedit ou Notepad.

Un fichier robots.txt contient un ensemble de règles. Une règle est définie par 3 valeurs:

  • le User-Agent: à qui s'adresse les règles ? (tous les robots, seulement Google, seulement Bing...)
  • Allow / Disallow: est-ce une règle qui autorise ou au contraire qui filtre certaines URLs ?
  • l'expression régulière d'URL: à quelles URLs du site s'adresse la règle ?

Pour créer un fichier robots.txt, vous pouvez soit créer le fichier manuellement, soit utiliser un outil pour le générer automatiquement. Si vous avez besoin d'un robots.txt, Yakaferci vous conseille de le créer manuellement.

Sauf si vous avez un bon niveau technique, nous vous déconseillons de créer des robots.txt trop sophistiqués. Deux raisons à cela :

  • plus le robots.txt est compliqué, plus il y a risque d'erreur. Et une erreur peut avoir une conséquence catastrophique: vos pages publiques ne seraient plus référencées par Google !
  • si vous désirez utiliser des expressions régulières compliquées pour les URLs, sachez que seuls certains robots (Googlebot notamment) sait les interpréter correctement. Vous prenez donc un risque de mauvaise interprétation pour les autres.

Exemple de fichier robots.txt

Voici un exemple de fichier robots.txt:

# bloque l'indexation des images pour les robots
User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /images/
Allow: /

Cette exemple empêche les robots de télécharger toutes les images de votre site (tout le dossier images, tout ce qui se termine en .jpg, .pgn, .gif). Tout le reste est autorisé.

Google et le robots.txt

Il n'y a pas de spécifications officielles pour le format fichier robots.txt. Ce format est née de discussions entre informaticiens dans les années 1990 et n'a jamais été formalisé.

Dans les règles d'origines, les règles de Disallow / Allow se lisaient de haut de en bas. La première règle qui correspondait était prise en compte.

Cependant dans la pratique, de nombreux webmasters rédigeaient mal les robots.txt, par exemple de cette façon:

User-agent: *
Allow: /
Disallow: /images/

En théorie dans cet exemple, les URLs commençant par /image/ sont autorisées car la directive "Allow: /" est au-dessus de "Disallow: /images/". Cependant, on voit bien que l'intention du webmaster était d'interdire l'indexation de /images/

C'est pourquoi Google a adapté sa gestion du robots.txt pour prendre en priorité la règle correspondante la plus précise par rapport à l'URL. Donc par exemple, l'URL /images/logo.png est plus proche de /images/ que de /. Donc Google prendra en compte la règle "Disallow: /images/".

Le moteur d'analyse de Yakaferci prend en compte ces spécificités.

Analyseur de fichier robots.txt

Yakaferci fournit un outil pour détecter les URLs bloquées par un fichier robots.txt


Auditez votre site Web gratuitement :
ANALYSER


Pour lancer l'analyse Yakaferci, il vous suffit de saisir le lien vers votre page dans la zone ci-dessus et de cliquer sur le bouton Analyser. Vous pourrez alors accéder aux différentes pages du rapport, en particulier celle sur le robots.txt.

En savoir plus

Si cet article vous a donné envie de vous documenter davantage sur le sujet des Robots.txt, voici quelques liens utiles :