Générer un sitemap pour le référencement naturel

Qu'est-ce qu'un sitemap ?

Un sitemap est un fichier qui contient une liste enrichie d'URLs internes à un site web. Ce fichier est au format XML. Il permet de fournir aux principaux moteurs de recherche des informations sur les URLs d'un site web qu'ils ne pourraient pas découvrir par eux-mêmes.

Pour bien comprendre à quoi sert un sitemap, il faut comprendre la manière dont fonctionnent les robots d'indexation des moteurs de recherche (appelés aussi Web spiders ou crawlers ou Bots) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu'ils analysent un site tel que www.monsite.com :

  • ils commencent par télécharger et analyser le fichier http://www.monsite.com/robots.txt (s'il existe). Voir l'article consacré spécifiquement aux Robots.txt pour plus d'information.
  • puis ils téléchargent la racine du site, c'est à dire l'URL http://www.monsite.com/
  • ils analysent le contenu de cette page et en extrait notamment la liste des liens internes qu'elle contient.
  • tous ces liens internes sont à leur tour téléchargés, et leur liens internes extraits
  • récursivement tous ces liens sont téléchargés et analysés (s'ils sont nouveaux), jusqu'à ce que le robot n'en trouve plus de nouveau.

On peut alors tirer le constat suivant: si une URL d'un site web n'est pas accessible par sa racine ou récursivement dans ses descendants, alors un robot ne peut pas la trouver magiquement. C'est pour cette raison que les sitemaps ont été crée à l'origine : pour que le Webmaster d'un site puisse indiquer aux robots des URLs qu'ils ne pourraient pas trouver seuls.

3 types d'entrées dans une sitemap : les liens, les vidéos et les images

Un sitemap peut contenir des URLs "classiques" (HTML, PDFs...), des URLs d'images et même des URLs de vidéos.

Les URLs internes dans un sitemap

En plus de permettre l’indexation des liens dificiles d’accès, le fichier sitemap permet d'enrichir la liste d'URL avec des méta-données telles que:

  • la date de dernière modification de la ressource correspondant à une URL
  • la fréquence estimée de modification de cette ressource
  • l'importance relative de cette URL dans le site web

Les moteurs de recherche utilisent les informations contenus dans les sitemap pour optimiser le référencement de votre site Web. Mais comme toujours, ils restent vagues sur comment ils utilisent exactement les sitemaps et les informations qu’ils contiennent. Ils déconseillent en tous cas de 'tricher' sur ces valeurs (par exemple en déclarant artificiellement dans le sitemap une fréquence de rafraichissement qui n'est pas respectée).

Les vidéos dans un sitemap

Générer et soumettre un sitemap pour les vidéos permet de contrôler les informations à transmettre aux moteurs de recherche et surtout de vous assurer que la totalisé des vidéos proposées sur votre site sont indéxables par les moteurs de recherche.

Voici les informations que les entrées de sitemap pour vidéos devraient contenir :

Balise Importance Description
<video:title> Obligatoire Le titre de la vidéo
<video:description> Obligatoire Une description de la vidéo
<video:player_loc> Obligatoire L’URL de la page de la vidéo
<video:thumbnail_loc> Obligatoire L’URL de la vignette

Afin que le sitemap pour vidéos contribue pleinement au référencement naturel de vos vidéos, évitez :

  • De dépasser 50 000 lignes par sitemap. Si la limite est atteinte alors il faut impérativement générer plusieurs fichiers sitemap
  • De bloquer les vidéos dans le robots.txt
  • De répartir les fichiers vidéos dans plusieurs répertoires différents

Un sitemap pour les images

Soumettre un sitemap d’images permet d’augmenter la probabilité que vos images soient indéxées et donc remontent dans les résultats de recherche par image. Le sitemap pour les images vous permet :

  • de fournir des informations supplémentaires sur vos images
  • l’indexation de la totalité de vos images
  • d’identifier les images les plus importantes que vous souhaitez indexer
  • d’indexer les images qui ne seraient accessibles que par le biais de formulaires dynamiques

Voici les informations que les entrées images d'un sitemap doit indiquer pour chacune des images à indexer :

Balise Importance Description
<image:image> Obligatoire Balise introduisant toutes les informations relatives à une seule image.
<image:loc> Obligatoire Cette balise indique l’url de l’image.
<image:capitation> Facultatif Description de l’image
<image:title> Facultatif Titre de l’image
<image:license> Facultatif url renvoyant à la licence de l’image
<image:geo_location> Facultatif Vous pouvez indiquer ici la situation géographique de l’image

Afin que le sitemap pour les images contribue pleinement au référencement naturel de vos images évitez de :

  • De dépasser 50 000 lignes par sitemap. Si la limite est atteinte alors ne pas hésiter à envoyer plusieurs sitemap pour les images.
  • De bloquer les images dans le robot.txt
  • De répartir les fichiers images dans plusieurs répertoires différents

Les sitemaps ont aussi une deuxième utilité, et cette fois cela concerne toutes les URLs internes d'un site, pas seulement celles qui sont difficiles d'accès : le fichier sitemap permet d'enrichir la liste d'URL avec des méta-données sur ces URLs telles que:

  • la date de dernière modification de la ressource correspondant à une URL
  • la fréquence estimée de modification de cette ressource
  • l'importance relative de cette URL dans le site web

Les moteurs de recherche utilisent ces informations pour optimiser le référencement de votre site Web. Mais comme toujours, ils restent vagues sur comment ils utilisent exactement ces informations. Ils déconseillent en tous cas de 'tricher' sur ces valeurs (par exemple en déclarant artificiellement une fréquence de rafraichissement qui n'est pas respectée).

Faut-il un sitemap pour mon site Web ?

Bien sur la question est maintenant de savoir si vous avez besoin d'un sitemap pour votre site. Cela vous a peut-être été vivement conseillé par votre conseiller SEO. En fait, pour la plupart des sites Web 'simples', un sitemap n'est pas nécessaire du tout. Nous vous déconseillons de dépenser de l'énergie pour créer un bon sitemap dans les cas suivants :

  • si tous les liens de votre site sont accessibles par la racine ou tous ses descendants (récursivement). C'est en fait le cas de la plupartdes sites !
  • si vous avez relativement peu de ressources techniques pour votre site web. Un bon sitemap doit être bien fait, respecter la norme XML et les spécifications du sitemap, et avoir des valeurs de méta-données précises. Sinon il ne sert à rien. Des outils existent pour le générer automatiquement mais souvent il faut l'optimiser "à la main" ou par programmation (notamment pour bien choisir les valeurs de méta-données).
  • si votre site n'a pas de contenu intéressant d'un point de vue SEO qui est rafraichi très régulièrement.

Dans les autres cas, en pratique pour des sites assez sophistiqués, un sitemap peut être utile à l'optimisation du référencement de votre site web

Comment générer un sitemap ?

Il y a 3 façons de générer un fichier sitemap :

  • manuellement, en créant un fichier XML. Cette méthode est généralement à déconseiller, sauf si vous savez vraiment ce que vous faites ! Au minimum il est conseillé d'utiliser un éditeur XML pour créer ce fichier.
  • en faisant un développement informatique spécifique à votre site : cette méthode sera la plus puissante et s'adaptera à toutes les problématiques de vos sites. Mais c'est aussi la plus couteuse en ressource. Attention aux nombre maximum d'URLs dans un fichier sitemap, il faut parfois pouvoir segmenter en plusieurs fichiers.
  • en utilisant un outil de génération automatique. Cette méthode est tentante: très peu de travail pour un résultat professionnel ! Attention cependant à choisir un bon outil de génération. Par exemple Yakarferci !


    Générer gratuitement un sitemap pour votre site :
    ANALYSER


Comment informer Google de votre sitemap ?

Contrairement au fichier Robots.txt, il ne suffit pas de mettre un sitemap sur votre site pour qu'un robot le trouve. En effet il n'y a pas de convention de nommage précise sur ce fichier (il peut y en avoir plusieurs, le fichier peut être zippé etc...). Vous devez par conséquent le déclarer explicitement aux moteurs de recherche auxquels vous vous intéressez particulièrement. Dans le cas de Google par exemple, il faut faire cette déclaration grâce aux Webmaster tools.

En savoir plus

Si cet article vous a donné envie de vous documenter davantage sur le sujet des Robots.txt, voici quelques liens utiles :