Lutter et se protéger contre le duplicate content

Définition du duplicate content

On parle de duplicate content (contenu dupliqué en français) lorsque l'on retrouve le même texte sur deux ou plusieurs pages, que ça soit sur le même site ou deux sites Web différents.

Dans le cas où on retrouve un même texte sur plusieurs sites différents, il s'agit souvent de plagiat, c'est à dire de vol de contenu.

Duplicate content et SEO

Le plagiat est évidemment sanctionné juridiquement lorsque l'on peut apporter la preuve de propriété.

Sachez également que par souci de qualité des résultats naturels de recherche (SEO), les moteurs de recherche tentent de repérer les sites hébergeant des contenus dupliqués pour les sanctionner très lourdement.

Les sites Web faisant du contenu dupliqué risquent :

  • La rétrogradation dans les résultats naturels des moteurs (SEO). En d’autres termes le site copieur se voit reculer dans les résultats de recherche.
  • La disparition complète du site dans les recherches naturelles (SEO). En d’autres termes le site n’est plus référencé par les moteurs de recherche.

Voici quelques cas de contenus dupliqués sur le même site :

  • Un même contenu (texte, images, liens...) proposé par deux URLs différentes d’un même site Web. On rencontre ce cas de duplicate content par exemple lorsque dans un CMS (Content management system) deux pages identiques sont crées avec une URL pour chacune. Ce cas de duplicate content se rencontre suite à une erreur humaine ou une erreur technique. Ce n’est évidemment pas le cas de contenu dupliqué le plus grave d’un point de vue SEO – sauf si vous avez un très grand nombre de pages dupliquées de cette manière.
  • Vous avez récemment restructuré votre site et avez par exemple changé son arborescence et donc les URLs. Faites attention à ce que les anciennes URLs et les nouvelles URLs ne cohabitent pas ensemble et ne créent pas de cas de contenus dupliqués.

Voici quelques cas de contenus dupliqués sur des sites différents :

  • La description d'un même article dans des sites e-commerce différents qui serait identique ou trop proche.
  • Beaucoup plus répandu comme cas de contenus dupliqués, la reprise d’extraits de texte déjà utilisés sur d’autres pages ou d’autres sites web. On rencontre ce cas de duplicate content lorsque des sites traitant un même sujet utilisent le même fournisseur de contenu. Ce cas pourrait poser des problèmes d’un point de vue SEO en vous empêchant de vous positionner haut dans les résultats de recherche car votre contenu n'est pas considéré comme original.
  • Des flux RSS sont récupérés au format XML et sont exposés sur des sites à travers le web.
  • Il existe évidemment du duplicate content volontaire dans ce cas on parle clairement de copie et donc de plagiat de contenu. Les moteurs de recherchent tentent en priorité de repérer ce cas de figure. Naturellement les sites se trouvant dans ce cas de contenu dupliqué sont ceux qui verront leur SEO pénalisé le plus sévèrement.

Notez que cette liste n’est pas exhaustive, elle regroupe les cas de duplicate content les plus répandus sur le web.

Comment éviter les contenus dupliqués ?

Vérifier systématiquement les pages de votre site

Ceci afin de surveiller des cas de duplication de contenu involontaire causée par votre CMS.

En cas de restructuration de site, utiliser des redirections 301 "Redirect Permanent"

Ceci pour rediriger efficacement les internautes et les moteurs de recherche vers les nouvelles urls et ainsi éliminer tout problème de contenu dupliqué.

Vérifier régulièrement Google Webmaster Tools

Il vous indiquera les cas de contenus dupliqué détecté sur votre site web.

Utiliser des URLs canoniques

Il y a des cas légitimes ou plusieurs URLs contiennent le même contenu. Par exemple imaginez une liste de produit dans un site e-commerce classé par pris croissant. Puis imaginez la même liste classée par prix décroissant. C'est le même contenu mais il y aura peut-être techniquement 2 URLs différentes. Dans ce cas précis, le développeur a la possibilité d'indiquer à Google quelle URL lui semble être la référence par rapport aux autres.

Cela permet très simplement de se prémunir contre le duplicate content au sein d’un même site. En effet, les urls canoniques permettent de préciser quelles sont les pages mères entre plusieurs doublons ou plusieurs pages très proches en terme de contenu. Ainsi vous proposez tout votre contenu à vos visiteurs sans pour autant risquer de pénaliser votre SEO. La balise aidant à préciser une url canonique est :

<link rel="canonical" href="url"/>

Il suffit de la placer dans l’entête html de votre page, entre <head/> et </head/>

Consultez l'article dédié aux URL canoniques pour plus d'informations sur ce sujet.

Pour les sites crées avec des technologies clés en main, des options existent pour indiquer les urls canoniques et donc se prémunir contre le duplicate content.

Vérifier si d’autres sites ont dupliqué votre contenu

Vous pouvez faire des vérifications manuelles : pour cela prenez des bouts de textes au hasard et lancez des recherches dans Google. Si un autre site a reprit l’extrait de texte, Google vous le remontera dans les résultats de recherche.

Prendre des précautions avant d'acheter du contenu à un tiers

Si vous achetez du contenu chez un fournisseur, assurez-vous par contrat qu’il s’agit de contenu original et exclusif autrement vous vous retrouverez avec des contenus dupliqués. Si ce n’est pas le cas, n’achetez pas et produisez vous même vos contenus.

Si vous devez obligatoirement acheter du contenu déjà vendu à d’autres sites, pour éviter le duplicate content, retravaillez-les afin de les rendre différents de ceux de vos concurrents. Les modifications que vous apportez devraient réellement différencier votre contenu de celui des concurrents. Si vous ne changez que quelques mots, il s’agira alors de contenu « réchauffé » ce qui est considéré comme étant du duplicate content et donc pénalisera votre SEO.

Comment défendre vos droits d’auteur ?

Voici les possibilités que Google offre pour lui notifier une atteinte à vos droits d’auteur ou pour notifier une contestation suite à des pénalités SEO causées par un cas de duplicate content.

Demander le ré-examen de votre site

Si votre site ne s’affiche plus dans les résultats de recherche ou s’il voit son SEO se dégrader, Google a peut-être considéré que vous proposiez du contenu dupliqué. Dans ce cas vous avez la possibilité de demander à Google de réexaminer votre site pour tenter de revenir dans les résultats de recherche.

Pour cela rendez-vous dans Google Webmaster Tool.

Notifier une contestation

Suite à une notification de droit d’auteur, vous avez vu votre site disparaitre des résultats de recherche ? Vous pouvez contester cette décision en vous rendant sur le lien suivant : http://support.google.com/legal

Notifier une atteinte à vos droits d’auteur

Vous avez la possibilité de déposer auprès de Google une réclamation pour atteinte à vos droits d’auteur.

Attention cependant à ne pas prendre à la légère cette démarche. En effet, si vous faites une fausse déclaration vous devrez alors payer d’éventuels dommages et intérêts au site notifié.

Pour cela aller sur http://support.google.com/legal et suivez les instructions.