Le duplicate content (contenu dupliqué) est l’une des bêtes noires des référenceurs et des webmasters soucieux du bon positionnement de leur site dans les moteurs de recherche.

Pour ceux qui ne seraient pas familiers avec les techniques de référencement, un contenu dupliqué est une page web reproduite en plusieurs exemplaires identiques sur internet. Il peut y avoir plusieurs raisons, volontaires ou involontaires à la duplication de contenu, parmi elles : la même page dans plusieurs catégories d’un même site, les flux RSS qui dupliquent les pages, mais aussi des raisons malveillantes de copie non autorisée d’un site web. Ou encore, la plus simple, souvent oubliée par les webmasters débutants : le fait qu’un même site soit nativement accessible à deux adresses, avec ou sans le www avant le nom de domaine.

Le duplicate content est mauvais pour un site car il dilue la valeur des pages dans l’algorithme de Google (plusieurs pages présentant le même contenu ont chacune moins de poids qu’une seule), qui peut même pénaliser ces dernières en les désindexant car il ne peut identifier quelle est celle d’origine à laquelle il doit donner le meilleur positionnement.

Il existe plusieurs bonnes pratiques pour éviter le duplicate content, que je n’énumèrerai pas ici (une recherche sur Google devrait répondre à vos questions), mais une nouvelle possibilité vient s’ajouter à l’arsenal des référenceurs  : Google annonce sur son blog pour webmasters qu’il vient de valider une balise HTML « canonical » qui permet d’éviter le duplicate content en indiquant à ses robots quelle page est la page d’origine en cas de contenu dupliqué.

La balise est à insérer dans la section <head> du code HMTL des pages qui dupliquent un contenu, de la façon suivante :

<link rel= »canonical » href= »http://www.votresite.com/pagedorigine.html » />

Ainsi, les pages de duplication ne sont plus indexées et indiquent aux moteurs de recherche quelle est la page d’origine qu’il faut indexer et à laquelle il faut attribuer tout le poids, ainsi que le pagerank.

Chose rare, cette méthode, qui ne fonctionne qu’à l’intérieur d’un même domaine y compris dans les sous-domaines de celui-ci, est validée par Yahoo! et Microsoft, et la balise est donc prise en compte dans leurs moteurs de recherche.

Une bonne nouvelle n’arrivant jamais seule, un plugin pour WordPress est déjà disponible afin de simplifier l’implantation de cette balise.