Suite à ma note de service de samedi relative à la modification du serveur de Presse-citron en vue d’essayer de dissuader (un peu) les copieurs de dupliquer intégralement mon contenu, je constate que tout le monde ne connait pas forcément le sujet et ses implications, ce qui peut conduire à certaines confusions.

Il me paraît par conséquent intéressant d’essayer d’expliquer de quoi il retourne exactement. Vous allez voir, ce n’est pas très compliqué, donc je devrais y arriver :-)

tabbeevol Duplication de contenu et reproduction illicite de contenu : quelques explications

La duplication de contenu, qu’est-ce que c’est exactement ?

La duplication de contenu, en langage web, est la copie pure et simple d’un contenu et sa reproduction intégrale sur un autre site que celui d’origine. Que la source soit citée ou non ne change rien à l’affaire : la duplication c’est du vol, même s’il s’agit d’un contenu gratuit, et je dirais même surtout s’il s’agit d’un contenu gratuit. Car celui-ci relève de la propriété intellectuelle, et représente souvent un travail important pour son auteur.

Comment ça marche ?

Il y existe plusieurs façons de reproduire illicitement un contenu. Le web étant un média ouvert, c’est de surcroît extrêmement facile. La plus simple est à la portée de tout internaute : il suffit de copier-coller un article pour le reproduire sur un autre support, qu’il s’agisse d’un site web (ceci incluant toutes les formes de sites et je pense bien sûr en premier lieu à un blog) mais aussi pourquoi pas d’une présentation commerciale ou d’une publication quelconque.

L’autre méthode, la plus courante, consiste à installer un script sur un blog qui récupère automatiquement l’intégralité du contenu d’un autre blog en aspirant son flux RSS pour le reproduire dans ses propres pages. Cette méthode ne nécessite pas beaucoup de compétences supplémentaires puisqu’il s’agit simplement d’installer un plugin (avec WordPress par exemple) et de le paramétrer en quelques clics pour qu’il fasse le boulot automatiquement à votre place, et re-publie systématiquement tous les articles que vous écrivez.

Enfin, une autre technique, moins aisée car nécessitant des compétences en programmation, consiste à parser (parcourir) le contenu d’un blog pour en extraire les articles à l’aide d’un script automatisé.

Pourquoi et en quoi la duplication de contenu est-elle préjudiciable ?

Cette question revient souvent, avec les arguments qui l’accompagnent, souvent lus et entendus, et parmi les principaux, ceux-ci : « si tu te fais reproduire ton contenu, c’est plutôt flatteur, c’est un signe de reconnaissance, ça te fait de la publicité, ça te fait du backlink, tu en tires un avantage », etc. Ces arguments pourraient dans certains cas être légitimes, mais ils démontrent en fait une méconnaissance des problématiques liées au web et notamment au référencement dans les moteurs de recherche.

En effet, si on peut effectivement penser que la reprise non autorisée ou non déclarée d’une partie du contenu d’un site dans une présentation commerciale hors web ne pose en fait pas un gros problème (personnellement cela ne me dérange pas plus que cela et de toute façon il est difficile de contrôler cela), la duplication de contenu sur le web pose un sérieux problème de positionnement dans les moteurs de recherche. Car un article reproduit intégralement à l’identique sous 2 urls différentes peut être considéré comme du duplicate content (contenu dupliqué) par les moteurs de recherche, qui, ne sachant distinguer l’original de la copie risquent tout simplement de supprimer les deux de leur index, en vue de fournir des pages de résultats propres et pertinentes. Résultat : votre contenu peut disparaître du jour au lendemain des moteurs de recherche simplement parce-qu’un petit rigolo s’amuse à le reproduire. C’est injuste et pernicieux mais il faut faire avec. Et faire avec n’estpas facile, tant il paraît illusoire de faire une chasse systématique aux blogs qui pompent votre contenu.

D’où l’agacement, voire la colère des blogueurs et des éditeurs de contenu  dont une grande partie du trafic, et donc, pour certains, des revenus, et pour d’autres, de la réputation et de la visibilité, sont assurés à la source par les moteurs de recherche, quand ils découvrent que leur articles sont pillés et reproduits sans scrupule sur d’autres sites. Cela d’autant plus si les sites en question sont des splogs (spam blogs) montés exclusivement pour reproduire illicitement et de façon automatisée le contenu de plusieurs blogs à fort trafic en vue de monétiser celui-ci à grands renforts d’encarts publicitaires. Il y a dans ce cas non seulement vol de contenu mais détournement de revenus, puisque l’on se sert du contenu produit par un tiers pour générer du chiffre d’affaires.

Mais alors, quelles sont les bonnes pratiques ?

J’ai aussi vu dans les commentaires, ici et sur Twitter, que si ces problèmes de contenu dupliqué restent relativement marginaux (mais peuvent être très pénalisants), certains blogueurs, de bonne foi, se posent la question de la meilleure façon de citer un autre blog. Là-dessus il n’y a aucune équivoque : l’un des principes fondateurs de la blogosphère repose sur le sourcing auprès d’autres blogs et la citation de ceux-ci, avec les liens qui vont bien. Quand on souhaite reprendre le contenu d’un blog, je conseille pour ma part de respecter ces 3 règles :

  • ne reprendre texto qu’un court extrait de l’article cité, moins de 100 mots ou un paragraphe de 5 lignes
  • citer nommément la source
  • faire un lien direct vers l’article source

De cette façon la reprise d’un autre article devient cette fois un avantage pour celui qui est cité, sans le pénaliser.

Précision (je vous vois venir) : la reprise de contenu ne doit pas être confondue avec la citation de source. Voir à ce sujet cet article : Un blog doit toujours citer ses sources. Ou pas.

Que penser des sites comme les digg-like ou les agrégateurs en ligne ?

S’ils sont bien programmés (j’allais dire « programmés honnêtement ») les digg-like ne devraient pas poser de problème particulier. D’une part parce-qu’ils n’agrègent pas automatiquement le contenu, et d’autre part parce-qu’ils ne proposent qu’un court extrait des articles repris, avec un lien direct vers la source, sans redirection sournoise. C’est le cas de Fuzz, mais aussi d’autres digg-like : extrait de 2 lignes, lien direct vers l’article source, et lien direct vers l’url du site source, et ce dès la page d’accueil.

Pourquoi avoir mis un script qui protège seulement les images, qu’est-ce que le hotlinking, et comment ça marche ?

Voyant que de plus en plus de blogs à la con reproduisent intégralement le contenu de Presse-citron (mais je suis loin d’être le seul dans ce cas, en général les auteurs de ces sites reprennent les principaux blogs du top Wikio), j’ai de plus constaté que les images illustrant les articles dupliqués provenaient aussi directement de mon serveur. Ce qui signifie que non content de piquer mon contenu, ces blogs piquent aussi ma bande passante. C’est ce qu’on appelle le hotlinking. Comme nous n’avons pas les moyens de tout contrôler (la plupart de ces blogs sont injoignables et anonymes, et prennent la précaution de ne laisser aucune trace permettant d’identifier leurs auteurs), le seul procédé technique qui est à notre disposition consiste à mettre en place un script serveur qui interdit l’affichage des images de notre blog si elles apparaissent sur des sites autres que ceux que l’on a autorisés. Nous avons même la possibilité de demander au serveur d’afficher une image de notre choix sur les sites externes. C’est ce que j’ai fait, en utilisant la méthode décrite ici chez le camarade Alex de Tuxboard.

Je suis conscient que cette méthode un peu radicale peut poser un problème d’affichage dans les agrégateurs mais j’y travaille, afin que seuls les pillards soient pénalisés.

Cette méthode n’est qu’un pis-aller car elle n’empêche pas la duplication de contenu, mais elle peut dissuader les voleurs de le faire car chaque image reproduite illicitement peut contenir le message de votre choix, souvent peu flatteur à l’égard du copieur. Voici ci-dessous celle que j’utilise en ce moment et que vous avez peut-être aperçue dans votre agrégateur.

fucktest1 Duplication de contenu et reproduction illicite de contenu : quelques explications

Y a -t-il d’autres moyens de lutter contre le vol de contenu ?

En fait quand je découvre (ou qu’on me signale, la plupart du temps) que mes articles sont dupliqués intégralement sans autorisation, j’applique la méthode suivante :

  • je vais sur le blog en question
  • je cherche la rubrique Contact
  • si elle existe c’est que généralement le blogueur est de bonne foi et reproduit votre contenu sans volonté de nuire par simple méconnaissance des usages
  • je lui envoie un message amiable lui rappelant les bonnes pratiques, et le plus souvent le problème est réglé sans délai, le contenu est supprimé et vous avez même droit à des excuses :-)
  • si la rubrique Contact n’existe pas, je cherche dans le Whois si je peux identifier le propriétaire du nom de domaine. Si j’arrive à le contacter, j’agis comme précédemment
  • si le blog a blindé son anonymat, je poste un message en commentaire des articles piqués, d’abor amiable, plus plus menaçant, et je finis par une gosse insulte histoire de faire réagir le propriétaire du blog. Ca marche de temps en temps mais c’est très aléatoire
  • dernier recours, que je n’ai pas encore employé : constat d’huissier et remise du dossier aux mains d’un avocat.
  • d’autres utilisent un méthode intéressante, à condition de pouvoir contacter l’auteur du blog incriminé : ils envoient une facture (généralement assez lourde) avec le montant à payer pour les droits de reproduction, suivie d’un rappel puis d’une menace de mise au contentieux.

J’espère que ces explications un peu longues mais nécessaires permettront à ceux qui sont moins au fait de ces problématiques d’y voir un peu plus clair.