Duplication de contenu et reproduction illicite de contenu : quelques explications

Suite à ma note de service de samedi relative à la modification du serveur de Presse-citron en vue d’essayer de dissuader (un peu) les copieurs de…

Publié le 22 juin 2009 à 10 h 11 min

Par Eric DUPIN

124

124

Suite à ma note de service de samedi relative à la modification du serveur de Presse-citron en vue d’essayer de dissuader (un peu) les copieurs de dupliquer intégralement mon contenu, je constate que tout le monde ne connait pas forcément le sujet et ses implications, ce qui peut conduire à certaines confusions.

Il me paraît par conséquent intéressant d’essayer d’expliquer de quoi il retourne exactement. Vous allez voir, ce n’est pas très compliqué, donc je devrais y arriver 🙂

La duplication de contenu, qu’est-ce que c’est exactement ?

La duplication de contenu, en langage web, est la copie pure et simple d’un contenu et sa reproduction intégrale sur un autre site que celui d’origine. Que la source soit citée ou non ne change rien à l’affaire : la duplication c’est du vol, même s’il s’agit d’un contenu gratuit, et je dirais même surtout s’il s’agit d’un contenu gratuit. Car celui-ci relève de la propriété intellectuelle, et représente souvent un travail important pour son auteur.

Comment ça marche ?

Il y existe plusieurs façons de reproduire illicitement un contenu. Le web étant un média ouvert, c’est de surcroît extrêmement facile. La plus simple est à la portée de tout internaute : il suffit de copier-coller un article pour le reproduire sur un autre support, qu’il s’agisse d’un site web (ceci incluant toutes les formes de sites et je pense bien sûr en premier lieu à un blog) mais aussi pourquoi pas d’une présentation commerciale ou d’une publication quelconque.

L’autre méthode, la plus courante, consiste à installer un script sur un blog qui récupère automatiquement l’intégralité du contenu d’un autre blog en aspirant son flux RSS pour le reproduire dans ses propres pages. Cette méthode ne nécessite pas beaucoup de compétences supplémentaires puisqu’il s’agit simplement d’installer un plugin (avec WordPress par exemple) et de le paramétrer en quelques clics pour qu’il fasse le boulot automatiquement à votre place, et re-publie systématiquement tous les articles que vous écrivez.

Enfin, une autre technique, moins aisée car nécessitant des compétences en programmation, consiste à parser (parcourir) le contenu d’un blog pour en extraire les articles à l’aide d’un script automatisé.

Pourquoi et en quoi la duplication de contenu est-elle préjudiciable ?

Cette question revient souvent, avec les arguments qui l’accompagnent, souvent lus et entendus, et parmi les principaux, ceux-ci : “si tu te fais reproduire ton contenu, c’est plutôt flatteur, c’est un signe de reconnaissance, ça te fait de la publicité, ça te fait du backlink, tu en tires un avantage”, etc. Ces arguments pourraient dans certains cas être légitimes, mais ils démontrent en fait une méconnaissance des problématiques liées au web et notamment au référencement dans les moteurs de recherche.

En effet, si on peut effectivement penser que la reprise non autorisée ou non déclarée d’une partie du contenu d’un site dans une présentation commerciale hors web ne pose en fait pas un gros problème (personnellement cela ne me dérange pas plus que cela et de toute façon il est difficile de contrôler cela), la duplication de contenu sur le web pose un sérieux problème de positionnement dans les moteurs de recherche. Car un article reproduit intégralement à l’identique sous 2 urls différentes peut être considéré comme du duplicate content (contenu dupliqué) par les moteurs de recherche, qui, ne sachant distinguer l’original de la copie risquent tout simplement de supprimer les deux de leur index, en vue de fournir des pages de résultats propres et pertinentes. Résultat : votre contenu peut disparaître du jour au lendemain des moteurs de recherche simplement parce-qu’un petit rigolo s’amuse à le reproduire. C’est injuste et pernicieux mais il faut faire avec. Et faire avec n’estpas facile, tant il paraît illusoire de faire une chasse systématique aux blogs qui pompent votre contenu.

D’où l’agacement, voire la colère des blogueurs et des éditeurs de contenu dont une grande partie du trafic, et donc, pour certains, des revenus, et pour d’autres, de la réputation et de la visibilité, sont assurés à la source par les moteurs de recherche, quand ils découvrent que leur articles sont pillés et reproduits sans scrupule sur d’autres sites. Cela d’autant plus si les sites en question sont des splogs (spam blogs) montés exclusivement pour reproduire illicitement et de façon automatisée le contenu de plusieurs blogs à fort trafic en vue de monétiser celui-ci à grands renforts d’encarts publicitaires. Il y a dans ce cas non seulement vol de contenu mais détournement de revenus, puisque l’on se sert du contenu produit par un tiers pour générer du chiffre d’affaires.

Mais alors, quelles sont les bonnes pratiques ?

J’ai aussi vu dans les commentaires, ici et sur Twitter, que si ces problèmes de contenu dupliqué restent relativement marginaux (mais peuvent être très pénalisants), certains blogueurs, de bonne foi, se posent la question de la meilleure façon de citer un autre blog. Là-dessus il n’y a aucune équivoque : l’un des principes fondateurs de la blogosphère repose sur le sourcing auprès d’autres blogs et la citation de ceux-ci, avec les liens qui vont bien. Quand on souhaite reprendre le contenu d’un blog, je conseille pour ma part de respecter ces 3 règles :

ne reprendre texto qu’un court extrait de l’article cité, moins de 100 mots ou un paragraphe de 5 lignes
citer nommément la source
faire un lien direct vers l’article source

De cette façon la reprise d’un autre article devient cette fois un avantage pour celui qui est cité, sans le pénaliser.

Précision (je vous vois venir) : la reprise de contenu ne doit pas être confondue avec la citation de source. Voir à ce sujet cet article : Un blog doit toujours citer ses sources. Ou pas.

Que penser des sites comme les digg-like ou les agrégateurs en ligne ?

S’ils sont bien programmés (j’allais dire “programmés honnêtement”) les digg-like ne devraient pas poser de problème particulier. D’une part parce-qu’ils n’agrègent pas automatiquement le contenu, et d’autre part parce-qu’ils ne proposent qu’un court extrait des articles repris, avec un lien direct vers la source, sans redirection sournoise. C’est le cas de Fuzz, mais aussi d’autres digg-like : extrait de 2 lignes, lien direct vers l’article source, et lien direct vers l’url du site source, et ce dès la page d’accueil.

Pourquoi avoir mis un script qui protège seulement les images, qu’est-ce que le hotlinking, et comment ça marche ?

Voyant que de plus en plus de blogs à la con reproduisent intégralement le contenu de Presse-citron (mais je suis loin d’être le seul dans ce cas, en général les auteurs de ces sites reprennent les principaux blogs du top Wikio), j’ai de plus constaté que les images illustrant les articles dupliqués provenaient aussi directement de mon serveur. Ce qui signifie que non content de piquer mon contenu, ces blogs piquent aussi ma bande passante. C’est ce qu’on appelle le hotlinking. Comme nous n’avons pas les moyens de tout contrôler (la plupart de ces blogs sont injoignables et anonymes, et prennent la précaution de ne laisser aucune trace permettant d’identifier leurs auteurs), le seul procédé technique qui est à notre disposition consiste à mettre en place un script serveur qui interdit l’affichage des images de notre blog si elles apparaissent sur des sites autres que ceux que l’on a autorisés. Nous avons même la possibilité de demander au serveur d’afficher une image de notre choix sur les sites externes. C’est ce que j’ai fait, en utilisant la méthode décrite ici chez le camarade Alex de Tuxboard.

Je suis conscient que cette méthode un peu radicale peut poser un problème d’affichage dans les agrégateurs mais j’y travaille, afin que seuls les pillards soient pénalisés.

Cette méthode n’est qu’un pis-aller car elle n’empêche pas la duplication de contenu, mais elle peut dissuader les voleurs de le faire car chaque image reproduite illicitement peut contenir le message de votre choix, souvent peu flatteur à l’égard du copieur. Voici ci-dessous celle que j’utilise en ce moment et que vous avez peut-être aperçue dans votre agrégateur.

Y a -t-il d’autres moyens de lutter contre le vol de contenu ?

En fait quand je découvre (ou qu’on me signale, la plupart du temps) que mes articles sont dupliqués intégralement sans autorisation, j’applique la méthode suivante :

je vais sur le blog en question
je cherche la rubrique Contact
si elle existe c’est que généralement le blogueur est de bonne foi et reproduit votre contenu sans volonté de nuire par simple méconnaissance des usages
je lui envoie un message amiable lui rappelant les bonnes pratiques, et le plus souvent le problème est réglé sans délai, le contenu est supprimé et vous avez même droit à des excuses 🙂
si la rubrique Contact n’existe pas, je cherche dans le Whois si je peux identifier le propriétaire du nom de domaine. Si j’arrive à le contacter, j’agis comme précédemment
si le blog a blindé son anonymat, je poste un message en commentaire des articles piqués, d’abor amiable, plus plus menaçant, et je finis par une gosse insulte histoire de faire réagir le propriétaire du blog. Ca marche de temps en temps mais c’est très aléatoire
dernier recours, que je n’ai pas encore employé : constat d’huissier et remise du dossier aux mains d’un avocat.
d’autres utilisent un méthode intéressante, à condition de pouvoir contacter l’auteur du blog incriminé : ils envoient une facture (généralement assez lourde) avec le montant à payer pour les droits de reproduction, suivie d’un rappel puis d’une menace de mise au contentieux.

J’espère que ces explications un peu longues mais nécessaires permettront à ceux qui sont moins au fait de ces problématiques d’y voir un peu plus clair.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Opera One - Navigateur web boosté à l’IA

Par : Opera

Télécharger gratuitement

124 commentaires

Tortue facile dit :

22 juin 2009 à 10 h 23 min

C’est vrai que ces sites qui ne vivent que grâce au plagiat sont chiants, espérons que ton billet en fasse réagir quelque-uns.
Pour ton image, elle est assez gentille, y’en a qui mette à la place une grosse image en rouge avec une tête de Mickey (oui oui) et un message du style “Je suis un copieur et j’ai une image de Mickey sur ma homepage).

Répondre
Pierre-Henri dit :

22 juin 2009 à 10 h 23 min

Inquiétude bien fondée, mais les explications de duplicate content, me paraissent pas vraiment pertinentes.

wikipedia se fait pomper pas mal de contenu, ce qui est logique d’ailleurs vu que les articles sont sous license GFDL. Or, on peut pas vraiment dire que wikipedia se soit effondré dans les classements des moteurs de recherche, au contraire.

Aprés si tu as constaté un impact enorme sur tes stats alors oui, on peut se poser la question du référencement.
Mais c’est le danger du RSS. c’est tellement simple de pomper du contenu de façon automatique… La meilleure solution etant de ne mettre dans le flux rss qu’un minimum de chose. Un titre et une accroche tronquée, c’est tout.

Répondre
Xav dit :

22 juin 2009 à 10 h 27 min

hum… Google a été très clair sur ce sujet: Il ne pénalise pas le Duplicate Content. Au pire, tu peux retouver un site qui te copie devant toi dans le moteur, mais vu la renommée de ton blog, ça m’étonnerait 🙂

Répondre
Eric dit :

22 juin 2009 à 10 h 28 min

@Pierre-Henri :
Ca parait facile en effet, sauf que si je m’amuse à tronquer mon flux, je perds la moitié de mes abonnés. Suffit de voir déjà le concert de protestations ce week-end juste pour quelques images en moins. Les lecteurs de blogs ont un seuil de tolérance très faible au changement 🙂

Répondre
laurent dit :

22 juin 2009 à 10 h 29 min

Il faut rappeler que le droit d’auteur est une exception française : sans mention contraire, tout contenu intellectuel est protégé par défaut.
Par ailleurs, ils est bon de rappeler de manière explicite le type de licence associé au contenu de son blog : copyright, libre ou creative commons (6 types d licences)
Quant on vit de ses articles, ce genre de viol a le don d’irriter.

Répondre
laurent dit :

22 juin 2009 à 10 h 30 min

Google ne pénalise peut être pas le dc, mais si ton article est duplique X fois, tu perds forcément une partie du poids de tes pages dans le referencement.

Répondre
Pierre-Henri dit :

22 juin 2009 à 10 h 35 min

Eric, je n’utilise pas le flux RSS ici et je ne sais pas comment tu le monetise, mais je pense que c’est plus compliqué que de monétiser un blog.
L’intéret est donc que les gens viennent sur le blog.

C’est en tout cas mon usage des flux RSS, je reçois via mon client mail, le titre + extrait. Si le titre m’accroche, je vais lire sur le site en question. Si le titre ne m’accroche pas, je n’ouvre meme pas l’extrait.

Mon utilisation est peut etre particulière, je ne sais pas si elle reflete l’usage courant.

Répondre
Al-Kanz dit :

22 juin 2009 à 10 h 35 min

Merci Eric, tu m’épargnes de longs mails d’explication à ceux qui ne comprennent pas pourquoi j’ai la même position. Il me suffit désormais de pointer vers cet article.

Répondre
Shoko dit :

22 juin 2009 à 10 h 51 min

Tout à fait d’accord dans le principe de la protection de son bien. Mais depuis quelques temps, ton blog est assez inintéressant à lire, à mon grand regret. Soit c’est du manuel d’utilisation, soit c’est du pas touche à mon blog.
Ne le prends pas mal, c’est juste un avis de lecteur lambda.
Après, des copieurs/colleurs il y en a partout dans tous les domaines, c’est typiquement français il ne faut pas s’en étonner.

Répondre
Mélanie dit :

22 juin 2009 à 11 h 02 min

Bonjour,

Et que penser des blogs qui repompent intégralement les articles que l’on publie (parce que les textes sont intéressants pour leurs référencement) et le reformule ?

Même gout, même couleur, mais pas du duplicate content. Certains mettent un lien, mais bon, cela reste du plagiat.

Avez vous quelques conseils en la matière ?
Des avis ?

Répondre
terminatotor dit :

22 juin 2009 à 11 h 09 min

Très bon article Eric bravo ! L’explication, si elle est un peu longue, n’en est pas moins très claire ; tu as mis autant de temps à écrire cet article que le précédent ? 😉

Répondre
Pakito dit :

22 juin 2009 à 11 h 10 min

J’aime quand Eric pousse des coups de gueules structurés (et je prends des mauvaises habitudes avec Facebook …).

Tout d’abord, une chose qui me “surprend”, dans le bon sens du terme et qui prouve une fois de plus qu’Eric est quelqu’un de bien (j’arrête le léchage de bottes, promis) c’est que tu n’as jamais fait aucun recours en justice.
Personnellement, je crois ne jamais m’être fait plagier en tant que blogueur, pas mal de fois en tant que forumeur par contre, avec de très longs messages genre tutoriel ou autre, mais ça n’était pas mon contenu à proprement parler.
Mais si ça devient le cas, et si en plus ça devient récurent, je pense que je n’aurai pas ta patience.

Après il est vrai que le fait de pouvoir lire Presse-Citron directement sur son agrégateur, c’est un gain de temps non négligeable.
Il m’arrive souvent de lire mes flux à la fac, entre deux cours, ou quand un prof a du retard, et c’est vrai que ne pas avoir à cliquer sur un lire la suite, avec un wifi plus ou moins fiable et rapide, c’est agréable.

Et je ne pense pas être le seul dans ce cas, donc c’est vrai que tu es dans une position délicate : perdre des abonnés pour se protéger ? Ca n’est pas la solution, tout le monde sera d’accord.

La vrai question, c’est comment certains blogueurs à la con refusent de retirer du contenu plagié ?
C’est là qu’il faudrait créer un collectif des blogueurs honnêtes et créer des actions en justice globales et au nom de tous pour condamner ces gens là.

Répondre
petitchevalroux dit :

22 juin 2009 à 11 h 11 min

Je vais me faire fouetter mais personnellement je pense que le duplicate n’est pas un réel danger pour le référencement (cf l’exemple de Pierre Henri pour wikipedia), au contraire je pense qu’il est bénéfique pour les liens qu’il peut procurer et en ce qui concerne google, il est très bon pour déterminer l’article d’origine surtout si le blog d’origine utilise le ping sur blogsearch.

Pour les sites dont le contenu est entièrement du duplicate, le coup de massue est parfois long à arriver (le temps que le filtre duplicate de google passe env 1 mois d’aprés mes constatations), mais il fait très mal au niveau du trust rank.

Enfin voilà mon avis personnel, il n’engage que moi et comme d’hab en SEO impossible de savoir qui a raison 😀

Répondre
Pierre-Henri dit :

22 juin 2009 à 11 h 21 min

pourquoi ne pas tout simplement signer les articles.

genre :

” Presse-citron vous propose de découvrir blablabla… ” avec un lien sur presse-citron.

comme ça, les mecs qui pompent ne font que renforcer tes backlink et se discréditer puisque la source est cité dans le texte.

ou bien à la fin, tu signe ” Eric de presse-citron” avec toujours un lien.

Répondre
keeg dit :

22 juin 2009 à 11 h 37 min

D’accord avec quelques uns, Matt Cutts a dit que google n’n avait rien à faire du Duplicate Content.

Peut être vrai, mais peut être pas 😀

Répondre
Galdon dit :

22 juin 2009 à 11 h 40 min

Moi non plus je ne pense pas que le duplicate soit si dangereux pour le référencement, surtout quand c’est fait de manière automatique.

Après c’est sûr que c’est frustrant de voir son contenu sur d’autres sites sans l’autorisation de l’auteur.

Répondre
M dit :

22 juin 2009 à 11 h 51 min

Si tout les duplicate content étaient supprimés par google, quel serait l’intérêt d’avoir un site intégraglement consitué de duplicat content (les splogs) ? Puisque rien ne serait indexé par google, donc aucun revenu pub…

M

Répondre
aalex57 dit :

22 juin 2009 à 11 h 52 min

Bonjour,

Petite question j’ai déjà copié certains de votre articles sur mon blog en “réuplodant” les images et en mettant bien évidement le lien d’où j’ai tiré votre article.

Ais-je le droit ou non ?

Répondre
Daniel dit :

22 juin 2009 à 12 h 05 min

L’idée de mettre un ou plusieurs liens vers presse citron dans chaque article me semble aussi une bonne méthode pour faire de ce problème un atout 🙂

Quand au plagiat ce n’est pas du vol mais de la contre-façon il me semble
Même amalgame qu’avec la musique en ligne…

Répondre
David dit :

22 juin 2009 à 12 h 08 min

des très bonne explications sur un sujet important.

Répondre
petitchevalroux dit :

22 juin 2009 à 12 h 08 min

@M google indexe les contenus dupliqués à leurs création mais une fois qu’il a détecter les contenus en tant que duplicate, il les faits plonger dans les SERPS, donc comme tu l’as deviné les splogs n’ont aucun intérêts sur le long terme.

Répondre
JMC dit :

22 juin 2009 à 12 h 09 min

Le coup des images, c’est une vraie plaie pour la bande passante. Surtout quand on passe son temps à optimiser des sites et qu’on voit nos images directement affichées dans d’autres blogs ou forums …

Répondre
Greg-J dit :

22 juin 2009 à 12 h 12 min

Un huissier pour du DC c’est sévère quand même 😀

Répondre
Ricographik dit :

22 juin 2009 à 12 h 14 min

Je trouve ton article très interessant et instructif. En effet, je suis en ce moment entrain de travailler sur l’ouverture prochaine d’un blog avec quelques amis et cette question que tu abordes ne nous avez pas encore traversée l’esprit et va donc nous permettre de faire un travail plus sage et réfléchi.

Répondre
Eric dit :

22 juin 2009 à 12 h 17 min

@Shoko :
“…depuis quelques temps, ton blog est assez inintéressant à lire”
Tu veux un conseil ? Arrête de le lire, ne te fais pas de mal 🙂

Répondre
oliv dit :

22 juin 2009 à 12 h 22 min

Très instructif et didactique !

Je viens d’envoyer le lien à mon avocat pour une nouvelle affaire de duplication de contenu par bot sur un site (pas un blog, mais la situation et le prejudice est tout a fait comparable)

J’aime bien la solution de la facture. Je tenterai la prochaine fois…

Répondre
The mysterious masked man dit :

22 juin 2009 à 12 h 30 min

La stratégie des règles de réécriture Apache me semble assez facile à contourner : Il suffit que le script qui aspire le contenu balance le bon http header (le http refrer attendu) et hop!

Du coup est-ce que tu ne te donnes pas beaucoup de mal pour rien ?

Répondre
Le-Gritche dit :

22 juin 2009 à 12 h 33 min

C’est le revers de la médaille des formats d’échanges ouverts : diffuser l’information partout, y compris là où on ne voudrait pas qu’elle soit.

Un petit script qui va bien et on se crée un splog miroir en moins de 2.

Tronquer les articles dans le flux RSS ne me choquerait pas, au contraire, je penserais plutôt que le flux RSS est fait pour ça au départ.

Répondre
Sarssipius dit :

22 juin 2009 à 12 h 49 min

Ouaip c’est rageant de parfois découvrir ses propres articles en 4 ou 5ème position sur Google 🙂

Répondre
Christophe dit :

22 juin 2009 à 13 h 01 min

Le Duplicate Content, encore une légende urbaine du web ça 🙂

Répondre
Benoit dit :

22 juin 2009 à 13 h 02 min

Utiliser Google Alerts de façon judicieuse peut être aussi une bonne manière de lutter contre le duplicat de contenu. Par ailleurs je trouve que les accusés mériteraient d’être montrés du doigt.

Répondre
H4mm3r dit :

22 juin 2009 à 14 h 00 min

Si je comprends bien, si le méchant copie aussi l’image (ça ne coûte que de la place), c’est pas très efficace.

Répondre
ALLNews dit :

22 juin 2009 à 14 h 02 min

Salut Eric, voici une façon de bloquer le hotlinking d’images en épargnant les lecteurs RSS courants (comme Google Reader, Netvibes et Wikio) trouvée sur Websourcing.fr :

http://blog.websourcing.fr/bloquer-le-hotlinking-dimages-en-epargnant-les-lecteurs-rss-courants/

Enjoy.

Répondre
Alex dit :

22 juin 2009 à 14 h 05 min

Le duplicate content n’est pas nouveau et les moteurs ont tout une artillerie d’algorithmes pour remettre de l’ordre la dedans.

Dans le cas d’un site populaire, constant et qui fait “autorité” il est impensable que le site qui pompe le contenu passe devant le site dont le contenu est originale.

C’est une autre histoire lorsqu’un site plus “populaire” “vole” le contenu de “petits” sites.

Eric, pour ton image de Hotlinking, tu peux gagner en bande passante en hébergeant cette image sur un autre serveur (genre free ou un serveur d’image gratuit) et en spécifiant cette adresse dans ton htaccess.

Ainsi à chaque fois qu’elle s’affichera sur le site du copieur, le serveur Presse-Citron sera épargné.

Répondre
Mute dit :

22 juin 2009 à 14 h 08 min

Il y a des techniques de black hats encore plus vicieuses : non seulement on aspire les articles d’un blog ou d’un site mais on remplace certains mots de automatiquement via une table de synonymes. On multiplie de la sorte le nombre de pages de son site et mots clés susceptibles d’être tapés dans les moteurs de recherche.

Répondre
Mark dit :

22 juin 2009 à 14 h 14 min

Faut pas croire tout ce que disent les référenceurs : si tu te fais piquer des places dans Google à cause de contenu dupliqué, c’est que tu as sur ton blog des problèmes plus sérieux que quelques plagieurs sur des splogs (surtout Presse-Citron qui n’est pas le 1er blog venu).

Sinon (je ne parles pas pour Eric), beaucoup de ceux qui défendent pour leurs blogs et leurs 3 lignes de texte original le droit d’auteur etc… sont les 1er à crier haro sur hadopi et vouloir le téléchargement gratuit des oeuvres des autres…

Répondre
websylvain dit :

22 juin 2009 à 14 h 17 min

Salut,

il y a un moyen radical, c’est de publié le corps de ton article dans un petit module flash, et ainsi, rien n’est aspirable.
problème, google sera lui aussi aveugle, donc moins bon pour le référencement. mais tu peux aussi créer une version html dépouillée rien que pour les moteurs, en ne le laissant accessible que pour les moteurs.

Répondre
Oweia dit :

22 juin 2009 à 14 h 20 min

A tous ceux qui croient que le duplicate content est une “légende urbaine ” : en effet, google ne vous pénalisera pas. Mais quand pour des requêtes, vous vous rendez compte que votre article apparait sur d’autres pages, avant vous (sur cozop par exemple, les rois du digg-like copieur d’articles sans lien retour), je peux vous dire que vous pouvez avoir les b****oules. C’est une perte de visiteur potentiel, une perte de revenus potentielle, une perte en terme de référencement, bref des problématiques qui concernent ceux qui gagnent de l’argent grâce à leur site. Dans le milieu du casino en ligne, il y’a tellement peu de contenu pertinent et tellement de sites pourr**is qui copient, que cela en devient vraiment problématique, notamment pour lancer un nouveau site qui n’a pas de PR et qui doit se protéger de sites plus gros qui ont déjà leur PR établi et qui apparaitront directment sur google en copiant les textes des nouveaux sites !

Je ne suis pas sûr que ceux qui donnent leur avis de “SEO” sur la “non gravité” du duplicate content en gagnent tant d’argent que ça via leur site, sinon ils ne se permettraient pas ce genre de remarque…

Bref Eric, très bon article, bonne procédure pour limiter le duplicate content. Il y’a des sites web de protection du contenu par huissier, genre “copyscape”, mais je trouve personnellement que c’est aller trop loin dans la protection du contenu, je préfère rendre mes articles aussi personnalisés (parler à la première personne par ex) que possibles pour qu’ils ne puissent pas être reproduits tels quels sur d’autres sites.

Répondre
Actalex dit :

22 juin 2009 à 14 h 20 min

Eric,
Fidèle lecteur de Presse Citron, j’utilise G.Reader pour découvrir tes articles. Je ne trouverais pas pénalisant de n’y trouver que des extraits d’article. Si l’article m’intéresse, ce qui est souvent le cas, je n’hésiterais pas à aller sur le site pour en lire plus. Actuellement, fainéantise aidant; je commence,… et fini de lire l’article dans G.reader, ce qui n’est pas beaucoup mieux pour toi que ces médiocres duplicateurs de contenu.
Je suis sincère persuadé que tu ne perdrais pas tant de lecteurs que ça en procédant ainsi… au pire quelque brimades, mais étant donné l’enjeu…

Répondre
James dit :

22 juin 2009 à 14 h 20 min

Arrêtez de répéter bêtement que la copie est du vol, c’est faux, il n’y a que deux catégories de personnes qui disent que la copie = le vol, c’est les menteurs et les perroquets.

Répondre
Green Islam dit :

22 juin 2009 à 14 h 24 min

Bonjour,

Merci pour cet article. J’ai eu un problème similaire de copie de textes sur un site commercial… ça m’est arrivé (que) 2 fois (à ma connaissance), suffisamment pour m’agacer…

Répondre
A La French dit :

22 juin 2009 à 14 h 27 min

Mais bien sur que c’est du vol ! Ne pas le considérer ainsi, c’est considérer que le contenu n’a pas de valeur, alors pourquoi le copier ? Pourquoi ne pas l’écrire seul ? Trop fatigué ? Un mot traduit coûte au minimum 0.08€. 100 mots : 8 €. 1000 mots : 80 €. Je te parle de tarifs de traduction, mais il y’a réellement un “prix” pour chaque mot, prends-en conscience, chaque mot a une valeur pour google.

Répondre
petitchevalroux dit :

22 juin 2009 à 14 h 32 min

@Oweia “Je ne suis pas sûr que ceux qui donnent leur avis de “SEO” sur la “non gravité” du duplicate content en gagnent tant d’argent que ça via leur site, sinon ils ne se permettraient pas ce genre de remarque”.

Si on doit gagner de l’argent sur son site pour donner son avis je pense que je préfère me taire.

Répondre
James dit :

22 juin 2009 à 14 h 35 min

“Le vol est la soustraction frauduleuse de la chose d’autrui.”
La copie ne soustrait pas l’original.
Si tu veux dire que copier le contenu de quelqu’un est un délit et est immoral, dites-le, mais arrêtez de répéter bêtement que copie = vol. Même en le répétant un milliard de fois cela n’en deviendra pas moins faux.

Répondre
benoit dit :

22 juin 2009 à 14 h 41 min

un site d’actu people (de merde) pompait mon flux sans retenue depuis des mois jusqu’au moment où je m’en suis aperçu. j’ai joint le site et après une discussion houleuse le type a accepté, mais que ce fut chaud !
Chez blogger y’a un moyen de paramétrer pour que le flux ne prenne que les titres ou les premières lignes de vos articles, pensez-y.

Répondre
A+La+French dit :

22 juin 2009 à 14 h 51 min

@ chevalroux @James
Divisez le nombre de visiteurs qui viennent sur votre site par 5 parceque votre site se fait pomper, puis on en rediscute. Il ne s’agit pas de soustraction, il s’agit d’une division, et de vol, point barre. Prétendre qu’un texte est le sien alors que ce n’est pas le cas s’appelle du plagiat et est un délit et peut être constaté par huissier et poursuivi en justice. Ca n’existe pas que dans le domaine du livre, les sites sont aussi écrits par des personnes qui n’ont aucune envie de voir leur travail copié sans vergogne. Question de référencement, de marketing, de finance, et tout simplement d’éthique.

Répondre
Eric dit :

22 juin 2009 à 14 h 56 min

@Pierre-Henri :
C’est déjà le cas, les articles de Presse-citron son signés avec lien etc mais cela n’apparait que dans le footer du fil rss

Répondre
karim dit :

22 juin 2009 à 15 h 46 min

Je me rappelle de tes commentaires sur la loi Hadopi …
J’aurais trouvé cohérent que tu condamnes fermement le piratage avant de te plaindre de ceux qui pompent tes articles.C’est moins drôle quand on est la personne piratée :o)

Répondre
kala dit :

22 juin 2009 à 15 h 56 min

Pierre Henri , beaucoup t echappe et tu n’as pas tous les elements entres tes mains pour comprendre l’impact d’un duplicate content.

Répondre
Kiffe Grave dit :

22 juin 2009 à 15 h 57 min

Je croix qu’il est possible par filtrage ip de bloquer certains serveur!

Répondre
Thor dit :

22 juin 2009 à 16 h 21 min

Je suis d’accord avec James, ce n’est pas du vol. Mais quelqu’un l’explique bien mieux que moi :

http://maitre-eolas.fr/2009/02/20/1321-les-droits-d-auteur-pour-les-nuls

Répondre
A+La+French dit :

22 juin 2009 à 16 h 40 min

@Thor, où se trouve le passage qui dit qu’il ne s’agit pas de vol ? Ta référence conviendrait peut-être à la loi Hadopi, et encore… !

Je vais pour ma part reproduire un passage du site http://blog.axe-net.fr/duplicate-content-plagiat/ sur le plagiat, qui explique très bien la législation en ce qui concerne la reproduction de textes sur internet :

”
Il est interdit de reproduire librement un texte, une image, un son, sans le consentement de son auteur (article L.122-4 [du code de la propriété intellectuelle]).

En revanche, lorsque l’oeuvre a été « divulguée» (rendue publique par son auteur), vous pouvez en citer des extraits, sous certaines conditions , Il faut indiquer le nom de l’auteur ainsi que la source (Article L.122-5 alinéa 3 ), ce peut être une « analyse» , ou une « courte citation» (Article L.122-5 alinéa 3, point « a» ). En aucun cas, la reproduction complète (sous quelques formes que ce soit) n’est autorisée. Le droit de citation autorise donc à reprendre un court extrait d’une « oeuvre» en citant la source, et ce, uniquement dans le but d’illustrer un propos. En aucun cas il ne permet de reproduire un article complet. La copie même en citant sa source n’est pas un droit.”

cordialement

Répondre
Thor dit :

22 juin 2009 à 16 h 50 min

@A+La+French

Attention, je ne dis pas que c’est légal. Je dis (enfin je cite un avocat qui le dit) que ce n’est pas du vol.

Ce n’est pas pareil.

Quand à ta question, ça se trouve dans le paragraphe sous le lecteur Deezer qui s’intitule

“Les dealers d’oranges qui téléchargent des baguettes de pain”

Répondre
emmanuel dit :

22 juin 2009 à 16 h 56 min

A priori tu n’es pas le seul qui a des soucis de squatting :

http://blog.websourcing.fr/fun-cest-un-scandale-je-vole-vos-images-et-vous-les-supprimez-sans-mavertir/

E.

Répondre
petitchevalroux dit :

22 juin 2009 à 16 h 59 min

@A La French divisé par 5 à cause du duplicate Oo. Je veux bien te croire que tu sois dégouté.

Personnellement j’ai jamais entendu parler de ce genre d’exemple (hormis ton expérience) mais si c’est la vérité je veux bien comprendre que la pilule ai du mal à passer.

Je reste donc toujours septique sur cette histoire deduplicate et de perte de trafic surtout dans de tel proportion mais je comprend ton désarroi.

Répondre
Eric dit :

22 juin 2009 à 17 h 02 min

@karim : tu dis n’importe-quoi, relis mes articles sur HADOPI avant d’affirmer de telles inepties.
https://www.presse-citron.net/loi-hadopi-mauvais-arguments-et-vraies-inquietudes
Entre autres…

Répondre
James dit :

22 juin 2009 à 17 h 15 min

Citons Maître Eolas 🙂
“Pour bannir toute confusion, il faut oublier le mot propriété, ou plus exactement se souvenir que ce mot ne vient pas seul. Une œuvre de l’esprit est par nature immatérielle. De ce fait, elle ne peut être volée à son auteur, même si on lui dérobe le support sur lequel cette œuvre est matérialisée (qui constitue bien un vol, mais du support, pas de l’œuvre). L’atteinte au droit d’auteur n’équivaut pas à voler une baguette de pain (argument d’Eddy Mitchell en 2006), ni à dealer de la drogue (argument Besson) ni à distribuer des oranges (argument Lefèbvre). Ça ne veut pas dire que c’est légal, mais c’est autre chose.”

Mais cela n’empêchera pas les menteurs qui savent et les perroquets qui croient avoir compris de continuer à dire que copie = vol.

Répondre
Emmanuel dit :

22 juin 2009 à 17 h 18 min

Dupplicate et hotlinking, certes 2 questions différentes mais bien souvent liées dans le cas d’une repompe totale depuis feed RSS par exemple…
Si la repompe est massive, mieux vaut passer son feed avec les articles tronqués, sinon ajuster son htaccess mais la gueguerre est loin d’être terminée…

PS: D’ailleurs petite question, se faire reprendre son article sur Yahoo actu ou Google actu (Ou d’autres gros sites reconnus), cela porte t-il autant préjudice à l’article original qu’une reprise par un splog ou autre blog?

Répondre
A+La+French dit :

22 juin 2009 à 17 h 26 min

@chevalroux
J’ai plusieurs exemples dans le domaine des casinos en ligne notamment, où beaucoup de sites qui se lancent se font manger leurs contenus par des sites établis : tant qu’un site n’est pas reconnu par google, son contenu peut être “copié/volé” par d’autres et l’auteur considéré sera le site copieur ! Ce ne sera probablement pas le cas de presse-citron qui est établi, au passage.

Maintenant c’est simple, avant de lancer un nouveau site sur un sujet (exemple : le site que j’ai mis dans ma signature), je mets en ligne des textes mal écrits/inexacts, le temps de me faire reconnaitre par google sur un sujet et d’engranger un peu de back links. Puis, après quelques mois (!), je remplacerai le mauvais contenu par du bon contenu (ex : http://guide-blackjack.com), celui de qualité, qui sera directement reconnu par google comme venant de mon site. Rares sont les webmasters qui copieront les textes pourris (ou alors ils sont vraiment désespérés et ne comprennent rien au sujet), et de toute façon ils ne suivront pas le site pour s’encquérir de l’évolution de la qualité… pour te dire à quelles extrémités on peut en arriver avec les… “voleurs” de contenu.

Répondre
petitchevalroux dit :

22 juin 2009 à 17 h 44 min

@A La French juste pour savoir est ce que tu pingues google lors de la creation de ton contenu ?

Répondre
JUL dit :

22 juin 2009 à 17 h 51 min

Marrant le coup de la facture… mais ça peut vite se retourner contre celui qui facture (absence de commande, contrat etc.)

Répondre
Liliandev dit :

22 juin 2009 à 17 h 53 min

Je serais encore bien plus méchant avec ceux qui copient … je mettrais directement une bannière de publicité … pour leur apprendre à ne plus recommencer, une image qui divague c’est un moyen simple d’avoir le contrôle sur les visiteurs du site qui copie 🙂

Répondre
pressekiwi dit :

22 juin 2009 à 18 h 02 min

"dernier recours, que je n’ai pas encore employé : constat d’huissier et remise du dossier aux mains d’un avocat."

Qu’est ce qui pourra prouver que tu as l’antériorité ?

Ca ne sert strictement à rien si tes sources ne sont pas protégées par copyright.

Répondre
thebloom dit :

22 juin 2009 à 18 h 03 min

Bonjour

très instructif cet article, ça va me servir d’autant que mon blog est régulièrement copié.

Merci pour cette synthèse.

Répondre
A+La+French dit :

22 juin 2009 à 18 h 09 min

@chevalroux
Les nouveaux sites dont je te parle sont linkés par d’autres sites web, avec un sitemap déclaré chez GG webmaster, et sont trouvés par les “conccurrents” via google, pas autrement. Pas pingés, mais il ne s’agit pas de blogs a priori. La situation que j’ai décrite a eu lieu en 2008, où je me suis fait littéralement aspirer tout un site et où mon site établi s’est fait blacklisté par google (dénonciation?!), google croyant probablement que j’étais le copieur alors qu’il s’agissait de textes originaux: il a fallu réécrire les textes et attendre un bout de temps avant de réapparaître correctement sur GG. D’où des textes réécrits au fur et à mesure… c’est fou, oui je sais.

Répondre
Mark dit :

22 juin 2009 à 18 h 15 min

Je viens de tomber la dessus, ton seul commentaire sur ff à ce jour:
http://friendfeed.com/pressecitron/comments

Apparemment ca t’occupes bien la chasse au contenu dupliqué.lol

Répondre
petitchevalroux dit :

22 juin 2009 à 18 h 21 min

@A La French dans ton cas le problème c’est que google bot devais passé en premier sur le contenu du site aspirant et donc considérer voir les contenus en premier sur le site aspirant donc ouai ton cas est possible.

Par contre de la à diviser ton trafic par 5 sur un site juste né, je pense que c’est plutot la conjugaison de la fin de la prime de fraicheur ET le passage du filtre anti-duplicate qui t’as fait tomber dans les SERPS.

Personnellement je pingue les contenus de tous les sites que je fais. Blog ou pas tous les contenus peuvent être rapporté à des articles et je pense que tu devrais vraiment tenter ça pour tes prochains sites.

Répondre
petitchevalroux dit :

22 juin 2009 à 18 h 23 min

une autre remarque : j’ai souvent remarqué que les contenus des agregateurs apparaissent avant les petits blogs même quand ceux ci pinguent mais une fois que le filtre duplicate passe les cad quelques jours aprés, le petit blog repasse en générale devant … Si qqn peut confirmer 😉

Répondre
A+La+French dit :

22 juin 2009 à 18 h 28 min

Je pingerai alors, ton analyse me semble tenir la route, merci pour les infos.

Répondre
Eric dit :

22 juin 2009 à 18 h 35 min

@Mark : et ?
Produis déjà autant de contenu que ce blog, essaie d’en vivre, et reviens me voir ok ?

Répondre
Mark dit :

22 juin 2009 à 18 h 46 min

@Eric : je dis juste que commencer à chasser les friendfeed/fuzz/digg … en demandant à ne pas utiliser le titre de tes articles par peur de perdre ton positionnement, c’est peut-etre aller un peu loin non ?

Pour ce qui est de vivre du web, merci, ca c’est déjà fait ^^

Répondre
Alias+Docteur+House dit :

22 juin 2009 à 20 h 40 min

j’apprend aujourd’hui que j’ai été sanctionné par une régie publicitaire qui m’affirme que mon site n’est rempli que de duplicate content.

bah merde alors, je veux bien les croire, d’ailleurs à celui qui trouvera que toutes les quelques 350 pages de mon site se ressemblent au niveau du contenu, j’offre 2 tickets de concert pour le LILITH FAIR de 2001 au Canada. (frais de voyage inclus)

Répondre
petitchevalroux dit :

22 juin 2009 à 20 h 43 min

@A La French Je ne détiens pas la vérité, mon raisonnement est juste construit sur des suppositions et des constations. Donc si tu constates des améliorations n’hésite pas à me contacter sur twitter ou par mail (dispo sur mon site 😉

Répondre
Mox Folder dit :

22 juin 2009 à 21 h 51 min

@ petitchevalroux : “j’ai souvent remarqué que les contenus des agregateurs apparaissent avant les petits blogs même quand ceux ci pinguent mais une fois que le filtre duplicate passe les cad quelques jours aprés, le petit blog repasse en générale devant … Si qqn peut confirmer”

La raison simple me parait être que les aggrégateurs ont une activité beaucoup dense, là ou des plus petits blogs vont avoir peut-être un rythme moins effréné de publication.

Répondre
Gautier dit :

22 juin 2009 à 21 h 56 min

le coup du “la duplication c’est du vol” j’adhère pas trop …
c’est un peu le même genre de confusion que le gouvernement et les RIAA&co font avec la musique …

Répondre
Kiffe Grave dit :

23 juin 2009 à 0 h 35 min

Les commentaires qui suivent un articles sont-ils la propriété de l’auteur d’un article puisque ceux-ci sont un complément de l’article?

Répondre
MarieBo dit :

23 juin 2009 à 5 h 36 min

En utilisant Google Alerte, je suis avertie quand le contenu de mon blog se retrouve ailleurs.

J’ai eu une mauvaise surprise au mois de mai et j’ai réussi à obtenir que le “copieur” retire ce qu’il avait chipé sur mon blog.

J’en parle ici: http://astucesinternet101.blogspot.com/2009/05/gagner-de-largent-avec-adsense-sur-son.html

La date de parution des posts prouve qui est l’auteur initial, non ?

Chose certaine, il faut se défendre, mais aussi rester un peu zen face à tout ça.

Répondre
robson dit :

23 juin 2009 à 6 h 03 min

J’ai vu que vous avez mis les infos en bas du feed – j’en mettrai aussi le lien du billets en bas du chaque billet sur le site.
ça se fait de plus en plus chez les Anglo-Saxons – ça droit être contre les “scrapers” qui parse l’info et enlève le Header je suppose…

Répondre
FraGG dit :

23 juin 2009 à 18 h 10 min

Moi je dirais surtout que le gros problème la dedans… c’est Google et l’effet qu’il a sur le net…

Un moteur de recherche n’est pas sensé influer sur les résultats.

Répondre
Peter dit :

23 juin 2009 à 18 h 15 min

@Eric : tu pourrais aussi mettre en place une image JPG de tes textes (je l’avais programmé pour un client, quand il publiait son texte, cela créait un image jpeg du texte)

par contre pour google c pas super top !

Répondre
Cyber mendiant dit :

23 juin 2009 à 22 h 41 min

Bonsoir,

Très bonne article, je regrette juste que la partie :”dernier recours, que je n’ai pas encore employé : constat d’huissier et remise du dossier aux mains d’un avocat.” ne soit pas plus développé.
Qui contacter exactement et ou, comment prouver le plagia, comment ça se passe, pour quelle coût, etc…

Hormis le plagia d’un texte, si c’est le code (css/xhtml) qui est pillé (charte graphique) et reproduit quasi identique, comment prouver concrètement le plagia?

Merci

Répondre
moses k dit :

24 juin 2009 à 0 h 55 min

Bonjour,
pour information, Jean luc Raymond, expert en TIC publie à l’URL ci dessous des dossiers pertinents sur les droits et devoirs sur internet.

http://www.epn-ressources.be/?s=droit+de+l%27internet

bonne lecture

moses k

Répondre
Bizbiz dit :

24 juin 2009 à 9 h 02 min

Le DC une légende urbaine ? Il va falloir expliquer ceci à ceux qui en ont été les victimes.
J’ai eu un problème avec un annuaire : après avoir volé in extenso une page complète (la page “star” du site), le site est passé devant le nôtre sur les mots clés associés à cette page. Et Google nous a purement et simplement dégagé, l’autre site étant plus “gros” (plus de pages, alors que nous même sommes référencés par une quinzaine de sites institutionnels). L’annuaire en question a adopté la même stratégie avec plusieurs autres sites.

Voici mon retour d’expérience :

– Prévenir sèchement l’auteur s’il est identifiable
– En général, la réponse est : oui, pas de problème, je vais tout retirer, mais dans un cas sur quatre il ne se passe rien.
– Suivant la gravité du plagiat ou du vol, il faut faire constater par huissier (environ 600 euros pour quelques pages)
– Ecrire à l’hébergeur, en lui indiquant, constat d’huissier à l’appui, ce qui se passe. La plupart ne bougeront pas, mais après plusieurs plaintes répétées, les pages sont parfois supprimées.
– Si après ceci l’indélicat continue à vous pomper, alors il faut sortir l’artillerie : ce passage vous coûtera cher : entre avocat et mise en demeure, c’est plusieurs milliers d’euro. Si le plagiat ou le vol est réel, l’issu au Tribunal est certaine, mais la difficulté consiste à prouver le préjudice. Et à se faire payer.
– Il vaut mieux à mon sens taper là où ça fait mal. Google propose ce formulaire : http://www.google.fr/dmca.html
Je ne sais pas les suites qui sont données, si quelqu’un à un retour d’expérience, ce serait pas mal.
– En prévention : j’utilise copyscape (www.copyscape.com). Payant mais franchement pas mal. Le service détecte au mot près les plagiats et vols sur d’autres sites.
– Pour les images, il y aussi TinEye, qui peut s’ajouter en plugin sur Firefox.

Enfin, le plus dur pour moi a été de mobiliser : même si plusieurs sites sont victimes d’un même annuaire (ce qui est souvent le cas), les sites en questions ne voient pas le problème du DC, et certains vous disent même : “Bein c’est pas grave si le contenu est le même, au moins on est sûr que l’information est juste”… Réel et entendu d’une administration…

Répondre
FraGG dit :

24 juin 2009 à 9 h 52 min

Vous rendez vous compte que ce “problème” est surtout du à Google en fait. Et que c’est Google qui détiens l’avenir des blogs des sites et du net ?

Vous vous pliez aux règles de Google pour ne pas disparaître.

C’est quand même fou… Même si je comprends tout a fait !

Mais quand on voit que d’un déclassement sur Google peut se jouer la fermeture d’un site web…

Moi ça me rend fou de voir ce que Google a comme pouvoir sur le net, et encore plus quand Chrome sera répandu !

Répondre
Thierry dit :

25 juin 2009 à 23 h 12 min

Une question peut être naïve : traduire des articles trouvés sur des sites us en ajoutant un lien vers la source, vous le considérez comment ?

Répondre
Cyber+mendiant dit :

25 juin 2009 à 23 h 21 min

Comme du plagiat puisque ça revient à s’approprier le travail d’un autre.

Répondre
Eric dit :

25 juin 2009 à 23 h 23 min

@Thierry : comme de la traduction 🙂 rien de critiquable si la source est bien citée, et si il est indiqué clairement que c’est une adaptation ou une traduction d’un article original. Encore mieux si on l’accompagne d’un point de vue personnel.

Répondre
semageek dit :

27 juin 2009 à 1 h 11 min

Salut,
au cas où, je viens de développer un plugin qui fait tout automatique.
Identification et blocage des voleurs de contenu.
http://www.semageek.com/2009/06/27/pictpocket-un-plugin-wp-qui-identifie-et-bloque-les-voleurs-de-contenu/

Répondre
David dit :

30 juin 2009 à 14 h 18 min

Je viens d’écrire quelques détails sur une méthode quelque peu moins bisounours contre le hotlinking abusif (voir lien).

Au lieu de remplacer l’image, je préconise l’envoi du statut HTTP 401, ce qui a pour effet de faire apparaître une belle boite de dialogue dans le navigateur du visiteur du site peu respectueux (bien entendu, dans cette boite ce cache un court message explicatif…).

Par contre, faut vraiment éviter de le faire de façon automatique : le résultat n’est pas très agréable et il est impossible de créer une liste blanche des lecteurs de flux en ligne (web-agrégateurs).

Répondre
Joe+HANK dit :

5 juillet 2009 à 16 h 15 min

et concernant la traducation aprés la duplication ? c’est la meme chose ?

Répondre
David dit :

5 juillet 2009 à 22 h 28 min

@Cyber+mendiant (88) : Si on ajoute une attribution de la source comme le suggère Thierry (87), alors ce n’est pas du plagiat.

@Cyber+mendiant (88), @Joe+HANK (92) : Publier une traduction sans autorisation peut néanmoins s’avérer être une infraction au droit d’auteur (même avec citation de la source).

Concernant le “dommage” et la “concurrence” à l’auteur de l’original, il y a certes moins de problème de “duplicate content” (sauf si il existe déjà une traduction autorisée). Après c’est à chaque auteur d’avoir sa position…

Répondre
MonProprePatron dit :

10 juillet 2009 à 18 h 06 min

Bonjour,
Et que pensez-vous du fait de publiez son flux RSS sur la Fan page de Facebook? N’y a-t-il pas justement un risque de Duplicate Content?
Je vois que par exemple que la fan page de Presse-Citron ne le fait pas…

Répondre
keul dit :

27 juillet 2009 à 13 h 52 min

Pour l’image de hotlink, j’me demande si ça serais pas marrant de mettre redirection vers des photos de pédophiles et ensuite d’appeler la police pour leur dire que le site qui vous hotlink affiche publiquement des images pédophiles.
Si avec ça, le gars qui vous hotlink se retrouve pas rapidement en taule, on pourra contester les arguments de LOPPSI.

Répondre
STREAMING+Addict dit :

8 août 2009 à 15 h 22 min

Etre copié est vraiment dégueulasse… c’est insupportable.

Répondre
ALLNews dit :

10 août 2009 à 21 h 05 min

Je viens de me rendre compte que je suis victime de ce problème sur mon blog ALLNews.Fr.

Le site blogzetc.com reprend l’intégralité de mes articles un à un ! Evidemment aucun lien vers mon blog, rien en retour… A première vue l’auteur de cette arnaque se nommerai Christian Bonin. Il y a d’autres articles qui ne sont pas les miens, d’autres blogs sont donc également escroqués…

Avez-vous déjà entendu parler de ce Christian Bonin ???

Merci Eric pour cet article.

Répondre
MarieBo dit :

11 septembre 2009 à 23 h 44 min

Du contenu de ma famille de blogs sur la nutrition et la diététique a été volé à 3 reprises depuis mai 2009, et les 2 premières fois c’était par la même personne ! Le 3e énergumène qui a tenté le coup était un ami du premier.

Et on parle d’une quinzaine d’articles à chaque tentative. Pénible!

J’avoue que dans mon cas, il s’agissait de néophytes qui voulaient faire des €€€ facilement avec Adsense sans se casser la tête, mais si je ne m’en étais pas rendu compte dès le début à chaque fois, la majeure partie du contenu de mes blogs seraient maintenant sur le leur.

C’est important de réagir rapidement. Parfois celui qui copie votre blog ignore votre demande de retirer vos articles.

Dans le cas de petits blogs comme les miens, si vous devez faire une plainte aux administrateurs de la plate-forme où le contenu de votre blog est copié, vous devez faire la liste complète de tous les url d’articles copiés en parallèle avec les url de vos articles originaux.

C’est la même chose si ultimement vous devez faire une plainte à Google Adsense. Quelle perte de temps !

Ce qui m’aide particulièrement, c’est l’inscription sur Alertes Google pour voir passer l’utilisation qui est faite de mes mots-clés sur le Web.

Pour les blogueurs néophytes qui ne sont pas familiers avec la manipulation du code HTML, (geeks s’abstenir!) je propose une méthode étape par étape pour installer un code qui empêche de copier-coller le contenu de votre blog ou d’en faire une copie PDF si votre blog est sur Blogger,

L’url de l’article “Stop au Vol de Contenu et au Pillage de Blog” est ici: http://astucesinternet101.blogspot.com/2009/09/astuces-internet-101-stop-vol-de.html

Répondre
Mapics dit :

10 janvier 2010 à 14 h 23 min

Je trouve dommage de devoir justifier le fait que du ne veux pas subir du duplicate content pour tes articles, Google ne punie pas le duplicate content il se contente de ne pas faire apparaitre la page dans les résultats de recherche se qui à mon sens revient au même qu’une punition car si tous le monde copie ton blog devient invisible pour le coup.

Répondre
David dit :

13 janvier 2010 à 17 h 06 min

@Mapics : Euh, personnellement je ne suis pas sûr de comprendre ton commentaire.

Déjà, (a priori) Google ne fait pas ça sur la base du site entier mais page par page. Autrement dit, faut y aller pour qu’un site/blog devienne “invisible”. D’autant plus que les algorithmes semblent être quand même plutôt bon en ce qui concerne le choix du résultat supposé original qui lui reste affiché.

Ensuite, le “tous le monde” ne veut pas dire grand chose, dans le lot il y a de toute façon une énorme majorité qui ne copie pas, quelques-uns qui diront la source (et contribueront à ce que le blog original soit bien detecté par les algos de Google), quelques-uns qui sont des habitués du copier/coller intensifs (à ceux-là bonne chance pour arriver à “piquer la place” à quelqu’un sur Google), quelques-uns qui auront probablement un blog moins bien considéré par Google, et (c’est plus là le danger) de très rares ayant un blog à succès qui de temps en temps tombent quand même dans le vice de repiquer du contenu sans créditer l’original.

À mon avis, quand on a un site/blog avec une fréquentation “sérieuse”, il y a bien plus de chance de subir une baisse de fréquentation importante due à un placement non optimal sur certaines requêtes qu’une baisse de fréquentation importante due au duplicate-content.

Et certains sites spécialisés pour faire croire à Google qui détienne le bon contenu (ce qui n’est pas illégal en soi) sont au final bien plus néfastes que de la copie bête et méchante.

Répondre
Mapics dit :

13 janvier 2010 à 17 h 51 min

@David

Je suis d’accord avec toi ça fonctionne page par page pour le duplicate-content.

Pour sur que ont ne peut remplacer le blog que l’ont copie par le sien mais ça reste fatiguant de voir son contenue “voler” pour être diffusée sans être crédité avec au moins une mention.

Répondre
David dit :

14 janvier 2010 à 11 h 51 min

@Mapics : Il reste les solutions de type anti-pillage facile (non je ne parle pas de javascript anti-copier) ou de type “copié mais content”.

Mettre 2 ou 3 liens internes par article est plutôt un bon moyen pour ça…

Répondre
Serge+Demoulin dit :

23 mars 2010 à 19 h 40 min

Bonjour,

Article intéressant !
Je l’ai copié sur mon forum :
http://forum-marketing-internet.net/referencement-naturel/pourquoi-et-en-quoi-la-duplication-de-contenu-est-elle-prejudiciable/

Nooooon, je rigole ! 🙂

Répondre
Kate dit :

24 mars 2010 à 0 h 51 min

Très bon article effectivement. Mais juste histoire de pinailler, n’est-il pas nécessaire pour mieux se protéger si le litige est finalement soumis à huissier ou autre, de stipuler quelque part sur le site “Tous droits de reproduction interdits sans autorisation de l’auteur” ?

Répondre
dethpix dit :

18 juin 2010 à 19 h 24 min

magnifiquement bien expliqué!!! BRAVO éric!

Répondre
Ph3nol dit :

18 juin 2010 à 19 h 40 min

En même temps, un article de cette qualité, ça tente les plagieurs de base !

Très bon article.

Répondre
Mister5 dit :

18 juin 2010 à 21 h 31 min

Merci pour cet article très intéressant…

Il est vrai que pour les nouveaux bloggueurs ce n’est pas facile de ne pas tomber dans la confusion entre plagiat et citation.

Perso j’ai fait cette erreur en copiant une analyse intégrale d’un autre blog que j’ai cité. Je croyais vraiment que c’était suffisant.

J’essaye toujours de reformuler en citant la source dans le texte même de l’article. Mais s’agissant d’une longue analyse un peu compliquée à reformuler, j’avais peur d’alterer le contenu.

Merci encore Eric.

Répondre
creu dit :

18 juin 2010 à 23 h 06 min

Et le problème est encore plus vaste !

Le mois dernier j’achète le magazine Computer Arts, le premier depuis des années. Je tombe sur un dossier genre “Ce que cachent les logos”. Un mois plus tôt, j’ai vu exactement la même liste de logos sur un blog anglo-saxon bien connu. A quasi 8 euros le mag, ça fout les boules.

Et depuis des années, les infos du Canard Enchaîné sont relayées et détournées, dans les shows de Ruquier, Ardisson et repris par de nombreux “polémistes” de l’actu “politique” à la TV, qui ne prennent même pas la peine de citer leur source. La presse écrite, elle, ce contente d’évoquer le “journal satyrique”. Tout cela représente une vaste campagne de désinformation sur la qualité du journal dans l’opinion publique, qui n’imagine pas que pour 8 francs par semaine, on accède en fait à une vraie source d’information et de réflexion.

Répondre
sajoo dit :

5 novembre 2010 à 12 h 58 min

Google n’a jamais vraiment rien dit au sujet du duplicate content, c’est expliqué en anglais ici par Leslie Rodhe un des godfather du SEO

Répondre
Samy Berkani dit :

13 septembre 2011 à 10 h 30 min

Pour une fois je ne vais pas être d’accord avec ce qui se dit sur Presse citron 🙂

Si Google détecte un contenu dupliqué, c’est qu’il a détecté au préalable un contenu original. L’unique critère de jugement dont il dispose est la date d’indexation.

Premier indexé -> contenu original -> pas de filtre
Second indexé -> contenu dupliqué -> filtre

Car dans le cas contraire, il suffirait de dupliquer le contenu des concurrents pour les faire chuter dans les SERP 😉

J’ai publié un article sur le sujet : http://www.inside-referencement.com/referencement-143-le-contenu-duplique-duplicate-content-filtres-penalites-verites-idees-recues.html

Je trouve effectivement qu’il y a beaucoup d’idées reçues et d’incompréhensions autour de ce sujet.

Répondre
David dit :

20 novembre 2011 à 6 h 51 min

“Si Google détecte un contenu dupliqué, c’est qu’il a détecté au préalable un contenu original.”
Ou plutôt un contenu présumé original avant de savoir que le contenu existait deux fois.

“L’unique critère de jugement dont il dispose est la date d’indexation. ”
Ce n’est qu’une supposition.

Il est possible d’établir d’autres suppositions plus crédibles : Google dispose aussi d’informations concernant les liens qu’il a détecté vers les deux URLs associés au contenu. Qu’est ce qui exclut que l’algorithme complexe n’exploite pas ces informations ?

Google peut aussi prendre en considération (algorithmiquement) différents critères concernant les deux sites pour déterminer quel site faire passer en premier.

Bref, soit tu as des sources et des liens à nous fournir vers des affirmations de Google ou des vers des résultats d’expériences au méthodes “scientifiquement crédibles”, soit l’on peut penser que tu n’es pas forcément épargné par les “incompréhensions” et “idées reçues”…

Répondre
Samy Berkani dit :

28 novembre 2011 à 17 h 28 min

Hello David,
“Ou plutôt un contenu présumé original avant de savoir que le contenu existait deux fois.”
Par définition, pour qu’un contenu soit dupliqué, il faut que Google ait détecté le contenu original. Je ne vois pas comment cela pourrait être autrement. Si le “supposé” signifie que tant qu’il n’a pas trouvé une autre version, il est considéré comme original, alors cela va de soi, je suis d’accord.

“Google dispose aussi d’informations concernant les liens qu’il a détecté vers les deux URLs associés au contenu”
Partons du principe que seul des liens internes existent, ton raisonnement ne tiendrait plus ? Ou changerait de sens ?

“Google peut aussi prendre en considération (algorithmiquement) différents critères concernant les deux sites pour déterminer quel site faire passer en premier”
En tout cas, selon moi, pas des critères de “qualité” ou de “confiance”. Si tu as des sites en bonne santé, tu peux faire le teste : Publier deux articles sur un même sujet, avec des titres similaires, des expressions clés similaires, sans backlinks … L’un chopé sur une page déjà indexé et l’autre rédigé par toi même. Le résultat sera une page bien positionné (selon la qualité de ton site) et une autre à perpète … et ça fait 5 ans que c’est comme ça.

Ce que je dis n’est pas précis, (bien positionné et perpète ne sont pas des unité de mesure), mais indicatif.

“soit tu as des sources et des liens à nous fournir”
Parce que si quelqu’un d’autre l’avait écrit j’aurais eu raison ? 🙂 Je ne crois pas que le partage de contenu soit une compétence 😉

“soit l’on peut penser que tu n’es pas forcément épargné par les « incompréhensions » et « idées reçues »…”
Je ne connais pas ce “On” (je t’épargne l’expression …). Tu as le droit de le penser, voir même de le dire 🙂

Répondre
lionel dit :

16 février 2012 à 17 h 44 min

Bonjour Eric,

Sujet intéressant ! Depuis la publication de cet article, le content spinning s’est énormément développé et peut-être une solution contre la duplication de contenu (je ne parle pas de la reproduction illicite ni de référencement blackhat).

Cela peut permet de vérifier les taux de similarité lorsque l’on a une cinquantaine de descriptifs courts à effectuer pour des inscriptions dans des annuaires.

amicalement

Répondre