Google Panda : quelques paramètres du nouvel algorithme

Google Panda est un nouveau filtre mis en place par Google début 2011, déjà déployé dans les pays anglophones, et qui sera étendu prochainement au reste du monde. Google a travaillé depuis des mois, voire des années pour mettre en place Google Panda, en utilisant ce qu’on appelle un « algorithme d’apprentissage ».

Article rédigé par Sébastien de Chezelles, consultant SEO[1]

Google Panda est un nouveau filtre mis en place par Google début 2011, déjà déployé dans les pays anglophones, et qui sera étendu prochainement au reste du monde. Google a travaillé depuis des mois, voire des années pour mettre en place Google Panda, en utilisant ce qu’on appelle un « algorithme d’apprentissage ».

panda Google Panda : quelques paramètres du nouvel algorithme

Cela correspond à avoir pratiqué des validations à la main de centaines de milliers de sites pour détecter s’ils étaient du contenu type « Ferme de contenu », puis à mettre en place une multitude de critères pour faire des calculs sur ces échantillons afin de s’assurer que les critères du filtre permettaient un minimum d’erreurs.

Suite à cela, Google a identifié une liste de critères pertinents pour déterminer que tel ou tel critère signifiait que le site visité était du spam afin d’en calculer un sorte de note pour Google Panda, avec des notes positives, ou négatives sur chaque aspect.

Le moteur de recherche détermine ensuite que tel ou tel site obtient une note moyenne trop faible pour « Google Panda », méritant donc que le site soit pénalisé dans son algorithme et donc sur son positionnement dans les résultats de recherche (SERP – Search Engine Results Page).

Voici une liste non exhaustive des critères utilisés par Google :

-        Le taux de retour sur la page de recherche à partir de tel ou tel lien

-        La durée de visite des pages

-        Le trop fort taux de publicité

-        Le type de landing pages (pages d’entrées des internautes)

-        La pertinence d’une page avec le mot clef utilisé pour lui apporter de l’audience : certains forums ont poussé le référencement de certaines pages sur des mots clefs sans rapport avec le contenu réel de celles-ci

-        La qualité du contenu de la page (la part des contenus rédigés rapidement ou à la va-vite progressait sensiblement aux USA, les sites jouant des techniques de référencement pour prendre de l’audience et faire du CA sans contenu de qualité)

-        La page apporte-t-elle finalement la réponse à la question posée par l’internaute faisant la recherche : certains forums ont 90 % de discussions avec une réponse pertinente, quand d’autres concurrents trainent sous la barre des 40 % ; ces derniers étant pénalisés.

-        La vitesse d’affichage de la page

-        Présence de duplicate et contenus plagiés

-        Site étant intermédiaire : regroupement de tests pour faire une revue de presse, comparateurs de prix… Semblent moins touchés les aggrégateurs de contenus dans l’emploi !

-        Taux de crawl pour des pages sans intérêt : si Google passe 50 % de son temps de crawl sur des pages dont l’intérêt est nul en terme d’utilisateurs, il baissera la pertinence globale du site

-        La présence de contenus dupliqués

-        La présence de pages pour se référencer sur des termes quasiment identiques, en changeant uniquement quelques mots dans l’article ; voir la création de pages pour se référencer sur des requêtes avec fautes d’orthographes.

Pour d’autres critères, il n’a pas été déterminé de manière certaines qu’ils agissaient dans le filtre :

-        Le taux de clics sur les liens de tel ou tel site dans Google : si un site attire 20 % de clics de moins qu’un autre, à position égale, il y a un « problème »

-        L’âge moyen des pages : certains sites étaient positionnés principalement avec des pages datant de 2003 ou 2004 (d’ou le fait qu’on ait vu récemment apparaitre la date dans les algorithmes)

-        Il y a certainement des dizaines d’autres critères servant pour Google Panda, dans une moindre mesure, dont beaucoup ne sont pas connus.

Il faut toutefois veiller à ce que, même si son site ne devrait pas être pénalisé par Google Panda (qui n’est pas encore sorti en France), à continuer à travailler ces critères de qualité en optimisant en parallèle son référencement, étant donné que Google optimise en permanence Google Panda et pourra faire de nouvelles versions plus strictes.

Note d’Eric : selon certaines informations, Panda serait déployé dans le courant du mois d’août en France. Au sujet des mises à jour de l’algorithme Google, avez-vous remarqué que l’on ne parle pratiquement plus jamais du PageRank ? Une mise à jour du PR a pourtant eu lieu cette semaine, mais elle est passée totalement inaperçue.


[1]Sébastien de Chezelles est consultant indépendant en référencement et gérant de la société Web Conseils. Son profil Viadeo : http://www.viadeo.com/fr/profile/sebastien.dechezelles

31 commentaires

  1. tiens c est bizarre, j ai entendu dire que panda était passé au milieu du mois de juin.

  2. Bel article, il va falloir travailler la pertinence !

    Concernant le PR, si la MAJ est passée inaperçu, c’est parce que beaucoup se sont cassés la gueule :-)

  3. C’est un article très intéressant, merci, qui ne me rassure pas pour autant : comment Panda considérera des sites dont le contenu est une base de donnée acquise tout à fait légalement sous licence ? Les pages sont similaires avec d’autres sites, la localisation, la finalité et les attendus diffèrent. Ces sites se retrouveront-ils à la 30è page du classement ?

  4. La mise à jour est passé inaperçue pour la majorité car la plupart surveille le PR de la home : ce qui est important c’est le PR de chaque page plus que la home : me concernant j’ai bien remarqué la MAJ des PR des pages et la notation des contenus créés depuis la dernière Google Dance ;)

  5. Multi commentaire:
    On pense que l’update Panda à été déployé le 15 juin mais il reste des doutes. On penche pour un déploiement partiel ou seulement de quelques « brique »de l’algorithme parce que les implications sur les SERP semblent moins spectaculaires que ce qui s’est passé en mars aux USA . D’ailleurs on ne trouve que très peu d’info sur l’impact de ce déploiement alors que les meilleurs labo de veille SEO (Rank Metric pour ne citer que celui-la) sont bien sur le coup.

    @julien : En effet la remise à niveau du PR à donné des coups de Bambou à de nombreux sites qui ne s’en vantent pas. Il y a d’ailleurs de quoi remettre en cause la formule de calcul « officielle » diffusée par glouglou.

  6. Cela arrive déjà « trop » tard en France car pas mal de sites ont déjà adaptés

  7. J’ai lu sur des forums que Matt Cuts aurait annoncé un déploiement multilingue de Panda pour juillet.
    Quelles sont ces « informations » qui prévoient l’arrivée en France an août ?
    Mi-juin, il y a tout de même eu pas mal de mouvements dans les SERPS assez « brutaux » sur des sites francophones, à quelques jours d’intervalles (Cf. discussions sur WRI)…
    Concernant l’export de PR, je crois tout simplement que les webmasters se focalisent moins sur la taille de leur barre verte.

  8. En effet j’ai constater plusieurs mouvement dans le ranking de mes sites. Certain ont progressé fortement sans vraiment m’occuper du référencement mais d’autre on aussi chuter beaucoup chuter :-)
    Par contre je sais pas du tout si c’est dû à Mr panda.
    Ps: La mise à jour du page rank n’est pas du tout passé inaperçue sur certain forum :-p

  9. Le PR fait partie des plus de 200 facteurs de l’algorithme de Google. Son importance s’est amoindrie, tout comme la balise keywords.
    Il semble aujourd’hui, surtout avec le lancement de Google+, que Google se tourne de plus en plus vers le TrustRank. A savoir la notoriété et la confiance de chaque auteur dans la blogosphère. Et ce TrustRank va avoir, grâce à la popularité générée par le bouton Google +1, beaucoup de poids au moment du classement des pages dans les SERPs.

  10. Non elle n’est pas passé inaperçu parce que chez nous, on est passé de -1 à 4 :) et donc vive la Google Dance

  11. Eric

    @MetLife : …et ici non plus, Presse-citron a regagné son PR6 momentanément perdu depuis la précédente :-)

  12. Très bonne explication de Google Panda ! D’ailleurs j’ai appris quelques éléments dont j’ignorais encore l’importance pour l’application de Google panda en France.

  13. @Eric: inaperçue pour toi peut-être. Pas mal d’agitation dans les forums spécialisés

  14. Eric

    @Axel : oui certainement, mais je trouve que par rapport à il y a quelques années l’info n’a pas fait beaucoup de bruit dans les blogs alors que n’importe-quelle Google dance faisait la une des sites tech avant

  15. On peut noter qu’il est toujours mis à jour (ce qui doit représenter quand même une masse de calculs).

    On ne peut qu’en tenir compte pour évaluer la santé d’un site, mais c’est vrai que ce n’est pas (plus) une garantie de bon positionnement.

  16. Clairement les mises à jour ne correspondent pas à Google Panda, car peu de gros sites ont vu leur audience changée réellement (de + de quelques pourcents) !

    L’on peut par ailleurs voir que tous les agrégateurs n’ont pas vu de réelle baisse, quel qu’ils soient ! Je pense que Google a bcp de mal à adapter son algo hors de la langue Anglaise, surtout qu’il ne compte pas déployer pays par pays mais, je pense, pour quasiment l’intégralité des autres langues d’un coup ; et il ne peut se risquer à sortir un filtre marchant mal, ce qui lui ferait une très mauvaise presse.

  17. Parfait cet article ! C’est tout à fait ce que je cherchais pour cerner un peu mieux le nouvel algorithme mis en place par Google. J’ai déjà eu loisir de voir mon PR changer mais avec des informations comme ça je vais savoir quelle technique mettre en place pour optimiser au mieux mon référencement.

  18. Pingback: Interview autours du Référencement par Pourquoi-Entreprendre « Consultant SEO

  19. Pingback: Interview SEO par Pourquoi-Entreprendre « Consultant SEO

  20. Bonsoir,

    est-ce que le duplicat content ainsi que la vitesse de téléchargement d’une page web sont des critères importants dans le classement des sites chez google?

    Merci.

  21. @volière
    Google communique sur le temps de chargement de page parce que cela lui coûte très cher en crawling. donc oui il faut mieux optimiser ton code et ne pas être trop lourd à charger.
    Le duplicate content est un des éléments dans la ligne de mire de Panda – la mise à jour dont tous le monde parle , lis la dessus sur le web tu seras vite convaincu que le contenu prend une importance cruciale incite à un meilleur chargement

  22. @Yanick,

    merci de ta réponse. J’ai en effet un grand nombre d’url dupliquées indexées dans google. J’essaye de supprimer toutes ces urls depuis les outils proposés par google ( suppression url, paramètres url), mais cela prend un temps long à désindexer.

    Bonne journée.

  23. C’est le premier article que je lis sur de nombreux qui traitent de la mise à jour Panda qui donne autant de détails sur les nouveaux critères, quelqu’un a-t-il des informations sur les critères mal connus ?

  24. Pingback: Les premiers impacts de Google Panda sur le web français

  25. Une précision qui me parait importante. Vous écrivez:

    « Site étant intermédiaire : regroupement de tests pour faire une revue de presse, comparateurs de prix… Semblent moins touchés les aggrégateurs de contenus dans l’emploi ! »

    Ce n’est pas le cas. La seule raison pour laquelle ce type de sites peut être plus touché est que souvent ils ne proposent que du contenu dupliqué. Un site comparateur avec du contenu unique et approprié, ne sera pas touché.

    Dans mon cas, je travaille pour un comparateur et nous avons fait de grands bons dans les résultats de recherche.

  26. Le contenu dupliqué n’est pas le seul critère qui peut pénaliser le référencement.

    Je ne sais pas si c’est le fait de Panda, mais j’ai vu sur deux sites le déplacement des positions de la page 1 vers le fond du classement pour des mots clés très ciblés. Sans doute il a été jugé que ces mots clés étaient sur-optimisés.

    C’est intervenu début 2011. Il est clair qu’il y a eu un arbitrage.

    La particularité étant que ces mots clés étaient fortement dominants dans les site et les backlinks, mais sous représentés dans les sites voisins.

    C’est très bien fait car cela ne pénalise qu’un mot clé, les autres semblant garder le plein effet.

    Le contenu dupliqué n’était pas la cause de cette éclipse de mots clés.

  27. Depuis Panda (et récemment Pingouin), de plus en plus de site commencent à se tourner vers le référencement efficace, au détriment des méthodes plus sombre. Je suis d’accord pour dire que nous sommes plutôt gris, car avec le temps, nous aimons automatiser certaines taches rébarbatives, il faut l’avouer.

Lire les articles précédents :
Portraits de technomades : Kalagan

Ils se surnomment "technomades" ou "digital nomades". Une catégorie qui tire profit de l’avantage que procure internet pour être mobile....

Fermer