1274-image1-fr1402354010.jpg

Google deteste le contenu dupliqué

Le contenu dupliqué est un contenu identique, voire très proche qui se retrouve sur différentes pages d’un même site ou sur des sites différents. Les moteurs de recherche, dans un soucis de qualité et afin de proposer des résultats de recherche sans répétition ne vont pas afficher plusieurs fois le même contenu même s’il provient de pages ou de sites différents. Ils vont donner moins de visibilité à ces pages, voire exclure les sites de leur index contenant trop de contenus dupliqués.
 
Au fait, qu’est-ce que le contenu dupliqué, appelé aussi duplicate content ? Quels problèmes posent ce phénomène et quelles sont les solutions possibles ?
 
Quand on parle de contenu dupliqué, on pense tout de suite aux contenus de sites web copiés et repris sur d’autres site web, sans autorisation de l’auteur. Mais le contenu dupliqué, c’est aussi celui généré bien involontairement. Et il est beaucoup plus présent qu’on ne le croit.
 
Google et les moteurs de recherche, lorsqu’ils se trouvent en présence de contenus dupliqués, sont capables de déterminer quel est le contenu original, appelé « canonique ». Google classe les pages considérées comme importantes dans l’index principal. C’est là que sont classées les pages canoniques. Les autres pages sur lesquelles figure du contenu copié sont délaissées. Reléguées dans l’index secondaire, elles sont pénalisées en terme de visibilité.
 
Même si Google indique qu’il n’y a qu’un seul index depuis 2007, Olivier Andrieux, dans son livre « Réussir son référencement web 2014 » nous explique qu’il ne s’agit peut être pas de deux index complètement distincts, mais qu’en fait les pages ne sont pas toutes placées au même niveaux. Ce qui compte finalement, c’est la façon dont Google traite les pages.
 
 
 
Toutes les pages qui apparaissent avant ce message figurent dans l’index principal. En cliquant sur "Relancer la recherche pour inclure les résultats omis" l’ensemble des pages figurant dans l’index principal et secondaire s’affichent.

 
 
Pour vérifier dans quel index se trouvent vos pages, vous pouvez utiliser ces requêtes sur Google (non officiel) :
Pour rechercher dans l’index principal : « site:www.votresite.com/* », ou « site:www.votresite.com/& ». Mettre /* ou /& indique à Google qu’il doit faire la recherche dans son index principal.
Avec cette requête, « site:www.votresite.com/ », Google cherche dans l’ensemble de ses résultats.
 
Le contenu dupliqué a aussi une autre conséquence : le jus de lien des pages est dispersé et les pages de votre site peuvent perdre de leur popularité.
 
Afin de ne pas pénaliser les pages de son site web, il est donc impératif de prendre les bonnes mesures pour ne pas produire du contenu dupliqué, identifier le contenu dupliqué s’il existe et le supprimer. Et s’il est copié sans autorisation, demander sa suppression.
 
Petit tour d’horizon non exhaustif des différents cas de contenus dupliqués. Ici, je ne vais pas détailler les techniques spécifiques à mettre en place, mais plus vous alerter sur les problèmes de duplication de contenus.
 
 
 

Contenus copiés par un tiers sans autorisation et sans faire apparaître la source – vol de contenus

  
> Exemple d’outil en ligne pour détecter les contenus copiés : Copyscape
  
> Solution : demander au site « pirate » le retrait du contenu dupliqué, ou lui demander d’indiquer que le contenu est dupliqué via l’insertion d’une balise « canonical » dans son code <HTML>. C’est une situation généralement difficile à gérer… qui ne donne pas toujours des résultats. Si le site est situé en France, la menace d’une action en justice peut régler le problème. Si le site est hébergé à l’étranger, malheureusement, il ne vous reste plus qu’à augmenter la popularité de vos pages.
 
 
 

Contenus copiés par un tiers avec autorisation – contenus affiliés

 
Il s’agit de catalogues de produits, communiqués de presse, sites partenaires reprenant les mêmes contenus…
Il est possible d’indiquer à certains moteurs comme Google, Yahoo ! et Bing qu’une page est dupliquée en ajoutant ce code HTML dans sa zone <head> : « 
 
  
<link rel="canonical" href="http://www.votresite.com/page-canonique.html" />
 
 
Plus d’information sur la balise « canonical ».
 
 
 

Page accessible avec un contenu identique via plusieurs URL(s) différentes

 
Exemple d’une même page placée dans des catégories, des rayons ou des mot-clés différents. C’est bien souvent le cas des CMS comme WordPress, Drupal, Joomla…
 
 
www.votresite.com/categorie1/monproduit.html
www.votresite.com/categorie2/monproduit.html
www.votresite.com/rayon1/monproduit.html
www.votresite.com/mot-cle2/monproduit.html
 
 
On peut parfaitement placer un article dans plusieurs catégories, rayons, mot-clés… à condition de ne pas créer de contenu dupliqué.
 
> Solution : insérer une balise « canonical » dans le code <HTML> de chaque page dupliquée.
 
 
 

Pages sécurisées indexées

 
http://www. nomdusite.com/mon-article.html
https://www. nomdusite.com/mon-article.html
 
 
> Plusieurs solutions possibles : insérer une balise « canonical » dans le code <HTML> de la page dupliquée https, créer un fichier robots_https.txt qui contiendra un Disallow pour l’ensemble du site, utiliser une balise meta no-index pour toutes les url en https… Il existe de nombreuses solutions pour les pages dupliquées en https.
 
 
 

Site Web accessible avec et sans www devant le nom de domaine

 
Il est pratique pour les internautes de ne pas avoir à se soucier du www pour accéder à votre site. La saisie est plus simple. Mais si votre site est indexé avec la version et sans la version www, il tombe dans le phénomène de duplicate content.
 
 
www.votresite.com/
votresite.com/
 
 
> Solution : faire par exemple une redirection 301 très bien comprise par les moteurs de recherche. Les adresses pointeront vers un site web unique. On peut utiliser les outils pour webmaster de Google et définir l’adresse canonique de votre site. Dans Paramètres du site, choisir « Domaine favori  ». Mais cette solution est uniquement valable pour Google.
 
Cela ne dispense pas d’ajouter dans son fichier.htaccess les informations suivantes :
 
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.votresite.com [NC]
RewriteRule (.*) http://www.votresite.com/$1 [QSA,R=301,L]
 
 

Nom de domaine dupliqué

 
Un site est accessible à partir de plusieurs nom de domaine.
 
www.votresite.com,
www.votresite.net,
www.votresite.fr
 
> Solution : la fameuse redirection 301 à l’aide du fichier .htaccess situé à la racine du site.
 
 
 

Différentes pages index pour la même page d’accueil

 
Cela pose aussi le même problème de contenus dupliqués.
 
 
www.votresite.com/index.html
www.votresite.com/index.htm
www.votresite.com/index.php
 
 
> Solution : indiquer dans le code source de chaque page, la balise "link rel canonical" sous cette forme :
 
<link rel="canonical" href="http://www.votresite.com/" />
 
Lire les informations complémentaires sur le Duplicate Content Dust et la balise canonical.
 
 
 

Un même contenu dupliqué sur différentes URL, pour une cible spécifique

 
Prenons l’exemple d’une page en espagnol pour l’Espagne et un contenu identique en espagnol pour le Mexique. C’est du contenu dupliqué dans toute sa grandeur. Les URL(s) sont différentes et le contenu est identique.
 
www.votresite.com/es/categorie.html pour l’Espagne,
www.votresite.com/mx/categorie.html pour le Mexique.
 
> Solution : utilisation de balises multilingues. En utilisant ces balises, Google et les moteurs de recherche identifient la langue et le pays cible d’une page. C’est également mieux pour les pages de résultats adaptées à la cible.
 
Google donne l’exemple suivant avec 4 sites web ciblés en français vers des pays différents (Belgique, Canada, Suisse et France). Pour indiquer à Google la langue et le pays spécifiques pour chaque version des pages, intégrez les balises multilingues dans chacune d’elle :
 
<link rel="alternate" href="http://example.com/fr-be" hreflang="fr-be" />
<link rel="alternate" href="http://example.com/fr-ca" hreflang="fr-ca" />
<link rel="alternate" href="http://example.com/fr-ch" hreflang="fr-ch” />
<link rel="alternate" href="http://example.com/fr" hreflang="fr" />
 
Si les contenus sont traduits en différentes langues, par exemple en anglais et en russe.
 
<link rel=’alternate’ hreflang=’en’ href=’http://en.example.com/’ />
<link rel=’alternate’ hreflang=’ru’ href=’http://ru.example.com/’ />
 
Plus d’information sur l’attribut hreflang sur l’aide en ligne de Google.
 
 

La versions imprimable d’une page

 
Une variable est ajoutée à l’URL de la page web. La page www.votresite.com/produit.php?id=123 et la page www.votresite.com/produit.php?id=123&print=1 pour la version imprimable. Encore une fois, on est en présence de contenu dupliqué.
 
Il faut utiliser la redirection 301, à l’aide du fichier .htaccess situé à la racine du site.
 
 
 
 

Même balise <title>, même balise meta description

 
La balise <title> d’une page doit être unique. C’est l’un des éléments très importants en référencement naturel. Chaque page possède un titre de page unique. Si plusieurs pages possède un <title identique>, il s’agit encore de contenu dupliqué. Imaginez des résultats de recherche ou de nombreuses pages ont le même <title>. Pour la balise meta description, c’est la même chose. Si Google trouve des meta descriptions identiques, il classera les pages en contenu dupliqué, même si le contenu éditorial est différent.
 
 
 

Pages d’un même produit dont une faible portion de contenu change

 
Certains produits changent uniquement par la couleur, la taille… et sont accessibles via des URL différentes. Encore une fois, le duplicate content frappe, même si le contenu est légèrement différent.
 
> Solution : pour éviter cela, on considère qu’à partir de 30 % de contenu différent, le duplicate content ne s’applique plus. Enrichir les contenus avec des notions de géolocalisation (Google Maps), des ressources supplémentaires ou des informations contextuelles différentes. L’utilisation de synonymes ou de termes associés peut être une bonne chose.
 
 
Le duplicate content est un vaste sujet dont il faut connaître les effets. Si l’on n’y prend pas garde, on risque de produire du contenu dupliqué très facilement. Ces quelques éléments d’information doivent vous permettre de ne pas tomber dans ce piège.
 
Pour enrichir vos con aissances vous pouvez aussi consulter l’excellent livre d’Olivier Andrieux " Réussir son référencement web" Edition 2014 et le Centre d’aide webmasters de Google sur le contenu dupliqué, ainsi que "le contenu dupliqué" par 60canards.com
 
 
Sutout, n’hésitez pas à utiliser les outils pour webmaster de Google pour lutter contre le contenu dupliqué de votre site web.
 
 
 
Source de la vignette en haut de page : Mohabbot – Wikimedia Commons

Auteur : Denis ALLARD

Denis ALLARD
Rédacteur Web sur le blog studiovitamine depuis 2009, j'ai pu mesurer l'évolution fulgurante du web, des nouvelles technologies, du e-commerce... Quand je n'écris pas pour le web, je me consacre à l'ergonomie, au référencement naturel et à la formation universitaire des futurs concepteurs de sites...

Commentaires Facebook

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *