Qu’est-ce que le contenu dupliqué ?
Le contenu dupliqué est un contenu qui apparaît sur l’internet à plus d’un endroit. Ce « seul endroit » est défini comme un emplacement avec une adresse de site Web unique (URL). Ainsi, si le même contenu apparaît à plus d’une adresse Web, il s’agit de contenu dupliqué.
Bien qu’il ne s’agisse pas techniquement d’une pénalité, le contenu dupliqué peut parfois avoir un impact sur le classement des moteurs de recherche. Lorsqu’il existe plusieurs éléments de contenu, comme Google l’appelle, « sensiblement similaire », à plusieurs endroits sur Internet, il peut être difficile pour les moteurs de recherche de déterminer quelle version est la plus pertinente pour une requête de recherche donnée.
Pourquoi le contenu dupliqué est-il un problème ?
Pour les moteurs de recherche :
- Le contenu dupliqué peut présenter trois problèmes principaux pour les moteurs de recherche :
- Ils ne savent pas quelle(s) version(s) inclure/exclure de leurs index.
- Ils ne savent pas s’ils doivent diriger les mesures de liens (confiance, autorité, texte d’ancrage, équité des liens, etc.) vers une page, ou les garder séparées entre plusieurs versions.
- Ils ne savent pas quelle(s) version(s) classer pour les résultats des requêtes.
Pour les propriétaires de sites :
- En présence de contenu dupliqué, les propriétaires de sites peuvent subir des pertes de classement et de trafic. Ces pertes sont souvent dues à deux problèmes principaux :
- Pour offrir la meilleure expérience de recherche, les moteurs de recherche affichent rarement plusieurs versions d’un même contenu, et sont donc obligés de choisir la version la plus susceptible de donner le meilleur résultat. Cela dilue la visibilité de chacun des doublons.
- L’équité des liens peut être encore plus diluée car les autres sites doivent également choisir entre les doublons. Au lieu que tous les liens entrants pointent vers un seul élément de contenu, ils pointent vers plusieurs éléments, répartissant l’équité des liens entre les doublons. Les liens entrants étant un facteur de classement, cela peut avoir un impact sur la visibilité d’un élément de contenu dans les recherches.
Comment les problèmes de contenu dupliqué se produisent-ils ?
Dans la grande majorité des cas, les propriétaires de sites Web ne créent pas intentionnellement de contenu dupliqué. Mais cela ne veut pas dire qu’il n’y en a pas. En fait, selon certaines estimations, jusqu’à 29 % du web est constitué de contenu dupliqué ! C’est un aspect qui peut dévaloriser votre référencement SEO.
Examinons quelques-unes des façons les plus courantes de créer involontairement du contenu dupliqué :
- Variations d’URL
Les paramètres d’URL, comme le suivi des clics et certains codes d’analyse, peuvent causer des problèmes de contenu dupliqué. Ce problème peut être causé non seulement par les paramètres eux-mêmes, mais aussi par l’ordre dans lequel ces paramètres apparaissent dans l’URL elle-même.
- Pages HTTP et HTTPS ou pages WWW et nonWWW
Si votre site a des versions distinctes à « www.site.com » et à « site.com » (avec et sans le « www »), il est possible que vous ayez des problèmes de sécurité, (avec et sans le préfixe « www »), et que le même contenu est présent sur les deux versions, vous avez effectivement créé des doublons de chacune de ces pages.
- Contenu récupéré ou copié
Le contenu comprend non seulement les articles de blog ou le contenu rédactionnel, mais aussi les pages d’information sur les produits. Les scrappeurs qui republient le contenu de votre blog sur leurs propres sites sont peut-être une source plus familière de contenu dupliqué, mais il existe également un problème courant pour les sites de commerce électronique : les informations sur les produits. Si plusieurs sites Web différents vendent les mêmes articles et qu’ils utilisent tous les descriptions du fabricant de ces articles, un contenu identique se retrouve à plusieurs endroits sur le Web.