Définition du duplicate content
Terme anglophone qui fait référence au contenu dupliqué d’un site. Pour faire simple ce sont les contenus identiques qui peuvent être accessibles par des adresses url différentes.
Il existe deux formes de duplicate content, celui crée par l’automatisation de la réécriture d’url de votre site internet, et le contenu dupliqué copier-coller depuis une source web.
De toute évidence, Les moteurs de recherche ne pénalisent pas de la même manière ces deux types de duplicate content. Dans le premier cas, vous n’avez pas de pénalité directe mais vous allez voir dans les lignes suivantes que l’optimisation technique et la mise en place de solutions du contenu dupliqué sur votre site vous éviteront la dispersion de l’audience internet sur toutes les pages dupliquées.
1. Contenu identique sur votre site
Les pages dynamiques de tout site posent un problème pour les moteurs de recherche. En effet une page dynamique correspond à une page crée à la volée. Qui est, à partir d’un gabarit d’affichage (page php, asp, tpl…). Ainsi, que d’une base de données. Au moment où l’internaute veut voir la page correspondant à un de vos produits. Mais aussi, d’un service, ce qui se passe réellement sur votre serveur, c’est l’envoi. Ainsi, que le retour d’une requête vers la base de données pour cette page. Pour éviter les urls compliquées. La plupart des webmasters mettent en place une réécriture d’url pour que les urls soient plus explicites pour l’internaute. La réécriture d’url (url rewriting en anglais) est composée de plusieurs règles qui déterminent comment remplir l’url et avec quel paramètre (le plus souvent avec le nom du produit, parfois son numéro d’identifiant ou sa catégorie).
Du fait de la réécriture, vos pages sont alors disponibles à partir maintenant de deux urls.
En exemple pour le produit Iphone:
– mondomaine.fr/product.php?categorie=563&id=15
– mondomaine.fr/iphone-3GS
C’est ce qu’on appelle le contenu dupliqué ! Pour pousser plus loin, nous allons voir qu’il a bien plus que deux urls valides pour une même page.
Duplicate content sur la homepage
Sans forcément le savoir votre page d’accueil peut être visitée via plusieurs url différentes. Faites le test sur votre site ou celui que vous voulez sur le net :
– domaine.fr
– domaine.fr/
– domaine.fr/index.html
– domaine.fr/?
– www.domaine.fr
– www.domaine.fr/
– www.domaine.fr/?
– www.domaine.fr/index.html
Les moteurs de recherche ne pénalisent pas le duplicate content, mais l’impact est pourtant multiple:
– Les liens internes et externes qui pointent vers vos pages peuvent être répartis sur plusieurs urls, le page rank se divise alors par le nombre d’urls liées.
– Dans les pages de résultats des moteurs de recherche, le lien affichée en dessous du descriptif peut être différent et manqué d’information, rebutant ainsi l’internaute à cliquer dessus.
Les solutions au contenu dupliqué
Il existe plusieurs méthodes pour éviter le duplicate content sur un site web.
Récemment, l’ensemble des moteurs de recherche se sont mis d’accord sur la création d’un tag permettant de privilégier une page sur votre site plutôt qu’une autre dupliqué. En général on considère la page réécrite et bien plus explicite comme la page de référence à montrer aux internautes.
- La méthode de l’url canonique ou rel=”canonical”
- La redirection 301
Source Google [duplicate content]
Article sur le centre d’aide aux webmasters.
2. Le contenu dupliqué : plagiat sur internet
Il s’agit dans ce cas d’un vol de contenu éditorial de votre site par le biais de plagiat de votre contenu qui est ensuite utilisé sur un ou plusieurs autres sites internet. Sans le moindre effort le copieur souhaite gagner du temps en reprenant le contenu qui ne lui appartient pas.
Ce type de contenu dupliqué est le cheval de bataille des moteurs de recherche et notamment Google qui en fait une affaire personnelle. En effet, ses robots qui indexent les pages web reconnaissent les contenus similaires, malgré les synonymes et les modifications mineures du texte. Le plagiat est passible de pénalité sous forme de dépressiation (voire non-indexation) des pages aux contenus dupliqués.
Donc un conseil, pensez à prendre quelques minutes pour créer vos propres contenus pour éviter d’être blacklisté par un ou plusieurs moteurs de recherche.