Les pages indexées par Google sont des pages dont le contenu a déjà été parcouru par les robots au moment du crawl d’un site. Ces pages figurent dans ce que l’on appelle « l’index de Google ». Toutes les pages de l’index sont donc susceptibles d’apparaître dans les résultats du moteur de recherche, elles sont alors visibles des internautes. Le référencement naturel a pour but d’optimiser l’apparition des pages d’un site Web sur les SERPs. Aussi, pourquoi aller contre ce principe en cherchant à désindexer certaines pages ? Focus sur l’utilité de la désindexation des pages Google !
Sommaire
Qu’est-ce que l’indexation d’une page ?
L’indexation est une phase clé du processus de référencement naturel. Un site Internet comprend un certain nombre de pages qu’il s’agit de faire connaître à Google et aux internautes. Pour ce faire, les robots de Google sont chargés de parcourir (ou de crawler) l’ensemble de la toile. Au moment du crawl, les robots parcourent, analysent, répertorient et classent la page de votre site Web : c’est ce que l’on appelle la phase d’indexation. C’est cette étape qui va permettre à vos pages d’apparaître dans les résultats du moteur de recherche.
Attention toutefois à ne pas se méprendre quant au rôle de l’indexation sur le classement d’un site sur les moteurs de recherche. Une page indexée n’est pas nécessairement une page qui apparaît en première page des SERPs. L’indexation n’est que la première étape de votre stratégie de référencement naturel.
L’indexation est réalisée par des robots nommés « spiders ». Les spiders ont ainsi été appelés parce qu’ils sont chargés de parcourir la toile que constitue Internet. Nous vous l’expliquions dans notre article sur les robots.txt : il est possible d’indiquer aux robots les pages dont vous souhaitez prioriser le crawl. Le fichier robots.txt permettra en effet de montrer aux robots les pages dont vous ne souhaitez pas favoriser l’indexation.
Le processus de désindexation fonctionne différemment : comme son nom l’indique, une page désindexée est une page dont le crawl a déjà été effectué.
Pourquoi faut-il parfois désindexer les pages d’un site Web ?
Les robots de Google chargés de crawler la toile ne font pas dans la dentelle : en l’absence d’indication de votre part, ils indexeront l’ensemble des pages de votre site Web même si ces dernières ne présentent aucun intérêt pour les internautes ou pour le SEO. Cette méthode de crawl était plutôt bénéfique à l’époque où l’on considérait qu’il fallait indexer un maximum de pages pour être présent sur les moteurs de recherche. La donne a cependant changé depuis la mise à jour Panda.
Depuis les années 2010, Google a engagé une lutte contre le spam. Pour ce faire, le géant du Web a mis en place un système de filtre appelé « Panda ». Objectifs du filtre : pénaliser les sites de mauvaise qualité et privilégier un contenu pertinent. La désindexation correspond donc à du bon sens : il vaut mieux privilégier la qualité à la quantité !
La désindexation peut même être favorable à votre bon référencement naturel. À l’instar du fichier robots.txt, la désindexation permet en effet d’optimiser votre budget crawl. En désindexant des pages inutiles vous organisez le temps de crawl des robots et donnez la priorité à des pages Web que vous souhaitez vraiment valoriser.
Le processus de désindexation peut être utile pour plusieurs raisons : certaines pages sont indexées par erreur, d’autres relèvent du « duplicate content », elles sont de mauvaise qualité ou présentent un contenu qui peut poser problème pour votre activité (allégations de santé, contenu sensible, etc.).
Quelles pages Web faut-il désindexer ?
Les pages au contenu obsolète : votre site contient un « Journal » ou un « blog » sur lequel vous publiez régulièrement des articles liés ou non à l’actualité de votre domaine d’activité. Si vous suivez un planning de publication régulier, il est possible que certains articles ne soient plus d’actualité. Si vous prévoyez de les mettre à jour, ne les supprimez pas de votre site : désindexer les tout simplement et prévoyez de les indexer de nouveau lorsqu’ils ne seront plus obsolètes.
Le contenu dupliqué : Google pénalise parfois durement les sites présentant du contenu dupliqué. Même en luttant contre le contenu dupliqué, il arrive qu’un site comporte des contenus similaires : c’est le cas par exemple lorsqu’un article est disponible en ligne et en version PDF téléchargeable ou à imprimer.
Les pages comportant peu de contenu ou un contenu non pertinent : eh oui, elles existent et beaucoup de propriétaires de sites Internet n’y songent pas. Il peut s’agir tout simplement d’une page qui remercie l’internaute pour son achat ou d’une page de forum ne comportant aucune réponse.
Le contenu protégé : il s’agit par exemple des formulaires remplis par les internautes et contenant des données personnelles.
Comment désindexer vos pages Web sur Google ?
Il existe deux grandes méthodes de désindexation : la balise meta et le X-Robots-Tag.
La balise meta robots donnera aux robots la directive d’indexation d’une page. Si la balise indique « content = index, follow » alors le contenu ne sera pas indexé, mais les liens présents sur la page seront suivis. Si la balise indique « content = noindex, follow » alors la page ne sera pas indexée et les liens ne pourront être suivis. Si la page en question est déjà indexée, elle sera désindexée, si toutefois elle n’est pas encore indexée elle ne le sera pas à l’avenir.
Le X-Robots-Tag est utile pour désindexer les contenus non HTML comme les documents PDF ou les fichiers Excel par exemple. Elle vous permettra notamment de désindexer des images.
Le processus de désindexation peut prendre du temps. Votre page ne sera en effet désindexée seulement lorsque les robots de Google décideront d’y accéder.
Après avoir désindexé vos pages inutiles, établissez un rythme de veille. Grâce à la Search Console, vous pourrez suivre le nombre de pages indexées par le moteur de recherche. Pour accélérer le processus de désindexation, vous pouvez également fournir à Google un sitemap entièrement dédié aux pages que vous souhaitez désindexer. Si un contenu doit être supprimé rapidement de votre site, rendez-vous directement dans la Search Console pour demander à Google de supprimer temporairement une adresse URL de son index.