Que sont les X-robots-tag ?
Il existe quelques types de directives qui indiquent aux robots des moteurs de recherche les pages et autres contenus que les robots seront autorisés à explorer et à indexer. Les plus courantes sont le fichier robots.txt et la balise meta robots.
Le fichier robots.txt indique aux moteurs de recherche d’explorer une partie spécifique de votre site Web, qu’il s’agisse d’une page, d’un sous-dossier, etc.
Cela permet de produire une exploration plus optimisée en indiquant à Google les sections moins importantes du site que vous ne souhaitez pas voir indexées en priorité.
Une autre directive couramment utilisée est la balise meta robots. Elle permet de contrôler l’indexation au niveau de la page.
Que sont les valeurs inclues dans les meta robots ?
Une balise meta robots peut inclure les valeurs suivantes :
- Index : Permet aux moteurs de recherche d’ajouter la page à leur index.
- Noindex : Empêche les moteurs de recherche d’ajouter une page à leur index et l’empêche d’apparaître dans les résultats de recherche pour ce moteur de recherche spécifique.
- Suivre : Indique aux moteurs de recherche de suivre les liens d’une page, afin que le crawl puisse trouver d’autres pages.
- Nofollow : Indique aux moteurs de recherche de ne pas suivre les liens d’une page.
- Aucun : Il s’agit d’un raccourci pour noindex, nofollow.
- All : C’est un raccourci pour index, follow.
- Noimageindex : Empêche les moteurs de recherche d’indexer les images d’une page (les images peuvent néanmoins être indexées à l’aide de la balise meta robots, si elles sont liées à un autre site).
- Noarchive : Indique aux moteurs de recherche de ne pas afficher la version en cache d’une page.
- Nocache : C’est la même chose que la balise noarchive, mais spécifique au Bingbot/MSNbot.
- Nosnippet : Indique aux moteurs de recherche de ne pas afficher les extraits de texte ou de vidéo.
- Notranslate : Indique aux moteurs de recherche de ne pas afficher les traductions d’une page dans les SERP.
- Unavailable_after : Indique aux moteurs de recherche un jour et une heure spécifiques pour lesquels ils ne doivent pas afficher un résultat dans leur index.
- Noyaca : indique aux robots d’exploration de Yandex de ne pas utiliser les descriptions de pages dans les résultats.
Une autre balise importante à prendre en considération
Cependant, il existe une autre balise qui permet d’émettre des directives noindex, nofollow.
La balise X-Robots-tag diffère du fichier robots.txt et de la balise meta robots, car elle fait partie de l’en-tête HTTP qui contrôle l’indexation d’une page dans son ensemble, en plus d’éléments spécifiques de la page.
Selon Google : « Toute directive pouvant être utilisée dans une métabalise robots peut également être spécifiée en tant que X-Robots-Tag ».
Bien que vous puissiez définir des directives liées à robots.txt dans les en-têtes d’une réponse HTTP à l’aide de la balise meta robots et de la balise X-Robots-tag, il existe certaines situations où vous voudriez utiliser la balise x-robots-tag.
Essentiellement, la puissance de la balise X-Robots-tag est qu’elle est beaucoup plus flexible que la balise meta robots.
Il est également possible d’utiliser des expressions régulières, d’exécuter des directives crawl sur des fichiers non-HTML, ainsi que d’appliquer des paramètres à un niveau plus large et global.
Pour mieux expliquer la différence entre toutes ces directives, il est utile de les classer en fonction du type de directives dont elles relèvent. Il s’agit soit des directives pour les crawlers, soit des directives pour les indexeurs.