Qu’est-ce qu’un fichier robots.txt ?
Le fichier robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots Web (généralement les robots des moteurs de recherche) comment explorer les pages de leur site Web. Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP), un groupe de normes Web qui régissent la manière dont les robots explorent le Web, accèdent au contenu, l’indexent et le proposent aux utilisateurs. Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions concernant la manière dont les moteurs de recherche doivent traiter les liens (telles que « follow » ou « nofollow ») sur une page, un sous-répertoire ou un site.
Le fichier robots.txt, également connu sous le nom de protocole d’exclusion des robots ou de norme, est un fichier texte qui indique aux robots Web (le plus souvent les moteurs de recherche) quelles pages de votre site doivent être explorées.
Il indique également aux robots web quelles pages ne doivent pas être explorées.
En pratique, les fichiers robots.txt indiquent si certains agents utilisateurs (logiciels d’exploration du Web) peuvent ou non explorer certaines parties d’un site Web. Ces instructions d’exploration sont spécifiées en « interdisant » ou en « autorisant » le comportement de certains agents utilisateurs (ou de tous).
Le robots.txt doit être présent à la racine de tous les sites internet. Oui, tous 😉
C’est Martin Koster qui a créé ce format de fichier pour réguler le crawl. Vous savez quoi ? Plus de 20 ans après, il sert toujours à ça. Ca fait du bien de voir des choses qui durent sur le web. Car c’est rare 🙂
Quel est son format de base ?
User-agent : [nom de l’agent utilisateur]Désaccorder : [chaîne d’URL ne devant pas être explorée].
Ensemble, ces deux lignes sont considérées comme un fichier robots.txt complet – bien qu’un fichier robots puisse contenir plusieurs lignes d’agents utilisateurs et de directives (c’est-à-dire, désapprouver, autoriser, retarder l’exploration, etc.)
Dans un fichier robots.txt contenant plusieurs directives relatives aux agents utilisateurs, chaque règle d’exclusion ou d’autorisation ne s’applique qu’aux agents utilisateurs spécifiés dans cet ensemble particulier séparé par un saut de ligne. Si le fichier contient une règle qui s’applique à plus d’un agent utilisateur, un robot d’exploration ne prêtera attention (et ne suivra les directives) qu’au groupe d’instructions le plus spécifique.
Comment fonctionne le fichier robots.txt ?
Les moteurs de recherche ont deux tâches principales :
- L’exploration du Web pour découvrir du contenu ;
- Indexer ce contenu afin de le proposer aux internautes qui recherchent des informations.
Pour explorer les sites, les moteurs de recherche suivent les liens pour se rendre d’un site à l’autre – en fin de compte, ils explorent des milliards de liens et de sites Web. Ce comportement d’exploration est parfois appelé « spidering ».
Après être arrivé sur un site Web, mais avant de l’explorer, le moteur de recherche, cherche un fichier robots.txt. S’il en trouve un, il lit d’abord ce fichier avant de continuer à parcourir la page. Comme le fichier robots.txt contient des informations sur la manière dont le moteur de recherche doit explorer le site, les informations qu’il contient vont guider l’action du crawler sur ce site particulier. Si le fichier robots.txt ne contient pas de directives interdisant l’activité d’un agent utilisateur (ou si le site n’a pas de fichier robots.txt), le moteur de recherche procédera à l’exploration d’autres informations sur le site.
Principe
Nous allons demander à Google de ne pas apporter de l’importance à des pages.
On parle des CGV, du moteur de recherche, de certaines facettes d’un site, tout ce qui n’est pas propice à être valorisé pour le référencement.
On va en profiter pour soumettre son sitemap .
Il faut bien comprendre que même si vous donnez des instructions par une autre façon à Google, vous devez quand même soigner votre robots.txt .
En aucun cas le robots.txt va permettre de désindexer fermement des pages de votre site. Pour cela, vous devrez mettre la balise « noindex » dans les pages à désindexer.
En pratique
Le robots.txt est un fichier texte que vous pouvez ouvrir et modifier avec votre éditeur habituel.
Début :
User-agent: *
Disallow: /repertoire_a_déprioriser/
Sitemap: https://www.monsite.com/sitemap.xml
Vérifier :
Votre robots.txt doit être visible d’un navigateur à l’adresse votresite.com/robots.txt
Conclusion :
On a survolé le principe et les pratiques pour bien comprendre ce qu’attend Google d’un robots.txt. Si vous utilisez un CMS comme WordPress, Prestashop et Magento, vous allez trouver des robots.txt tout fait sur la toile à adapter à vos besoins. Sinon, vous pouvez nous contacter et on se fera un plaisir de vous aider.