Robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots Web, et plus généralement ceux des moteurs de recherche, comment explorer les pages de leur site internet. En pratique, ce fichier indique si certains agents utilisateurs, logiciels d'exploration du Web, peuvent ou non visiter des parties d'un site internet.
Ce fichier est généralement créé par un
chef de projet SEO, mais il n’est pas sorcier d’en créer un soi-même et améliorer le SEO de son site en à peine quelques lignes.
Pour cela, vous devez créer un fichier robots.txt efficace et voici quelques bonnes pratiques à suivre.
Spécifiez toujours les directives d'agent utilisateur par des sauts de ligne
Bien qu'un fichier robots.txt puisse contenir plusieurs lignes d'agents utilisateurs et de directives –comme interdire, autoriser ou délais d'exploration, le format de base d’un fichier robots.txt se présente généralement en deux lignes :
User-agent: [nom de l'agent utilisateur]
Disallow: [chaine d'URL à ne pas explorer]
Dans un fichier robots.txt avec plusieurs directives d'agent utilisateur, chaque règle d'interdiction ou d'autorisation s'applique uniquement aux agents utilisateur spécifiés dans cet ensemble.
Chaque ensemble de directives user-agent apparait comme un ensemble discret, séparé par un saut de ligne. Si le fichier contient une règle qui s'applique à plus d'un agent utilisateur, un robot ne fait attention qu'au groupe d'instructions le plus spécifique et suit les directives.
Vérifiez l’emplacement et le nom du fichier robots.txt
Votre fichier robots.txt doit toujours être placé à la racine du site Web –dans le répertoire de niveau supérieur de l'hôte. Il doit aussi porter le nom de fichier robots.txt, par exemple: https://www.example.com/robots.txt.
Notez que l'URL du fichier robots.txt est sensible à la casse comme toute autre. Si votre fichier est introuvable dans l'emplacement par défaut, les moteurs de recherche vont alors supposer qu'il n'y a pas de directives et vont ramper dans les moindres recoins de votre site Web.
Faites attention à l’ordre de préséance
Vous devez aussi noter que les moteurs de recherche traitent les fichiers robots.txt différemment et par défaut, la première directive correspondante l'emporte toujours. Mais, avec Google et Bing, la spécificité gagne, ce qui signifie qu’une directive Allow l'emporte sur une directive Disallow si sa longueur de caractère est plus longue.
De même, vous ne pouvez définir qu'un seul groupe de directives par moteur de recherche, car avoir plusieurs groupes de directives pour un moteur de recherche les confond.
Soyez aussi spécifique que possible dans votre fichier robots.txt
La directive Disallow se déclenche également sur les correspondances partielles, soyez donc aussi précis que possible lors de sa définition pour ne pas refuser involontairement l'accès aux fichiers.
Pour un robot, un seul groupe de directives est valide. Si certaines destinées à tous les robots sont suivies d’une directive pour un robot spécifique, seule cette dernière va être prise en compte.
Surveillez votre fichier robots.txt
Ce fichier peut être dangereux, car vous ne dites pas seulement aux moteurs de recherche où vous ne voulez pas qu'ils regardent, mais vous révélez aussi aux gens où vous cachez certains types de secrets. D’autre part, il est important de surveiller votre fichier robots.txt, car certaines directives incorrectes et des changements soudains dans le fichier peuvent impacter votre référencement.
Cela est particulièrement vrai lors du lancement de nouvelles fonctionnalités ou d'un nouveau site Web qui a été préparé sur un environnement de test.
Conclusion
Comme vous l’aurez sans doute compris, le fichier robots.txt fait partie du protocole d'exclusion des robots –REP. C’est un groupe de normes Web qui régissent la manière dont les robots explorent le Web, accèdent et indexent votre contenu pour le servir aux utilisateurs.
Bien que vos instructions d'exploration soient simplement spécifiées par « interdire » ou « autoriser », une erreur dans la création peut avoir l’effet inverse sur le comportement de certains, voire tous les agents utilisateurs.
Un fichier robots.txt bien géré et actualisé représente une vraie opportunité de référencement naturel pour votre site, et ce sur le long terme.
Meta Title : Quelles sont les bonnes pratiques pour créer un fichier robots.txt ?
Meta Description : Le fichier robots.txt permet aux moteurs de recherche de savoir quelles pages explorer ou non sur un site. Découvrez les bonnes pratiques pour le créer.