Le fichier robots.txt est ultra important pour le SEO ; néanmoins, il se retrouve souvent négligé, voire oublié, sur la majeure partie des sites web, y compris par certains consultants SEO expérimentés.
Dans cet article, je vais tâcher de me pencher spécifiquement sur son cas, en vous donnant des conseils et des exemples pour l’optimiser !
Qu’est-ce qu’un fichier robots.txt ?
Le fichier robots.txt, c’est un fichier placé à la racine du site, au format texte (d’où le “.txt”), permettant au propriétaire de ce dernier d’indiquer aux robots d’indexation (ou crawlers) les informations qu’ils peuvent analyser.
A quoi sert le fichier robots.txt ?
Pour vous donner quelques exemples concrets, le fichier robots.txt permet de trouver le sitemap de votre site, de savoir quelles pages les robots doivent explorer ou non, mais aussi de gérer votre budget crawl avec précision.
Le budget crawl, ce sont les ressources utilisées par Google pour l’exploration et l’indexation de votre contenu : celui-ci est limité, alors vous avez tout intérêt à ce que les robots indexent les pages les plus importantes de votre site !
Si votre site ne comporte que quelques centaines de pages, aucun problème : Google pourra les indexer sans que vous n’ayez besoin de toucher à votre fichier robots.txt.
Néanmoins, si votre site est très volumineux (les sites e-commerce le sont souvent, par exemple, car certaines URLs peuvent être générées automatiquement), Google peut choisir de ne pas explorer toutes les pages, et ainsi vous faire passer à côté d’une part importante de trafic.
C’est ici que l’importance du fichier robots.txt prend tout son sens : il vous permet de prioriser votre contenu, et la quantité de pages que les robots d’indexation doivent explorer. C’est souvent l’une des premières choses à regarder lors d’un audit SEO complet de votre site.
Ce n’est pas tout !
Google a souvent déclaré qu’un site disposant de beaucoup d’URLs à faible valeur pouvait avoir un effet négatif sur ses performances en matière d’indexation.
A lire également : Éviter la cannibalisation SEO : mode d’emploi
Vous l’aurez compris : pour un site qui comprend des milliers de pages, la maîtrise de votre fichier robots.txt est indispensable : il faut impérativement que Google n’explore que ses pages importantes, sans perdre de temps sur les pages qui n’ont pas d’intérêt SEO.
Voici, pêle-mêle, de nombreuses utilisations du robots.txt :
- Bloquer l’accès à des parties complètes de votre site (pages tests, fiches de membres, …)
- Empêcher les pages de recherche internes d’être crawlées, indexées et montrées sur la SERP (= page de résultats de recherche sur Google)
- Indiquer aux robots d’indexation l’emplacement de votre/vos sitemap(s)
- Optimiser votre budget crawl en interdisant l’accès aux robots sur les pages sans intérêt SEO (page de connexion, panier, page de remerciement après l’achat, …)
- Bloquer l’indexation de fichiers mis en place sur votre site Internet (documents PDF, images, …)
Mettre en place le fichier robots.txt
Créer et lire son fichier robots.txt
Pour cela, rien de plus simple : votre fichier robots.txt peut être créé à partir du programme Bloc-notes, Notepad ou encore Atom de votre ordinateur.
Pour le lire, s’il est déjà en place, vous le trouverez souvent à cet URL : https://votresite.com/robots.txt
A noter que, pour les sites WordPress utilisant un plug-in SEO comme Yoast, SEOPress ou encore RankMath, le plug-in met directement en place le fichier robots.txt à la racine de votre site.
Où dois-je placer le fichier robots.txt ?
Comme vous l’avez lu, le fichier robots.txt se place à la racine de votre site : pour le mettre en place, il vous faudra simplement le déposer, une fois édité, à l’emplacement prévu sur votre serveur FTP.
Vérifiez la pertinence de votre fichier robots.txt
Pour vérifier que votre fichier robots.txt ne comprenne aucune faute, rien de tel que l’outil Google prévu à cet effet !
Il est disponible directement via la Google Search Console, en suivant ce lien.
Pour cela, rien de plus simple : une fois le robots.txt de votre site analysé, vous pourrez tester des URLs en bas de page, pour voir si elles sont correctement bloquées, ou non, par Google.
N’hésitez pas à modifier votre robots.txt directement via cet outil, et n’oubliez pas, une fois terminé, de le modifier sur votre site web, pour qu’il soit effectif !
Lexique du robots.txt
Pour bien comprendre comment éditer un robots.txt, il convient également d’expliquer ce que signifient les “allow”, “disallow”, les “*”, les “/” et autres “#’ :
- “User-agent:” indique à quel moteur de recherche sont destinés les directives qui suivent ;
- “Disallow:” sert à indiquer le contenu non accessible au user-agent ;
- “Allow:” sert à indiquer le contenu accessible au user-agent (NB : par défaut, tout le contenu lui est accessible) ;
- “*” : suivant devant quoi elle est placée, elle indique que la directive concerne l’ensemble des pages/des user-agents ;
- “$” : sert à indiquer la fin d’une URL (ex : une directive comme “Disallow: *.php$” sert à interdire l’accès aux robots d’indexation pour toutes les URLs qui se terminent par .php) ;
- “#” : sert à ajouter des commentaires à destination des humains : ils sont placés au début d’une ligne, ou après une directive sur une même ligne, et seront ignorés par les robots.
Voyons, sans plus attendre, quelques exemples d’utilisation du fichier !
Quelques exemples d’utilisation du fichier robots.txt
Je vous propose ci-après quelques exemples d’utilisations communes du fichier robots.txt, que vous pourrez parfaitement mettre en place sur votre site.
Allons-y : commençons avec les bases.
⭢ Permettre à chaque robot d’indexation d’accéder à tout le contenu présent sur votre site :
User-agent: *
Disallow:
⭢ Empêcher les robots d’indexation d’avoir accès au contenu présent sur votre site :
User-agent: *
Disallow: /
Cela ne vous aura certainement pas échappé : vous pouvez passer à côté de l’indexation de votre site pour un simple petit “/” !
Avoir des connaissances de base concernant l’édition de votre fichier robots.txt devient donc primordial : une erreur est vite arrivée, et peut avoir des conséquences assez dramatiques sur votre SEO.
Poursuivons !
⭢ Bloquer l’accès à un dossier spécifique :
User-agent: *
Disallow: /votre-dossier/
⭢ Bloquer l’accès à un robot d’indexation spécifique sur l’ensemble de votre site :
User-agent: Googlebot
Disallow: /
⭢ Bloquer l’accès des robots d’indexation à une page spécifique :
User-agent : *
Disallow : /votre-page/
⭢ Bloquer l’accès des robots d’indexation à tout un dossier, excepté une page spécifique :
User-agent: *
Disallow: /votre-dossier/
Allow: /votre-dossier/votre-page/
Pour d’autres exemples, voici ce à quoi ressemble le fichier robots.txt du site web de Décathlon :
Vous pouvez le consulter dans son intégralité juste ici : https://www.decathlon.fr/robots.txt
Celui-ci est bien rempli : logique, lorsqu’on voit le nombre de pages que comprend ce site ! N’hésitez pas à parcourir les fichiers robots.txt de vos concurrents et des plus gros sites de votre niche : vous pourriez en apprendre sur la manière de paramétrer le vôtre correctement.
A lire également : La checklist indispensable pour la migration SEO
Exemple de robots.txt optimisé pour WordPress
Cadeau pour vous ! Voici un exemple de robots.txt optimisé pour WordPress, dont vous pouvez vous servir comme base pour optimiser le vôtre, si :
- Vous ne voulez pas que votre partie “admin” soit explorée.
- Vous ne voulez pas que vos pages relatives aux recherches internes soient explorées
- Vous ne voulez pas que vos tags et vos pages relatives aux auteurs auteurs soient explorés.
- Vous ne voulez pas que votre page d’erreur 404 soit explorée.
User-agent: *
Disallow: /wp-admin/ #bloque l’accès à la partie admin
Disallow: /wp-login.php /wp-login.php #bloque l’accès à la partie admin
Disallow: /search/ #bloque l’accès aux résultats de recherche interne
Disallow: *?s=* #bloque l’accès aux résultats de recherche interne
Disallow: *?p=* #bloque l’accès aux résultats de recherche interne
Disallow: *&p=* #bloque l’accès aux résultats de recherche interne
Disallow: *&preview=* #bloque l’accès aux pages tests et preview
Disallow: /tag/ #bloque l’accès aux pages “tag”
Disallow: /author/ #bloque l’accès aux pages “auteur”
Disallow: /404-error/ #bloque l’accès à la page 404
Sitemap: https://www.votresite.com/sitemap_index.xml
Attention : ce fichier robots.txt fonctionne dans la plupart des cas, mais il vous faudra l’adapter à votre site et le tester pour être sûr qu’il ne comporte pas d’erreur sur le vôtre.
Résumé : les 10 meilleures pratiques à suivre pour optimiser votre robots.txt
On termine en beauté, avec 10 pratiques à connaître pour optimiser votre fichier robots.txt pour le SEO :
- Soyez certain que chaque page importante puisse être explorée, et que les pages qui n’apportent aucune valeur en termes de référencement naturel soit bloquées pour optimiser votre budget crawl ;
- Assurez-vous que vos fichiers JavaScript et CSS ne sont pas bloqués ;
- N’hésitez pas à vérifier votre fichier sur l’outil de vérification de la Search Console, dont nous avons parlé plus haut ;
- Évitez d’utiliser des majuscules pour y ajouter les noms de vos fichiers, de vos répertoires, de vos liens, … ;
- Implémentez votre fichier robots.txt directement à la racine de votre site web, afin qu’il soit bien trouvé par les robots d’indexation ;
- Attention à bien nommer ce fichier “robots.txt”, et pas autrement ;
- N’utilisez pas ce fichier pour y mettre des informations privées sur les utilisateurs : celles-ci seront visibles aux yeux de tous ;
- Pensez à mettre votre ou vos sitemap(s) à l’intérieur de votre robots.txt ;
- Passez à la ligne suivante pour chaque directive ;
- Si vous avez d’autres sous-domaines sur votre site, mettez en place un fichier robots.txt pour chacun d’entre eux (mais aussi, bien sûr, pour votre domaine principal). Ex : recrutement.votresite.com/robots.txt et votresite.com/robots.txt.
Pour conclure…
Il faut se rendre à l’évidence : le fichier robots.txt est au cœur de votre stratégie de référencement naturel.
Bien sûr, à première vue, son édition paraît complexe ; néanmoins, rassurez-vous : il n’en est rien !
En fait, une fois que vous aurez bien compris son fonctionnement, et que vous aurez identifié vos pages les plus importantes et celles qui n’ont pas d’importance SEO, vous pourrez mettre en place un fichier robots.txt sur-mesure et efficace, qui optimisera votre budget crawl.
En optimisant le budget crawl, vous permettrez à vos pages les plus importantes de gagner en visibilité et en puissance, pour dépasser vos concurrents !
J’espère, en tous cas, que cet article aura su vous aider. Si d’aventure vous avez plus de questions, ou que vous êtes en quête d’autres optimisations techniques pour votre site (migration SEO, amélioration du temps de chargement des images, …), n’hésitez pas à prendre rendez-vous avec moi !