Un petit fichier texte avec un pouvoir énorme
Il y a un fichier à la racine de votre site — votresite.com/robots.txt — qui dit à chaque robot de moteur de recherche ce qu'il peut et ne peut pas accéder. Il existe depuis 1994, c'est du texte brut, et une seule ligne erronée peut faire disparaître votre site entier de Google.
Comment ça fonctionne
Quand Googlebot arrive sur votre site, la première chose qu'il fait est de vérifier /robots.txt. Le fichier contient des règles comme :
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Sitemap: https://exemple.com/sitemap.xml
Ça dit : « Tous les robots peuvent accéder à tout sauf /admin/ et /private/. Et le sitemap est ici. »
Simple, non ? Le problème, c'est que de petites erreurs ont de grandes conséquences.
Les erreurs qui se répètent
Bloquer tout le site par accident :
User-agent: *
Disallow: /
Ce slash après Disallow bloque tout. Chaque page. Votre site entier disparaît de Google. Ça arrive pendant le développement et quelqu'un oublie de le changer avant le lancement.
Bloquer le CSS et le JavaScript. Avant, on conseillait de le faire. Maintenant c'est un terrible conseil. Google a besoin de rendre vos pages pour les comprendre.
Bloquer des sections importantes par accident. Un Disallow: /blog prévu pour /blog-drafts/ bloque aussi /blog/ — votre blog entier.
Ce que robots.txt peut et ne peut pas faire
| Peut faire | Ne peut pas faire |
|---|---|
| Empêcher l'exploration d'une URL | Empêcher l'indexation (utilisez noindex) |
| Contrôler l'allocation du budget de crawl | Supprimer des pages déjà indexées |
| Bloquer des robots spécifiques | Garantir la protection de données sensibles |
| Pointer vers votre sitemap | Annuler une directive noindex |
Distinction cruciale : robots.txt bloque l'exploration, pas l'indexation. Si d'autres sites font des liens vers une page que vous avez bloquée dans robots.txt, Google pourrait quand même indexer l'URL.
Vérifier votre robots.txt
Chaque site devrait périodiquement vérifier que :
- Le fichier existe et est accessible à
/robots.txt - Les pages importantes ne sont pas bloquées par accident
- Les fichiers CSS et JavaScript ne sont pas bloqués
- L'URL du sitemap est incluse et correcte
- Pas de règles
Disallowtrop larges
Kaitico vérifie votre robots.txt à chaque audit — contrôlant l'accessibilité, analysant les règles et signalant les directives qui pourraient bloquer du contenu important.