robots.txt : Le gardien de votre site

Un petit fichier texte avec un pouvoir énorme

Il y a un fichier à la racine de votre site — votresite.com/robots.txt — qui dit à chaque robot de moteur de recherche ce qu'il peut et ne peut pas accéder. Il existe depuis 1994, c'est du texte brut, et une seule ligne erronée peut faire disparaître votre site entier de Google.

Comment ça fonctionne

Quand Googlebot arrive sur votre site, la première chose qu'il fait est de vérifier /robots.txt. Le fichier contient des règles comme :

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://exemple.com/sitemap.xml

Ça dit : « Tous les robots peuvent accéder à tout sauf /admin/ et /private/. Et le sitemap est ici. »

Simple, non ? Le problème, c'est que de petites erreurs ont de grandes conséquences.

Les erreurs qui se répètent

Bloquer tout le site par accident :

User-agent: *
Disallow: /

Ce slash après Disallow bloque tout. Chaque page. Votre site entier disparaît de Google. Ça arrive pendant le développement et quelqu'un oublie de le changer avant le lancement.

Bloquer le CSS et le JavaScript. Avant, on conseillait de le faire. Maintenant c'est un terrible conseil. Google a besoin de rendre vos pages pour les comprendre.

Bloquer des sections importantes par accident. Un Disallow: /blog prévu pour /blog-drafts/ bloque aussi /blog/ — votre blog entier.

Ce que robots.txt peut et ne peut pas faire

Peut faire	Ne peut pas faire
Empêcher l'exploration d'une URL	Empêcher l'indexation (utilisez noindex)
Contrôler l'allocation du budget de crawl	Supprimer des pages déjà indexées
Bloquer des robots spécifiques	Garantir la protection de données sensibles
Pointer vers votre sitemap	Annuler une directive noindex

Distinction cruciale : robots.txt bloque l'exploration, pas l'indexation. Si d'autres sites font des liens vers une page que vous avez bloquée dans robots.txt, Google pourrait quand même indexer l'URL.

Vérifier votre robots.txt

Chaque site devrait périodiquement vérifier que :

Le fichier existe et est accessible à /robots.txt
Les pages importantes ne sont pas bloquées par accident
Les fichiers CSS et JavaScript ne sont pas bloqués
L'URL du sitemap est incluse et correcte
Pas de règles Disallow trop larges

Kaitico vérifie votre robots.txt à chaque audit — contrôlant l'accessibilité, analysant les règles et signalant les directives qui pourraient bloquer du contenu important.