robots.txt : Le gardien de votre site

robots.txt contrôle quelles pages les moteurs de recherche peuvent explorer. Découvrez comment il fonctionne, les erreurs courantes et comment auditer le vôtre.

Un petit fichier texte avec un pouvoir énorme

Il y a un fichier à la racine de votre site — votresite.com/robots.txt — qui dit à chaque robot de moteur de recherche ce qu'il peut et ne peut pas accéder. Il existe depuis 1994, c'est du texte brut, et une seule ligne erronée peut faire disparaître votre site entier de Google.

Comment ça fonctionne

Quand Googlebot arrive sur votre site, la première chose qu'il fait est de vérifier /robots.txt. Le fichier contient des règles comme :

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://exemple.com/sitemap.xml

Ça dit : « Tous les robots peuvent accéder à tout sauf /admin/ et /private/. Et le sitemap est ici. »

Simple, non ? Le problème, c'est que de petites erreurs ont de grandes conséquences.

Les erreurs qui se répètent

Bloquer tout le site par accident :

User-agent: *
Disallow: /

Ce slash après Disallow bloque tout. Chaque page. Votre site entier disparaît de Google. Ça arrive pendant le développement et quelqu'un oublie de le changer avant le lancement.

Bloquer le CSS et le JavaScript. Avant, on conseillait de le faire. Maintenant c'est un terrible conseil. Google a besoin de rendre vos pages pour les comprendre.

Bloquer des sections importantes par accident. Un Disallow: /blog prévu pour /blog-drafts/ bloque aussi /blog/ — votre blog entier.

Ce que robots.txt peut et ne peut pas faire

Peut faireNe peut pas faire
Empêcher l'exploration d'une URLEmpêcher l'indexation (utilisez noindex)
Contrôler l'allocation du budget de crawlSupprimer des pages déjà indexées
Bloquer des robots spécifiquesGarantir la protection de données sensibles
Pointer vers votre sitemapAnnuler une directive noindex

Distinction cruciale : robots.txt bloque l'exploration, pas l'indexation. Si d'autres sites font des liens vers une page que vous avez bloquée dans robots.txt, Google pourrait quand même indexer l'URL.

Vérifier votre robots.txt

Chaque site devrait périodiquement vérifier que :

  1. Le fichier existe et est accessible à /robots.txt
  2. Les pages importantes ne sont pas bloquées par accident
  3. Les fichiers CSS et JavaScript ne sont pas bloqués
  4. L'URL du sitemap est incluse et correcte
  5. Pas de règles Disallow trop larges

Kaitico vérifie votre robots.txt à chaque audit — contrôlant l'accessibilité, analysant les règles et signalant les directives qui pourraient bloquer du contenu important.

Want to check your site for this issue?

Kaitico scans your entire site and finds all SEO issues in minutes.

Start Free Audit