Un pequeño archivo de texto con un poder enorme
Hay un archivo en la raíz de tu sitio — tusitio.com/robots.txt — que le dice a cada rastreador de motores de búsqueda qué puede y qué no puede acceder. Existe desde 1994, es solo texto plano, y una sola línea mal escrita puede hacer que tu sitio entero desaparezca de Google.
Cómo funciona
Cuando Googlebot llega a tu sitio, lo primero que hace es revisar /robots.txt. El archivo contiene reglas como:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Sitemap: https://ejemplo.com/sitemap.xml
Dice: "Todos los rastreadores pueden acceder a todo excepto /admin/ y /private/. Y el sitemap está aquí."
Simple, ¿verdad? El problema es que errores pequeños tienen consecuencias grandes.
Los errores que se repiten
Bloquear todo el sitio accidentalmente:
User-agent: *
Disallow: /
Esa barra después de Disallow bloquea todo. Cada página. Tu sitio entero se oscurece en Google. Pasa durante el desarrollo y alguien se olvida de cambiarlo antes del lanzamiento.
Bloquear CSS y JavaScript. Antes se aconsejaba hacerlo. Ahora es un terrible consejo. Google necesita renderizar tus páginas para entenderlas.
Bloquear secciones importantes por accidente. Un Disallow: /blog pensado para /blog-drafts/ también bloquea /blog/ — tu blog entero.
Qué puede y qué no puede hacer robots.txt
| Puede | No puede |
|---|---|
| Evitar el rastreo de una URL | Evitar la indexación (usa noindex para eso) |
| Controlar la asignación de presupuesto de rastreo | Eliminar páginas ya indexadas |
| Bloquear rastreadores específicos | Garantizar protección de datos sensibles |
| Apuntar a tu sitemap | Anular una directiva noindex |
Distinción crítica: robots.txt bloquea el rastreo, no la indexación. Si otros sitios enlazan a una página que bloqueaste en robots.txt, Google podría indexar la URL de todos modos.
Verificación de tu robots.txt
Todo sitio debería verificar periódicamente que:
- El archivo existe y es accesible en
/robots.txt - Las páginas importantes no están bloqueadas accidentalmente
- Los archivos CSS y JavaScript no están bloqueados
- La URL del sitemap está incluida y es correcta
- No hay reglas
Disallowdemasiado amplias
Kaitico verifica tu robots.txt en cada auditoría — comprobando accesibilidad, analizando las reglas y señalando directivas que podrían estar bloqueando contenido importante.