robots.txt: El guardián de tu sitio

Un pequeño archivo de texto con un poder enorme

Hay un archivo en la raíz de tu sitio — tusitio.com/robots.txt — que le dice a cada rastreador de motores de búsqueda qué puede y qué no puede acceder. Existe desde 1994, es solo texto plano, y una sola línea mal escrita puede hacer que tu sitio entero desaparezca de Google.

Cómo funciona

Cuando Googlebot llega a tu sitio, lo primero que hace es revisar /robots.txt. El archivo contiene reglas como:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://ejemplo.com/sitemap.xml

Dice: "Todos los rastreadores pueden acceder a todo excepto /admin/ y /private/. Y el sitemap está aquí."

Simple, ¿verdad? El problema es que errores pequeños tienen consecuencias grandes.

Los errores que se repiten

Bloquear todo el sitio accidentalmente:

User-agent: *
Disallow: /

Esa barra después de Disallow bloquea todo. Cada página. Tu sitio entero se oscurece en Google. Pasa durante el desarrollo y alguien se olvida de cambiarlo antes del lanzamiento.

Bloquear CSS y JavaScript. Antes se aconsejaba hacerlo. Ahora es un terrible consejo. Google necesita renderizar tus páginas para entenderlas.

Bloquear secciones importantes por accidente. Un Disallow: /blog pensado para /blog-drafts/ también bloquea /blog/ — tu blog entero.

Qué puede y qué no puede hacer robots.txt

Puede	No puede
Evitar el rastreo de una URL	Evitar la indexación (usa noindex para eso)
Controlar la asignación de presupuesto de rastreo	Eliminar páginas ya indexadas
Bloquear rastreadores específicos	Garantizar protección de datos sensibles
Apuntar a tu sitemap	Anular una directiva noindex

Distinción crítica: robots.txt bloquea el rastreo, no la indexación. Si otros sitios enlazan a una página que bloqueaste en robots.txt, Google podría indexar la URL de todos modos.

Verificación de tu robots.txt

Todo sitio debería verificar periódicamente que:

El archivo existe y es accesible en /robots.txt
Las páginas importantes no están bloqueadas accidentalmente
Los archivos CSS y JavaScript no están bloqueados
La URL del sitemap está incluida y es correcta
No hay reglas Disallow demasiado amplias

Kaitico verifica tu robots.txt en cada auditoría — comprobando accesibilidad, analizando las reglas y señalando directivas que podrían estar bloqueando contenido importante.