robots.txt: El guardián de tu sitio

robots.txt controla qué páginas pueden rastrear los motores de búsqueda. Aprende cómo funciona, errores comunes que bloquean páginas importantes y cómo auditar el tuyo.

Un pequeño archivo de texto con un poder enorme

Hay un archivo en la raíz de tu sitio — tusitio.com/robots.txt — que le dice a cada rastreador de motores de búsqueda qué puede y qué no puede acceder. Existe desde 1994, es solo texto plano, y una sola línea mal escrita puede hacer que tu sitio entero desaparezca de Google.

Cómo funciona

Cuando Googlebot llega a tu sitio, lo primero que hace es revisar /robots.txt. El archivo contiene reglas como:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://ejemplo.com/sitemap.xml

Dice: "Todos los rastreadores pueden acceder a todo excepto /admin/ y /private/. Y el sitemap está aquí."

Simple, ¿verdad? El problema es que errores pequeños tienen consecuencias grandes.

Los errores que se repiten

Bloquear todo el sitio accidentalmente:

User-agent: *
Disallow: /

Esa barra después de Disallow bloquea todo. Cada página. Tu sitio entero se oscurece en Google. Pasa durante el desarrollo y alguien se olvida de cambiarlo antes del lanzamiento.

Bloquear CSS y JavaScript. Antes se aconsejaba hacerlo. Ahora es un terrible consejo. Google necesita renderizar tus páginas para entenderlas.

Bloquear secciones importantes por accidente. Un Disallow: /blog pensado para /blog-drafts/ también bloquea /blog/ — tu blog entero.

Qué puede y qué no puede hacer robots.txt

PuedeNo puede
Evitar el rastreo de una URLEvitar la indexación (usa noindex para eso)
Controlar la asignación de presupuesto de rastreoEliminar páginas ya indexadas
Bloquear rastreadores específicosGarantizar protección de datos sensibles
Apuntar a tu sitemapAnular una directiva noindex

Distinción crítica: robots.txt bloquea el rastreo, no la indexación. Si otros sitios enlazan a una página que bloqueaste en robots.txt, Google podría indexar la URL de todos modos.

Verificación de tu robots.txt

Todo sitio debería verificar periódicamente que:

  1. El archivo existe y es accesible en /robots.txt
  2. Las páginas importantes no están bloqueadas accidentalmente
  3. Los archivos CSS y JavaScript no están bloqueados
  4. La URL del sitemap está incluida y es correcta
  5. No hay reglas Disallow demasiado amplias

Kaitico verifica tu robots.txt en cada auditoría — comprobando accesibilidad, analizando las reglas y señalando directivas que podrían estar bloqueando contenido importante.

Want to check your site for this issue?

Kaitico scans your entire site and finds all SEO issues in minutes.

Start Free Audit