robots.txt existe desde 1994 y sigue siendo la primera parada de cualquier crawler serio. Cuando GPTBot o Googlebot llegan a tu dominio, antes que nada piden /robots.txt. Lo que haya ahí determina por dónde pueden pasar.

Sintaxis básica

User-agent: *
Allow: /
Disallow: /panel/
Disallow: /api/
Disallow: /admin/

Sitemap: https://nosoloagencia.es/sitemap.xml

User-agent: * aplica a todos los crawlers que no tengan bloque específico. Puedes tener bloques dedicados por cada crawler.

Reglas críticas

  1. No bloquees JS ni CSS. Google necesita renderizar para entender tu web. Bloquear /assets/ o /static/ es un clásico error que mata el ranking.
  2. Declara el sitemap al final con URL absoluta. Ayuda a que los crawlers lo descubran rápido.
  3. robots.txt no es seguridad. Lo que no quieras que vea nadie, protégelo con contraseña. Lo que pongas en Disallow sigue siendo visible si alguien adivina la URL.
  4. Un fichero por dominio. Debe estar en /robots.txt, no en subcarpetas.
  5. Cuidado con mayúsculas. Las rutas son case-sensitive.

Crawlers a contemplar en 2026

  • Clásicos: Googlebot, Bingbot, Yandex, Baidu
  • IA entrenamiento: GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Meta-ExternalAgent, anthropic-ai, Bytespider, cohere-ai
  • IA búsqueda en vivo: OAI-SearchBot, ChatGPT-User, Claude-Web, PerplexityBot, Perplexity-User, MistralAI-User, YouBot, DuckAssistBot

En NoSolo Agencia tenemos declarados 17 explícitamente en robots.ts con política Allow + Disallow de /panel/ y /api/.

Errores típicos que matan tu SEO

  • Disallow: / en producción (bloqueas TODO)
  • robots.txt de staging copiado sin revisar al lanzar a producción
  • Bloquear crawlers de Google sin querer (por intentar bloquear bots malos)
  • robots.txt con encoding incorrecto (UTF-8 con BOM, caracteres raros)

En la auditoría gratis validamos tu robots.txt y detectamos reglas que pueden estar limitándote sin darte cuenta.