robots.txt existe desde 1994 y sigue siendo la primera parada de cualquier crawler serio. Cuando GPTBot o Googlebot llegan a tu dominio, antes que nada piden /robots.txt. Lo que haya ahí determina por dónde pueden pasar.
Sintaxis básica
User-agent: *
Allow: /
Disallow: /panel/
Disallow: /api/
Disallow: /admin/
Sitemap: https://nosoloagencia.es/sitemap.xml
User-agent: * aplica a todos los crawlers que no tengan bloque específico. Puedes tener bloques dedicados por cada crawler.
Reglas críticas
- No bloquees JS ni CSS. Google necesita renderizar para entender tu web. Bloquear
/assets/o/static/es un clásico error que mata el ranking. - Declara el sitemap al final con URL absoluta. Ayuda a que los crawlers lo descubran rápido.
- robots.txt no es seguridad. Lo que no quieras que vea nadie, protégelo con contraseña. Lo que pongas en Disallow sigue siendo visible si alguien adivina la URL.
- Un fichero por dominio. Debe estar en
/robots.txt, no en subcarpetas. - Cuidado con mayúsculas. Las rutas son case-sensitive.
Crawlers a contemplar en 2026
- Clásicos: Googlebot, Bingbot, Yandex, Baidu
- IA entrenamiento: GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Meta-ExternalAgent, anthropic-ai, Bytespider, cohere-ai
- IA búsqueda en vivo: OAI-SearchBot, ChatGPT-User, Claude-Web, PerplexityBot, Perplexity-User, MistralAI-User, YouBot, DuckAssistBot
En NoSolo Agencia tenemos declarados 17 explícitamente en robots.ts con política Allow + Disallow de /panel/ y /api/.
Errores típicos que matan tu SEO
Disallow: /en producción (bloqueas TODO)- robots.txt de staging copiado sin revisar al lanzar a producción
- Bloquear crawlers de Google sin querer (por intentar bloquear bots malos)
- robots.txt con encoding incorrecto (UTF-8 con BOM, caracteres raros)
En la auditoría gratis validamos tu robots.txt y detectamos reglas que pueden estar limitándote sin darte cuenta.