Google no puede rastrear todas las URLs del mundo cada día. Asigna un presupuesto por dominio según dos factores: capacidad del servidor (no quiere tumbarte) y demanda (cuánta gente busca algo que tú cubres). En sitios con menos de 10.000 URLs rara vez es un problema; en catálogos grandes sí.

Cuándo preocuparse

  • Sitios con 10.000+ URLs
  • E-commerce con filtros infinitos que generan URLs parametrizadas
  • Blogs con años de contenido y categorías cruzadas
  • Sitios recién migrados donde Google tiene que redescubrir todo

Cómo gastarlo bien

  1. Noindex en URLs sin valor: filtros, resultados de búsqueda interna, tags redundantes
  2. Canonical en duplicadas: Google rastrea la canónica y deja las demás
  3. Robots.txt para bloquear parámetros tipo ?sort= o ?color=
  4. Sitemaps limpios: solo URLs que quieres indexar
  5. Eliminar 404 y cadenas de redirect: cada uno gasta budget sin indexar nada
  6. Servidor rápido: más URLs por sesión de crawl si respondes rápido

Cómo diagnosticar problemas

  • Search Console > Ajustes > Estadísticas de rastreo: muestra URLs rastreadas por día y tipo de respuesta
  • Logs del servidor filtrando por user-agent Googlebot: fotografía exacta
  • Herramientas: Screaming Frog Log Analyzer, Oncrawl

Señales de crawl budget mal gastado

  • Google rastrea miles de URLs parametrizadas sin valor
  • Páginas importantes tardan semanas en ser re-rastreadas tras actualizar
  • Nuevas URLs tardan en indexarse aunque están en sitemap
  • Rastreos con muchos 3xx/4xx/5xx

Si tu sitio tiene más de 5.000 URLs y tardas en indexar lo nuevo, probablemente tienes fuga de crawl budget. Lo analizamos en la auditoría.