Google no puede rastrear todas las URLs del mundo cada día. Asigna un presupuesto por dominio según dos factores: capacidad del servidor (no quiere tumbarte) y demanda (cuánta gente busca algo que tú cubres). En sitios con menos de 10.000 URLs rara vez es un problema; en catálogos grandes sí.
Cuándo preocuparse
- Sitios con 10.000+ URLs
- E-commerce con filtros infinitos que generan URLs parametrizadas
- Blogs con años de contenido y categorías cruzadas
- Sitios recién migrados donde Google tiene que redescubrir todo
Cómo gastarlo bien
- Noindex en URLs sin valor: filtros, resultados de búsqueda interna, tags redundantes
- Canonical en duplicadas: Google rastrea la canónica y deja las demás
- Robots.txt para bloquear parámetros tipo
?sort=o?color= - Sitemaps limpios: solo URLs que quieres indexar
- Eliminar 404 y cadenas de redirect: cada uno gasta budget sin indexar nada
- Servidor rápido: más URLs por sesión de crawl si respondes rápido
Cómo diagnosticar problemas
- Search Console > Ajustes > Estadísticas de rastreo: muestra URLs rastreadas por día y tipo de respuesta
- Logs del servidor filtrando por user-agent Googlebot: fotografía exacta
- Herramientas: Screaming Frog Log Analyzer, Oncrawl
Señales de crawl budget mal gastado
- Google rastrea miles de URLs parametrizadas sin valor
- Páginas importantes tardan semanas en ser re-rastreadas tras actualizar
- Nuevas URLs tardan en indexarse aunque están en sitemap
- Rastreos con muchos 3xx/4xx/5xx
Si tu sitio tiene más de 5.000 URLs y tardas en indexar lo nuevo, probablemente tienes fuga de crawl budget. Lo analizamos en la auditoría.