Le crawl budget est le nombre de pages que Googlebot (et les autres crawlers) visite sur votre site dans un laps de temps donné. Ce n'est pas un chiffre fixe — c'est une allocation dynamique que Google détermine en fonction de la taille de votre site, de sa qualité et de l'intérêt de son contenu.
Pour les petits sites (quelques centaines de pages), le crawl budget n'est généralement pas un problème — Google crawle tout. Mais pour les sites de plus de 10 000 pages, les sites e-commerce avec des facettes et les sites avec du contenu dynamique, la gestion du crawl budget devient un enjeu technique critique.
Dans l'ère IA, le crawl budget prend une dimension supplémentaire : les bots des LLM (GPTBot, PerplexityBot, ClaudeBot) ont leurs propres budgets de crawl et leurs propres priorités. Optimiser votre crawl budget, c'est s'assurer que les machines — toutes les machines — accèdent à vos contenus stratégiques.
Quand le crawl budget devient un problème
Le crawl budget n'est pas une préoccupation pour tous les sites, mais il devient critique dans certaines situations :
Sites volumineux (>10 000 pages) — Plus votre site est grand, plus le risque que Google ne crawle pas toutes vos pages est élevé. Les pages non crawlées ne sont pas indexées et n'apparaissent dans aucun résultat.
Sites e-commerce avec facettes — Les filtres de catégorie (taille, couleur, prix) génèrent des milliers de combinaisons d'URLs. Sans gestion, ces pages de facettes gaspillent massivement votre crawl budget au détriment de vos pages produits stratégiques.
Sites avec beaucoup de contenu dupliqué — Les pages dupliquées (paramètres d'URL, versions HTTP/HTTPS, pages de tri) consomment du crawl budget sans apporter de valeur. Google gaspille ses ressources sur des pages redondantes.
Sites avec des problèmes de performance — Un serveur lent réduit la capacité de crawl. Si votre temps de réponse dépasse 2 secondes, Google ralentit significativement son crawl.
Sites avec des redirections en chaîne — Chaque redirection consomme un "crédit" de crawl. Les chaînes de redirections (A → B → C → D) gaspillent plusieurs crédits pour atteindre la page finale.
Le symptôme le plus visible d'un problème de crawl budget est l'indexation incomplète : des pages que vous considérez importantes ne sont pas indexées par Google, et donc totalement invisibles dans les résultats.
Optimiser votre crawl budget : les actions concrètes
Voici les optimisations les plus impactantes pour maximiser l'efficacité de votre crawl budget :
Éliminer le gaspillage — Bloquez dans robots.txt les URLs sans valeur SEO : pages de facettes non stratégiques, pages de résultats de recherche interne, pages de paramètres (tri, pagination profonde). Chaque page inutile crawlée est une page utile non crawlée.
Améliorer la vitesse du serveur — Un temps de réponse serveur inférieur à 200ms permet à Google de crawler plus de pages dans le même budget temps. Investissez dans l'hébergement, le caching et l'optimisation back-end.
Mettre à jour le sitemap — Un sitemap.xml propre qui ne contient que les pages que vous voulez indexer guide Google vers vos contenus prioritaires. Retirez les pages 404, les redirections et les pages no-index.
Corriger les erreurs de crawl — Les erreurs 404, 5xx et les boucles de redirection gaspillent du crawl budget et découragent les crawlers. Corrigez-les systématiquement.
Gérer les contenus dupliqués — Implémentez les balises canonical pour indiquer la version préférée de chaque page. Google ne crawlera que la version canonique une fois le signal compris.
Prioriser le maillage interne — Les pages avec plus de liens internes sont crawlées plus fréquemment. Assurez-vous que vos pages stratégiques ont un maillage interne dense depuis des pages à forte autorité.
Crawl budget et bots IA : la nouvelle dimension
Les bots des LLM ajoutent une couche de complexité à la gestion du crawl budget. Voici les spécificités à connaître :
GPTBot (OpenAI) — Crawle pour alimenter les données d'entraînement et les réponses en temps réel de ChatGPT Browse. Son comportement de crawl est différent de Googlebot : il peut crawler profondément certaines sections et ignorer d'autres. Vérifiez dans votre robots.txt qu'il n'est pas bloqué (sauf si c'est intentionnel).
PerplexityBot — Crawle en temps réel pour chaque requête utilisateur. Son budget de crawl par site est limité — votre contenu doit être accessible rapidement et sans obstacles techniques.
ClaudeBot (Anthropic) — Crawle pour les données d'entraînement de Claude. Vérifiez qu'il a accès à vos pages stratégiques via robots.txt.
Les implications pour votre stratégie technique :
- Votre
robots.txtdoit explicitement autoriser les bots IA que vous voulez servir - Votre
llms.txtguide les bots IA vers vos contenus prioritaires - La performance de votre serveur impacte la capacité de crawl de tous les bots, pas seulement Googlebot
- Les pages lentes ou avec beaucoup de JavaScript sont difficiles à crawler pour les bots IA
Optimiser le crawl budget dans l'ère IA signifie optimiser pour un écosystème de crawlers diversifié, chacun avec ses propres priorités et contraintes.
Diagnostiquer les problèmes de crawl budget
Identifier un problème de crawl budget nécessite l'analyse de données spécifiques :
Google Search Console — Rapport de crawl — Analysez les statistiques de crawl : nombre de requêtes par jour, temps de réponse moyen, pages crawlées. Une baisse soudaine du volume de crawl ou une augmentation du temps de réponse signale un problème.
Comparaison pages crawlées vs pages indexées — Si vous avez 50 000 pages dans votre sitemap mais seulement 30 000 sont indexées, vous avez un gap de 20 000 pages que Google n'indexé pas — probablement à cause d'un crawl budget insuffisant ou mal distribué.
Analyse des logs serveur — Les fichiers de log de votre serveur montrent exactement quelles pages sont crawlées par quels bots, à quelle fréquence. C'est la source de données la plus fiable pour comprendre le comportement des crawlers sur votre site.
Pages stratégiques non indexées — Si des pages que vous considérez importantes ne sont pas indexées après plusieurs semaines, c'est un symptôme direct de problème de crawl budget ou d'accessibilité technique.
Monitoring des bots IA — Vérifiez dans vos logs si GPTBot, PerplexityBot et ClaudeBot crawlent votre site. Si non, vérifiez votre robots.txt et la configuration de votre serveur.
Un audit de crawl budget devrait être effectué au minimum deux fois par an, et après chaque modification significative de la structure du site (migration, refonte, ajout massif de contenu).
Comment Google détermine votre crawl budget
Le crawl budget résulte de deux facteurs que Google combine :
La capacité de crawl (Crawl Rate Limit) — C'est le nombre maximum de requêtes simultanées que Googlebot peut faire sur votre serveur sans dégrader les performances de votre site. Si votre serveur est rapide et répond bien, Google augmente le débit. Si votre serveur est lent ou renvoie des erreurs, Google réduit le débit pour ne pas surcharger.
La demande de crawl (Crawl Demand) — C'est l'intérêt de Google pour votre contenu. Les facteurs incluent :
Le crawl budget final est le minimum entre la capacité de crawl et la demande de crawl. Si votre serveur peut supporter 1000 requêtes/jour mais que Google n'est intéressé que par 500 pages, votre crawl effectif sera de 500.
L'enjeu stratégique est de s'assurer que ces 500 pages sont les bonnes — vos pages stratégiques, pas vos pages de faible valeur.