Het crawlbudget is het aantal pagina's dat Googlebot (en andere crawlers) op uw site bezoekt in een bepaalde tijdspanne. Het is geen vast getal — het is een dynamische toewijzing die Google bepaalt op basis van de omvang van uw site, de kwaliteit en de interesse van de content.
Voor kleine sites (enkele honderden pagina's) is het crawlbudget doorgaans geen probleem — Google crawlt alles. Maar voor sites met meer dan 10.000 pagina's, e-commercesites met facetten en sites met dynamische content, wordt het beheer van het crawlbudget een kritieke technische uitdaging.
In het AI-tijdperk krijgt het crawlbudget een extra dimensie: de bots van LLM's (GPTBot, PerplexityBot, ClaudeBot) hebben hun eigen crawlbudgetten en hun eigen prioriteiten. Uw crawlbudget optimaliseren is ervoor zorgen dat de machines — alle machines — toegang hebben tot uw strategische content.
Hoe Google uw crawlbudget bepaalt
Het crawlbudget resulteert uit twee factoren die Google combineert:
De crawlcapaciteit (Crawl Rate Limit) — Dit is het maximum aantal gelijktijdige verzoeken dat Googlebot aan uw server kan doen zonder de prestaties te degraderen. Als uw server snel is en goed reageert, verhoogt Google het debiet. Als uw server traag is of fouten retourneert, verlaagt Google het debiet om niet te overbelasten.
De crawlvraag (Crawl Demand) — Dit is Google's interesse in uw content. De factoren omvatten:
- Populariteit van URL's — Pagina's met veel backlinks en verkeer worden frequenter gecrawld
- Versheid van content — Frequent bijgewerkte pagina's worden vaker opnieuw gecrawld
- Ouderdom — Oude niet-bijgewerkte pagina's worden minder frequent gecrawld
- Site-evenementen — Een nieuwe sitemap, migratie of herstructurering verhoogt tijdelijk de crawlvraag
Het uiteindelijke crawlbudget is het minimum van de crawlcapaciteit en de crawlvraag. Als uw server 1000 verzoeken/dag aankan maar Google slechts in 500 pagina's geinteresseerd is, wordt uw effectieve crawl 500.
De strategische uitdaging is ervoor te zorgen dat die 500 pagina's de juiste zijn — uw strategische pagina's, niet uw pagina's met lage waarde.
Wanneer het crawlbudget een probleem wordt
Het crawlbudget is niet voor alle sites een zorg, maar het wordt kritiek in bepaalde situaties:
Omvangrijke sites (>10.000 pagina's) — Hoe groter uw site, hoe groter het risico dat Google niet al uw pagina's crawlt. Niet-gecrawlde pagina's worden niet geindexeerd en verschijnen in geen enkel resultaat.
E-commercesites met facetten — Categoriefilters (maat, kleur, prijs) genereren duizenden URL-combinaties. Zonder beheer verspillen deze facetpagina's massief uw crawlbudget ten koste van uw strategische productpagina's.
Sites met veel dubbele content — Dubbele pagina's (URL-parameters, HTTP/HTTPS-versies, sorteerpagina's) consumeren crawlbudget zonder waarde toe te voegen. Google verspilt zijn middelen aan redundante pagina's.
Sites met prestatieproblemen — Een trage server vermindert de crawlcapaciteit. Als uw responstijd 2 seconden overschrijdt, vertraagt Google zijn crawl aanzienlijk.
Sites met ketenredirects — Elke redirect consumeert een crawl-"krediet". Ketenredirects (A naar B naar C naar D) verspillen meerdere kredieten om de eindpagina te bereiken.
Het meest zichtbare symptoom van een crawlbudgetprobleem is onvolledige indexering: pagina's die u als belangrijk beschouwt worden niet door Google geindexeerd en zijn dus totaal onzichtbaar in de resultaten.
Uw crawlbudget optimaliseren: concrete acties
Dit zijn de meest impactvolle optimalisaties om de efficientie van uw crawlbudget te maximaliseren:
Verspilling elimineren — Blokkeer in robots.txt de URL's zonder SEO-waarde: niet-strategische facetpagina's, interne zoekresultatenpagina's, parameterpagina's (sortering, diepe paginatie). Elke nutteloze gecrawlde pagina is een nuttige niet-gecrawlde pagina.
De serversnelheid verbeteren — Een serverresponstijd onder 200ms stelt Google in staat meer pagina's te crawlen in hetzelfde tijdsbudget. Investeer in hosting, caching en backend-optimalisatie.
De sitemap bijwerken — Een schone sitemap.xml die alleen de pagina's bevat die u wilt indexeren, begeleidt Google naar uw prioritaire content. Verwijder 404-pagina's, redirects en no-index pagina's.
Crawlfouten corrigeren — 404-, 5xx-fouten en redirectlussen verspillen crawlbudget en ontmoedigen crawlers. Corrigeer ze systematisch.
Dubbele content beheren — Implementeer canonical-tags om de voorkeursversie van elke pagina aan te geven. Google crawlt alleen de canonieke versie zodra het signaal is begrepen.
Interne koppeling prioriteren — Pagina's met meer interne links worden frequenter gecrawld. Zorg ervoor dat uw strategische pagina's een dichte interne koppeling hebben vanuit pagina's met sterke autoriteit.
Crawlbudget en AI-bots: de nieuwe dimensie
De bots van LLM's voegen een extra laag complexiteit toe aan het beheer van het crawlbudget. Dit zijn de specificiteiten om te kennen:
GPTBot (OpenAI) — Crawlt om de trainingsdata en realtime antwoorden van ChatGPT Browse te voeden. Zijn crawlgedrag verschilt van Googlebot: het kan bepaalde secties diep crawlen en andere negeren. Controleer in uw robots.txt of het niet geblokkeerd is (tenzij intentioneel).
PerplexityBot — Crawlt in realtime voor elke gebruikerszoekopdracht. Zijn crawlbudget per site is beperkt — uw content moet snel en zonder technische obstakels toegankelijk zijn.
ClaudeBot (Anthropic) — Crawlt voor de trainingsdata van Claude. Controleer of het toegang heeft tot uw strategische pagina's via robots.txt.
De implicaties voor uw technische strategie:
- Uw
robots.txtmoet expliciet de AI-bots toestaan die u wilt bedienen - Uw
llms.txtbegeleidt AI-bots naar uw prioritaire content - De prestatie van uw server beinvloedt de crawlcapaciteit van alle bots, niet alleen Googlebot
- Trage pagina's of pagina's met veel JavaScript zijn moeilijk te crawlen voor AI-bots
Het crawlbudget optimaliseren in het AI-tijdperk betekent optimaliseren voor een gediversifieerd ecosysteem van crawlers, elk met hun eigen prioriteiten en beperkingen.
Crawlbudgetproblemen diagnosticeren
Een crawlbudgetprobleem identificeren vereist de analyse van specifieke data:
Google Search Console — Crawlrapport — Analyseer de crawlstatistieken: aantal verzoeken per dag, gemiddelde responstijd, gecrawlde pagina's. Een plotselinge daling van het crawlvolume of een stijging van de responstijd signaleert een probleem.
Vergelijking gecrawlde vs geindexeerde pagina's — Als u 50.000 pagina's in uw sitemap hebt maar slechts 30.000 zijn geindexeerd, hebt u een gap van 20.000 pagina's die Google niet indexeert — waarschijnlijk door een onvoldoende of slecht gedistribueerd crawlbudget.
Analyse van serverlogs — De logbestanden van uw server tonen precies welke pagina's door welke bots worden gecrawld, met welke frequentie. Het is de meest betrouwbare databron om het gedrag van crawlers op uw site te begrijpen.
Niet-geindexeerde strategische pagina's — Als pagina's die u als belangrijk beschouwt na meerdere weken niet geindexeerd zijn, is dat een direct symptoom van een crawlbudget- of technisch toegankelijkheidsprobleem.
Monitoring van AI-bots — Controleer in uw logs of GPTBot, PerplexityBot en ClaudeBot uw site crawlen. Zo niet, controleer uw robots.txt en de configuratie van uw server.
Een crawlbudgetaudit moet minstens twee keer per jaar worden uitgevoerd, en na elke significante wijziging van de sitestructuur (migratie, herontwerp, massale contenttoevoeging).