In de context van taalmodellen is een token de basiseenheid van tekstverwerking. Een token is geen woord in de traditionele zin: het is een stuk tekst dat kan overeenkomen met een volledig woord, een woorddeel, een leesteken of zelfs een spatie. Gemiddeld komt een token overeen met circa 0,75 woord in het Engels en iets minder in andere talen.
LLM's zoals GPT-4, Claude en Gemini lezen, verwerken en genereren tekst niet letter per letter of woord per woord, maar token per token. De tokenisatie van tekst is de eerste stap in elke verwerking, en de manier waarop een model tokeniseert beinvloedt zijn prestaties op meertalige teksten, technisch jargon en gestructureerde data.
Tokens zijn ook de commerciele eenheid van API-gebruik. De meeste aanbieders factureren op basis van het aantal input- en output-tokens. Begrip van tokenisatie helpt u de kosten van uw AI-toepassingen te begrijpen en te optimaliseren.
Hoe tokenisatie werkt in de praktijk
Het meest gebruikte tokenisatiesysteem voor moderne LLM's is Byte-Pair Encoding (BPE). Dit algoritme begint bij individuele tekens en voegt iteratief de meest frequente tekenparen samen tot een vocabulaire van subword-eenheden. Het resultaat is een vocabulaire van typisch 50.000 tot 100.000 tokens die frequente woorden als geheel vertegenwoordigen en zeldzame woorden opsplitsen.
Concreet: het woord "optimalisatie" wordt waarschijnlijk als een enkel token opgeslagen omdat het frequent genoeg is. Het woord "trainingscorpusarchitectuur" wordt opgesplitst in meerdere tokens. Cijfers, leestekens, code en niet-Latijnse tekens worden vaak minder efficient getokeniseerd, wat meer tokens per karakter kost.
Voor de praktijk van prompt engineering: langere, complexere prompts kosten meer tokens en dus meer geld. Efficiencter schrijven is ook goedkoper.
Contextvenster en tokenlimieten
Het contextvenster (context window) van een model is het maximum aantal tokens dat het gelijktijdig kan verwerken, zowel input als output. Vroege modellen hadden een contextvenster van 4.096 tokens (ongeveer 3.000 woorden). Moderne modellen bieden contexten van 128.000 tot meer dan een miljoen tokens.
De grootte van het contextvenster bepaalt hoeveel informatie u tegelijkertijd aan een model kunt doorgeven. Een groot contextvenster laat u hele documenten, conversatiegeschiedenissen of kennisbanken in de context plaatsen, wat de behoefte aan fine-tuning of complexe RAG-architectuur vermindert.
Voor de zichtbaarheid van uw merk in AI: wanneer een LLM uw pagina crawlt als deel van een RAG-opvraging, heeft hij slechts een beperkt contextvenster beschikbaar per pagina. Content die de essentie bovenaan plaatst, wordt beter geabsorbeerd dan content die de conclusie pas op het einde trekt.
Tokens en de kosten van AI-toepassingen
De prijsstelling van LLM-API's is gebaseerd op tokens. In 2026 varieert de prijs van GPT-4o tussen 2,50 en 10 dollar per miljoen tokens, afhankelijk van of het input of output betreft. Claude Sonnet kost circa 3 dollar per miljoen input-tokens. Deze prijzen dalen snel naarmate de concurrentie toeneemt.
Voor bedrijven die AI-toepassingen bouwen, heeft tokenefficiencyatie een directe impact op de rendabiliteit. Een systeem-prompt van 2.000 tokens die bij elke aanroep wordt herhaald, kost 100 keer meer dan een systeem-prompt van 20 tokens. Prompt-caching, waarbij frequente instructies worden opgeslagen, is een van de meest effectieve kostenreductiemethoden.
Voor contentoptimalisatie geldt: compacte, informatiedense pagina's die snel tot de kern komen, presteren beter in RAG-contexten met tokenlimieten per opgezochte pagina. Dit is een van de minder bekende voordelen van een heldere contentstructuur.
Tokens en meertalige content
Tokenisatie is niet taalneutraal. Talen met een groot vocabulaire of complex morfologisch systeem (Nederlands, Duits, Pools) vragen doorgaans meer tokens per woord dan het Engels. Niet-Latijnse schriften worden nog minder efficient getokeniseerd door modellen getraind met een overwicht aan Engelstalige data.
Praktische implicatie voor Nederlandstalige content: een Nederlandse pagina van 1.000 woorden verbruikt meer tokens dan een equivalente Engelse pagina. Dit verhoogt de verwerkingskosten licht maar heeft ook een impact op de kwaliteit van taalspecifieke verwerking door oudere modellen.
De nieuwste multilinguale modellen (GPT-4o, Gemini 1.5 Pro, Claude 3.5) hebben deze kloof sterk verkleind. Kwalitatieve Nederlandse content wordt nu bijna even goed verwerkt als Engelstalige. Dit is positief nieuws voor uw AI-zichtbaarheidsstrategie in de Benelux-markt. Ontdek ook onze gids voor AI-optimalisatie.