Microsoft beëindigt zijn Anthropic-licenties vanwege exploderende tokenkosten. Analyse van verborgen AI-budgetten en optimalisatiestrategieën voor kmo's en middelgrote ondernemingen.


Microsoft heeft zojuist haar interne Anthropic-licenties opgezegd. De reden: in slechts enkele maanden tijd heeft de overstap naar facturering per token de geplande jaarbudgetten doen ontploffen. Als een technologiereus met vrijwel onbeperkte middelen deze kosten onhoudbaar acht, wat moeten Belgische en Franse KMO's en middelgrote ondernemingen dan verwachten?
Deze beslissing is geen anekdote. Ze onthult een realiteit die veel bedrijfsleiders te laat ontdekken: de werkelijke kost van generatieve AI in bedrijven heeft niets te maken met de gepubliceerde tarieven. Tussen de initiële schattingen en de eindrekening kan het verschil oplopen tot 300 à 500% afhankelijk van het gebruik. En dit fenomeen zal versterken in 2025-2026.
Dit artikel ontleedt de mechanismen van facturering per token, identificeert de verborgen kosten die niemand vermeldt, en stelt concrete strategieën voor om uw AI-budget onder controle te houden zonder de prestaties op te offeren.
Een token vertegenwoordigt ongeveer 0,75 woord in het Nederlands. Elke interactie met een AI-model zoals GPT-4, Claude van Anthropic of Gemini van Google verbruikt tokens als input (uw vraag) en als output (het gegenereerde antwoord). De facturering onderscheidt deze twee stromen, met verschillende tarieven.
Hier zijn de gemiddelde tarieven die in 2025 worden gehanteerd voor premium modellen:
Deze cijfers lijken bescheiden. Ze worden duizelingwekkend op de schaal van een organisatie.
Een eenvoudig gesprek met een AI-assistent verbruikt tussen 1.000 en 4.000 tokens. Maar professioneel gebruik impliceert veel zwaardere contexten: referentiedocumenten, gesprekshistoriek, gedetailleerde systeeminstructies. Een enkele zakelijke vraag kan 50.000 tot 100.000 tokens bereiken.
Nemen we een concreet voorbeeld. Een team van 20 commerciëlen gebruikt een AI-assistent om handelsvoorstellen op te stellen. Elk voorstel vereist:
Dat is 35.000 tokens per voorstel. Met 10 voorstellen per commerciële vertegenwoordiger per week, verbruikt het team 7 miljoen tokens wekelijks. Op jaarbasis: 364 miljoen tokens, oftewel tussen 15.000 en 40.000 euro afhankelijk van het gebruikte model. Voor één enkele use case.
Werknemers leren van nature om betere antwoorden te krijgen. Hoe? Door meer context te bieden, door gedetailleerdere antwoorden te vragen, door na te vragen voor verfijning. Elke verbetering van de kwaliteit vertaalt zich in een toename van tokenverbruik.
Bij AISOS observeren we dat het gemiddelde verbruik per gebruiker met 15 tot 25% stijgt elke maand gedurende de eerste zes maanden van implementatie. Zonder plafonnering worden initiële budgetten obsoleet binnen een kwartaal.
Elke API-oproep bevat systeeminstructies die het gedrag van de AI definiëren. Deze instructies worden gefactureerd bij elke vraag, zelfs als ze nooit veranderen. Een systeemprompt van 2.000 tokens die 10.000 keer per dag herhaald wordt, vertegenwoordigt 20 miljoen tokens maandelijks: tussen 200 en 600 euro per maand voor tekst die niemand leest.
AI-modellen slagen er niet altijd in om het de eerste keer goed te doen. Formaatfouten, onvolledige antwoorden, timeouts: elke fout verbruikt tokens. Robuuste architecturen voorzien automatische herhaalingsmechanismen. Resultaat: 10 tot 20% extra verbruik om randgevallen te beheren.
Leveranciers werken hun modellen regelmatig bij. Elke nieuwe versie kan gedragingen wijzigen, waardoor promptaanpassingen en testfasen nodig zijn. Deze iteraties verbruiken tokens zonder directe waarde te produceren. De meest actieve bedrijven kunnen er 5 tot 10% van hun jaarbudget aan besteden.
Eens uw workflows opgebouwd zijn rond een specifiek model, impliceert migreren naar een minder kostbaar alternatief het herschrijven van prompts, hertesten van use cases, trainen van teams. Deze migratiekost versterkt de onderhandelingspositie van de oorspronkelijke leverancier. Tariefverhogingen worden moeilijk te betwisten.
Het geval Microsoft illustreert een systemisch fenomeen. Volgens beschikbare informatie heeft het bedrijf vastgesteld dat haar interne teams in enkele maanden het equivalent hadden verbruikt van hun geplande jaarbudget voor Anthropic-diensten.
Verschillende factoren verklaren deze drift:
Microsoft geeft AI niet op. Het bedrijf rationaliseert haar investeringen door de voorkeur te geven aan haar eigen modellen via Azure OpenAI, waar ze kosten en marges beter beheerst. Deze beslissing is strategisch, niet defaitistisch.
Voor elke implementatie, definieer duidelijk:
Deze governance is geen bureaucratische beperking. Het is de voorwaarde om AI om te zetten in een beheerste investering eerder dan een financiële put.
Niet alle toepassingen vereisen GPT-4 of Claude Opus. Een eenvoudige classificatie laat toe de kosten met 40 tot 70% te reduceren:
AISOS-audits tonen aan dat 60 tot 75% van bedrijfsvragen kunnen behandeld worden door mid-range modellen zonder waarneembaar kwaliteitsverlies.
Elke token telt. Eenvoudige technieken laten toe het verbruik met 20 tot 40% te reduceren:
Publieke tarieven zijn startpunten, geen definitieve prijzen. Vanaf een zeker volume, onderhandel:
Bedrijven die onderhandelen krijgen regelmatig kortingen van 15 tot 30% ten opzichte van standaardtarieven.
Voor niet-kritieke toepassingen of zeer belangrijke volumes bieden open source modellen zoals Llama 3, Mistral of Falcon vergelijkbare prestaties tegen quasi nul marginale kost eens de infrastructuur geïmplementeerd is.
De economische berekening wordt voordelig wanneer:
De huidige trends tekenen een gecontrasteerd landschap voor de komende jaren:
Factoren voor daling van eenheidskosten:
Factoren voor stijging van totale kosten:
De meest realistische projectie: eenheidskosten zullen dalen met 20 tot 30%, maar volumes zullen toenemen met 100 tot 200%. Het globale AI-budget van bedrijven zal blijven groeien, maar op een meer voorspelbare manier als de goede praktijken op hun plaats zijn.
Het geval Microsoft is geen nederlaag van AI in bedrijven. Het is een teken van volwassenheid. De organisaties die de euforiefase zullen overleven zijn diegene die geleerd hebben om hun AI-investeringen te meten, optimaliseren en afwegen.
Voor KMO's en middelgrote ondernemingen is deze discipline des te crucialer omdat de budgettaire manoeuvreerruimte beperkt is. Maar het is ook een kans: een middelgroot bedrijf dat zijn AI-kosten beheerst kan toepassingen implementeren die zijn concurrenten te duur zullen vinden.
De drie prioritaire acties om deze week te lanceren:
Het beheersen van de kost van AI-tokens is niet langer een technisch onderwerp voorbehouden aan IT-teams. Het is een uitdaging voor de algemene directie, op hetzelfde niveau als de loonmassa of aankopen. De leiders die het nu integreren in hun financiële sturing zullen een beslissende voorsprong nemen.

Microsoft zet streep door Anthropic: wanneer AI-kosten exploderen, hoe passen bedrijven zich aan

Microsoft annuleert zijn Anthropic-licenties: hoe bedrijven een explosie van hun AI-budget kunnen vermijden

Claude overtreft ChatGPT: scenario's 2028 en nieuwe kansen voor B2B-ondernemingen