De echte uitdaging van AI in bedrijven is niet langer het model, maar het gebruik ervan

In juni 2026 is het belangrijkste signaal voor bedrijven niet de komst van alweer een LLM, noch de benchmark-oorlog. De echte verschuiving, zichtbaar bij Google Cloud, AWS, Microsoft en Databricks, speelt zich elders af: MLOps wordt een discipline voor de exploitatie van agents, met vier uitdagingen die tegelijk zwaarder gaan wegen - businesscontext, governance, observability en de eenheidskost van inferentie. Wanneer alle grote spelers hun aankondigingen herorganiseren rond runtime, identity, gateways, memory, tracing en continue evaluatie, is dat geen modegril meer; het is een verschuiving van laag.

Met andere woorden: in 2024 vroeg men vooral welk model men moest kiezen; in 2026 draait de vraag die bepaalt of iets naar productie gaat vooral om wie de context, permissions, traces, kosten en de mogelijkheid om van leverancier te wisselen controleert. Microsoft schrijft het bijna letterlijk: de bottleneck is niet langer de capaciteit van de modellen, maar de gedeelde bedrijfscontext. Databricks legt op zijn beurt uit dat de zichtbare agentische loop slechts een klein deel van het werk is, en dat de rest bestaat uit verborgen technische schuld op het vlak van security, deployment, monitoring, kosten en kwaliteit. AWS legt nu de nadruk op continue verbetering op basis van productietraces. Google pusht een volledig platform om agents te bouwen, uit te rollen, te gouverneren en te optimaliseren.

AI komt niet het cloud-tijdperk binnen; het cloud-tijdperk wordt opnieuw het besturingssysteem van AI.

De verschuiving wordt bij alle providers zichtbaar

De gemeenschappelijke noemer van de aankondigingen van dit voorjaar en deze maand juni is opvallend. Google Cloud lanceerde Gemini Enterprise Agent Platform als een platform om agents te bouwen, op te schalen, te gouverneren en te optimaliseren, waarbij modelselectie, integratietools, DevOps, orchestration en security in één laag samenkomen. Tijdens Google Cloud Next ’26 zette Google ook een op graphs gebaseerd Agent Developer Kit in de verf, evenals Agent Studio om agents op grote schaal te bouwen, testen en publiceren.

Bij Microsoft is de boodschap van Build 2026 nauwelijks minder expliciet. Het bedrijf stelt dat het probleem niet langer de kracht van het model is, maar het vermogen om een consistente datacontext te leveren aan agents die in businesssystemen moeten handelen. De officiële Build 2026-pagina zet onder de belangrijkste aankondigingen bovendien bouwstenen in de kijker die gaan van “observability to ROI for AI agents” tot portable agent governance, naast de uitrol en uitvoering op schaal van Foundry.

AWS heeft Bedrock AgentCore intussen in een industriële exploitatie-logica geplaatst. De aankondiging van 18 juni 2026 over nieuwe optimalisatiecapaciteiten legt niet in de eerste plaats de nadruk op het bouwen van agents, maar op een cyclus waarin productietraces worden gebruikt om te begrijpen wat er gebeurt, om fouten te corrigeren en om te bewijzen dat de fixes het systeem daadwerkelijk verbeteren. AWS formuleert het echte risico zelfs heel scherp: de gevaarlijkste storingen zijn niet die met een foutmelding, maar de stille defecten die pas achteraf zichtbaar worden in klachten van klanten.

Databricks leest exact dezelfde trend, maar in andere woorden. In zijn DAIS 2026-blog legt de vendor uit dat de zichtbare agentische loop slechts “1%” is, terwijl de overige “99%” draait om deployment, token capacity, security, evaluatie, observability, context en sharing. Het meest interessante is niet zozeer de productaankondiging, maar de framing: voor Databricks is het marktvraagstuk niet langer hoe je een agent-demo maakt, maar hoe je een betrouwbaar agentisch systeem exploiteert.

De les voor beslissers is eenvoudig: wanneer Google, AWS, Microsoft en Databricks, elk met hun eigen vocabulaire, convergeren naar dezelfde bouwstenen - runtime, identity, memory, gateways, tracing, scoring, governance - dan betekent dat dat we de fase “POC + hype” verlaten en een architectuurfase binnengaan. Het zwaartepunt van MLOps verschuift dus van het model naar de exploitatieketen.

Waarom MLOps AgentOps wordt

Die verschuiving verandert de aard van de technische stack zelf. In klassieke MLOps bestond de kern uit het versioneren van data en modellen, het uitrollen van een endpoint, het opvolgen van enkele metrics en het opnieuw draaien van een retraining-pipeline. In de stack van 2026 moet daar bovenop een agent-runtime worden beheerd, samen met korte- en langetermijngeheugen, actierechten, externe tools, execution traces, responsekwaliteit, naleving van gedragsregels en de latency van meerstapsketens. Google documenteert die stapeling al: Agent Platform biedt een managed runtime, sessions, een Memory Bank, logging-, tracing- en monitoringfuncties, plus een eigen identity per agent.

Het meest interessante detail is wellicht de opkomst van agent identity. In de Google-documentatie steunt Agent Identity op een cryptografisch geattesteerde identiteit, gebaseerd op de SPIFFE-standaard, om een agent te authenticeren tegenover MCP-servers, cloudresources, endpoints en andere agents. Met andere woorden: het probleem is niet langer alleen “wie roept de API aan?”, maar “welke agent handelt, namens wie, met welke scope van rechten?”. Dat is een grote verschuiving: security verhuist naar het niveau van geautomatiseerd gedrag.

AWS beweegt in dezelfde richting met AgentCore Gateway, dat API’s, Lambda-functies en bestaande services omzet in tools die compatibel zijn met het Model Context Protocol, met inkomende en uitgaande authenticatie, kant-en-klare integraties en fijne toegangscontrole. Die laag is strategisch, omdat ze de wereld van agents verbindt met die van de echte IT-omgeving: CRM, messaging, tickets, documentatie, databases en workflows. MLOps houdt dan op een puur “model”-onderwerp te zijn en wordt een platform- + integratie- + securityvraagstuk.

De andere grote verschuiving is kwalitatieve observability. MLflow 3 bij Databricks verenigt al tracking, evaluatie en observability van GenAI-applicaties en agents met real-time traces, scorers, human feedback en versioning. In productie biedt Databricks monitoring die automatisch scorers uitvoert op steekproeven van traces om de kwaliteit continu te evalueren - een teken dat men niet langer alleen een versie evalueert vóór deployment, maar het reële gedrag na ingebruikname. AWS zegt hetzelfde in een andere vorm: AgentCore Observability levert realtime metrics over het aantal sessions, latency, duur, tokengebruik en error rates, met filtering op metadata voor onderzoek.

Tenslotte wordt ook de inferentie-infrastructuur zelf meer een platform dan een “simpele GPU-hosting”. De CNCF wijst erop dat de op Gateway API gebaseerde Inference Gateway nu GA is en verkeer kan routeren op basis van modelnaam, LoRA-adapters en endpointstatus, om server pools beter te delen en de benutting van accelerators te verhogen. Google versterkt die beweging met de integratie van NVIDIA Dynamo in GKE Inference Gateway, en kondigt tegelijk fractionaliseerbare G4-VM’s aan om workloads beter te dimensioneren. Ook hier is de vraag niet langer alleen: waar vinden we GPU’s?, maar: hoe gebruiken we inferentiecapaciteit met discipline, pooling en fijne afwegingen?

Wat dit organisatorisch verandert, is doorslaggevend: MLOps moet voortaan samenwerken met security, cloudplatform, data engineering, IAM-teams, FinOps-teams en soms ook legal. “AgentOps” is geen nieuw modewoord; het is het bewijs dat AI-exploitatie het data-science-silo verlaat en de operationele kern van de IT-omgeving binnenkomt.

De verborgen kost die uiteindelijk op de begroting verschijnt

Hier wordt het onderwerp echt beslissingsrelevant. Volgens State of the Cloud 2026 van Flexera gebruikt 58% van de organisaties al GenAI-services van public cloud, zegt 45% dat ze die uitgebreid gebruiken, werkt 73% in een hybride model, gebruikt 49% inmiddels unit economics om cloud spending te koppelen aan businessresultaten, en loopt het geschatte aandeel IaaS/PaaS-verspilling op tot 29%. Flexera merkt ook op dat 64% van de organisaties cloud nu meer meet op basis van de waarde voor de business dan op basis van louter kostenefficiëntie. Dat is niet banaal: de conversatie verschuift van “wat kost het?” naar “wat is de kost per service, per gebruik, per workflow, per team, per klant?”.

Die evolutie sluit aan bij wat Europese bedrijven in de praktijk al zien. Reuters meldt dat groepen zoals Siemens, Renault, Orange of ChapsVision hun leveranciersbestand uitbreiden om het afhankelijkheidsrisico te beperken, maar ook omdat de tokenkost steeds gevoeliger wordt naarmate agents meer taken automatiseren. Het artikel verwijst expliciet naar de groeiende focus op eenheidskosten en naar het voorbeeld van een tokenbudget dat veel sneller werd opgebruikt dan verwacht. Zelfs de financiële markten maken zich intussen zorgen over de hoogte van de AI-infrastructuuruitgaven van hyperscalers, een teken dat de vraag naar economisch rendement het technische circuit heeft verlaten.

Daar komt nog iets bij dat vaak verkeerd wordt begrepen: de factuur van een agentisch systeem beperkt zich niet tot de prijs van de model-API. AWS toont in de eigen AgentCore-pricingpagina dat er kosten bijkomen rond het model - gateway-calls, short-term memory, long-term memory storage, memory retrieval, observability - met afzonderlijke kostlijnen. De gepubliceerde prijsvoorbeelden van AWS illustreren precies die granulariteit: zelfs los van de kost van het model zelf creëert de agentische exploitatielaag haar eigen economie.

De juiste budgettaire invalshoek voor een CIO of CFO is dus niet langer “wat kost een prompt?”, maar “wat is mijn volledige kost per nuttige agent?”. Die volledige kost omvat minimaal het model, externe tools, memory, logging, tracing, security, guardrails, storage, contextdata en de menselijke tijd die nodig is voor evaluatie en remediatie. Als de onderneming deze economische eenheid niet opvolgt, kan ze makkelijk adoptie vaststellen zonder te weten of die waarde creëert of enkel cloudlast.

Daarom verandert FinOps van aard. Flexera kondigt niet langer gewoon klassieke cloud cost management-functies aan, maar een AI Cost Management-laag die applicaties, agents, modellen, data platforms en compute omvat. De impliciete boodschap is duidelijk: AI-uitgaven zijn niet langer een aanhangsel van cloud spending; ze worden een aparte stuurpost, complex genoeg om specifieke tools te vereisen.

Cloud-AI wordt opnieuw een soevereiniteitskeuze

De andere interpretatiefout zou zijn om cloud-AI te behandelen als een louter technische afweging tussen AWS, Azure en Google Cloud. In Europa is het in juni 2026 ook een vraagstuk geworden van business continuity en operationele soevereiniteit. De Europese Commissie keurde op 3 juni een voorstel goed voor een Cloud and AI Development Act, gepresenteerd als een hefboom om het Europese cloud- en AI-ecosysteem, de investeringen en de infrastructuren te versterken. Tegelijk herinnert de officiële kalender eraan dat de AI Act volledig van toepassing zal zijn vanaf 2 augustus 2026, met transparantieregels die in augustus 2026 ingaan en een algemeen kader dat de verantwoordelijkheden van aanbieders en uitrolpartijen versterkt.

Die politieke dimensie vertaalt zich al in enterprise-architecturen. Reuters legt uit dat Europese groepen hun modellen en leveranciers versneld diversifiëren na beperkingen op de toegang tot bepaalde Amerikaanse diensten, precies omdat een propriëtaire dienst op afstand door zijn leverancier kan worden beperkt en niet noodzakelijk op de eigen servers van de klant kan draaien. In die context betekent soevereiniteit niet autarkie: Siemens, Orange of Renault spreken vooral over flexibiliteit, een mix van leveranciers en een fallback-capaciteit als een speler de toegang afsluit of de voorwaarden wijzigt.

In die context moet ook de aankondiging van OVHcloud worden gelezen. Reuters meldt dat de Franse groep frontier models wil trainen om een tweede grote Europese LLM-speler te worden, met een geschatte kost van 150 tot 200 miljoen euro voor deze nieuwe technologische cyclus, ver onder de vaak genoemde miljard euro van vroeger. Of het initiatief commercieel slaagt of niet, het zegt iets belangrijks: cloud-AI-soevereiniteit is niet langer een abstract institutioneel discours; het sijpelt door in product- en infrastructuurstrategie bij grote Europese spelers.

Voor een bedrijf is de juiste businessvertaling van die spanning concreet. Een “soevereine” architectuur is niet enkel een architectuur die in Europa wordt gehost. Het is een architectuur die kan identificeren welke componenten intern operationeel moeten kunnen draaien, welke tools vervangbaar moeten blijven, welke contextdata niet gevangen mogen zitten in een proprietaire runtime, en binnen welke termijn een kritieke agent van model of leverancier kan wisselen. Zodra een agent op businessprocessen handelt, wordt leveranciersafhankelijkheid een risicovariabele, niet zomaar een keuze van een ontwikkelaar.

Het bruikbare besliskader voor vandaag

De vraag is dus niet “moeten we MLOps doen voor generatieve AI?”, maar welk type exploitatie we willen standaardiseren. Het onderstaande kader vat samen wat de signalen van juni 2026 echt veranderen voor een bedrijf. Het helpt om een budget, een architectuurtraject of een leverancierskeuze af te wegen.

Beslisdomein	Wat verandert in 2026	Vraag voor het comité
Architectuur	De basis is niet langer een model-endpoint, maar een geheel van runtime + memory + gateway + identity + traces + evaluatie.	Willen we één gestandaardiseerde agent-runtime, of houden we een draagbare laag tussen meerdere clouds en frameworks?
Governance	Observability wordt gedragsmatig: tokens, latency, sessions, aangeroepen tools, traces, feedback, continue scoring.	Welke indicatoren moeten we eisen vóór productie: kost, kwaliteit, groundedness, security, oplostijd?
Budget	AI-uitgaven worden samengesteld: model, memory, tools, logs, tracing, security, data, GPU-capaciteit. Flexera ziet unit economics en cloudverspilling toenemen.	Weten we wat de volledige kost is per nuttige agent, per user journey of per businessproces?
Businesscontext	Microsoft benadrukt dat de bottleneck niet langer het model is, maar de gedeelde context; Databricks maakt contextkwaliteit en knowledge governance tot een pijler van zijn platform.	Welke datasets, ontologieën, documenten en permissions vormen onze “source of truth” voor agents?
Soevereiniteit	In Europa draait veerkracht om leveranciersdiversiteit, substitueerbaarheid en de mogelijkheid om bepaalde bouwstenen lokaal te exploiteren; het regelgevend kader wordt strenger tegen augustus 2026.	Als een leverancier zijn toegangsregels wijzigt, binnen hoeveel dagen kunnen we een kritieke agent omzetten?

De meest praktische consequentie is dat cloud-AI-aankopen niet langer eerst beoordeeld zouden moeten worden op de “beste beschikbare model”, maar op vijf minder spectaculaire en meer doorslaggevende criteria: portabiliteit van context, kwaliteit van observability, granulariteit van controls, zichtbaarheid van kosten en fallback-capaciteit. Een leverancier kan uitstekend zijn in demo’s en zwak in industrialisatie. Net die kloof begint de markt te structureren.

Wat de koplopers al hebben begrepen

Het signaal dat vooruit gelezen moet worden, is dit: de volgende strijd in enterprise AI gaat niet vooral over toegang tot een beter model, maar over het vermogen om agents te laten functioneren binnen een economisch en juridisch houdbaar kader. Organisaties die vooroplopen zijn niet alleen degenen die het snelst uitrollen; het zijn degenen die agents meetbaar, wijzigbaar en bestuurbaar maken. Zij behandelen context als een strategisch actief, kosten als een productmetric en security als een actielogica in plaats van als een lijst met toegangen.

Er moet uiteraard een methodologische nuance blijven. Een belangrijk deel van het signaal komt uit vendor-aankondigingen en productdocumentatie; sommige functies zijn nog in beta of preview, zoals production monitoring in MLflow 3 bij Databricks. Dat betekent dat de echte adoptie trager en ongelijker zal verlopen dan keynotes suggereren. Maar die beperking verandert de kern van de diagnose niet: wanneer de vier grote cloud- en data-ecosystemen naar dezelfde technische primitives convergeren, is de kans groot dat die beweging blijft doorgaan.

De these die het waard is om te onthouden, is dan ook de volgende: het echte onderwerp van MLOps & Cloud AI in 2026 is niet langer een model serveren, maar agents exploiteren met context, bewijs en guardrails. Bedrijven die dit lezen als een louter toolingverhaal zullen achterop raken. Degenen die het zien als een herziening van cloudsturing, financiële controle en operationele governance, zullen beter gepositioneerd zijn om de volgende golf op te vangen.

Stephane Nachez

Redactie ActuIA — nieuws, data en analyses over kunstmatige intelligentie voor besluitvormers.