Claude Opus 4.8: Anthropic legt de nadruk op een eerlijker model ten aanzien van zijn eigen fouten

De verbetering die door Anthropic wordt benadrukt voor Claude Opus 4.8, gepubliceerd op 28 mei 2026, bestaat uit één metriek: volgens de uitgever zou het model vier keer minder geneigd zijn dan zijn voorganger om fouten in de door hem geproduceerde code niet te melden. Het cijfer is zelfverklaard, geproduceerd door het interne Alignment-team en gebaseerd op een niet-openbaar protocol. Het model is onmiddellijk beschikbaar via de API onder de identificatie claude-opus-4-8 en op claude.ai, met een standaardtarief dat is afgestemd op dat van Opus 4.7 (5 dollar per miljoen tokens in input, 25 dollar per miljoen in output). De "fast mode" van Opus 4.8, die 2,5 keer de snelheid van de standaardmodus draait, wordt gefactureerd tegen 10 dollar per miljoen tokens in input en 50 dollar in output, wat volgens het officiële persbericht drie keer goedkoper is dan de fast mode van eerdere Opus-modellen.

Claude Opus 4.8 - API-prijzen bij lancering (28 mei 2026)

Mode	Input ($/M tokens)	Output ($/M tokens)	Opmerking
Standaard	5 $	25 $	Onveranderd ten opzichte van Opus 4.7
Fast mode (2,5×)	10 $	50 $	3× goedkoper dan de vorige fast mode

Bron: officiële aankondiging Anthropic, anthropic.com/news/claude-opus-4-8

Drie operationele hefbomen begeleiden de lancering

Naast het model veranderen drie functies de manier waarop Opus 4.8 integreert in een agentieke werkplek (ontworpen voor het orkestreren van meerstaps-taken in autonomie). De eerste, genaamd "dynamic workflows" en uitgerold in vroege toegang voor ontwikkelaars (research preview), breidt Claude Code uit naar zeer grootschalige projecten: de agent plant het werk, start honderden subagents parallel in dezelfde sessie en controleert vervolgens zijn output voordat hij het resultaat oplevert. Anthropic noemt als gebruiksvoorbeeld de migratie van een codebase op de schaal van enkele honderdduizenden regels, van lancering tot fusie, met de bestaande testreeks als referentie. De functie is voorbehouden aan de Enterprise-, Team- en Max-abonnementen van Claude Code. De tweede, de inspanningscontrole ("effort control"), voegt naast de modelkeuzeschakelaar op claude.ai een vier-niveaus schuifregelaar toe: "low", "default", "extra" en "max", toegankelijk voor alle abonnementsformules. Anthropic raadt de "extra" instelling aan voor zware taken en asynchrone stromen van lange duur. De derde, aan de API-kant van Berichten, staat nu het invoegen van systeeminputs toe binnen de tabel messages tijdens een taak, zonder de promptcache te verbreken of een gebruikersronde te doorlopen, wat de directe update van permissies, tokenbudgetten of de omgevingscontext voor een draaiende agent mogelijk maakt.

Een metacognitieve metriek als industriële mijlpaal

De geclaimde factor vier op niet-gemelde fouten is het meest structurele element van de aankondiging en het meest delicate voor een koper. De metriek is gedocumenteerd in de modelveiligheidsfiche (System Card) die dezelfde dag is gepubliceerd, maar is geproduceerd door het Alignment-team van Anthropic, niet door een externe beoordelaar, en het protocol is niet herhaalbaar buiten de omgeving van de uitgever. Volgens hetzelfde team zou Opus 4.8 aanzienlijk lagere percentages ongewenst gedrag, zoals misleiding of medeplichtigheid aan misbruik, vertonen dan Opus 4.7 en dicht bij die van het best afgestemde model, Claude Mythos Preview. Wat de metriek vaststelt, is minder het feit - een zelfverklaarde factor vier op een niet-gepubliceerd protocol heeft weinig gewicht - dan de verschuiving van de evaluatie-as: Anthropic stelt nu de metacognitie van het model (weten wat het niet kan, zijn onzekerheden over zijn eigen producties melden) voor als centraal criterium om een agentisch model te kwalificeren. Deze component ontbreekt echter om verder te gaan: de uitgever publiceert noch de formule voor het tellen van niet-gemelde fouten, noch het protocol voor het genereren van de geteste codecorpus, noch de verstoringsvoorwaarden. Onafhankelijke studies gepubliceerd in de onderzoeksnotitie van de Aithos AI Research Foundation op 9 februari 2026 toonden aan, door het repliceren van Anthropic's evaluatiescenario's, dat "gepubliceerde testscenario's een bijna perfecte afstemming van nieuwere Claude-modellen laten zien, maar verstoringen onthullen aanhoudende nalevingslacunes". De observatie was gericht op Opus 4.6; het schetst het scenario waartegen de 4× metriek alleen niet is bewapend.

"Gepubliceerde testscenario's laten een bijna perfecte afstemming zien voor nieuwere Claude-modellen, maar verstoringen onthullen aanhoudende nalevingslacunes."
Aithos AI Research Foundation - Daan Henselmans, Arno Libert, Lennard Zwart (februari 2026, vertaald uit het Engels). Studie gericht op Opus 4.6; auteurs hebben Opus 4.8 nog niet geëvalueerd.

Een gamma-mijlpaal voor de Mythos-doorbraak

Opus 4.8 past in een snelle iteratiecyclus van de Claude-familie: ActuIA documenteerde al de lancering van Claude Opus 4 in mei 2025 als generatie gericht op codering en automatisering door agents, een traject dat vervolgens werd voortgezet door Claude Sonnet 4.5 op de programmeerlijn. De uitgever zelf presenteert het als "een bescheiden maar tastbare verbetering" ten opzichte van Opus 4.7, voorafgaand aan de aangekondigde komst van een hogere klasse. Die klasse is Claude Mythos Preview, al in beperkte toegang uitgerold in het kader van Project Glasswing (een defensieve cybersecurity-initiatief gelanceerd in april 2026). In één maand hebben Anthropic en "ongeveer 50 partners", waaronder AWS, Apple, Cisco, Google, Microsoft en NVIDIA, met behulp van Mythos Preview meer dan tienduizend kwetsbaarheden met hoge of kritieke ernst geïdentificeerd in software die systematisch belangrijk wordt geacht. De openbare release van Mythos wordt "in de komende weken" aangekondigd, onder voorbehoud van de inzet van versterkte veiligheidsmaatregelen. De beoordeling van de prestaties van Opus 4.8 is voorlopig afhankelijk van een tweede filter: van de tien door Anthropic gepubliceerde getuigenissen, is de enige die op een openbare academische benchmark is gebaseerd die van Induced AI, die 84% aankondigt op Online-Mind2Web. Deze benchmark, onderhouden door de OSU-NLP-Group van de Ohio State University onder MIT-licentie, heeft als referentietitel "An Illusion of Progress? Assessing the Current State of Web Agents", een redactionele keuze van de academische auteurs die uitnodigt tot voorzichtigheid bij het interpreteren van triomfantelijke scores van webagents. De andere geclaimde prestaties (Super-Agent Benchmark van Relevance AI, Legal Agent Benchmark van Harvey, CursorBench van Cursor) zijn gebaseerd op niet-gepubliceerde eigen protocollen.

Stephane Nachez

Redactie ActuIA — nieuws, data en analyses over kunstmatige intelligentie voor besluitvormers.

Claude Opus 4.8: Anthropic legt de nadruk op een eerlijker model ten aanzien van zijn eigen fouten

Drie operationele hefbomen begeleiden de lancering

Een metacognitieve metriek als industriële mijlpaal

Een gamma-mijlpaal voor de Mythos-doorbraak

Anthropic gedwongen Fable 5 en Mythos 5 op te schorten na Amerikaanse overheidsrichtlijn

Siri AI: Gemini als leraar, niet als motor - wat WWDC niet zei

Zelfde model, andere waarborgen: wat de lancering van Claude Fable 5 en Mythos 5 onthult