Een lek onthult het volledige systeem prompt van Claude 3.7 Sonnet

Afgelopen week onthulde een lek de volledige systeem prompt van het hybride redeneermodel Claude 3.7 Sonnet, gepresenteerd in februari door Anthropic. Met een ongebruikelijke lengte van 24.000 tokens beschrijft de prompt nauwkeurig de verwachte gedragingen van het model, de tags die het gebruikt, de toegestane tools, en de houding die aangenomen moet worden tegenover gebruikers.

Een zeldzame kijk in de 'ingewanden' van AI

De inhoud van de prompt, te vinden op GitHub, gaat verder dan een simpele technische configuratie. Het geeft gedetailleerde gedragsinstructies: een genuanceerde houding aannemen, vermijden partij te kiezen in gevoelige onderwerpen, Markdown gebruiken voor codefragmenten, en zijn redeneringen stap voor stap uitleggen waar relevant. Het bevat ook filtermechanismen en XML-tags, bedoeld om de antwoorden van Claude te organiseren voor specifieke gebruikssituaties.

Hoewel deze onthulling de gedragsengineering blootlegt die de antwoorden van een van de meest geavanceerde conversatieagenten op de markt dicteert, roept het een centrale vraag op: als de interne instructies van een model blootgelegd en potentieel gemanipuleerd kunnen worden, in hoeverre zijn de beveiligingsmechanismen die ze zouden moeten beschermen echt robuust?

Anthropic en de inzet voor transparantie

Sinds de oprichting in 2021 door broer en zus Dario en Daniela Amodei, promoot Anthropic een benadering gericht op de betrouwbaarheid, oriënteerbaarheid en interpreteerbaarheid van AI-systemen. Het bedrijf introduceerde het concept van constitutionele AI, een trainingsbenadering die gericht is op het bijbrengen van waarden en principes aan AI-modellen, geïnspireerd door de Universele Verklaring van de Rechten van de Mens.

Een positie die zich vertaalt in een engagement voor transparantie: in augustus 2024 publiceerde Anthropic de systeem prompts voor Claude 3 Haiku, Claude 3 Opus en Claude 3.5 Sonnet in zijn gebruikersinterfaces (web en mobiel). Deze aanpak werd voortgezet voor Claude 3.7 Sonnet, vergezeld van een gedetailleerd document, de "Claude 3.7 Sonnet System Card", waarin niet alleen de technische capaciteiten van het model worden blootgelegd, maar ook de evaluatiemethoden, beveiligingsmechanismen en risicoreductieprotocollen voor Claude 3.7 Sonnet.

Het model wordt beschreven als een "intelligente en vriendelijke" gesprekspartner, in staat tot discursieve initiatieven, autonome redeneringen, en zelfs subjectieve hypothesen in bepaalde filosofische contexten. Toch blijft, zoals Dario Amodei benadrukt in een blogpost getiteld "De urgentie van interpreteerbaarheid", het grondig begrijpen van de interne mechanismen van deze modellen een grote uitdaging. De gepretendeerde transparantie verbergt de ondoorzichtigheid van de processen die ze beheersen.

Openheid en veiligheid: een complexe balans

Dit lek illustreert een groeiende spanning in de ontwikkeling van AI-modellen: hoe kunnen prestaties, controleerbaarheid en transparantie worden gecombineerd zonder de robuustheid van systemen in gevaar te brengen? Het zichtbaar maken van de structuren die het gedrag van een agent sturen kan externe audits mogelijk maken, en zelfs een debat over de vooraf gemaakte ethische keuzes, maar hoe kan de integriteit van deze systemen worden behouden wanneer hun fundamenten worden blootgelegd?

Nu LLM's de belangrijkste interfaces worden voor toegang tot informatie en actie in veel sectoren, is de vraag niet langer alleen technisch, maar politiek, ethisch en strategisch.

Marie-Claude Benoit

Redactie ActuIA — nieuws, data en analyses over kunstmatige intelligentie voor besluitvormers.

Een lek onthult het volledige systeem prompt van Claude 3.7 Sonnet

Een zeldzame kijk in de 'ingewanden' van AI

Anthropic en de inzet voor transparantie

Openheid en veiligheid: een complexe balans

Anthropic gedwongen Fable 5 en Mythos 5 op te schorten na Amerikaanse overheidsrichtlijn

Siri AI: Gemini als leraar, niet als motor - wat WWDC niet zei

Zelfde model, andere waarborgen: wat de lancering van Claude Fable 5 en Mythos 5 onthult