PRISM Eval en de CEA-List, winnaars van de uitdaging Beveiliging van AI

Voorspellend onderhoud, inlichtingenanalyse, conflictsimulatie, cyberdefensie: AI is tegenwoordig een belangrijke kwestie voor de strijdkrachten en een onmisbaar informatiesysteem. Tegelijkertijd heeft het nieuwe aanvalsvlakken geïntroduceerd: exploiteerbare modellen, manipuleerbare gegevens, veranderbare antwoorden...Om deze kwetsbaarheden te anticiperen en oplossingen te laten ontstaan om deze tegen te gaan, hebben het Commando van de cyberdefensie (COMCYBER) en het Agentschap voor Defensie-innovatie (AID) de uitdaging "Beveiliging van AI" gelanceerd.

AI, als informatiesysteem, is blootgesteld, kwetsbaar en potentieel omkeerbaar. Tegenovergestelde aanvallen, extracties van gevoelige informatie of de generatie van schadelijke inhoud zijn geen theoretische hypothesen meer, maar actieve aanvalsvectoren.

De inzet ervan in het militaire domein vereist een rigoureuze beveiliging, met een solide technisch kader, algoritmische veerkracht en verhoogde operationele controle.

De uitdaging ontving meer dan tien inzendingen van laboratoria, start-ups, MKB's, middelgrote bedrijven of grote groepen. Twee vielen bijzonder op: die van PRISM Eval en de CEA-List.

PRISM Eval: testen van gedragsfouten van LLMs

Opgericht in 2024, specialiseert de Parijse start-up PRISM Eval zich in red teaming, gedragsinterpreteerbaarheid en de afstemming van geavanceerde AI-systemen. Het streeft ernaar een diepgaand begrip te ontwikkelen van de cognitieve mechanismen van LLMs om grootschalige afwijkingen te beheersen. Deze wetenschappelijke benadering wordt gematerialiseerd in de BET (Behavior Elicitation Tool)-suite, winnaar van de uitdaging.

Het eerste product, BET Eval, richt zich direct op de behoefte aan robuustheid van de LLMs die ChatGPT, Le Chat en GenIAl, de AI-assistent van het ministerie van Defensie, voeden. Het hulpmiddel fungeert als een reeks gedragsinbraaktesten, waarbij semantische en contextuele aanvalsprincipes worden gecombineerd om te evalueren:

het vermogen van het model om schadelijke of gevaarlijke inhoud te genereren (toxiciteit, aanzetting);
de kwetsbaarheid voor het exfiltreren van gevoelige informatie;
de eenvoud waarmee zijn beschermingen kunnen worden omzeild (prompt-injectie, jailbreak).

CEA-List: het beveiligen van visuele modellen door verificatie en vertrouwen

Aan de andere kant richt de CEA-List zich op de beveiliging van visuele classificatiemodellen tegen aanvallen door gegevenswijziging. Hier is het risico verraderlijker: een afbeelding die lichtjes door een tegenstander is aangepast, kan ertoe leiden dat AI een civiel voertuig identificeert als een vijandig voertuig — of omgekeerd.

De oplossing is gebaseerd op twee complementaire hulpmiddelen:

PyRAT, dat formele verificatie toepast op neurale netwerken. Het biedt wiskundige garanties tegen subtiele aanvallen, zoals onzichtbare pixelwijzigingen die zijn bedoeld om automatische classificatie te misleiden (een goed gedocumenteerde maar moeilijk in realtime te detecteren techniek);
PARTICUL, dat een vertrouwensscore berekent op basis van de detectie van regelmatigheden in datasets. Het maakt het mogelijk zichtbare indringingen te detecteren (zoals het toevoegen van patches) door de mate van anomalie van een invoer te meten.

Deze twee hulpmiddelen maken het mogelijk om zowel stroomopwaarts (formele robuustheid van het model) als stroomafwaarts (operationeel vertrouwen in de gegevens) te behandelen, door symbolische logica en statistisch empirisme te combineren.

Marie-Claude Benoit

Redactie ActuIA — nieuws, data en analyses over kunstmatige intelligentie voor besluitvormers.

PRISM Eval en de CEA-List, winnaars van de uitdaging Beveiliging van AI

PRISM Eval: testen van gedragsfouten van LLMs

CEA-List: het beveiligen van visuele modellen door verificatie en vertrouwen

In Lille test “L’IA avec nous” de belofte van een Europese vallei voor toegepaste AI

Claude Mythos: de EU uitgesloten van de briefing die de Fed en de Bank of England hebben ontvangen

Digitale soevereiniteit: CIANum roept op tot het overstijgen van publieke en private silo's voor het opbouwen van strategische commons