Wedstrijd / challenge / hackathon

PRISM Eval en de CEA-List, winnaars van de uitdaging Beveiliging van AI

In het licht van de risico's van aanvallen op AI in de militaire sector hebben het Commando van de cyberdefensie (COMCYBER) en het Agentschap voor Defensie-innovatie (AID) een uitdaging gelanceerd om AI te beveiligen, met opmerkelijke voorstellen van PRISM Eval en de CEA-List. PRISM Eval richt zich op de analyse van gedragsafwijkingen van AI-systemen, terwijl de CEA-List streeft naar het beveiligen van visuele classificatiemodellen tegen kwaadaardige gegevenswijzigingen.

MAMarie-Claude Benoit · ·3 min
PRISM Eval en de CEA-List, winnaars van de uitdaging Beveiliging van AI
Inhoud
Voorspellend onderhoud, inlichtingenanalyse, conflictsimulatie, cyberdefensie: AI is tegenwoordig een belangrijke kwestie voor de strijdkrachten en een onmisbaar informatiesysteem. Tegelijkertijd heeft het nieuwe aanvalsvlakken geïntroduceerd: exploiteerbare modellen, manipuleerbare gegevens, veranderbare antwoorden...Om deze kwetsbaarheden te anticiperen en oplossingen te laten ontstaan om deze tegen te gaan, hebben het Commando van de cyberdefensie (COMCYBER) en het Agentschap voor Defensie-innovatie (AID) de uitdaging "Beveiliging van AI" gelanceerd.
AI, als informatiesysteem, is blootgesteld, kwetsbaar en potentieel omkeerbaar. Tegenovergestelde aanvallen, extracties van gevoelige informatie of de generatie van schadelijke inhoud zijn geen theoretische hypothesen meer, maar actieve aanvalsvectoren.
De inzet ervan in het militaire domein vereist een rigoureuze beveiliging, met een solide technisch kader, algoritmische veerkracht en verhoogde operationele controle.
De uitdaging ontving meer dan tien inzendingen van laboratoria, start-ups, MKB's, middelgrote bedrijven of grote groepen. Twee vielen bijzonder op: die van PRISM Eval en de CEA-List.

PRISM Eval: testen van gedragsfouten van LLMs

Opgericht in 2024, specialiseert de Parijse start-up PRISM Eval zich in red teaming, gedragsinterpreteerbaarheid en de afstemming van geavanceerde AI-systemen. Het streeft ernaar een diepgaand begrip te ontwikkelen van de cognitieve mechanismen van LLMs om grootschalige afwijkingen te beheersen. Deze wetenschappelijke benadering wordt gematerialiseerd in de BET (Behavior Elicitation Tool)-suite, winnaar van de uitdaging.
Het eerste product, BET Eval, richt zich direct op de behoefte aan robuustheid van de LLMs die ChatGPT, Le Chat en GenIAl, de AI-assistent van het ministerie van Defensie, voeden. Het hulpmiddel fungeert als een reeks gedragsinbraaktesten, waarbij semantische en contextuele aanvalsprincipes worden gecombineerd om te evalueren:
  • het vermogen van het model om schadelijke of gevaarlijke inhoud te genereren (toxiciteit, aanzetting);
  • de kwetsbaarheid voor het exfiltreren van gevoelige informatie;
  • de eenvoud waarmee zijn beschermingen kunnen worden omzeild (prompt-injectie, jailbreak).

CEA-List: het beveiligen van visuele modellen door verificatie en vertrouwen

Aan de andere kant richt de CEA-List zich op de beveiliging van visuele classificatiemodellen tegen aanvallen door gegevenswijziging. Hier is het risico verraderlijker: een afbeelding die lichtjes door een tegenstander is aangepast, kan ertoe leiden dat AI een civiel voertuig identificeert als een vijandig voertuig — of omgekeerd.
De oplossing is gebaseerd op twee complementaire hulpmiddelen:
  • PyRAT, dat formele verificatie toepast op neurale netwerken. Het biedt wiskundige garanties tegen subtiele aanvallen, zoals onzichtbare pixelwijzigingen die zijn bedoeld om automatische classificatie te misleiden (een goed gedocumenteerde maar moeilijk in realtime te detecteren techniek);
  • PARTICUL, dat een vertrouwensscore berekent op basis van de detectie van regelmatigheden in datasets. Het maakt het mogelijk zichtbare indringingen te detecteren (zoals het toevoegen van patches) door de mate van anomalie van een invoer te meten.
Deze twee hulpmiddelen maken het mogelijk om zowel stroomopwaarts (formele robuustheid van het model) als stroomafwaarts (operationeel vertrouwen in de gegevens) te behandelen, door symbolische logica en statistisch empirisme te combineren.
MA
Marie-Claude Benoit

Redactie ActuIA — nieuws, data en analyses over kunstmatige intelligentie voor besluitvormers.

Genoemde actoren
CECEA List
PRPrism Eval
CECEA
MIMinistère des Armées
AGAgence de l'innovation de défense
AIAID (Association pour l’Intermédiation de Données)
ActuIA Weekoverzicht

Inschrijving bevestigd, tot snel!