PRISM Eval und das CEA-List, Gewinner der Herausforderung Sicherung der KI

PRISM Eval und das CEA-List, Gewinner der Herausforderung Sicherung der KI

TLDR : Angesichts der Risiken von Angriffen auf KI im militärischen Bereich haben das Kommando für Cyberverteidigung (COMCYBER) und die Agentur für Verteidigungsinnovation (AID) eine Herausforderung zur Sicherung der KI ins Leben gerufen, wobei PRISM Eval und das CEA-List bemerkenswerte Vorschläge gemacht haben. PRISM Eval konzentriert sich auf die Analyse des Verhaltens von KI-Systemen, während das CEA-List darauf abzielt, visuelle Klassifikationsmodelle gegen bösartige Datenmanipulationen zu sichern.

Predictive Maintenance, Nachrichtenanalyse, Konfliktsimulation, Cyberverteidigung: KI ist heute ein bedeutendes Thema für die Streitkräfte und ein unverzichtbares Informationssystem. Parallel dazu hat sie neuartige Angriffsflächen eingeführt: ausnutzbare Modelle, manipulierbare Daten, veränderbare Antworten...Um diese Schwachstellen vorherzusehen und Lösungen zu entwickeln, um ihnen entgegenzutreten, haben das Kommando für Cyberverteidigung (COMCYBER) und die Agentur für Verteidigungsinnovation (AID) die Herausforderung "Sicherung der KI" ins Leben gerufen.
Die KI als Informationssystem ist exponiert, verwundbar und potenziell manipulierbar. Adversarielle Angriffe, das Extrahieren sensibler Informationen oder die Erzeugung bösartiger Inhalte sind keine theoretischen Hypothesen mehr, sondern aktive Angriffsvektoren.
Ihr Einsatz im militärischen Bereich erfordert eine strenge Sicherung, die einen soliden technischen Rahmen, algorithmische Resilienz und eine erhöhte operationelle Kontrolle integriert.
Die Herausforderung erhielt mehr als ein Dutzend Bewerbungen von Laboren, Start-ups, KMU, ETI oder großen Konzernen. Zwei stachen besonders hervor: die von PRISM Eval und dem CEA-List.

PRISM Eval: Testen der Verhaltensschwächen von LLMs

Das 2024 gegründete Pariser Start-up PRISM Eval ist auf Red Teaming, Verhaltensinterpretierbarkeit und die Ausrichtung fortschrittlicher KI-Systeme spezialisiert. Es hat das Ziel, ein feines Verständnis der kognitiven Mechanismen von LLMs zu entwickeln, um deren Abweichungen im großen Maßstab zu beherrschen. Dieser wissenschaftliche Ansatz materialisiert sich in der Werkzeugreihe BET (Behavior Elicitation Tool), Gewinner der Herausforderung.
Sein erstes Produkt, BET Eval, richtet sich direkt an die Robustheitsbedürfnisse der LLMs, die ChatGPT, Le Chat und GenIAl, den KI-Assistenten des Verteidigungsministeriums, antreiben. Das Werkzeug fungiert als eine Reihe von Verhaltensintrusionstests, die semantische und kontextuelle Angriffsmethoden kombinieren, um zu bewerten:
  • die Fähigkeit des Modells, bösartige oder gefährliche Inhalte zu generieren (Toxizität, Anstiftungen);
  • seine Anfälligkeit für die Exfiltration sensibler Informationen;
  • die Leichtigkeit, mit der seine Schutzmaßnahmen umgangen werden können (Prompt Injection, Jailbreak).

CEA-List: Sicherung visueller Modelle durch Verifikation und Vertrauen

Das CEA-List konzentriert sich auf die Sicherung visueller Klassifikationsmodelle gegen Datenmodifikationsangriffe. Hier ist das Risiko heimtückischer: Ein leicht verändertes Bild durch einen Gegner kann eine KI dazu bringen, ein ziviles Fahrzeug als feindliches Fahrzeug zu identifizieren — oder umgekehrt.
Seine Lösung basiert auf zwei komplementären Werkzeugen:
  • PyRAT, das eine formale Verifikation auf neuronale Netze anwendet. Es bietet mathematische Garantien gegen subtile Angriffe, wie unmerkliche Pixelveränderungen, die die automatische Klassifikation täuschen sollen (eine gut dokumentierte, aber schwer in Echtzeit zu erkennende Technik);
  • PARTICUL, das einen Vertrauensscore berechnet, der auf der Erkennung von Regelmäßigkeiten in den Datensätzen basiert. Es ermöglicht, sichtbare Eindringlinge (wie das Hinzufügen von Patches) zu erkennen, indem der Anomaliegrad eines Eingangs gemessen wird.
Diese beiden Werkzeuge ermöglichen es, sowohl den upstream (formale Robustheit des Modells) als auch den downstream (operationelles Vertrauen in die Daten) zu behandeln, indem symbolische Logik und statistischer Empirismus kombiniert werden.

Besser verstehen

Was ist die formale Verifikation von neuronalen Netzen und wie wird sie im Kontext der Sicherheit von Militär-KI angewendet?

Die formale Verifikation ist eine rigorose Methode, die mathematische Techniken verwendet, um das korrekte Funktionieren von Systemen, einschließlich neuronaler Netze, zu beweisen oder zu widerlegen. Im militärischen Kontext wird diese Technik durch Werkzeuge wie PyRAT angewendet, um sicherzustellen, dass visuelle Klassifikationsmodelle nicht durch subtile und absichtliche Datenmodifikationen getäuscht werden, wodurch die Zuverlässigkeit von KI-Entscheidungen gewährleistet wird.

Welche regulatorischen Herausforderungen sind mit der Verwendung von KI in den Streitkräften verbunden?

Die regulatorischen Herausforderungen umfassen die Notwendigkeit, robuste Sicherheitsstandards zu etablieren, um den Missbrauch von KI zu verhindern und die Einhaltung internationaler humanitärer Gesetze sicherzustellen. Es gibt auch ethische Überlegungen, wie die Achtung der Menschenrechte und Haftungsfragen bei Fehlern oder unbeabsichtigten Schäden, die durch autonome KI-Systeme verursacht werden.