Predykcyjna konserwacja, analiza wywiadowcza, symulacja konfliktów, cyberobrona: AI to dziś kluczowy element dla sił zbrojnych i niezbędny system informacyjny. Równocześnie wprowadziła nowe powierzchnie ataku: modele podatne na eksploatację, manipulowane dane, modyfikowalne odpowiedzi... Aby przewidzieć te podatności i wyłonić rozwiązania pozwalające na ich przeciwdziałanie, Dowództwo Cyberobrony (COMCYBER) i Agencja Innowacji Obronnych (AID) ogłosiły wyzwanie 'Zabezpieczenie AI'.
AI, jako system informacyjny, jest narażona, podatna i potencjalnie podatna na wykorzystanie. Ataki przeciwnika, wycieki wrażliwych informacji czy generowanie złośliwych treści to już nie tylko teoretyczne hipotezy, lecz aktywne wektory ataku.
Jej wdrożenie w dziedzinie wojskowej wymaga rygorystycznego zabezpieczenia, obejmującego solidne ramy techniczne, odporność algorytmiczną i zwiększoną kontrolę operacyjną.
Wyzwanie przyciągnęło ponad dziesięć zgłoszeń od laboratoriów, start-upów, MŚP, ETI i dużych grup. Dwie z nich wyróżniły się szczególnie: PRISM Eval i CEA-List.
PRISM Eval: testowanie luk behawioralnych LLM
Założona w 2024 roku paryska start-up PRISM Eval specjalizuje się w red teamingu, interpretowalności behawioralnej i dostosowaniu zaawansowanych systemów AI. Jej celem jest rozwinięcie dokładnego zrozumienia mechanizmów poznawczych LLM, aby kontrolować ich rozbieżności na dużą skalę. To naukowe podejście materializuje się w zestawie narzędzi BET (Behavior Elicitation Tool), laureata wyzwania.
Jej pierwszy produkt, BET Eval, bezpośrednio odpowiada na potrzeby w zakresie odporności LLM, które zasilają ChatGPT, Le Chat lub GenIAl, asystenta AI Ministerstwa Obrony. Narzędzie działa jak bateria testów intruzyjnych behawioralnych, łącząc prymitywy ataków semantycznych i kontekstualnych w celu oceny:
- zdolności modelu do generowania złośliwych lub niebezpiecznych treści (toksyczność, zachęty);
- jego podatności na wyciek wrażliwych informacji;
- łatwości, z jaką można obejść jego zabezpieczenia (wstrzyknięcie promptów, jailbreak).
CEA-List: zabezpieczenie modeli wizualnych przez weryfikację i zaufanie
CEA-List koncentruje się na zabezpieczeniu modeli klasyfikacji wizualnej przed atakami poprzez modyfikację danych. Tutaj ryzyko jest bardziej podstępne: lekko zmodyfikowany przez przeciwnika obraz może doprowadzić AI do zidentyfikowania pojazdu cywilnego jako wroga lub odwrotnie.
Jej rozwiązanie opiera się na dwóch uzupełniających się narzędziach:
- PyRAT, który stosuje formalną weryfikację do sieci neuronowych. Zapewnia matematyczne gwarancje przeciwko subtelnym atakom, takim jak niepostrzegalne zmiany pikseli mające na celu zmylenie automatycznej klasyfikacji (technika dobrze udokumentowana, ale trudna do wykrycia w czasie rzeczywistym);
- PARTICUL, który oblicza wynik zaufania oparty na wykrywaniu regularności w zestawach danych. Pozwala na wykrycie bardziej widocznych intruzji (takich jak dodanie łatek) poprzez pomiar stopnia anomalii wejścia.
Te dwa narzędzia pozwalają na jednoczesne traktowanie zarówno początkowych (odporność formalna modelu), jak i końcowych (operacyjne zaufanie do danych), łącząc logikę symboliczną z empiryzmem statystycznym.
