PRISM Eval e il CEA-List, vincitori della sfida di Sicurezza dell'IA

Manutenzione predittiva, analisi di intelligence, simulazione di conflitti, cyberdifesa: l'IA è oggi una questione fondamentale per le forze armate e un sistema d'informazione indispensabile. Parallelamente, ha introdotto superfici di attacco inedite: modelli sfruttabili, dati manipolabili, risposte alterabili... Per anticipare queste vulnerabilità e far emergere soluzioni per contrastarle, il Comando della cyberdifesa (COMCYBER) e l'Agenzia dell'innovazione della Difesa (AID) hanno lanciato la sfida "Sicurezza dell'IA".

L'IA, in quanto sistema d'informazione, è esposta, vulnerabile e potenzialmente dirottabile. Gli attacchi avversariali, le estrazioni di informazioni sensibili o la generazione di contenuti malevoli non sono più ipotesi teoriche ma vettori di aggressione attivi.

Il suo dispiegamento nel campo militare richiede una sicurezza rigorosa, integrando un solido quadro tecnico, una resilienza algoritmica e un controllo operativo accresciuto.

La sfida ha ricevuto più di una decina di candidature provenienti da laboratori, start-up, PMI, ETI o grandi gruppi. Due si sono particolarmente distinte: quelle di PRISM Eval e del CEA-List.

PRISM Eval: testare le falle comportamentali dei LLM

Fondata nel 2024, la start-up parigina PRISM Eval si specializza nel red teaming, nell'interpretabile comportamentale e nell'allineamento dei sistemi di IA avanzati. Ha l'ambizione di sviluppare una comprensione fine dei meccanismi cognitivi dei LLM per controllare le derive su larga scala. Questo approccio scientifico si materializza nella suite di strumenti BET (Behavior Elicitation Tool), vincitrice della sfida.

Il suo primo prodotto, BET Eval, si rivolge direttamente alle esigenze di robustezza dei LLM che alimentano ChatGPT, Le Chat o GenIAl, l'assistente IA del ministero delle Forze Armate. Lo strumento opera come una batteria di test di intrusione comportamentale, combinando primitive di attacchi semantici e contestuali per valutare:

la capacità del modello di generare contenuti malevoli o pericolosi (tossicità, incitazioni);
la sua vulnerabilità all'esfiltrazione di informazioni sensibili;
la facilità con cui i suoi sistemi di protezione possono essere aggirati (prompt injection, jailbreak).

CEA-List: mettere in sicurezza i modelli visivi tramite verifica e fiducia

Da parte sua, il CEA-List si concentra sulla messa in sicurezza dei modelli di classificazione visiva di fronte agli attacchi tramite modifica dei dati. Qui, il rischio è più insidioso: un'immagine leggermente alterata da un avversario può portare un'IA a identificare un veicolo civile come un mezzo ostile — o viceversa.

La sua soluzione si basa su due strumenti complementari:

PyRAT, che applica una verifica formale alle reti neurali. Fornisce garanzie matematiche contro gli attacchi sottili, come le modifiche impercettibili di pixel destinate a ingannare la classificazione automatica (una tecnica ben documentata ma difficile da rilevare in tempo reale);
PARTICUL, che calcola un punteggio di fiducia basato sul rilevamento di regolarità nei set di dati. Permette di rilevare intrusioni più visibili (come l'aggiunta di patch) misurando il grado di anomalia di un input.

Questi due strumenti permettono di trattare sia l'amont (robustezza formale del modello) sia l'aval (fiducia operativa nei dati), combinando logica simbolica ed empirismo statistico.

Marie-Claude Benoit

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.

PRISM Eval e il CEA-List, vincitori della sfida di Sicurezza dell'IA

PRISM Eval: testare le falle comportamentali dei LLM

CEA-List: mettere in sicurezza i modelli visivi tramite verifica e fiducia

A Lille, « L'IA avec nous » mette alla prova la promessa di una valle europea dell'IA applicata

Claude Mythos: l'UE esclusa dal briefing ricevuto dalla Fed e dalla Banca d'Inghilterra

Sovranità digitale: il CIANum invita a superare i silos pubblico-privati per costruire beni comuni strategici