Comment protéger les systèmes d'IA des attaques malveillantes ?

De l’assistance à la conduite à l’aide au diagnostic médical en passant par l’interaction avec les chatbots, les systèmes d’IA font aujourd’hui partie de nombreux aspects de notre vie. Cependant, cette omniprésence des IA suscite une préoccupation croissante quant à leur sécurité et leur fiabilité face à des attaques malveillantes. Le National Institute of Standards and Technology (NIST) et ses partenaires ont récemment mis en lumière cette problématique en identifiant les vulnérabilités et les tactiques utilisées par les attaquants pour manipuler le comportement des systèmes d’IA.

Dans leur publication intitulée “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations” (NIST.AI.100-2), les chercheurs du NIST et leurs collaborateurs décrivent de manière exhaustive les différents types d’attaques auxquelles les systèmes d’IA sont confrontés, les vulnérabilités de l’IA et de l’apprentissage automatique (ML) ainsi que les stratégies pour atténuer ces menaces. Leur objectif est de sensibiliser les développeurs et les utilisateurs d’IA aux risques potentiels et de les aider à élaborer des défenses efficaces.

Les attaques contre les systèmes d’IA exploitent souvent la vulnérabilité inhérente à ces systèmes : leur dépendance aux données. Les IA sont entraînées à partir de vastes ensembles de données, et toute altération ou introduction de données corrompues pendant leur entraînement ou après leur déploiement peut compromettre leur fonctionnement. Le rapport donne pour exemple les chatbots qui pourraient apprendre à répondre avec un langage injurieux ou raciste lorsque leurs garde-fous sont contournés par des invites malveillantes soigneusement élaborées.

Apostol Vassilev, informaticien au NIST, l’un des auteurs de la publication, commente :

“Nous donnons un aperçu des techniques et des méthodologies d’attaque qui prennent en compte tous les types de systèmes d’IA. Nous décrivons également les stratégies d’atténuation actuelles rapportées dans la littérature, mais ces défenses disponibles manquent actuellement d’assurances solides qu’elles atténuent pleinement les risques. Nous encourageons la communauté à trouver de meilleures défenses”.

Il ajoute :

“Pour la plupart, les développeurs de logiciels ont besoin que plus de gens utilisent leur produit afin qu’il puisse s’améliorer avec l’exposition. Mais il n’y a aucune garantie que l’exposition sera bonne. Un chatbot peut cracher des informations mauvaises ou toxiques lorsqu’il est sollicité avec un langage soigneusement conçu”.

Les chercheurs identifient quatre principaux types d’attaques contre les systèmes d’IA :

Attaques d’évasion : ces attaques surviennent après le déploiement de l’IA et visent à modifier les entrées pour altérer sa réaction. Par exemple, des marquages routiers erronés peuvent induire un véhicule autonome à prendre une mauvaise décision de navigation ;
Attaques par empoisonnement : ces dernières se produisent dans la phase d’apprentissage en introduisant des données corrompues pour influencer le modèle d’IA. Par exemple, des exemples de langage inapproprié peuvent être injectés dans les données d’entraînement d’un chatbot, affectant sa capacité à interagir de manière appropriée avec les utilisateurs ;
Attaques contre la vie privée : Ces attaques visent à obtenir des informations sensibles sur l’IA ou les données sur lesquelles elle a été entraînée, souvent dans le but de compromettre sa sécurité ou d’en tirer parti à des fins malveillantes ;
Attaques abusives : Ce dernier type d’attaques identifié dans le rapport consiste à introduire des informations incorrectes dans une source légitime, comme une page Web ou un document en ligne, que l’IA intègre par la suite, dans le but de détourner l’utilisation prévue du système d’IA.

Pour Alina Oprea, professeure à la Northeastern University, co-auteure du rapport :

“La plupart de ces attaques sont assez faciles à monter et nécessitent une connaissance minimale du système d’IA et des capacités antagonistes limitées Les attaques d’empoisonnement, par exemple, peuvent être montées en contrôlant quelques dizaines d’échantillons d’entraînement, ce qui représenterait un très faible pourcentage de l’ensemble de l’ensemble d’entraînement”.

Les auteurs décomposent ensuite chacune de ces classes d’attaques en sous-catégories et ajoutent des approches pour les atténuer, tout en reconnaissant que les défenses conçues jusqu’à présent par les experts en IA pour lutter contre ces attaques antagonistes sont au mieux incomplètes.

Selon Apostol Vassilev, il est crucial que les développeurs et les organisations qui cherchent à déployer et à utiliser la technologie de l’IA prennent conscience de ces limites.

Il déclare :

“Malgré les progrès significatifs réalisés par l’IA et l’apprentissage automatique, ces technologies sont vulnérables aux attaques qui peuvent provoquer des défaillances spectaculaires aux conséquences désastreuses. Il y a des problèmes théoriques liés à la sécurisation des algorithmes d’IA qui n’ont tout simplement pas encore été résolus. Si quelqu’un dit le contraire, il vend de la poudre de perlimpinpin”.

Ce rapport s’inscrit dans le cadre plus large des efforts du NIST pour soutenir le développement d’une IA digne de confiance. Il souligne l’importance pour les développeurs et les utilisateurs d’IA de rester vigilants et de travailler collectivement à renforcer leur sécurité et leur résilience contre les attaques malveillantes.

Retrouver le rapport complet Adversarial Machine Learning : A Taxonomy and Terminology of Attacks and Mitigations

Auteurs : Apostol Vassilev (NIST), Alina Oprea (Université Northeastern), Alie Fordyce et Hyrum Anderson (Robust Intelligence)