L’utilisation de l’IA et des données n’est pas une nouveauté pour le Pentagone. D’ailleurs, Matthew Strohmeyer, colonel de l’US Air Force, mène des exercices basés sur des données au sein du département de la Défense des États-Unis depuis des années. Selon Bloomberg, il a récemment utilisé avec succès un LLM dans ce cadre, une première ouvrant la voie à une nouvelle ère d’utilisation de l’IA dans les opérations militaires.
Les LLM, tels que ChatGPT d’OpenAI et Bard de Google, sont des modèles alimentés par d’énormes quantités de données Internet. Leur objectif est d’aider l’intelligence artificielle à prédire et à générer des réponses humaines aux sollicitations des utilisateurs. Cette technologie alimente les outils d’IA générateurs, et les militaires américains ont décidé de l’explorer dans le cadre d’une série d’expériences plus larges sur l’intégration des données et des plateformes numériques dans l’armée.
Cinq LLM sont actuellement testés dans le cadre de ces exercices, supervisés par le bureau numérique et d’IA du Pentagone, en collaboration avec des hauts gradés militaires et des alliés des États-Unis. Bien que les modèles LLM spécifiques utilisés n’aient pas été divulgués, la start-up Scale AI affirme que son produit Donovan fait partie des plateformes LLM testées.
Il y a 2 mois, lors du lancement du LLM, elle déclarait :
“Donovan est le premier grand modèle de langage (LLM) déployé sur un réseau classifié du gouvernement américain. Conçu pour obtenir une surqualification de l’IA, Donovan est une plate-forme de prise de décision déjà utilisée par les combattants sur le terrain, notamment le XVIIIe Corps aéroporté et l’École de combat avancé de l’Université du Corps des Marines. Aujourd’hui, Scale Donovan ingère des milliers de commandes, de rapports de situation et de rapports de renseignement pour aider les opérateurs, les analystes et les décideurs à comprendre, planifier et agir en quelques minutes au lieu de plusieurs semaines”.
Des résultats prometteurs
Selon les déclarations de Matthew Strohmeyer à Bloomberg, les modèles ont été nourris d’informations opérationnelles classifiées afin d’éclairer des questions sensibles. L’objectif à long terme de ces exercices est de moderniser les capacités de l’armée américaine afin qu’elle puisse tirer parti des données basées sur l’IA dans la prise de décision, l’utilisation de capteurs et, au final, l’amélioration de sa puissance de feu.
L’intégration de ces grands modèles de langage représente un changement majeur pour l’armée américaine, qui a longtemps souffert d’une faible numérisation et connectivité. Les demandes d’information auprès de différentes entités militaires peuvent en effet prendre des heures, voire des jours, pour être traitées.
Lors d’un test, l’un des outils d’IA a répondu à une demande en seulement 10 minutes.
Matthew Strohmeyer a précisé au journal :
“Cela ne signifie pas qu’il est prêt pour les heures de grande écoute en ce moment. Mais nous l’avons juste fait en direct. Nous l’avons fait avec des données secrètes“.
Il a toutefois ajouté qu’il pourrait être déployé par l’armée à très court terme.
L’exercice militaire en cours, qui se poursuivra jusqu’au 26 juillet, vise à tester si les LLM peuvent aider les responsables militaires à générer entièrement de nouvelles options auxquelles ils n’avaient pas encore pensé. Actuellement, l’équipe militaire américaine mène des expériences en demandant l’aide des LLM pour planifier la réponse de l’armée à une crise mondiale croissante qui commencerait de manière limitée avant de s’étendre dans la région Indo-Pacifique.
Résoudre les défis posés par les LLM avant de les utiliser à des fins militaires
Les préoccupations concernant les biais, la diffusion d’informations incorrectes et les vulnérabilités potentielles aux cyberattaques sont réelles. Il est impératif d’évaluer, développer et sécuriser ces systèmes pour garantir leur utilisation responsable et efficace dans les contextes militaires.
Le Pentagone, conscient de ces problématiques, travaille en étroite collaboration avec des entreprises de sécurité technologique pour évaluer la fiabilité des systèmes basés sur l’IA et s’assurer de leur intégrité.