Dans le cadre de notre dossier L'intelligence artificielle de confiance : Des systèmes critiques au bien commun paru dans le numéro 3 du magazine ActuIA actuellement en kiosque et disponible dans notre boutique en ligne, nous nous sommes entretenus avec Guillaume Avrin, Responsable du département "Évaluation de l’intelligence artificielle" au sein du Laboratoire national de métrologie et d’essais (LNE). En février 2021, le LNE, qui s'est imposé depuis plusieurs comme un évaluateur tiers de confiance des intelligences artificielles, a annoncé avoir obtenu un financement de l'Etat pour la création de la première plateforme générique mondiale dédiée à l’évaluation de l’intelligence artificielle baptisée LEIA.
Guillaume Avrin nous explique dans cet entretien les missions du LNE dans le domaine de l'intelligence artificielle, ce que sont les tests d’algorithmes d’intelligence artificielle et l'effet "black box" mais aussi les enjeux de la certification.
ActuIA : Pourriez-vous nous présenter le LNE en quelques mots ?
Guillaume Avrin : Le Laboratoire national de métrologie et d’essais (LNE) est un établissement public à caractère industriel et commercial (EPIC) rattaché au ministère de l’Industrie. Il est l'organisme référent au plan national en matière d'essai, d'évaluation et de métrologie. Son action vise, en appui des politiques publiques, à apprécier et structurer l'offre de nouveaux produits, en cherchant à la fois à protéger et répondre aux besoins des consommateurs et à développer et favoriser la compétitivité de l’industrie nationale (cf. article L823-1 du code de la consommation). Il accompagne également les industriels dans leur démarche d’innovation et leur recherche de compétitivité dans de nombreux champs d’expertise et secteurs d’activité. Le LNE mène des travaux de caractérisation, de qualification et de certification de systèmes et technologies pour accompagner toutes les innovations de rupture (intelligence artificielle, nanotechnologies, fabrication additive, mesure de radioactivité, stockage de l’hydrogène, etc.) au bénéfice de la communauté scientifique, réglementaire et industrielle.
Dans le domaine émergent de l’intelligence artificielle, le LNE dispose d’une compétence métrologique et méthodologique d’évaluation, qui n’a pas d’équivalent au plan européen. Il a réalisé plus de 950 évaluations de systèmes d’lA depuis 2008, notamment en traitement de la langue (traduction, transcription, reconnaissance de locuteurs, etc.), en traitement des images (reconnaissance de personnes, reconnaissance d’objets, etc.) et en robotique (véhicules autonomes, robots de service, robots agricoles, robots collaboratifs, dispositifs médicaux intelligents, etc.). Il est impliqué dans tous les grands enjeux transverses de l’IA et veille en parallèle à la mise en place d'un dispositif de qualification des solutions en s’appuyant sur un réseau national performant et en partie internalisé, notamment dans les étapes amont de ce déploiement et pour la mise au point des modèles métrologiques, méthodologiques et instrumentaux à mettre en œuvre.
Les tests d’algorithmes d’intelligence artificielle sont-ils semblables aux tests que vous avez l’habitude de réaliser dans d’autres spécialités, ou ont-ils nécessité la mise au point de nouvelles compétences et protocoles ? En quoi se distinguent-ils ? Combien d’experts en intelligence artificielle travaillent pour le LNE ? Travaillent-ils tous au sein du LNE ou faites vous appel à des experts indépendants ?
Les tests que nous menons en IA concourent à en estimer équitablement et dans l’absolu (à des fins de mise au point, de caractérisation des performances, de parangonnage, de certification, etc.) la valeur d’usage, les performances, les dangers, les incidences sur son environnement, positives ou négatives, c’est-à-dire aussi son impact, même indirect, sur les sociétés et les modes de vie individuels : les conséquences socio-économiques, le questionnement éthique, juridique, sociologique, etc.
Il s’agit d’une problématique sensiblement nouvelle liée au fort pouvoir de substitution professionnelle et sociale de l’IA mais qui présente aussi une spécificité métrologique : l’aptitude des systèmes intelligents est à mesurer principalement sur le plan fonctionnel et réside surtout dans leurs facultés d’adaptation (un système conventionnel est au contraire jugé quantitativement sur ses performances dans le respect d’un cadre d’emploi parfaitement délimité dès la conception). Il s’agit donc non seulement de quantifier objectivement des fonctions et des performances mais aussi de valider et de caractériser des environnements de fonctionnement (des périmètres d’utilisation) par nature variable, souvent fortement, notamment dans le cas des environnements dits "ouverts". C’est cette variabilité de situation à traiter, propre au terrain de l’esprit humain, qui confère la qualité d’intelligence au système et en mesure même le degré.
Ce domaine d’utilisation et d’expérimentation étendue et le comportement au moins partiellement autonome et souvent non convexe, non linéaire, non déterministe des systèmes d’IA exigent de développer des protocoles et instruments de mesure sui generis :
- La mesure des systèmes intelligents relève d’une métrologie dite "molle" davantage fonctionnelle que quantitative, davantage attentive à la robustesse qu’aux performances, et faisant appel à des métriques composites et multidimensionnelles capables de rendre compte fidèlement et précisément de l’ampleur et des sensibilités du champ environnemental de fonctionnement du composant à tester.
- Il s'agit essentiellement de parcourir un domaine d’emploi avec une finesse d’échantillonnage nécessairement limitée mais minimale pour garantir l’absence de réactions aberrantes. Les scénarios de test à présenter au système évalué sont donc potentiellement très nombreux, certains menant d’ailleurs à des situations d’accidents ou de quasi-accidents et ne pouvant être générés qu’à l'aide de moyens de simulation. La simulation impliquant une modélisation nécessairement réductrice de la réalité, des compromis doivent être trouvés entre les besoins d’exhaustivité et de réalisme.
- Si l’application porte sur des données très rares (par exemple sur des données médicales de pathologies orphelines), le développeur de l’IA est généralement le seul ou l’un des seuls au monde à disposer de données sur le sujet. L’évaluateur tiers de confiance devra donc pouvoir accéder à des corpus du développeur n’ayant pas été utilisés durant l’apprentissage, qu’il pourra, afin de les utiliser pour les évaluations, "augmenter" (bruits, perturbations, transformations, etc.) afin de limiter les biais, notamment de surapprentissage.
- Si l’application porte sur des données communes, transapplicatives et/ou peu onéreuses à produire (reconnaissance d’objets du quotidien comme des humains, animaux, panneaux routiers, matériel de bureaux, etc.), il est alors pertinent de constituer indépendamment du développeur des bases de données de référence (des étalons pour l’IA).