Tests d’algorithmes d’intelligence artificielle, IA de confiance, effet black box : entretien avec Guillaume Avrin du LNE

Dans le cadre de notre dossier L’intelligence artificielle de confiance : Des systèmes critiques au bien commun paru dans le numéro 3 du magazine ActuIA actuellement en kiosque et disponible dans notre boutique en ligne, nous nous sommes entretenus avec Guillaume Avrin, Responsable du département “Évaluation de l’intelligence artificielle” au sein du Laboratoire national de métrologie et d’essais (LNE). En février 2021, le LNE, qui s’est imposé depuis plusieurs comme un évaluateur tiers de confiance des intelligences artificielles, a annoncé avoir obtenu un financement de l’Etat pour la création de la première plateforme générique mondiale dédiée à l’évaluation de l’intelligence artificielle baptisée LEIA.

Guillaume Avrin nous explique dans cet entretien les missions du LNE dans le domaine de l’intelligence artificielle, ce que sont les tests d’algorithmes d’intelligence artificielle et l’effet “black box” mais aussi les enjeux de la certification.

ActuIA : Pourriez-vous nous présenter le LNE en quelques mots ?

Guillaume Avrin : Le Laboratoire national de métrologie et d’essais (LNE) est un établissement public à caractère industriel et commercial (EPIC) rattaché au ministère de l’Industrie. Il est l’organisme référent au plan national en matière d’essai, d’évaluation et de métrologie. Son action vise, en appui des politiques publiques, à apprécier et structurer l’offre de nouveaux produits, en cherchant à la fois à protéger et répondre aux besoins des consommateurs et à développer et favoriser la compétitivité de l’industrie nationale (cf. article L823-1 du code de la consommation). Il accompagne également les industriels dans leur démarche d’innovation et leur recherche de compétitivité dans de nombreux champs d’expertise et secteurs d’activité. Le LNE mène des travaux de caractérisation, de qualification et de certification de systèmes et technologies pour accompagner toutes les innovations de rupture (intelligence artificielle, nanotechnologies, fabrication additive, mesure de radioactivité, stockage de l’hydrogène, etc.) au bénéfice de la communauté scientifique, réglementaire et industrielle.

Dans le domaine émergent de l’intelligence artificielle, le LNE dispose d’une compétence métrologique et méthodologique d’évaluation, qui n’a pas d’équivalent au plan européen. Il a réalisé plus de 950 évaluations de systèmes d’lA depuis 2008, notamment en traitement de la langue (traduction, transcription, reconnaissance de locuteurs, etc.), en traitement des images (reconnaissance de personnes, reconnaissance d’objets, etc.) et en robotique (véhicules autonomes, robots de service, robots agricoles, robots collaboratifs, dispositifs médicaux intelligents, etc.). Il est impliqué dans tous les grands enjeux transverses de l’IA et veille en parallèle à la mise en place d’un dispositif de qualification des solutions en s’appuyant sur un réseau national performant et en partie internalisé, notamment dans les étapes amont de ce déploiement et pour la mise au point des modèles métrologiques, méthodologiques et instrumentaux à mettre en œuvre.

Les tests d’algorithmes d’intelligence artificielle sont-ils semblables aux tests que vous avez l’habitude de réaliser dans d’autres spécialités, ou ont-ils nécessité la mise au point de nouvelles compétences et protocoles ? En quoi se distinguent-ils ? Combien d’experts en intelligence artificielle travaillent pour le LNE ? Travaillent-ils tous au sein du LNE ou faites vous appel à des experts indépendants ?

Les tests que nous menons en IA concourent à en estimer équitablement et dans l’absolu (à des fins de mise au point, de caractérisation des performances, de parangonnage, de certification, etc.) la valeur d’usage, les performances, les dangers, les incidences sur son environnement, positives ou négatives, c’est-à-dire aussi son impact, même indirect, sur les sociétés et les modes de vie individuels : les conséquences socio-économiques, le questionnement éthique, juridique, sociologique, etc.

Il s’agit d’une problématique sensiblement nouvelle liée au fort pouvoir de substitution professionnelle et sociale de l’IA mais qui présente aussi une spécificité métrologique : l’aptitude des systèmes intelligents est à mesurer principalement sur le plan fonctionnel et réside surtout dans leurs facultés d’adaptation (un système conventionnel est au contraire jugé quantitativement sur ses performances dans le respect d’un cadre d’emploi parfaitement délimité dès la conception). Il s’agit donc non seulement de quantifier objectivement des fonctions et des performances mais aussi de valider et de caractériser des environnements de fonctionnement (des périmètres d’utilisation) par nature variable, souvent fortement, notamment dans le cas des environnements dits “ouverts”. C’est cette variabilité de situation à traiter, propre au terrain de l’esprit humain, qui confère la qualité d’intelligence au système et en mesure même le degré.

Ce domaine d’utilisation et d’expérimentation étendue et le comportement au moins partiellement autonome et souvent non convexe, non linéaire, non déterministe des systèmes d’IA exigent de développer des protocoles et instruments de mesure sui generis :

La mesure des systèmes intelligents relève d’une métrologie dite “molle” davantage fonctionnelle que quantitative, davantage attentive à la robustesse qu’aux performances, et faisant appel à des métriques composites et multidimensionnelles capables de rendre compte fidèlement et précisément de l’ampleur et des sensibilités du champ environnemental de fonctionnement du composant à tester.
Il s’agit essentiellement de parcourir un domaine d’emploi avec une finesse d’échantillonnage nécessairement limitée mais minimale pour garantir l’absence de réactions aberrantes. Les scénarios de test à présenter au système évalué sont donc potentiellement très nombreux, certains menant d’ailleurs à des situations d’accidents ou de quasi-accidents et ne pouvant être générés qu’à l’aide de moyens de simulation. La simulation impliquant une modélisation nécessairement réductrice de la réalité, des compromis doivent être trouvés entre les besoins d’exhaustivité et de réalisme.

Cet impératif du compromis justifie et structure directement l’initiative “LEIA” (Laboratoire d’évaluation de l’intelligence artificielle) coordonnée par le LNE et qui rassemblera à terme l’ensemble des acteurs nationaux (laboratoires de recherche, centres d’essais, équipementiers et architectes de bancs d’essais, propriétaires de données, instances de normalisation, administrations, investisseurs, etc.) afin de bâtir une première plateforme intégrée d’évaluation de l’intelligence artificielle d’envergure internationale. Ce dispositif reposera sur un réseau tenant compte de l’existant (RH, moyens, savoir-faire, missions statutaires), fonctionnant de manière distribuée mais structurée (au moins par secteur applicatif de l’IA) pour répondre conjointement au besoin d’évaluation des systèmes. Ce réseau se construit dans la durée en s’appuyant sur divers projets collaboratifs au niveau national (ANR, Grand défi), européen (H2020, CHIST-ERA, COVR, etc.) et international (notamment via son partenariat stratégique avec le NIST spécifique à l’IA), ainsi qu’au travers d’une participation du LNE aux différentes commissions de normalisation portant sur l’IA et la robotique (Comité d’orientation stratégique information et communication numérique d’Afnor, commission IA d’Afnor, Focus Group AI du CEN-CENELEC et section 81 de l’Union de normalisation de la mécanique sur la robotique industrielle).

Pour répondre à ce besoin pratique et programmatique, le LNE mobilise aujourd’hui en interne une quinzaine d’ingénieurs et docteurs spécialisés en IA et régulièrement accompagnés de post-doctorants, doctorants et stagiaires, ainsi que ses propres experts en cybersécurité, en biologie, en mathématiques et statistiques, en dispositifs médicaux, etc. Même si cet effectif doit être doublé à terme, le LNE continuera à travailler au maximum en co-traitance avec ses partenaires académiques, scientifiques, industriels et administratifs, ne serait-ce que pour favoriser l’appropriation technique et le transfert technologique.

Depuis combien d’années êtes-vous sollicités pour la mesure d’algorithmes d’intelligence artificielle et comment évolue cette demande ? Peut-on avoir des données chiffrées ? Quels types d’acteurs vous sollicitent ?

L’activité est née en 2008 d’une orientation donnée par les pouvoirs publics, dans le contexte d’enjeux particuliers de souveraineté, mais voilà seulement trois ans que l’intelligence artificielle a été mise au rang des toutes premières priorités nationales et internationales de développement technologique et industriel, et donc du LNE.

Puisque c’est désormais l’ensemble des secteurs professionnels et de la vie domestique (dispositifs et diagnostics médicaux, mobilité autonome, robotique industrielle et agricole, legaltech, fintech, assurtech, etc.) qui s’automatise progressivement, le spectre des partenaires et clients du LNE s’est parallèlement élargi à une grande palette d’acteurs institutionnels (ministère de l’Intérieur, ministère des Armées, ministère de la Recherche, ministère de l’Agriculture et de l’Alimentation, ministère de la Transition écologique, Haute autorité de santé, DG CONNECT de la Commission européenne, INC, CEA, etc.) et industriels (Thales, Dassault, Airbus, Facebook, Numalis, etc.), et ne cesse de croître.

La difficulté sera précisément de gérer cette transition d’une IA en développement à une IA marchande, qui pourra être massive et à laquelle il faut donc activement se préparer, bien en amont des maturités commerciales et des besoins de qualification. Sur le plan programmatique, cette difficulté a été reconnue par la CE, qui s’en est ouverte dans un récent Livre blanc et dans son projet de centres d’essais “TEF” de l’ordre de 3 milliards d’euros et qui pourrait être lancé dès début 2021, ainsi qu’en France dans le choix de retenir l’IA de confiance comme l’un de ses rares “grands défis” financés par le Fonds pour l’innovation et l’industrie.

Les données sont très importantes en intelligence artificielle : comment s’assurer que les données d’entraînement ne sont pas biaisées ? Leur constitution, notamment en matière de Deep Learning, réclame de très grands jeux dont la collecte peut être extrêmement coûteuse, est-il réaliste d’envisager que vous compiliez de votre côté de tels jeux de données pour réaliser des tests, et si vous vous appuyez sur les données de vos clients, les résultats des tests ne risquent-ils pas d’être très éloignés de la réalité ?

La qualification des données s’attache à vérifier leur représentativité, c’est-à-dire leur exhaustivité au regard de l’application visée et leur réalisme, afin de limiter les potentiels biais associés (biais de sélection, de classification, etc.).

Le caractère exhaustif des données est notamment quantifié via des calculs de taux de couverture tandis que la conformité à des exigences de réalisme est évaluée grâce à des procédures de qualification dont la normalisation est en cours, notamment dans le cadre de la commission de normalisation ISO/IEC JTC 1/SC 42 Intelligence artificielle à laquelle nous contribuons (cf. ISO/IEC WD 5259 – en préparation – “Data quality for analytics and ML”).

L’évaluation de l’exhaustivité nécessite notamment de formaliser les cas d’usage, d’identifier les conditions d’utilisation et les contre-indications, de formaliser les facteurs d’influence (conditions météorologiques, luminosité, température, etc.) impactant la performance du système. Une analyse des corpus peut ensuite être réalisée afin de vérifier la bonne couverture des besoins applicatifs.

Plusieurs méthodes existent pour générer ou augmenter artificiellement des données afin d’améliorer le taux de couverture des scénarios d’apprentissage et de test, notamment l’ajout de perturbations (pluie, neige, etc.), bruits et défauts capteurs à partir de modèles, l’application de transformations métamorphiques (inversion, rotation, etc.), la production automatique de corner cases par auto-encodeurs ou GAN, etc.

L’évaluation du réalisme comprend des vérifications des méta-informations potentiellement associées aux données brutes, appelées annotations. Lorsque celles-ci sont réalisées par des humains, elles peuvent ainsi faire l’objet d’analyses spécifiques afin de vérifier l’existence d’une vérité terrain associée aux données (examen manuel complet ou par échantillonnage aléatoire, sélection par vote majoritaire, calcul de taux d’accord inter et intra-annotateur, etc.). Elle comprend également l’identification et l’analyse des “outliers” (valeurs “aberrantes” ou “atypiques”) afin de décider de leur maintien/suppression/adaptation, ou encore la cohérence entre les moyens (capteurs, chaînes de prétraitements, etc.) utilisés pour l’acquisition des données d’apprentissage et de test, et ceux mis en œuvre en condition réelle, une fois le système déployé.

Concernant les outils disponibles pour l’exploration des corpus, le LNE développe depuis 2015 la plateforme logicielle Matics, gratuite et open source (licence CeCILL-B), dédiée à la visualisation de données et à l’évaluation des systèmes de traitement automatique de l’information. En constante évolution, le logiciel permet par exemple d’automatiser l’évaluation de tâches de traitement automatique de la langue (traduction, transcription, vérification de locuteurs, reconnaissance d’entités nommées, tokenisation, lemmatisation, etc.) et de reconnaissance d’images (vision par ordinateur).

Tant les développeurs de système d’IA que leurs évaluateurs sont concernés par ces exigences de réalisme et d’exhaustivité portant sur les bases de données de test à employer. Tant la séparation physique et logique que la précellence des données de test de l’évaluateur doivent être garanties. En fonction du domaine applicatif, plusieurs approches sont aujourd’hui envisagées :

Si l’application porte sur des données très rares (par exemple sur des données médicales de pathologies orphelines), le développeur de l’IA est généralement le seul ou l’un des seuls au monde à disposer de données sur le sujet. L’évaluateur tiers de confiance devra donc pouvoir accéder à des corpus du développeur n’ayant pas été utilisés durant l’apprentissage, qu’il pourra, afin de les utiliser pour les évaluations, “augmenter” (bruits, perturbations, transformations, etc.) afin de limiter les biais, notamment de surapprentissage.
Si l’application porte sur des données communes, transapplicatives et/ou peu onéreuses à produire (reconnaissance d’objets du quotidien comme des humains, animaux, panneaux routiers, matériel de bureaux, etc.), il est alors pertinent de constituer indépendamment du développeur des bases de données de référence (des étalons pour l’IA).

Ces processus sont bien évidemment longs et coûteux, et par là même préemptifs. On ne saurait donc trop insister sur leur caractère stratégique, que certains estiment même pouvoir aller jusqu’à remettre en question le principe de solidarité européenne au titre d’une exception de souveraineté.

Quoi qu’il en soit, et même si de telles données pourront souvent avoir un caractère sensible (personnel, professionnel, militaire), l’initiative LEIA laisse ouverte à ce stade la question de la meilleure forme de recueil et de regroupement à adopter, centralisée ou distribuée, publique ou privée. Mais comme, par ailleurs, le besoin est incontournable, et qu’il faut arriver en premier, il convient surtout de le couvrir au plus tôt et sans attendre que cela commence à se faire outre-Atlantique ou ailleurs. Car, si derrière la course à l’IA, il y a une course à la donnée, rien ne servira de courir, il faudra surtout être parti à point.

On parle souvent de l’effet “black box” du Deep Learning. Vous semble-t-il être un réel obstacle, ou estimez-vous que l’on puisse tout de même qualifier un algorithme de Deep Learning comme étant “de confiance”, c’est-à-dire répondant à des enjeux de performance, de robustesse, d’explicabilité et d’éthique, à l’issue des tests réalisés ?

Le terme “black box” fait référence à l’inaccessibilité (physique, logique ou simplement à l’entendement humain) du fonctionnement interne d’un système. Concernant les IA de ce type, les décisions prises sont généralement non explicables, les règles de décision appliquées non interprétables et la fonctionnalité non démontrable de manière formelle.

Seule reste donc la voie expérimentale, qui nous oblige incidemment à mieux identifier les conditions d’usage en ayant à les réaliser concrètement. C’est le système en son entier qui est alors éprouvé et on peut d’ailleurs même avancer que l’intelligence est une propriété holistique d’une telle black box, i.e. qu’il n’y aurait pas de sens à la partager entre ses éventuelles composantes.

Des tests entrée-sortie (également appelés “en boîte noire”) sont alors mis en place pour caractériser le système d’IA en le sollicitant selon un scénario combinant divers stimuli et en évaluant la qualité de son comportement (par exemple via des comparaisons à des références, à une vérité terrain). La confiance à accorder à ces IA dépend ainsi directement des résultats des évaluations menées sur des données de test représentatives.

Pour se rassurer, on peut noter que l’être humain fonctionne souvent en mode “black box”, la reconnaissance de son environnement fait par exemple davantage appel à son intuition qu’à son raisonnement (on reconnaît immédiatement une personne à ses traits particuliers sans pour autant les détailler formellement).

Certains tests, portant généralement sur des capacités de prise de décision en temps réel, sont d’ailleurs mis en œuvre pour évaluer ces compétences. C’est le cas de l’examen du permis de conduire. Il peut d’ailleurs être constaté que si l’être humain passe son épreuve de conduite en trente minutes, il est demandé au véhicule autonome de parcourir plusieurs milliers de kilomètres avant d’être homologué. Ce n’est donc pas tant la nature “black box” du véhicule autonome qui pose question que l’identification de la bonne dimension de l’environnement de test (quels facteurs d’influence faire varier, quel pas d’échantillonnage, etc.) à mettre en place pour rendre compte de ses performances.

Auriez-vous d’autres exemples de domaines pour lesquels vous êtes sollicités et dans lesquels cet effet “black box” existe également ?

En raison de ses missions, c’est principalement par des essais que le LNE conduit ses évaluations. La dureté d’un matériau, par exemple, est évaluée de manière expérimentale, en complément ou lorsqu’elle ne peut être calculée à partir de sa composition chimique.
C’est la notion même de mesure qui renvoie à cette pratique usuelle d’évaluation a posteriori.

Quelles sont les principales faiblesses des algorithmes d’intelligence artificielle que vous constatez au cours des tests ?

Les principales faiblesses que nous constatons sont directement en rapport avec l’existence d’instruments de mesure pour les identifier, les quantifier et les corriger. Comme évoqué précédemment, il y a toute une métrologie de l’IA à mettre en place, permettant de caractériser les environnements de fonctionnement de systèmes d’IA au-delà des calculs de taux d’erreur réalisés actuellement. Nous constatons ainsi le manque de robustesse (aux variations météorologiques, aux événements rares, etc.) et de résilience (attaques adverses, perturbations capteur, etc.) des systèmes que nous évaluons.

De la même manière, le caractère explicable ou éthique des décisions prises par l’IA est difficile à évaluer de manière objective aujourd’hui, par manque de référentiel et d’outils permettant leur quantification. Et nous connaissons les faiblesses des IA actuelles concernant ces deux aspects.

Les algorithmes de Deep Learning se sont montrés très sensibles aux attaques adverses, permettant notamment de tromper une IA de vision artificielle en ajoutant quelques pixels presque imperceptibles à une image. Avez-vous constaté des progrès en la matière, et dans le cas contraire, cela ne risque-t-il pas de réduire à néant la fiabilité des systèmes d’IA en environnement non contrôlé, par exemple en matière de véhicule autonome ?

De nouvelles approches semblent avoir été mises au point pour atténuer la “fragilité” des algorithmes de Deep Learning, faisant notamment appel aux notions d’apprentissage robuste et de données robustes. À ce jour, nous n’avons pas constaté de réelle amélioration concernant les attaques adversariales dans leur ensemble.

Il nous semble tout de même pertinent de différencier les exemples adversariaux correspondant à des corner cases réalistes (le scénario que représente la donnée pourrait effectivement se produire en conditions réelles et nominales de fonctionnement) et les exemples adversariaux qui résulteraient d’une attaque malveillante. Si la robustesse des algorithmes de Deep Learning s’améliore lorsque ces derniers sont entraînés sur des bases contenant des données perturbées/augmentées/transformées, leur résilience aux attaques semble en premier lieu relever d’autres types de protection, notamment de cybersécurité.

Êtes-vous favorable à ce que la certification d’algorithmes d’intelligence artificielle soit rendue obligatoire, y compris dans les systèmes jugés non “critiques” mais dont les conséquences peuvent être importantes pour la société (par exemple dans le cadre d’algorithmes de recrutement) ? Le coût de ces tests ne risque-t-il pas d’être un frein à l’innovation et à l’émergence de nouvelles startups ?

Dans un contexte de développement pléthorique, il semble indispensable de donner des garanties et des critères objectifs de choix aux utilisateurs des systèmes d’IA. La certification, qui repose sur un référentiel partagé par tous et sur des résultats d’évaluation réalisés par des organismes tiers indépendants, est un outil efficace pour instaurer cette confiance. Le LNE, qui allie à la fois une expertise dans le domaine de l’évaluation de l’IA et une expertise d’organisme de certification, a ainsi fait le choix de bâtir un référentiel de certification volontaire sur le sujet. C’est une première étape qui permettra aux développeurs d’acquérir et de démontrer la mise en œuvre de bonnes pratiques, attestant de la fiabilité des systèmes d’IA mis au point.

Plutôt qu’un frein, cette certification constituera un avantage concurrentiel. Le groupe de travail en charge d’en construire le référentiel, constitué d’acteurs représentatifs du domaine (Arcure, Axionable, IRT Railenium, Kickmaker, Michelin, Orange, Proxinnov, Scortex, Thales, etc.), a d’ailleurs fait le choix de construire les exigences en terme de résultats à atteindre et non de moyens à mettre en place, évitant ainsi de freiner l’innovation. Le coût d’une certification devrait être tout à fait raisonnable au regard de l’enjeu de l’évaluation de conformité réalisée.

C’est en fait de la création de richesses dont notre économie a besoin, pour le marché intérieur et pour nos échanges internationaux. Or, la richesse est directement liée à la demande, elle n’est que mesure de sa satisfaction. Pour prolonger jusqu’au succès commercial une marche de l’IA portée jusqu’ici essentiellement par l’offre, il est impératif d’anticiper les réactions du marché et d’activer au plus tôt les conditions d’un rapprochement de l’offre et de la demande, c’est là l’objet principal de la certification.

Merci à Guillaume Avrin d’avoir accepté de répondre à nos questions.