Adoption de l’IA, données et souveraineté : Entretien avec Antoine Couret (ALEIA)

Si l’adoption de solutions basées sur l’intelligence artificielle progresse à travers le monde, la question des données, de leur collecte, de leur qualité et leur souveraineté est au centre de nombreux débats. Nous avons échangé avec Antoine Couret, fondateur d’ALEIA et président du Hub France IA sur ces questions, sur les difficultés des entreprises et les possibilités qui s’offrent à elles.

1) Quelles sont pour une entreprise les principaux risques ou sources de difficultés des projets d’intelligence artificielle de nos jours ?

Je vais séparer la partie difficultés d’un côté, et risques de l’autre, car il s’agit de deux questions bien différentes. Les difficultés dépendent évidemment de la taille des entreprises. Les trois principales que l’on a identifié sont les suivantes :

La deuxième difficulté, selon moi, tient à la gouvernance, à la gestion de la donnée et à sa sécurité, à la fois pour le fait de garantir la conformité à la régulation mais aussi pour qu’elles soient protégées, leur détournement pouvant évidemment être catastrophique.
Enfin, nous retrouvons dans la plupart des entreprises une troisième difficulté : le passage en production, qui permet de passer d’un premier test à une application opérationnelle, avec une infrastructure adaptée. Cette étape d’industrialisation est essentielle mais souvent non maîtrisée, car il faut pouvoir passer à l’échelle, ce qui doit avoir été prévu dès le départ, sinon ce sera source d’échec. C’est pour cela que beaucoup de projets ne passent pas en production : ils ont généré des coûts (pour les produire) mais pas de bénéfice.

J’ajoute évidemment une dernière difficulté, très transverse : l’extrême rareté des compétences, notamment pour emmener les projets d’IA jusqu’à la production. Il ne faut en effet pas uniquement des datascientists, il faut également des développeurs, des devOPS, des chefs de projet IA, des profils métier formés à l’utilisation de l’IA, etc. Ces compétences ne sont pas faciles à rassembler, et il est “normal” que les entreprises soient confrontées à des difficultés pour développer et/ou déployer des applications basées sur l’IA. Les risques, quant à eux, sont évidemment liés à la sécurité des données, mais aussi à la conformité : il devient de plus en plus difficile d’être sûr que les données sont conformes à tout moment aux réglementations européennes qui évoluent régulièrement, ou encore qu’il n’y a pas, sur des données sensibles, des risques de souveraineté ou de fuites. C’est évidemment un enjeu majeur pour certaines industries.

2) Quelle est la proposition de valeur d’ALEIA pour répondre à ces difficultés ?

ALEIA est un éditeur de logiciels qui propose une plateforme SaaS d’IA. Suite à ces constats et après de nombreux échanges avec les acteurs et les industriels, la plateforme propose à ses clients une offre nouvelle pour industrialiser leurs projets d’intelligence artificielle grâce à 3 composantes principales : l’ouverture avec une marketplace, la collaboration avec le partage entre entreprise et l’industrialisation « souveraine » en quelques heures sur des environnements français ou européens. Ces principaux composants ne sont pas disponibles dans l’offre actuelle en IA, ou de façon atomisée.

ALEIA est déjà reconnue sur ce marché en étant l’un des premiers lauréats de la BPI sur la transformation des filières, choisie par des écosystèmes de collaboration comme IA Cargo dans la logistique, Renovaite dans la rénovation énergétique en France et en Allemagne, ainsi que le Campus cyber dans la cybersécurité.

Tout d’abord, avec ALEIA, nous répondons au manque de données avec ce que nous appelons la promesse d’ouverture. Cela se traduit par plusieurs éléments. A l’échelle de l’entreprise, nous procédons à une standardisation des jeux de données, qui permet d’aller chercher d’autres jeux de données. Puis, en dehors de l’entreprise, nous donnons également la capacité à apporter d’autres jeux de données, qui vont permettre d’enrichir ceux des entreprises, grâce à une véritable « marketplace » développée avec notre partenaire DAWEX.

Et tout cela est complété par des algorithmes spécialisés, grâce aux partenariats qu’ALEIA a avec d’autres éditeurs. Cela nous permet d’apporter aussi ce que nous appelons les best of breed, c’est-à-dire des partenaires disponibles directement sur la plateforme qui pourront intervenir sur, par exemple, le traitement du langage, l’analyse d’images, etc. Avec cette solution, un client ne part jamais from scratch mais bénéficie déjà d’algorithmes et de jeux de données performants. Il peut donc traiter, à l’intérieur de notre one-stop-shop solution, l’ensemble des sources de données dont il dispose, sans avoir à passer d’un outil pour le texte à un outil pour l’image, etc. comme c’est aujourd’hui le cas.

Concernant la gouvernance et la sécurité, la plateforme propose un pipeline entièrement géré, depuis l’ingestion des données jusqu’à la mise en production en intégrant la partie traitement. Ce pipeline est entièrement sécurisé et s’appuie sur une infrastructure Cloud souveraine qui peut être choisie soit chez OVH soit chez Scaleway, ou encore on premise. L’ensemble de l’ingestion, des traitements jusqu’ au passage en production se fera dans un environnement entièrement sécurisé avec la marketplace totalement intégrée dedans pour réduire les entrées et sorties de l’infrastructure et d’apporter ainsi une plus grande sécurité.

Nous avons également une forte promesse qui s’axe sur la collaboration. Elle se traduit notamment par la gestion des permissions pour permettre aux utilisateurs d’entités différentes de collaborer sur des projets, mais aussi par la traçabilité des données pour connaître leur cycle de vie, contrôler les droits et les accès. Cela permet de suivre l’ensemble des traitements réalisés, d’attester des droits, des droits sur les données, des droits qui sont distribués également vers les différents intervenants en fonction de leurs tâches.

Ces différents éléments permettent de répondre efficacement à la rareté des compétences chez nos clients, grâce à un pipeline entièrement managé, qui permet de mutualiser les ressources nécessaires pour avoir des projets d’IA se déployant facilement en production. Ces sujets traités par le pipeline offrent un haut niveau de service et réduit le besoin de compétences puisque les utilisateurs vont pouvoir se concentrer sur leur cœur de métier sans avoir besoin de ressources nécessaires pour mettre en place toute l’infrastructure informatique nécessaire;

3) Quelles entreprises peuvent s’adresser à vous ? (taille, secteur…)

Nous croyons à l’IA pour tous ! Très concrètement, nos clients arrivent de métiers où l’on a compris, très vite, l’intérêt de la donnée et de son traitement, mais qui ne sont pas prêts techniquement. La plupart du temps, un datalake existe, mais il manque l’infrastructure IA nécessaire pour le calcul, la sécurité, la mise en production…. D’autres clients ont déjà cette maturité technologique, mais une plateforme comme ALEIA permet de gérer la complexité des sujets et d’accélérer la mise en production.

Dans les faits, ALEIA s’adresse à 3 grands types de clients : les entreprises, les écosystèmes ou filières industrielles et les communautés de data scientists ou d’AI Ops.

Toutes les organisations ont besoin d’accélérer leurs projets IA, que ce soit des grands groupes, des ETI ou des PME, mais aussi des collectivités territoriales ou encore les ministères par exemple. ALEIA leur permet de mettre rapidement en production des algorithmes développés ou d’intégrer l’IA dans leurs applications industrielles, comme par exemple chez DIAC pour le scoring de crédit ou avec le Val de Loire pour la gestion des flux touristiques.

ALEIA permet également de fournir un service très concret pour les filières, regroupant plusieurs entreprises ayant envie de partager des données entre elles et de développer des algorithmes dessus. On peut citer le AgDataHub pour l’agriculture, Campus Cyber pour la cybersécurité ou encore IACargo sur la logistique. Ces écosystèmes de données seront ceux qui profiteront le plus de la partie collaboration, gouvernance, gestion des droits pour avoir confiance dans l’utilisation, qui utiliseront également la partie marketplace pour, s’ils développent des algorithmes, pouvoir ensuite se les échanger entre elles. Et nous sommes les seuls à proposer l’ensemble de services dont ils ont besoin avec un niveau de collaboration que les plateformes américaines ne proposent pas.

Enfin, nous recevons déjà des demandes de bêta testeurs, de freelances type data scientists et Data/AI Ops qui ont un intérêt pour l’IA pour réaliser leurs projets, ou les projets de leurs clients.

4) La notion de souveraineté est de plus en plus présente, pourquoi devient-elle si importante pour les entreprises clientes ?

La souveraineté est devenue progressivement une vraie demande du marché, et encore plus après les événements de ces dernières années. Il y a bien évidemment un enjeu de maîtrise des données, et d’éviter d’être soumis à des lois extraterritoriales. La souveraineté numérique suppose d’avoir accès à des environnements souverains en termes d’hébergement d’une part, mais également au niveau des traitements : chez ALEIA, toutes les entreprises et jeux de données qui seront présents seront validés, français ou européens.

Le deuxième enjeu est davantage industriel. Quand vous travaillez avec des partenaires européens, quand vous développez des algorithmes ou des datasets, plus vous allez sur des sujets complexes, plus vous êtes confrontés à des difficultés liées à l’infrastructure et au traitement. Si vous êtes accompagné par des partenaires qui ne sont pas européens, le partage de la propriété intellectuelle et du savoir-faire peut être plus diffus et être réalisé hors de chez vous. Ce savoir-faire industriel est très important et vous en faites davantage l’acquisition quand vous travaillez avec des partenaires européens car vous allez grandir ensemble, la proximité aidant à la co-conception des solutions attendues.

Le troisième sujet, nous en avons eu un exemple avec la passe d’armes récente entre Facebook et l’Union européenne sur le lieu d’hébergement des données personnelles. Il s’agit de développer une certaine indépendance technologique européenne et française, dans la mesure où nous avons en Europe toutes les compétences requises. C’est un sujet plus global qui touche la prise de conscience et la volonté de la France et de l’Europe de faire en sorte que la technologie et l’IA soit une compétence et une industrie technologique européenne reconnue mondialement, sans dépendre des choix des géants comme Microsoft, Amazon ou Google. L’Europe est un fournisseur important de compétences en IA avec ses investissements importants en termes de R&D et d’innovation mais ne profite que peu de ces investissements car elles sont ensuite exploitées plutôt côté États-Unis. Cette prise de conscience a commencé il y a deux-trois ans et est encore plus forte à l’heure actuelle. Il s’agit désormais de créer une réelle industrie, notamment en matière d’IA, pour avoir une véritable filière industrielle numérique couvrant la partie deeptech, c’est à dire les sujets de processeurs, semi-conducteurs, de cloud, d’hébergement mais aussi de traitement de la donnée, l’algorithme, d’apprentissage, de standardisation, de créer des systèmes d’exploitation pensés pour l’IA, que ce soit de l’IA en cloud ou de l’IA embarquée.

5) Faire le choix de la souveraineté permet-il de bénéficier des dernières innovations, au risque de se couper de celles des grands éditeurs américains ?

Plus que tout ! Et en pleine confiance ! La capacité de créativité et d’innovation est très forte en France et en Europe. Cela ne signifie pas se couper des dernières innovations mais au contraire de bénéficier de la qualité de l’ innovation européenne, des investissements réalisés en R&D. Nous avons toutes les cartes en main pour le faire. Aujourd’hui nous avons les leaders industriels d’un côté, la R&D en IA de l’autre, il manque en Europe le pont entre les deux, et ce sont les grandes entreprises américaines qui, finalement, bénéficient des innovations européennes. Il s’agit donc d’opérationnaliser cette R&D pour que les industriels puissent finalement en tirer parti sans que ce pont passe par les États-Unis seulement, comme à l’heure actuelle, ce qui est regrettable. Aujourd’hui nous avons tous les moyens et les premiers acteurs pour que ces ponts se fassent directement en Europe.

6) ALEIA vient de réaliser une très belle levée de fonds, quelles sont les prochaines étapes ?

De nombreux projets ! Trois principalement.

Tout d’abord, cela va nous permettre de continuer le développement du produit parce qu’il nous faut être techniquement parmi les meilleurs pour rivaliser avec nos concurrents nord-américains et asiatiques. Nos principaux enjeux sont d’avoir des jeux de données, des algorithmes préentraînés de plus en plus riches. C’est une priorité du premier semestre 2022 pour avoir un écosystème de partenaires disponible dans la market place important. Et puis évidemment, nous allons encore intensifier les investissements sur la qualité et le pilotage de la mise en production sur le deuxième semestre 2022.

La deuxième grande étape est l’ouverture de l’ écosystème IA. L’IA, c’est pour tous ! Nous voulons élargir l’accès à l’iA avec 3 axes principaux : l’accès aux PME et ETI, l’augmentation de la communauté plutôt à la rentrée et enfin la préparation de briques open source en 2023. Avec tous les travaux que nous avons réalisés, nous estimons en effet qu’il y a un certain nombre de briques intéressantes pour l’open source. C’est évidemment très lié à notre volonté de bâtir une communauté et au fait que pour que cet écosystème du numérique se construise et se déploie en Europe, il faut qu’on soit très proche de ce qui se fait aux États-Unis. Animer des communautés open source est un pilier très important pour nous pour 2022-2023. Cette participation à la croissance de l’écosystème va dans le sens du renforcement de notre souveraineté.

Enfin, le troisième temps, c’est de se préparer à l’international, notamment en Europe. Il y a des écosystèmes riches dans tous les pays européens, mais ils sont confrontés aux mêmes problèmes qu’en France. En plus ils sont très peu connectés entre pays, alors que les grandes entreprises ont besoin de solutions qui ne se soucient pas des frontières.

Tout cela ne sera possible qu’en continuant de grandir. Nous allons recruter plus de 50 personnes dans les 6 prochains mois, notamment sur des postes de développeurs, de product manager, de scrum master, en data science … Nous offrons à la fois un environnement de travail agréable, des possibilités de travail en “full remote” et surtout des défis technologiques complexes à relever, en computer science, en data science pour accompagner la transformation des industries par l’IA.

7) À titre personnel, quelles sont les dernières innovations (projet de recherche, produit, startup, concept, dernier cas d’usage traité) en matière d’IA qui vous ont le plus bluffé ?

Si l’on reste dans le domaine d’activité d’ALEIA, je suis aujourd’hui surpris de la maturité mais aussi de l’envie de plus en plus d’entreprises de prendre à bras le corps les sujets de la data et de l’IA dans leur domaine industriel. Cela reste des sujets complexes, pas vraiment grand public mais il y a une réelle volonté et beaucoup d’intérêt.

Parallèlement, je suis de très près le sujet GPT / OpenAI sur lequel je pense que l’Europe et la France ont des rôles à jouer. Nous avons la capacité en France d’aller jusqu’à des modèles non supervisés avec des milliards de paramètres avec des entreprises comme LightOn notamment et les capacités de calculs du Genci. Grâce à nos ressources de calcul, nous avons une forte capacité à progresser sur les algorithmes les plus avancés dans tout ce qui est traitement du langage. Avec la diversité des langues en Europe, il y a évidemment en la matière un immense potentiel et un immense besoin également. En Allemagne, cela avance également beaucoup et on revient à la question de la souveraineté. En effet, quand on aborde le sujet des langues, c’est évidemment important d’apprendre avec les biais européens, dans le sens où chaque langue à ses spécificités linguistiques mais aussi culturelles et émotionnelles, intentionnelles.

Autre sujet scientifique sur lequel la France a également un rôle à jouer c’est celui des données synthétiques, notamment dans le domaine médical et la création de patients synthétiques. Ces derniers permettent d’augmenter les jeux de données d’une manière très intéressante, surtout lorsqu’on a peu de données. Ils peuvent avoir un énorme impact industriel. Par exemple, en recherche clinique, le coût de la collecte de cohorte est très élevé et, par conséquent, pouvoir augmenter la cohorte à partir de données de vrais patients permettant, à partir d’un certain nombre de vrais patients, d’en créer des milliers, synthétiques, réduit fortement les coûts des essais cliniques. Cela a forcément un impact sur la recherche scientifique. C’est un domaine qui se révèle central mais c’est également intéressant dans d’autres domaines comme la conduite autonome sur véhicules, des trains ou même des avions. L’environnement à découvrir est énorme, il y a beaucoup de possibilités et le fait de créer des environnements de données synthétiques est donc très pertinent.

Enfin, il est important d’évoquer la prise de conscience européenne d’aller vers une vraie indépendance technologique et de créer une véritable industrie autour. L’Europe avance mais il y a également beaucoup de travail côté réglementation pour libérer cette capacité, pour, je dirais libérer les données. Un exemple pour rester sur la question des données synthétiques : à l’heure actuelle, cela ne peut pas passer en production à cause de sujets réglementaires, notamment au niveau de la CNIL. Il y a d’ailleurs des auditions sur le sujet en ce moment.

Face à l’envie, il faut évidemment de la sécurité, de la gestion des droits, de la donnée qualifiée mais nous sommes à un moment où nous avons encore beaucoup de freins. Nous étions très “bouclier” il y a deux ans et maintenant nous sommes en train de sortir le “glaive”. C’est positif mais il faut se renforcer davantage pour que l’Europe puisse avancer, se débarrasser de ses vieux démons et mieux apprécier l’équilibre entre la liberté donnée à l’exploitation des données et la préservation de la vie privée.