Intelligence collective massive : les coulisses du partenariat entre Bluenove et Inria

Depuis 2014, bluenove accompagne des entreprises et institutions privées ou publiques dans la transformation de leur organisation par le biais de grandes consultations internes ou externes. Pour y parvenir, elle exploite sa plateforme délibérative baptisée Assembl. Il y a deux ans, en 2019, la société de technologie et de conseil spécialisée en intelligence collective massive s’est associée avec l’Institut national de recherche en sciences et technologies du numérique (Inria) pour développer de nouveaux algorithmes permettant d’automatiser l’analyse des débats. En 2021, bluenove annonce la reconduction de ce partenariat dans le cadre de sa stratégie R&D.

Pour l’occasion, Actu IA s’est entretenu avec Frank Escoubès, co-fondateur de bluenove, et Éric de la Clergerie, chercheur spécialiste du traitement automatique des langues à l’Inria, qui vient tout juste d’être nommé au poste de directeur R&D sur le traitement automatique des langues de bluenove. Focus sur le secteur de l’intelligence collective massive et sur l’ensemble des enjeux du partenariat avec l’Inria qui permettrait à la société de franchir un cap.

Intelligence collective massive

L’intelligence collective massive est la capacité à mobiliser de très grandes communautés de personnes (de l’ordre de plusieurs milliers, dizaines de milliers, centaines de milliers, voire davantage) afin de résoudre collectivement un problème complexe. Concrètement, il s’agit de co-élaborer un plan stratégique, une feuille de route technologique, des politiques publiques, etc. Ces démarches participatives se déroulent très souvent en interne (auprès de l’ensemble des collaborateurs d’une organisation), même si la tendance est à l’ouverture des débats à des parties prenantes externes (clients, partenaires industriels, etc.).

Au travers de la plateforme digitale Assembl de consultation et de mise en débat, il est ainsi possible d’argumenter et de contre-argumenter sur un sujet donné. Pour donner un ordre de grandeur, des clients comme Engie, EDF ou Décathlon consultent environ 100 000 personnes simultanément. Et le Grand Débat National de 2019 a vu près de deux millions de personnes s’exprimer. Au début de l’année 2021, la plateforme d’intelligence collective massive Assembl a été mise à jour avec pour ambition d’accélérer et d’automatiser en partie l’analyse de l’expression libre afin de la rendre “opposable” (vérifiable par le participant).

Renforcement de la pratique du débat

Dans le domaine de l’intelligence collective massive, deux cas de figure se présentent :

Consultation : on pose des questions ouvertes aux participants qui répondent individuellement, sans savoir ce que les autres répondent (comme lors d’un sondage). La tâche des experts en consultation (et des algorithmes sous-jacents) consiste à appliquer une méthode de clustering, c’est-à-dire de regrouper les expressions véhiculant un sens similaire. Ce clustering est publié de manière ouverte : le résultat du regroupement sémantique par cluster et donc par idée clé ainsi que la pondération de ces clusters sont visibles par tous. Cela contribue à la confiance des parties prenantes. Aucune opacité ne vient entacher le processus. Pour Frank Escoubès, il est plus efficace de publier le résultat du clustering que le code de l’algorithme ayant permis de le réaliser, car tout le monde peut juger de la qualité d’une synthèse alors que les personnes en capacité d’auditer un algorithme d’intelligence artificielle sont rarissimes.
Délibération : un débat est une co-construction dans laquelle les citoyens répondent aux arguments d’autrui. La confrontation d’arguments et de points de vue donne naissance à des idées “raffinées”. D’un point de vue technique, l’analyse ne requiert pas de pointer des fréquences ou des récurrences (car les idées sont rarement répétées stricto sensu dans un débat), mais d’identifier des “taxonomies”, c’est-à-dire des unités de sens logiques. Elles relèvent d’une catégorisation universelle : les problèmes, les solutions et les arguments. Sur la base de ce référentiel décrivant la structure intellectuelle du discours, on peut construire une cartographie de type “Mind Map” (graphe). La technologie sous-jacente relève de la reconnaissance du langage naturel (NLP), et ce en version multilingue le plus souvent.

Les deux approches de bluenove visent à s’assurer que le plus grand nombre de personnes puissent s’exprimer et que cette expression puisse être recueillie et restituée de façon synthétique pour qu’elle soit proposée à l’arbitrage du décisionnaire. Car il faut rappeler qu’intelligence collective ne signifie pas décision collective. Il ne s’agit pas de démocratie directe. Lorsqu’on consulte des collaborateurs ou des citoyens et/ou qu’on les fait délibérer, cela veut dire qu’on les considère comme des adultes de plein exercice, capables d’avoir un point de vue, et que ce point de vue pourra influer sur la décision d’un tiers décisionnaire (comme la direction générale d’un groupe, un ministre, le président d’une collectivité territoriale, etc.). Et si ce point de vue ne convainc pas le décisionnaire, ce dernier devra idéalement motiver son refus de le prendre en compte.

bluenove et Assembl soutiennent donc une aide à la décision qui passe par le collectif pour caractériser le champ des possibles.

L’arrivée d’Éric de la Clergerie comme directeur R&D du traitement automatique des langues de bluenove

La collaboration d’Éric de la Clergerie avec bluenove a commencé il y a plus de deux ans avec un post-doctorant qui avait travaillé sur deux aspects : l’analyse des débats et le clustering des expressions. La société a souhaité poursuivre cette collaboration sous une forme plus ambitieuse :

« Entre ce qui avait été fait il y a deux ans et ce qui pourrait être fait aujourd’hui en 2021, une vraie évolution s’est opérée grâce à l’arrivée des modèles de langue. Cela fait partie de la feuille de route de comprendre dans quelle mesure ces modèles de langue sont exploitables pour le clustering et pour détecter des formulations liées à un problème, une solution ou une argumentation. Sur la partie débat, il faut se pencher sur les aspects structurels, sémantiques, syntaxiques, discursifs, qui sont clés pour conduire l’analyse. »

Frank Escoubès précise :

« Un algorithme avait déjà été conçu avant même le partenariat avec l’Inria. Il exploite le machine learning pour reconnaître la forme syntaxique de l’expression d’une « solution » basée sur une série de règles (environ 300). Par exemple : l’usage du conditionnel du type “il faudrait que” ou de certains infinitifs sont des marqueurs qui aident l’algorithme à détecter des pépites. La concaténation de ces règles permet de reconnaître l’expression formelle d’une solution. L’enjeu désormais est d’avoir une double performance de précision et de rappel qui soit maximale, qui permette à la fois de ne pas sélectionner du bruit et de ne pas oublier une partie des expressions relevant de la catégorie “solutions”. »

Les enjeux de bluenove dans le développement de nouveaux outils pour le débat

Dans le cadre de son partenariat avec l’Inria, la société privilégie trois enjeux dans ses recherches pour développer de nouveaux algorithmes au service de l’intelligence collective:

Augmenter la performance (de précision et de rappel) de ses algorithmes afin qu’ils repèrent avec efficacité le plus grand nombre de solutions. À l’heure actuelle, le taux de reconnaissance est compris entre 65 et 78 % en fonction des corpus, ce qui est un résultat honorable, mais encore insuffisant aux yeux de l’entreprise.
Compléter la reconnaissance des “solutions” par la reconnaissance des “problèmes” en amont. Il s’agit d’axer les recherches sur les enjeux afin de les identifier plus facilement.
Détecter des singularités, des pépites, des idées rares qui peuvent bouleverser la résolution d’un problème, et qui sont malheureusement noyées dans la masse alors qu’elles peuvent bouleverser la prise de décision.

Pour Éric de la Clergerie, ce dernier point est le vrai défi. Selon lui, il est tout à fait possible de trouver des solutions susceptibles de répondre aux deux premiers enjeux en affinant les performances des algorithmes. Toutefois, la proposition singulière ou “pépite” est un aspect particulièrement complexe, car les marqueurs de la rareté sont un espace de recherche presque vierge en reconnaissance du langage. Comment mettre en exergue des suggestions rares mais particulièrement pertinentes sans pour autant accorder plus de crédit à untel ou untel, ce qui correspondrait à recréer une hiérarchie entre les personnes, et donc faire fi de la méritocratie des idées ?

Frank Escoubès nous révèle l’un des marqueurs d’idées singulières identifié par la société : les idées exprimées sous la forme de co-occurences rares ou avec des termes habituellement non compatibles (comme l’association d’un concept avec une marque. Par exemple “devenir le Meetic de l’auto-production d’électricité”). Mais bien au-delà des idées imagées, ce sont avant tout les idées « raffinées » qui représentent l’avenir de la compréhension d’une dynamique de débat : comment tracer le processus d’enrichissement progressif d’une idée par des contributions multiples ? Enfin, Frank Escoubès rappelle que l’objectif n’est pas d’automatiser 100% des traitements, mais de les ramener à des volumes de données traitables à l’échelle humaine :

« Si un algorithme permet de passer de 100 000 verbatim à 300 singularités que les consultants peuvent découvrir, on aura réalisé une superbe avancée dans le domaine de la connaissance humaine. »