Intelligence artificielle Angela Fan, chercheuse chez META AI, veut générer des biographies des groupes...

Pour approfondir le sujet

Sur le même thème :

Meta dévoile comment elle entend construire le métavers grâce à l’Intelligence Artificielle

Le 20 janvier dernier, Meta présentait "data2vec", le premier algorithme auto-supervisé hautes performances pour la parole, la vision et le texte. Quatre jours plus...

PariSanté Campus dévoile les soixante start-ups de sa première promotion

Le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, le Ministère des Solidarités et de la Santé, l’Inserm, l’Université PSL (Paris Sciences...

Elections Présidentielles : L’Intelligence Artificielle pour l’analyse des discours des candidats

ACADYS a annoncé ce 3 mars que, via sa Business unit baptisée Beyond Data Sciences dédiée à l'intelligence de la donnée, il délivrera chaque...

SingHealth, le National Supercomputing Center Singapore et NVIDIA annoncent un partenariat pour améliorer les soins de santé grâce à l’Intelligence Artificielle

Co-organisée par des centres HPC de Singapour, du Japon, d'Australie, SupercomputingAsia (SCA) 2022 est une conférence annuelle qui englobe un ensemble d'événements notables de...

Angela Fan, chercheuse chez META AI, veut générer des biographies des groupes marginalisés grâce à l’IA

Environ 20 % seulement des biographies sur le site en anglais de Wikipédia, l’un des sites web les plus consultés au monde, concernent des femmes, selon la Fondation Wikimedia. Dans le cadre de son projet de doctorat en informatique à l’Université de Lorraine, au sein de l’Institut national de recherche en sciences et technologies du numérique (INRIA), Angela Fan a travaillé aux côtés de Claire Gardent, sa directrice de thèse, au développement d’une nouvelle solution qui permettrait de remédier à ce déséquilibre grâce à l’intelligence artificielle.

Le genre est l’une des formes d’inégalité les plus répandues et les plus insidieuses. Par exemple, Wikipédia en anglais contient plus de 1,5 million de biographies d’écrivains, d’inventeurs et d’universitaires notables, mais moins de 19 % de ces biographies concernent des femmes. Malgré ce faible pourcentage, un quart des biographies proposées pour suppression chaque mois concernent des femmes. Malgré l’impact considérable qu’elles ont pu avoir au cours de l’histoire dans les sciences, les affaires, la politique et tous les autres domaines de notre société, les femmes sont soit oubliées, soit sous-représentées.

Angela Fan, chercheuse chez META AI, a mis en open source un modèle d’IA de bout en bout qui crée automatiquement des articles biographiques d’excellente qualité sur des personnalités publiques de premier plan.

Le modèle d’IA générateur de biographies

Angela Fan et Claire Gardent ont débuté le processus de génération d’une biographie en utilisant une matrice de génération augmentée par la recherche, qui repose sur un pré-entraînement à grande échelle, et qui apprend au modèle à identifier uniquement les informations utiles, telles que le lieu de naissance ou le lieu où la personne a fait ses études, à mesure qu’il élabore la biographie.

Le modèle récupère d’abord les informations pertinentes sur Internet pour introduire le sujet. Ensuite, le module de génération crée le texte, tandis que la troisième étape, le module de citation, construit la bibliographie renvoyant aux sources qui ont été utilisées. Le processus se répète ensuite, chaque section prédisant la suivante, couvrant tous les éléments qui composent une biographie Wikipédia robuste, y compris la jeunesse, l’éducation et la carrière du sujet.

La génération d’informations se fait section par section, à l’aide d’un mécanisme de mise en cache semblable à celui de Transformer-XL, afin de renvoyer aux sections existantes et d’atteindre un degré de contextualisation plus élevé au niveau du document. La mise en cache est essentielle, car elle permet au modèle de mieux retracer ce qu’il a déjà produit.

Des équipes d’évaluation ont révélé que 68 % du texte généré dans les biographies ne se trouvait pas dans le corpus de référence et n’était vérifiable qu’en partie. Le manque de données pour entraîner le moteur ou d’articles biographiques existants sur les femmes a été un problème majeur. D’autre part, les articles concernant les femmes, en particulier celles issues de groupes marginalisés, sont nettement plus courts que la moyenne des articles sur les hommes, moins détaillés et utilisent un langage différent. Ainsi, on y évoque une « femme scientifique » au lieu de simplement dire « scientifique ». Ce biais dans les données d’entraînement a été intériorisé par les modèles. De plus, les articles de Wikipédia sont rédigés à partir de sources factuelles, souvent issues du web, et non de sources vérifiées.

Diversifier la représentation sur Wikipedia

Selon Angela Fan, ce modèle ne résout que partiellement un problème multidimensionnel et il reste d’autres domaines où de nouvelles technologies devraient être étudiées.

Par ailleurs, certaines sources ont un biais qui doit être pris en compte. Dans les biographies concernant les femmes, on trouve des détails sur leur vie personnelle, comme le fait d’être divorcée, qui n’ont aucun intérêt et détourne l’attention des réalisations qui devraient être  mises en avant.

Meta souligne :

« Il y a encore du travail à faire pour d’autres groupes marginalisés et intersectionnels dans le monde entier et dans toutes les langues. Notre évaluation et notre ensemble de données se concentrent sur les femmes, ce qui exclut de nombreux autres groupes, y compris les personnes non binaires. »

Angela Fan conclut :

« Nous sommes animés par le désir de faire partager ce domaine de recherche important à l’ensemble de la communauté des chercheurs et chercheuses dans le domaine de la génération par l’IA. Nous espérons que nos techniques pourront être utilisées comme point de départ pour les personnes qui enrichissent le contenu Wikipédia de leurs articles, et qu’elles permettront d’améliorer l’équité des informations en ligne accessibles aux étudiants qui rédigent des biographies, et à bien d’autres. »


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Pierre-yves Gerlat

Partager l'article

La finale de « Ma thèse en 180 secondes » aura lieu à Lyon le 31 mai prochain

« Ma thèse en 180 secondes » concours qui s'inspire de « Three minute Thesis », conçu à l'Université du Queensland, en Australie, est...

CentraleSupélec et SystemX lancent l’Alliance CircularIT pour mettre le numérique au service de l’économie circulaire

Le 10 mai dernier, CentraleSupélec et l’IRT SystemX ont annoncé la création d'« Alliance CircularIT » afin de « mettre la puissance du numérique...

Le Val de Marne mise sur l’intelligence artificielle pour améliorer son réseau d’assainissement

En novembre 2020, l’agence de l’eau Seine-Normandie lançait l'appel à projets innovation pour la gestion de l’eau, « Transition numérique et économie circulaire »...

RAFAEL vise à devenir la plateforme dédiée au post-Covid de référence en francophonie

La Haute Autorité de Santé, à la date du 19 novembre 2021, déclarait que 10% des malades du Covid-19 développent un covid long, syndrome...
Recevoir une notification en cas d'actualité importante    OK Non merci