Meta AI présente Sphere, un modèle conçu pour vérifier les citations sur Wikipedia

Lorsque l'on fait une recherche sur Internet, le moteur de recherche nous propose très souvent le site de l’encyclopédie communautaire Wikipedia. Elle contient environ 6,5 millions d'articles de contributeurs bénévoles mais comment savoir si ceux-ci sont fiables, bien que les sources des articles soient citées ? Meta s'est appuyé sur les recherches et les avancées de Meta AI pour développer SPHERE, un modèle open source capable d'analyser automatiquement des centaines de milliers de citations à la fois pour vérifier si elles soutiennent réellement les affirmations correspondantes, elle l'a publié récemment sur la plateforme Github. Meta a précisé qu'il n'était pas partenaire avec Wikimedia, la fondation qui gère Wikipedia, pour ce projet. Son objectif est de créer une plateforme pour aider les éditeurs de Wikipédia à repérer systématiquement les problèmes de citation et à corriger rapidement la citation ou le contenu de l'article correspondant.

Sphere, bibliothèque de récupération et de vérification

En septembre 2020, Facebook AI avait présenté KILT (Knowledge Intensive Language Tasks), un modèle d'IA intégrant la récupération et la vérification d'informations. Il réunit 11 ensembles de données créés à partir d'une collection prétraitée de l'ensemble du corpus Wikipédia, dans un format unique, ce qui permet une évaluation équilibrée entre différents modèles avec une précision accrue. Meta AI poursuit l'entraînement des réseaux de neurones sur des représentations plus nuancées du langage afin qu'ils puissent identifier les sources pertinentes dans un pool de données de la taille d'Internet. Les techniques de compréhension du langage naturel (NLU) permettent d'estimer la probabilité qu'une allégation puisse être déduite d'une source. Dans NLU, un modèle traduit des phrases humaines (ou des mots et des paragraphes) en représentations mathématiques complexes. Les outils conçus par Meta AI visent à comparer ces représentations afin de déterminer si une affirmation en soutient ou en contredit une autre.

Un ensemble de données de 134 millions de pages Web

L'un des principaux composants du système Sphere, bibliothèque de récupération à l'échelle du Web, est un nouvel ensemble de 134 millions de données, divisé en 906 millions de passages de 100 jetons chacun. Meta AI a utilisé l'IA pour indexer un grand nombre d'informations et permettre de trouver les sources appropriées parmi toutes ces données. La société a ainsi alimenté ses algorithmes avec 4 millions de requêtes provenant de Wikipédia pour les entraîner à se concentrer sur une source unique à partir d'un vaste ensemble de pages Web pour valider chaque déclaration. Au cours d'une recherche, les modèles créent et comparent des représentations mathématiques de la signification d'énoncés entiers plutôt que de mots individuels. Les pages Web pouvant contenir de longues portions de texte, les modèles évaluent le contenu par blocs et ne prennent en compte que le passage le plus pertinent lorsqu'ils décident de recommander ou non une URL. Ces index prédéfinis, qui répertorient 40 fois plus de contenu que les autres index Wikipédia, seront inclus dans Sphere. Meta AI affirme, qu'une fois déployé dans le monde réel, le modèle proposera les URL les plus pertinentes en tant que citations potentielles qu'un éditeur humain pourra examiner et approuver. Pour l'instant, l'équipe continue à l'affiner, la prochaine étape consistera à former des modèles pour évaluer la qualité des documents récupérés, détecter les contradictions potentielles, hiérarchiser les sources plus fiables.

Thierry Maubant

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Meta AI présente Sphere, un modèle conçu pour vérifier les citations sur Wikipedia

Sphere, bibliothèque de récupération et de vérification

Un ensemble de données de 134 millions de pages Web

Meta AI : l’assistant conversationnel aspire-t-il vraiment les données ?

Microsoft, Meta, Google : l'augmentation de la part de code des entreprises généré par l'IA transforme le développement logiciel

Meta AI : une intégration opaque qui menace la vie privée, selon un expert en cybersécurité de NordVPN