INRIA, l'Ecole Polytechnique et Radio France se lancent dans le fact-checking

Le fact-checking (vérification des faits), consiste à vérifier de manière systématique des affirmations de responsables politiques ou des éléments du débat public, d’autant plus en période électorale. Radio France a engagé un partenariat avec Polytechnique et Inria pour développer l’intelligence artificielle dans ses rédactions. Elle a l’intention de s’en servir pour la campagne électorale 2022 et recrute pour compléter l’équipe CEDAR.

Le fact-checking

Ce mode de traitement journalistique, né aux Etats-Unis, est un processus de vérification interne des organismes de presse, certains employés ont pour fonction de vérifier l’exactitude des faits, des chiffres ou des citations rapportés par les journalistes de terrain. Le magazine Time aurait engagé les premiers fact-checkers en 1923, mais c’est le développement d’internet qui l’a réinventé dans les années 2000 : les vérifications, faites a posteriori et non plus en amont, concernent les éléments de discours politiques et plus largement du débat public, notamment en période électorale. Des sites s’y sont consacrés comme Factcheck.org, ou Politfact, avec pour objectif de clarifier le débat public en vérifiant et corrigeant les assertions trompeuses ou confuses. Les journaux ne sont pas en reste : Libération a lancé sa rubrique «Désintox» et Le Monde, le blog «Les Décodeurs». La télévision et la radio sont elles aussi acteurs du fact-checking.

Dans son «Projet Stratégique 2018 -2023 pour Radio France», Sybile Veil, PDG du groupe Radio France depuis fin décembre dernier, déclarait :

«Le label franceinfo doit être la garantie pour le public d’une information “100% vérifiée”. La mise en réseau des compétences de fact-checking et la montée en puissance de l’Agence france info feront de Radio France le pivot de la fonction de vérification de l’information, mission cruciale qui doit irriguer l’ensemble des rédactions de l’audiovisuel public.»

Le partenariat Inria – Ecole Polytechnique – RadioFrance

Le projet de collaboration autour de la détection automatique des infox, largement relayées par les médias ou les réseaux sociaux entre Inria, l’Ecole Polytechnique et Radio-Fance porte sur deux axes :

Accessibilité des données de référence.

Des outils logiciels d’interrogation de sources de statistiques de qualité (en particulier INSEE, mais aussi OCDE, etc.) seront mis en place afin d’identifier très rapidement et avec précision les données de référence pour vérifier une affirmation statistique. Il s’agit de construire un système complet, partant de l’acquisition et de l’indexation des données ouvertes de référence, passant par des algorithmes spécialisés de recherche d’information, et complétés par des modules de détection automatique d’affirmations statistiques à vérifier dans des contenus écrits. Cet axe s’appuiera sur les travaux précédents de l’équipe.

Création d’un corpus d’arguments (preuves) liés à des sujets controversés.

Il faut identifier des sources fiables, telles que des articles de recherche ou de vulgarisation de la science pour chaque sujet d’intérêt et ensuite créer un corpus d’arguments structurés, à partir des sources de données. Chaque argument gardera le lien avec la source d’origine, de telle sorte qu’un journaliste pourra accéder au contexte complet de publication d’une certaine information. Le corpus pourrait être facilement interrogé par les techniques proposées dans l’axe 1.

Pour que le projet se concrétise et soit opérationnel pour les élections présidentielles, les partenaires recrutent. Ils recherchent de façon urgente :

Un(e) ou deux ingénieurs(e)s possèdent une très bonne expertise en matière de programmation en Python, développement collaboratif et multiversion (Git), et idéalement des connaissances en : technologies Web, intelligence artificielle (IA), en particulier traitement de langage naturel (PNL). Une formation sur ces sujets peut être fournie par l’équipe, mais y avoir déjà été exposée sera un plus.
Une ou plusieurs étudiant(e)s stagiaires (niveau M1 ou supérieur) ayant des bases solides en Python et algorithmique. Des connaissances en IA, NLP, bases de données et technologies Web seront appréciées. Le projet se décompose en de multiples tâches bien délimitées nécessitant des compétences différentes ; le travail de chaque étape s’inscrira dans une tâche spécifique.

Les travaux se dérouleront dans l’équipe CEDAR (Inria et LIX, CNRS et Ecole Polytechnique). Il sera encadré par Ioana Manolescu (DR Inria), responsable de l’équipe CEDAR, et par Oana Balalau (Starting Faculty Inria). Depuis 2013, l’équipe développe une expertise reconnue dans les techniques de gestion de contenus (données, texte etc.) pour le data journalisme et la vérification journalistique, en particulier dans le projet ANR ContentCheck sur lequel s’appuie ce projet, puis dans le cadre de la chaire IA SourcesSay. Plus récemment, l’équipe a obtenu des résultats nouveaux dans l’analyse du discours en ligne et l’extraction d’arguments.

Lors d’une précédente interview, Sybile Veil avait déclaré :

«Nous vivons aujourd’hui une guerre de l’information. Alors que la multiplication des sources va de pair avec l’appauvrissement de la qualité de l’information et le développement de la désinformation, il faut préserver les capacités à investir du temps et des ressources dans l’information de qualité.»