Actualité Podcast : "CamemBERT, un savoureux modèle de langue française" dans Le Journal...

Pour approfondir le sujet

IA et Fake news : découvrez Neutral News, le projet de trois étudiants de l’EPITA

Jonas Bouaziz, Arnaud Henric et Jérémie Zimmer, tous trois étudiants ingénieurs de l'EPITA, ont remporté en mai dernier la 3e place du concours Imagine...

Retour sur le processeur NNP-I développé par Intel avec la collaboration de Facebook

À l'occasion du CES de Las Vegas la semaine dernière, Intel a annoncé l'arrivée d'un nouveau processeur dédié à l'intelligence artificielle et destiné à...

Des chercheurs de l’Inserm utilisent l’intelligence artificielle pour évaluer la toxicité des substances chimiques

Faciliter l'évaluation des effets toxiques de certaines substances chimiques est au coeur d'un nouvel outil informatique basé sur l'intelligence artificielle qu'ont développé des chercheurs de l’Inserm. Menés...

Golem.ai dévoile les résultats de son enquête “Intelligence Artificielle et Marketing : état des lieux et projets”

Golem.ai publie ce mardi 9 octobre une étude sur le déploiement de l'intelligence artificielle dans les domaines du digital, du marketing et de la...

Podcast : “CamemBERT, un savoureux modèle de langue française” dans Le Journal des Sciences sur France Culture

Natacha Triou proposait de découvrir l’algorithme linguistique français CamemBERT dans Le Journal des Sciences du 19 novembre 2019 sur France Culture. L’occasion de revenir sur ce modèle informatique, publié gratuitement en ce mois de novembre, avec Laurent Romary, directeur de recherche au sein de l’équipe ALMAnaCH du centre Inria à Paris, qui a participé à l’élaboration de ce modèle en apprentissage profond.

CamemBERT est un modèle linguistique français basé sur l’architecture RoBERTa pré-entraînée sur le subcorpus francophone d’OSCAR, corpus multilingue disponible depuis peu.

L’équipe à l’origine de CamemBERT indique sur son site:

“Nous évaluons CamemBERT dans quatre tâches différentes en aval pour le français : balisage de partie de la parole (POS), analyse de la dépendance, reconnaissance des entités nommées (NER) et inférence de langage naturel (NLI); améliorer l’état de l’art pour la plupart des tâches par rapport aux précédentes approches monolingues et multilingues, ce qui confirme l’efficacité de grands modèles linguistiques pré-entraînés pour le français”.

Ont collaboré au développement et à l’entraînement de cet algorithme Facebook AI Research, Inria et ALMAnaCH et plus précisément Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.

La présentation de France Culture

Un nouveau modèle informatique est capable de manier parfaitement la langue française. Cette intelligence artificielle s’appelle CamemBERT et elle peut identifier et caractériser dans un texte les noms propres, les verbes, les adverbes, les adjectifs, de distinguer toute la grammaire et la syntaxe française, avec un taux de réussite à 99%. CamemBERT est l’application déclinée pour la langue française de BERT, le modèle contextuel de langue le plus courant, issu des laboratoires Google en 2018. Il s’agit d’une avancée car la plupart des modèles linguistiques sont créés à partir de données en anglais. L’Institut national de recherche dédié aux sciences du numérique vient de publier gratuitement le programme, et les détails des travaux “CamemBERT : un savoureux modèle de langue française” sont à retrouver sur le site d’ArXiv.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Thierry Maubant

Partager l'article

Pénurie des semi-conducteurs : Intel évoque ses prévisions et présente sa stratégie pour limiter les dégâts

À l'heure actuelle, l'industrie de l'informatique traverse une crise particulière : une pénurie de semi-conducteurs, essentiels dans la production de certains composants ou au...

Espagne : un projet de centre européen pour l’intelligence artificielle pour rivaliser avec les infrastructures européennes

En Espagne, un projet ambitieux autour de l'IA tend à se mettre en place. Un groupe d'investisseurs privés, dirigé par les propriétaires du téléopérateur...

L’apprentissage supervisé et par renforcement pour aider les robots à s’adapter à tout type d’environnement

A travers Rapid Motor Adaptation (RMA), Facebook progresse dans l'adaptation des robots à leur environnement, afin de développer leur motricité. Adapter les robots à un...

Cinéma et Deepfake : zoom sur la synchronisation des lèvres avec le doublage en langue étrangère

Le deepfake est une technique reposant sur l'intelligence artificielle qui permet de superposer des fichiers audio ou vidéos sur d'autres fichiers déjà existants pour...