Actualité Podcast : "CamemBERT, un savoureux modèle de langue française" dans Le Journal...

Pour approfondir le sujet

L’INSEEC organise son 1er sommet de l’intelligence artificielle le 12 juin 2018

C'est à Lyon que se tiendra le 12 juin prochain le 1er sommet de l'intelligence artificielle de l'INSEEC. Organisé par la Chaire de Recherche...

Sonnet, la bibliothèque de réseau neuronal orientée objet de DeepMind, devient open source

En 2015, Google rendait open source TensorFlow, sa bibliothèque d'apprentissage automatique. La firme a également lancé en open source, en décembre 2016, le projet...

Retour sur les 6 start-ups accélérées par l’AI Factory for Green Energy de Schneider Electric et Microsoft

En juillet 2019, Schneider Electric et Microsoft avaient lancé un appel à projets aux startups travaillant à l’amélioration de la prédiction de consommation et...

“L’intelligence artificielle au service de la performance industrielle” au coeur du webinaire de l’AER BFC et Nicéphore Cité

L'AER Bourgogne-Franche-Comté et Nicéphore Cité ont organisé le 7 mai dernier une matinée technique de l'innovation centrée sur le thème de "L'intelligence artificielle au...

Podcast : “CamemBERT, un savoureux modèle de langue française” dans Le Journal des Sciences sur France Culture

Natacha Triou proposait de découvrir l’algorithme linguistique français CamemBERT dans Le Journal des Sciences du 19 novembre 2019 sur France Culture. L’occasion de revenir sur ce modèle informatique, publié gratuitement en ce mois de novembre, avec Laurent Romary, directeur de recherche au sein de l’équipe ALMAnaCH du centre Inria à Paris, qui a participé à l’élaboration de ce modèle en apprentissage profond.

CamemBERT est un modèle linguistique français basé sur l’architecture RoBERTa pré-entraînée sur le subcorpus francophone d’OSCAR, corpus multilingue disponible depuis peu.

L’équipe à l’origine de CamemBERT indique sur son site:

“Nous évaluons CamemBERT dans quatre tâches différentes en aval pour le français : balisage de partie de la parole (POS), analyse de la dépendance, reconnaissance des entités nommées (NER) et inférence de langage naturel (NLI); améliorer l’état de l’art pour la plupart des tâches par rapport aux précédentes approches monolingues et multilingues, ce qui confirme l’efficacité de grands modèles linguistiques pré-entraînés pour le français”.

Ont collaboré au développement et à l’entraînement de cet algorithme Facebook AI Research, Inria et ALMAnaCH et plus précisément Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.

La présentation de France Culture

Un nouveau modèle informatique est capable de manier parfaitement la langue française. Cette intelligence artificielle s’appelle CamemBERT et elle peut identifier et caractériser dans un texte les noms propres, les verbes, les adverbes, les adjectifs, de distinguer toute la grammaire et la syntaxe française, avec un taux de réussite à 99%. CamemBERT est l’application déclinée pour la langue française de BERT, le modèle contextuel de langue le plus courant, issu des laboratoires Google en 2018. Il s’agit d’une avancée car la plupart des modèles linguistiques sont créés à partir de données en anglais. L’Institut national de recherche dédié aux sciences du numérique vient de publier gratuitement le programme, et les détails des travaux “CamemBERT : un savoureux modèle de langue française” sont à retrouver sur le site d’ArXiv.

Replay Dataquitaine : Processus de Décision Markovien et Apprentissage par Renforcement

Dataquitaine propose en replay son Atelier-Webinaire Data Science, organisé par Digital Aquitaine, le 30 juin 2020. Ce séminaire était dédié à la thématique "Processus...

Vidéo : IMT Mines Albi réalise une expérience d’immersion avec la plateforme de réalité virtuelle IOEMGA VR

À l'occasion du 1er anniversaire du laboratoire commun de recherche EGCERSIS, IMT Mines Albi a réalisé une expérience unique d'immersion. Cet exercice de gestion...

Cybersécurité : la Région Grand Est et quatre entreprises québécoises planchent sur un consortium

La Région Grand Est cherche à mettre en place une politique innovante pour renforcer l'attractivité de son territoire. Elle a ainsi signé un accord...

Replay – SophiaConf 2020 : Open Source, Intelligence Artificielle et Containers

Ces 29 et 30 juin étaient organisée SophiaConf, la grande manifestation annuelle de l'animateur azuréen du numérique de Telecom Valley, en version 100% numérique cette...