BERT et sa version française CamemBERT

11 décembre 2019

Le champion du traitement automatique du langage BERT (Bidirectional Encoder Representations from Transformers) dispose maintenant de sa version française CamemBERT. Malgré le nom, ce n’est pas une blague et c’est même très sérieux. CamemBERT issu d’un travail entre Facebook AI Research, l’Inria et ALMAnach, ce dernier bat tous les records, il surpasse de nombreux modèles français : c’est 138 GO de “data” en français (OSCAR) qui viennent s’ajouter à sa dernière version roBERTa et ses 100 GO d’origine.

Les corpus utilisés habituellement sont en anglais, l’ajout du français rend le modèle plus souple pour une meilleure compréhension d’autres langues.

Camem/BERT en résumé :

Prend en entrée du texte mais peut également travailler sur des images
BERT apprend de façon non supervisée, l’entrée se suffit à elle même
345 millions de paramètres
Coût de calcul d’apprentissage (officiel) proche des 60.000 $

Ses usages :

Traduire du texte
Pour compléter une phrase / Masked LM (MLM)
Ecrire un article complet / Next Sentence Prediction (NSP)
Comparer le sens de deux phrases
Décrire et classer une image
Déterminer le sujet du verbe, du complet d’objet…
Répondre à des questions

Un véritable atout pour les chatbots et autres moteurs de recherche, c’est d’ailleurs aujourd’hui 10 décembre 2019 que Google met à jour son moteur de recherche avec “BERT” en France.

(Bonus) Peut-il rivaliser avec Philippe Katerine ?
Avec un nom peu commun comme “CamemBERT”, quoi de mieux de faire un petit test avec un chanteur très original comme Philippe Katerine.

Entrée :

J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le <mask>.

Sortie :

[(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le son.”, 0.3013828694820404, ‘ son’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le courant.”, 0.12097518146038055, ‘ courant’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le cordon.”, 0.07270603626966476, ‘ cordon’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le souffle.”, 0.03157758712768555, ‘ souffle’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le contact.”, 0.028451628983020782, ‘ contact’)]

Résultat : CamemBERT s’en sort plutôt bien, peut-être une nouvelle source d’inspiration 2.0 pour de futurs paroliers.

D’après CamemBERT également :
Cédric est un contributeur-expert d’ActuIA très… actif… très apprécié… 😉

Pour en savoir plus sur CamemBERT :
https://camembert-model.fr/

Pour approfondir le sujet

Deux ans après l’arrivée de ChatGPT, comment la GenAI transforme la recherche en ligne et le marketing

Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace

AgentLab, un framework open source pour le développement et l’évaluation des agents Web

Pleias : des modèles de langages ouverts pour une IA éthique et transparente

BERT et sa version française CamemBERT

Contributeur expert

Partager l'article

Deux ans après l’arrivée de ChatGPT, comment la GenAI transforme la recherche en ligne et le marketing

Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace

AgentLab, un framework open source pour le développement et l’évaluation des agents Web

Pleias : des modèles de langages ouverts pour une IA éthique et transparente

Egalement dans l'actualité de l'intelligence artificielle

Anthropic lance le protocole MCP : une avancée majeure pour connecter...

Agents IA, Azure AI Foundry : les innovations Microsoft présentées à...

Nomination de Clara Chappaz : La voie vers une nouvelle mission...

ActuIA n°17 : ce que vous réserve le nouveau numéro du...

Clara Chappaz nommée à la tête du nouveau Secrétariat d’État chargé...

Performance et santé : le sport à l’ère de l’intelligence artificielle

Dernières contributions d'experts

Après ChatGPT : bilan de la SNIA au 7 décembre 2024

L’IA au service de la croissance : de l’accélération à la...

Smart manufacturing : libérer le potentiel de l’IA en repensant le...

Ajouter ActuIA à votre écran d'accueil