BERT et sa version française CamemBERT

Pour approfondir le sujet

Sur le même thème :

Levée de fonds historique de 6 milliards de dollars, facilité de crédit de 4 milliards : OpenAI conforte sa position de leader

De nombreux médias avaient rapporté qu'OpenAI était en pourparlers pour une levée de fonds qui la valoriserait à plus de 100 milliards de dollars,...

ActuIA n°17 : ce que vous réserve le nouveau numéro du magazine de l’intelligence artificielle

La rentrée est là, et le nouveau numéro du magazine ActuIA est prêt à vous accompagner dans cette période de renouveau. Que vous le...

IA Eco-Pilot, lauréat de l’AAP «Démonstrateurs d’IA frugale dans les territoires pour la transition écologique»

La création de démonstrateurs faisant usage d'une IA frugale dans des secteurs-clés pour atteindre les objectifs climatiques, tels que les villes durables, les bâtiments...

OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces

Lors de sa 1ère conférence des développeurs, il y a un peu moins d'un an, les annonces principales d'OpenAI étaient consacrées à GPT-4 turbo,...

BERT et sa version française CamemBERT

Le champion du traitement automatique du langage BERT (Bidirectional Encoder Representations from Transformers) dispose maintenant de sa version française CamemBERT. Malgré le nom, ce n’est pas une blague et c’est même très sérieux. CamemBERT issu d’un travail entre Facebook AI Research, l’Inria et ALMAnach, ce dernier bat tous les records, il surpasse de nombreux modèles français : c’est 138 GO de “data” en français (OSCAR) qui viennent s’ajouter à sa dernière version roBERTa et ses 100 GO d’origine.

Les corpus utilisés habituellement sont en anglais, l’ajout du français rend le modèle plus souple pour une meilleure compréhension d’autres langues.

Camem/BERT en résumé :

  • Prend en entrée du texte mais peut également travailler sur des images
  • BERT apprend de façon non supervisée, l’entrée se suffit à elle même
  • 345 millions de paramètres
  • Coût de calcul d’apprentissage (officiel) proche des 60.000 $

Ses usages :

  • Traduire du texte
  • Pour compléter une phrase / Masked LM (MLM)
  • Ecrire un article complet / Next Sentence Prediction (NSP)
  • Comparer le sens de deux phrases
  • Décrire et classer une image
  • Déterminer le sujet du verbe, du complet d’objet…
  • Répondre à des questions

Un véritable atout pour les chatbots et autres moteurs de recherche, c’est d’ailleurs aujourd’hui 10 décembre 2019 que Google met à jour son moteur de recherche avec “BERT” en France.

(Bonus) Peut-il rivaliser avec Philippe Katerine ?
Avec un nom peu commun comme “CamemBERT”, quoi de mieux de faire un petit test avec un chanteur très original comme Philippe Katerine.

Entrée :

J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le <mask>.

Sortie :

[(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le son.”, 0.3013828694820404, ‘ son’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le courant.”, 0.12097518146038055, ‘ courant’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le cordon.”, 0.07270603626966476, ‘ cordon’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le souffle.”, 0.03157758712768555, ‘ souffle’)
(“J’adoreeeeeeeeeeeeeeeeeeee regarder danser les gens et de temps en temps je coupe le contact.”, 0.028451628983020782, ‘ contact’)]

Résultat : CamemBERT s’en sort plutôt bien, peut-être une nouvelle source d’inspiration 2.0 pour de futurs paroliers.

D’après CamemBERT également :
Cédric est un contributeur-expert d’ActuIA très… actiftrès apprécié… 😉

Pour en savoir plus sur CamemBERT :
https://camembert-model.fr/

 

Contributeur expert

Cedric Vasseur

Cédric Vasseur est conférencier, formateur, chroniqueur spécialiste des nouvelles technologies

Partager l'article

Levée de fonds historique de 6 milliards de dollars, facilité de crédit de 4 milliards : OpenAI conforte sa position de leader

De nombreux médias avaient rapporté qu'OpenAI était en pourparlers pour une levée de fonds qui la valoriserait à plus de 100 milliards de dollars,...

ActuIA n°17 : ce que vous réserve le nouveau numéro du magazine de l’intelligence artificielle

La rentrée est là, et le nouveau numéro du magazine ActuIA est prêt à vous accompagner dans cette période de renouveau. Que vous le...

IA Eco-Pilot, lauréat de l’AAP «Démonstrateurs d’IA frugale dans les territoires pour la transition écologique»

La création de démonstrateurs faisant usage d'une IA frugale dans des secteurs-clés pour atteindre les objectifs climatiques, tels que les villes durables, les bâtiments...

OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces

Lors de sa 1ère conférence des développeurs, il y a un peu moins d'un an, les annonces principales d'OpenAI étaient consacrées à GPT-4 turbo,...