Grands modèles de langage (LLM) - Intelligence artificielle

Home Tags Grands modèles de langage (LLM)

Meta publie la famille Llama 3.1, dont Llama 3.1 405B, le plus grand de ses modèles open source

Meta publie la famille Llama 3.1, dont Llama 3.1 405B, le plus grand de ses modèles open source

Marie-Claude Benoit -

24 juillet 2024

Meta a présenté hier la famille de modèles Llama 3.1 : Llama 3.1 8B et Llama 3.1 70B, deux versions améliorées de Llama 3 7B et Llama 3 70B présentés en avril dernier, mais également Llama 3.1 405B. Ce nombre impressionnant de paramètres, alors que la tendance ces derniers temps ...

DMA, RGPD, AI Act : Meta préfère suspendre le lancement de ses modèles Llama 3 multimodaux en Europe

DMA, RGPD, AI Act : Meta préfère suspendre le lancement de ses modèles Llama 3 multimodaux en Europe

Pierre-yves Gerlat -

22 juillet 2024

Meta, la société mère de Facebook, Instagram et WhatsApp, a annoncé qu’elle ne lancera pas son modèle d’IA multimodal Llama 3 en Europe. Cette décision, motivée par l’environnement réglementaire imprévisible de l’UE, souligne les tensions croissantes entre les g...

Collaboration de pointe : Mistral AI et NVIDIA lancent Mistral NeMO 12 B

Collaboration de pointe : Mistral AI et NVIDIA lancent Mistral NeMO 12 B

Thierry Maubant -

22 juillet 2024

Mistral AI ne chôme pas : après avoir dévoilé lundi dernier deux nouveaux LLM open source Codestral Mamba 7B et Mathstral 7B, il a annoncé, le vendredi suivant, Mistral NeMo 12 B, développé avec NVIDIA. Combinant l’expertise de Mistral AI en matière de données d’entraînement avec...

MIT CSAIL : LILO, Ada et LGA, trois cadres pour améliorer le raisonnement des LLM

MIT CSAIL : LILO, Ada et LGA, trois cadres pour améliorer le raisonnement des LLM

Thierry Maubant -

5 juillet 2024

Les grands modèles de langage (LLM) jouent un rôle de plus en plus important dans les domaines de la programmation et de la robotique. Cependant, lorsqu’il s’agit de problèmes de raisonnement complexes, ils peinent encore à égaler les performances humaines. Une des ra...

OVHcloud accélère la démocratisation de l’IA avec les nouveaux GPUs NVIDIA Tensor Core et des modèles IA de pointe

OVHcloud accélère la démocratisation de l’IA avec les nouveaux GPUs NVIDIA Tensor Core et des modèles IA de pointe

Marie-Claude Benoit -

12 juin 2024

OVHcloud, leader européen du cloud, renforce son engagement pour la démocratisation de l’IA avec des innovations significatives, annoncées à Station F, lors de l’évènement Adopt AI. Le groupe propose désormais une gamme étendue de GPU NVIDIA Tensor Core ainsi que des modèles d...

Cohere For AI lance Aya 23 pour faire avancer le multilinguisme en IA

Cohere For AI lance Aya 23 pour faire avancer le multilinguisme en IA

Marie-Claude Benoit -

28 mai 2024

En juin 2022, la licorne canadienne Cohere lançait “Cohere For AI”, un laboratoire de recherche à but non lucratif et une communauté dédiée à contribuer à la recherche fondamentale en apprentissage automatique open-source. Cohere For AI a récemment dévoilé Aya 23, une...

Etude EPFL : comment les grands modèles de langage modifient les opinions

Etude EPFL : comment les grands modèles de langage modifient les opinions

Marie-Claude Benoit -

19 avril 2024

Une récente étude pré–enregistrée de l’École polytechnique fédérale de Lausanne (EPFL) met en lumière le pouvoir de persuasion des grands modèles de langage (LLM) lors des interactions en ligne. Les chercheurs ont démontré que lorsqu’on fournissait des informati...

Meta dévoile les deux premiers modèles de la famille Llama 3

Meta dévoile les deux premiers modèles de la famille Llama 3

Marie-Claude Benoit -

19 avril 2024

Comme attendu, Meta a partagé hier deux premiers modèles de la famille Llama 3 : Llama 3 7B et Llama 3 70B, qui seront suivis dans les prochains mois par des modèles allant jusqu’à 400 milliards de paramètres. Ces deux modèles open source, d’ores et déjà intégrés dans...

Mistral AI annonce un nouveau modèle open source

Mistral AI annonce un nouveau modèle open source

Marie-Claude Benoit -

12 avril 2024

C’est sur X que Mistral AI a choisi d’annoncer Mixtral 8x22B mercredi dernier à l’aide d’un lien magnet Torrent. La jeune licorne n’a pas publié de communiqué de presse ni consacré un blog sur son site à ce dernier modèle, donc on ne sait pour l’instant qu...

GTC 2024 : NVIDIA dévoile le GPU Blackwell B200 et la super puce GB200

GTC 2024 : NVIDIA dévoile le GPU Blackwell B200 et la super puce GB200

Thierry Maubant -

20 mars 2024

Les puces de NVIDIA, notamment le GPU H100, sont les plus utilisées que ce soit pour les datacenters, les supercalculateurs, l’entraînement ou l’inférence des LLM. Lors de la GTC 2024, qui a réuni Jensen Huang, fondateur et PDG de NVIDIA, a présenté des GPU qui devrai...

Comment créer votre propre chatbot d’IA avec les PC Ryzen AI et les cartes graphiques Radeon

Comment créer votre propre chatbot d’IA avec les PC Ryzen AI et les cartes graphiques Radeon

20 mars 2024

AMD a partagé sur son blog des guides expliquant étape par étape comment télécharger et exécuter un bot de chat en local sur les PC Ryzen AI ou les cartes graphiques Radeon, activer la RAG (Retrieval Augmented Generation) afin d’améliorer et de fournir un contexte avec un grand m...

IA générative : le MICS lance CroissantLLM, un modèle open source bilingue français-anglais

IA générative : le MICS lance CroissantLLM, un modèle open source bilingue français-anglais

Pierre-yves Gerlat -

7 mars 2024

Les équipes de recherche du laboratoire MICS de CentraleSupélec ont développé avec Illuin Technology un nouveau modèle de langage (LLM) appelé CroissantLLM. Totalement ouvert, comptant 1,3 milliard de paramètres, il fonctionne efficacement sur du matériel local grand public y com...

Mistral NEXT, le dernier LLM de Mistral AI, disponible en mode chat direct sur LMSYS

Mistral NEXT, le dernier LLM de Mistral AI, disponible en mode chat direct sur LMSYS

20 février 2024

En moins d’un an d’existence, Mistral AI a réussi le tour de force de passer au statut de licorne et de présenter deux LLM open source légers très performants en moins de trois mois : Mistral 7B et Mixtral 8x7B, les performances de ce dernier surpassant celle de GPT-3...

« Hallucinations légales » : des chercheurs mettent en lumière les erreurs des LLMs dans le domaine juridique

« Hallucinations légales » : des chercheurs mettent en lumière les erreurs des LLMs dans le domaine juridique

Thierry Maubant -

19 février 2024

L’IA générative offre un potentiel énorme pour accélérer ou automatiser un large éventail de tâches dans de nombreux domaines différents, y compris celui du droit. Cependant, une récente étude met en lumière les risques sous-jacents associés à l’utilisation des LLMs d...

SliceGPT : une nouvelle méthode de compression des LLMs efficace

SliceGPT : une nouvelle méthode de compression des LLMs efficace

Marie-Claude Benoit -

14 février 2024

Les grands modèles de langage pré-entraînés, tels que GPT-4 ont révolutionné le domaine du traitement du langage naturel (NLP) en offrant des performances de pointe sur de nombreuses tâches. Cependant, ces modèles sont également très coûteux en termes de ressources, tant pour l’e...

Peut-on apprendre à désapprendre un LLM ?

Peut-on apprendre à désapprendre un LLM ?

Alexandra Benamar -

12 février 2024

Au cours des dernières années, l’IA a été profondément impactée par les grands modèles de langue (LLMs). Ces puissants outils tirent parti d’énormes ensembles de données issus de sources variées et générales telles que Wikipédia, le Web, des articles de presse, et autres. Ces mod...

LLaMandement, le LLM open source du gouvernement français

LLaMandement, le LLM open source du gouvernement français

Pierre-yves Gerlat -

12 février 2024

Esther Mac Namara, Déléguée à la transformation numérique de la DGFIP, a annoncé récemment la publication de LlaMandement, un LLM développé par la DGIFP pour générer des résumés neutres des amendements parlementaires, soulageant ainsi les agents publics qui doivent analyser et tr...

Google Bard devrait être rebaptisé Google Gemini et Gemini Ultra déployé très prochainement

Google Bard devrait être rebaptisé Google Gemini et Gemini Ultra déployé très prochainement

Marie-Claude Benoit -

6 février 2024

Le 6 décembre dernier, Sundar Pichai annonçait Gemini, un LLM doté de capacités de raisonnement multimodal qu’il présentait comme “le modèle le plus performant et le plus général que nous ayons jamais construit”. La 1ère version de la réponse de Google à GPT-4 se décline so...

Les modèles LLM sont-ils vraiment le nouveau must-have pour 2024 ?

Les modèles LLM sont-ils vraiment le nouveau must-have pour 2024 ?

22 janvier 2024

L’année 2023 restera marquée comme l’année de l’IA, avec les entreprises qui se sont toutes efforcées de comprendre et d’adapter leurs processus et produits en conséquence. En 2024, elles devront continuer à évoluer pour prospérer face à une concurrence de plus en plu...

Prédictions pour l’ère de l’IA générative : ce qui nous attend en 2024 et au-delà

Contributions et Tribunes

Prédictions pour l’ère de l’IA générative : ce qui nous attend en 2024 et au-delà

Edouard Beaucourt -

8 janvier 2024

Beaucoup d’encre a coulé cette année au sujet de l’IA et on peut dire que ces douze derniers mois ont été placés sous le signe de la découverte de l’IA générative avec des émotions différentes : excitation, étonnement, un peu de panique et une grande attention de la part de lR...

Recherche MosaicML : comment l’inférence influence les lois d’échelle des modèles linguistiques

Recherche MosaicML : comment l’inférence influence les lois d’échelle des modèles linguistiques

Marie-Claude Benoit -

4 janvier 2024

Les grands modèles de langage (LLM) exigent d’énormes ressources de calcul et d’énergie pour l’entraînement et l’inférence. Les coûts d’entraînement dépendent de la taille du modèle et du volume de données, tandis que les coûts d’inférence sont...

Tendances pour l’intelligence artificielle en 2024 : OpenAI, concurrents et Perspectives Futures

Tendances pour l’intelligence artificielle en 2024 : OpenAI, concurrents et Perspectives Futures

Stephane Nachez -

3 janvier 2024

2023 a été une année charnière dans le monde de l’intelligence artificielle, dominée sans conteste par OpenAI et son modèle phare, ChatGPT. Ce dernier est devenu le sujet incontournable dans les sphères technologiques et au-delà, symbolisant une révolution en marche. La rap...

Le New York Times porte plainte contre OpenAI et Microsoft pour violation de droit d’auteur

Le New York Times porte plainte contre OpenAI et Microsoft pour violation de droit d’auteur

Marie-Claude Benoit -

2 janvier 2024

Le New York Times a porté plainte mercredi dernier devant la Cour de district sud de New York, contre OpenAI et Microsoft. Le journal les accuse de violer le droit d’auteur en entraînant les modèles tels que GPT-4 sur ses publications sans autorisation, lui faisant ainsi pe...

Que sait-on de Ferret, le LLM multimodal dévoilé par Apple ?

Que sait-on de Ferret, le LLM multimodal dévoilé par Apple ?

Pierre-yves Gerlat -

2 janvier 2024

On apprenait en juillet dernier qu’Apple faisait discrètement ses premiers pas dans le domaine de l’IA générative avec le chatbot “Apple GPT”, utilisé seulement en interne par ses collaborateurs. Ferret, un LLM conçu spécifiquement pour ses smartphones, n&...

Retour sur GAIA, le benchmark visant à évaluer les assistants d’IA

Retour sur GAIA, le benchmark visant à évaluer les assistants d’IA

Marie-Claude Benoit -

19 décembre 2023

Différents articles consacrés aux derniers LLMs soulignent la supériorité de leurs performances par rapport à celles des humains dans des domaines spécifiques tels que le droit ou la chimie, mais qu’en est-il pour le raisonnement, la gestion multimodale, la navigation sur l...

Stability AI présente la dernière itération de ses LLM légers : Stable LM Zephyr 3B

Stability AI présente la dernière itération de ses LLM légers : Stable LM Zephyr 3B

Marie-Claude Benoit -

15 décembre 2023

En avril dernier, Stability AI, après s’être intéressée à la génération d’images avec Stable Diffusion, publiait la version Alpha de StableLM, une suite de modèles de langage open source, disponible en 3 et 7 milliards de paramètres sur GitHub. Elle a lancé récemment ...

Retour sur la folle semaine de Mistral AI : annonce de Mixtral AI et confirmation d’une levée de fonds de 385 millions d’euros

Retour sur la folle semaine de Mistral AI : annonce de Mixtral AI et confirmation d’une levée de fonds de 385 millions d’euros

Marie-Claude Benoit -

14 décembre 2023

Bloomberg avait révélé la semaine dernière que Mistral AI préparait une seconde levée de fonds, estimée à 450 millions d’euros. Finalement, l’investissement est de 385 millions d’euros, une somme considérable en Europe pour une start-up aussi jeune qui passe d&#...

Mistral AI finalise une levée de fonds de 450 millions d’euros

Mistral AI finalise une levée de fonds de 450 millions d’euros

Thierry Maubant -

6 décembre 2023

Mistral AI, fervent défenseur de l’open source, s’est rapidement imposé comme un acteur français et européen incontournable de l’IA générative. En mai dernier, un mois seulement après sa création, la société annonçait une levée de fonds de 105 millions d’euros, ...

Inflection AI annonce Inflection-2, le LLM le plus performant après GPT-4

Inflection AI annonce Inflection-2, le LLM le plus performant après GPT-4

Marie-Claude Benoit -

28 novembre 2023

Inflection AI annonce avoir terminé l’entraînement d’Inflection-2 qui alimentera prochainement son chabot conversationnel Pi (pour intelligence personnelle), un concurrent de chatGPT, Bard de Google, ou encore Claude d’Anthropic. Selon la société, il serait R...

LightOn annonce la seconde version d’Alfred, son modèle LLM open-source

LightOn annonce la seconde version d’Alfred, son modèle LLM open-source

Pierre-yves Gerlat -

23 novembre 2023

Trois mois après avoir annoncé la sortie d’Alfred-40B-0723, LightOn, un des acteurs clés français de l’IA générative, dévoile la seconde version de son modèle open-source, Alfred-40B-1023. Plus performant, plus fiable répondant “Je ne sais pas” lorsqu’il n’est p...

Conférence Dataiku Everyday AI Paris : vers une démocratisation de l’IA générative en entreprise

Conférence Dataiku Everyday AI Paris : vers une démocratisation de l’IA générative en entreprise

Thierry Maubant -

20 novembre 2023

Après New York, c’est à Paris, dans les Salles du Carrousel du Louvres, que s’est déroulé la conférence annuelle Everyday AI de la licorne Dataiku. Cette année, comme dans de nombreux évènements dédiés à l’intelligence artificielle, l’IA générative a été a...

Mistral AI dévoile Mistral 7B, son premier modèle open-source à destination des développeurs

Mistral AI dévoile Mistral 7B, son premier modèle open-source à destination des développeurs

Marie-Claude Benoit -

28 septembre 2023

Un peu plus de quatre mois après sa création, Mistral AI annonce la mise à disposition open-source de son premier LLM : Mistral 7B. Bien que de petite taille, le modèle de langage surpasse tous les modèles ouverts allant jusqu’à 13B paramètres actuellement disponibles sur tous le...

PHI-1.5 : Microsoft Research ouvre la voie à des LLM moins coûteux et plus respectueux de l’environnement

PHI-1.5 : Microsoft Research ouvre la voie à des LLM moins coûteux et plus respectueux de l’environnement

Marie-Claude Benoit -

15 septembre 2023

En juin dernier, les chercheurs de Microsoft Research avaient démontré avec Phi-1, un LLM de 13 milliards de paramètres pour le code Python, que, la qualité des données d’entraînement prévalait sur leur nombre. Phi-1,5, également de 1,3B, entraîné principalement avec des do...

IBM annonce de nouvelles fonctionnalités et de nouveaux modèles d’IA pour Watsonx, sa plateforme d’IA et de données

IBM annonce de nouvelles fonctionnalités et de nouveaux modèles d’IA pour Watsonx, sa plateforme d’IA et de données

Marie-Claude Benoit -

11 septembre 2023

TechXchange, le principal événement de formation technique d’IBM, a débuté ce 11 septembre à Las Vegas. IBM propose aux développeurs d’y venir tester les nouvelles fonctionnalités et les nouveaux modèles d’IA génératives qu’il s’apprête à lancer pour...

Le Technology Innovation Institute présente son LLM Falcon 180B

Le Technology Innovation Institute présente son LLM Falcon 180B

Pierre-yves Gerlat -

7 septembre 2023

Le Technology Innovation Institute (TII) des Émirats arabes unis a dévoilé ce 6 septembre le dernier ajout à sa famille de modèles Falcon : le Falcon 180B, qui est en libre accès pour la recherche et un usage commercial. Falcon 180B rejoint donc les LLM Falcon à paramètres 1.3B,...

Microsoft et Databricks renforcent leur partenariat pour proposer des modèles d’IA open source sur Azure

Microsoft et Databricks renforcent leur partenariat pour proposer des modèles d’IA open source sur Azure

Marie-Claude Benoit -

1 septembre 2023

Selon The Information, Microsoft et Databricks envisagent de renforcer leur collaboration pour intégrer des modèles et des outils d’IA open source à la plateforme cloud Azure. L’unité de serveur cloud Azure de Microsoft vendrait bientôt le logiciel Databricks qui permettra ...

Meta publie la famille de modèles de fondation Code Llama en open source

Meta publie la famille de modèles de fondation Code Llama en open source

Marie-Claude Benoit -

28 août 2023

De nombreux médias avaient relayé l’annonce de The Information indiquant que Meta se préparait à lancer un outil d’IA capable de générer du code à partir du langage naturel. C’est chose faite : ce jeudi 24 août, la société a publié la famille de LLM Code Llama, ...

Rights Alliance obtient le retrait de Books3 de la plateforme The Eye

Rights Alliance obtient le retrait de Books3 de la plateforme The Eye

Marie-Claude Benoit -

25 août 2023

Rights Alliance, une organisation danoise qui vise à promouvoir le respect des droits d’auteur et des droits de propriété intellectuelle, en particulier dans le contexte numérique, agissant au nom d’auteurs de son pays, a envoyé une notification DMCA au site The Eye s...

SKT investit 100 millions de dollars dans Anthropic pour promouvoir l’innovation en matière d’IA

SKT investit 100 millions de dollars dans Anthropic pour promouvoir l’innovation en matière d’IA

Thierry Maubant -

23 août 2023

SK Telecom, qui avait déjà investi dans Anthropic via SK Telecom Venture Capital (SKTVC), sa branche de capital-risque basée dans la Silicon Valley a annoncé la semaine dernière un investissement supplémentaire de 100 millions de dollars dans la société. Tous deux ont conclu un a...

LightOn dévoile Alfred-40B-0723, un LLM open source destiné aux entreprises construit sur Falcon-40B

LightOn dévoile Alfred-40B-0723, un LLM open source destiné aux entreprises construit sur Falcon-40B

Marie-Claude Benoit -

17 août 2023

Tandis que les acteurs de l’IA générative comme OpenAI ou Anthropic travaillent à améliorer les performances de leurs modèles, des start-ups européennes ont fait irruption sur le marché. C’est notamment le cas de LightOn, une alternative française aux services d’OpenA...

AWS enrichit Amazon Bedrock avec de nouveaux modèles et des capacités avancées pour l’IA générative

AWS enrichit Amazon Bedrock avec de nouveaux modèles et des capacités avancées pour l’IA générative

Pierre-yves Gerlat -

1 août 2023

Amazon Web Services a annoncé ce jeudi 26 juillet à l’AWS Summit New York l’expansion de son service de modèle de fondation Amazon Bedrock pour inclure l’ajout des modèles de base de Cohere, des derniers modèles d’Anthropic et de Stability AI et de la fonctionnalité “Agents...

Le comportement de ChatGPT évolue-t-il avec le temps ?

Le comportement de ChatGPT évolue-t-il avec le temps ?

Pierre-yves Gerlat -

25 juillet 2023

Matei Zaharia, James Zou et Lingjiao Chen, des chercheurs de l’Université de Stanford et de l’UC Berkeley ont voulu vérifier si le comportement de GPT 3,5 qui alimente ChatGPT et celui de GPT 4 évoluaient dans le temps comme certains de leurs utilisateurs le prétendent. Il...

ORCA, le nouveau LLM de Microsoft Research qui surpasse ChatGPT sur certaines tâches

ORCA, le nouveau LLM de Microsoft Research qui surpasse ChatGPT sur certaines tâches

Pierre-yves Gerlat -

12 juin 2023

Microsoft Research a récemment présenté Orca, un nouveau LLM open-source construit sur llama13b et a démontré que, malgré le fait qu’il n’ait “que” 13 milliards de paramètres, il atteint souvent ou dépasse les performances de ChatGPT, et que dans certains domaines, il...

Interaction homme-machine et IA : utiliser des LLM pour les interactions linguistiques avec les smartphones

Interaction homme-machine et IA : utiliser des LLM pour les interactions linguistiques avec les smartphones

Marie-Claude Benoit -

17 mai 2023

Yang Li et Gang Li, chercheurs à Google Research ainsi que Brian Wang de l’Université de Toronto ont étudié et démontré la viabilité de l’utilisation de grands modèles linguistiques (LLM) pour permettre diverses interactions linguistiques avec les interfaces utilisateur mob...

Google présente sa nouvelle IA : PaLM 2, lors de la Google I/O 2023

Google présente sa nouvelle IA : PaLM 2, lors de la Google I/O 2023

ActuIA -

11 mai 2023

Présentation de PaLM 2 Google a annoncé PaLM 2, son dernier modèle de langage doté de capacités améliorées en matière de multilinguisme, de raisonnement et de codage. PaLM 2 est entraîné sur des textes en plus de 100 langues, ce qui améliore considérablement sa compréhension et s...

Hugging Face et Service Now lancent StarCoder, un LLM de génération de code de 15 milliards de paramètres

Hugging Face et Service Now lancent StarCoder, un LLM de génération de code de 15 milliards de paramètres

9 mai 2023

StarCoder est un LLM de génération de code en accès libre couvrant 80 langages de programmation, permettant de modifier le code existant ou de créer un nouveau code. Il représente une étape majeure du projet BigCode, une initiative conjointe de Service Now, plateforme cloud d’aut...

IA générative : Cerebras Systems lance la famille Cerebras-GPT en open source

IA générative : Cerebras Systems lance la famille Cerebras-GPT en open source

Marie-Claude Benoit -

11 avril 2023

Cerebras Systems, start-up californienne, a annoncé fin mars dernier la sortie open source de Cerebras-GPT, une famille de sept modèles GPT allant de 111 millions à 13 milliards de paramètres. Formés à l’aide de la formule d’entrainement de Chinchilla, Cerebras-GPT a,...

AWS et NVIDIA collaborent pour accélérer l’entraînement des grands modèles de langage

AWS et NVIDIA collaborent pour accélérer l’entraînement des grands modèles de langage

Marie-Claude Benoit -

24 mars 2023

Dans le cadre de la GTC 2023, Amazon Web Services (AWS), la filiale cloud d’Amazon, et NVIDIA ont annoncé collaborer à la création d’une infrastructure de nouvelle génération optimisée pour la formation de grands modèles de langage (LLM) complexes et le développement ...

Meta présente LLaMA, conçu pour accélérer le développement des LLM et atténuer leurs problèmes

Meta présente LLaMA, conçu pour accélérer le développement des LLM et atténuer leurs problèmes

3 mars 2023

On se demandait quelle serait la réponse de Meta au succès fulgurant de ChatGPT : elle se nomme LLaMA (Large Language Model Meta AI). Ce modèle, publié récemment par la société “dans le cadre de son engagement envers l’open science”, disponible en plusieurs tai...