Home Tags Grands modèles de langage (LLM)

Grands modèles de langage (LLM)

BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d’inférence des LLMs quantifiés à 1 bi

Microsoft a récemment publié BitNet.cpp, un cadre open-source conçu pour optimiser l’inférence des grands modèles de langage (LLM) quantifiés à 1 bit. Il permet notamment d’exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul processeur, atteignant des...

Adoption de la GenAI : La Chine approuve 190 LLMs, renforce la gouvernance de l’IA générative et du cyberespace

Selon Zhuang Rongwen, directeur de l’Administration du cyberespace de Chine (CAC), l’agence chargée de la réglementation de l’IA générative, plus de 190 LLMs ont été enregistrés et mis à la disposition du public jusqu’à présent. Dans une récente interview accordée à l’agenc...

Gemma 2 2B, ShieldGemma, Gemma Scope : Google poursuit son engagement envers une IA responsable

Google a pris initialement du retard dans la course à la GenAI, craignant que sa réputation ne soit entachée par une IA générative aux déclarations trompeuses, biaisées ou toxiques. Depuis, il a mis les bouchées doubles avec Bard, PaLM 2, les modèles Gemini et les modèles ouverts...

Mistral Large 2 : des capacités de génération de code, en mathématiques et en raisonnement de pointe

“Assez grand”, c’est ainsi que Mistral AI a choisi d’intituler le communiqué présentant la deuxième génération de son modèle linguistique phare, le lendemain où Meta dévoilait ses modèles Llama 3.1. Par rapport à son prédécesseur, Mistral Large 2 est, selo...

Meta publie la famille Llama 3.1, dont Llama 3.1 405B, le plus grand de ses modèles open source

Meta a présenté hier la famille de modèles Llama 3.1 : Llama 3.1 8B et Llama 3.1 70B, deux versions améliorées de Llama 3 7B et Llama 3 70B présentés en avril dernier, mais également Llama 3.1 405B. Ce nombre impressionnant de paramètres, alors que la tendance ces derniers temps ...

DMA, RGPD, AI Act : Meta préfère suspendre le lancement de ses modèles Llama 3 multimodaux en Europe

Meta, la société mère de Facebook, Instagram et WhatsApp, a annoncé qu’elle ne lancera pas son modèle d’IA multimodal Llama 3 en Europe. Cette décision, motivée par l’environnement réglementaire imprévisible de l’UE, souligne les tensions croissantes entre les g...

Collaboration de pointe : Mistral AI et NVIDIA lancent Mistral NeMO 12 B

Mistral AI ne chôme pas : après avoir dévoilé lundi dernier deux nouveaux LLM open source Codestral Mamba 7B et Mathstral 7B, il a annoncé, le vendredi suivant, Mistral NeMo 12 B, développé avec NVIDIA. Combinant l’expertise de Mistral AI en matière de données d’entraînement avec...

MIT CSAIL : LILO, Ada et LGA, trois cadres pour améliorer le raisonnement des LLM

Les grands modèles de langage (LLM) jouent un rôle de plus en plus important dans les domaines de la programmation et de la robotique. Cependant, lorsqu’il s’agit de problèmes de raisonnement complexes, ils peinent encore à égaler les performances humaines. Une des ra...

OVHcloud accélère la démocratisation de l’IA avec les nouveaux GPUs NVIDIA Tensor Core et des modèles IA de pointe

OVHcloud, leader européen du cloud, renforce son engagement pour la démocratisation de l’IA avec des innovations significatives, annoncées à Station F, lors de l’évènement Adopt AI. Le groupe propose désormais une gamme étendue de GPU NVIDIA Tensor Core ainsi que des modèles d...

Cohere For AI lance Aya 23 pour faire avancer le multilinguisme en IA

En juin 2022, la licorne canadienne Cohere lançait “Cohere For AI”, un laboratoire de recherche à but non lucratif et une communauté dédiée à contribuer à la recherche fondamentale en apprentissage automatique open-source. Cohere For AI a récemment dévoilé Aya 23, une...

Etude EPFL : comment les grands modèles de langage modifient les opinions

Une récente étude pré–enregistrée de l’École polytechnique fédérale de Lausanne (EPFL) met en lumière le pouvoir de persuasion des grands modèles de langage (LLM) lors des interactions en ligne. Les chercheurs ont démontré que lorsqu’on fournissait des informati...

Meta dévoile les deux premiers modèles de la famille Llama 3

Comme attendu, Meta a partagé hier deux premiers modèles de la famille Llama 3 : Llama 3 7B et Llama 3 70B, qui seront suivis dans les prochains mois par des modèles allant jusqu’à 400 milliards de paramètres. Ces deux modèles open source, d’ores et déjà intégrés dans...

Mistral AI annonce un nouveau modèle open source

C’est sur X que Mistral AI a choisi d’annoncer Mixtral 8x22B mercredi dernier à l’aide d’un lien magnet Torrent. La jeune licorne n’a pas publié de communiqué de presse ni consacré un blog sur son site à ce dernier modèle, donc on ne sait pour l’instant qu...

GTC 2024 : NVIDIA dévoile le GPU Blackwell B200 et la super puce GB200

Les puces de NVIDIA, notamment le GPU H100, sont les plus utilisées que ce soit pour les datacenters, les supercalculateurs, l’entraînement ou l’inférence des LLM. Lors de la GTC 2024, qui a réuni Jensen Huang, fondateur et PDG de NVIDIA, a présenté des GPU qui devrai...

Comment créer votre propre chatbot d’IA avec les PC Ryzen AI et les cartes graphiques Radeon

AMD a partagé sur son blog des guides expliquant étape par étape comment télécharger et exécuter un bot de chat en local sur les PC Ryzen AI ou les cartes graphiques Radeon, activer la RAG (Retrieval Augmented Generation) afin d’améliorer et de fournir un contexte avec un grand m...

IA générative : le MICS lance CroissantLLM, un modèle open source bilingue français-anglais

Les équipes de recherche du laboratoire MICS de CentraleSupélec ont développé avec Illuin Technology un nouveau modèle de langage (LLM) appelé CroissantLLM. Totalement ouvert, comptant 1,3 milliard de paramètres, il fonctionne efficacement sur du matériel local grand public y com...

Mistral NEXT, le dernier LLM de Mistral AI, disponible en mode chat direct sur LMSYS

En moins d’un an d’existence, Mistral AI a réussi le tour de force de passer au statut de licorne et de présenter deux LLM open source légers très performants en moins de trois mois : Mistral 7B et Mixtral 8x7B, les performances de ce dernier surpassant celle de GPT-3...

« Hallucinations légales » : des chercheurs mettent en lumière les erreurs des LLMs dans le domaine juridique

L’IA générative offre un potentiel énorme pour accélérer ou automatiser un large éventail de tâches dans de nombreux domaines différents, y compris celui du droit. Cependant, une récente étude met en lumière les risques sous-jacents associés à l’utilisation des LLMs d...

SliceGPT : une nouvelle méthode de compression des LLMs efficace

Les grands modèles de langage pré-entraînés, tels que GPT-4 ont révolutionné le domaine du traitement du langage naturel (NLP) en offrant des performances de pointe sur de nombreuses tâches. Cependant, ces modèles sont également très coûteux en termes de ressources, tant pour l’e...

Peut-on apprendre à désapprendre un LLM ?

Au cours des dernières années, l’IA a été profondément impactée par les grands modèles de langue (LLMs). Ces puissants outils tirent parti d’énormes ensembles de données issus de sources variées et générales telles que Wikipédia, le Web, des articles de presse, et autres. Ces mod...

LLaMandement, le LLM open source du gouvernement français

Esther Mac Namara, Déléguée à la transformation numérique de la DGFIP, a annoncé récemment la publication de LlaMandement, un LLM développé par la DGIFP pour générer des résumés neutres des amendements parlementaires, soulageant ainsi les agents publics qui doivent analyser et tr...

Google Bard devrait être rebaptisé Google Gemini et Gemini Ultra déployé très prochainement

Le 6 décembre dernier, Sundar Pichai annonçait Gemini, un LLM doté de capacités de raisonnement multimodal qu’il présentait comme “le modèle le plus performant et le plus général que nous ayons jamais construit”. La 1ère version de la réponse de Google à GPT-4 se décline so...

Les modèles LLM sont-ils vraiment le nouveau must-have pour 2024 ?

L’année 2023 restera marquée comme l’année de l’IA, avec les entreprises qui se sont toutes efforcées de comprendre et d’adapter leurs processus et produits en conséquence. En 2024, elles devront continuer à évoluer pour prospérer face à une concurrence de plus en plu...

Prédictions pour l’ère de l’IA générative : ce qui nous attend en 2024 et au-delà

Beaucoup d’encre a coulé cette année au sujet de l’IA et on peut dire que ces douze derniers mois ont été placés sous le signe de la découverte de l’IA générative avec des émotions différentes : excitation, étonnement, un peu de panique et une grande attention de la part de lR...

Recherche MosaicML : comment l’inférence influence les lois d’échelle des modèles linguistiques

Les grands modèles de langage (LLM) exigent d’énormes ressources de calcul et d’énergie pour l’entraînement et l’inférence. Les coûts d’entraînement dépendent de la taille du modèle et du volume de données, tandis que les coûts d’inférence sont...

Tendances pour l’intelligence artificielle en 2024 : OpenAI, concurrents et Perspectives Futures

2023 a été une année charnière dans le monde de l’intelligence artificielle, dominée sans conteste par OpenAI et son modèle phare, ChatGPT. Ce dernier est devenu le sujet incontournable dans les sphères technologiques et au-delà, symbolisant une révolution en marche. La rap...

Le New York Times porte plainte contre OpenAI et Microsoft pour violation de droit d’auteur

Le New York Times a porté plainte mercredi dernier devant la Cour de district sud de New York, contre OpenAI et Microsoft. Le journal les accuse de violer le droit d’auteur en entraînant les modèles tels que GPT-4 sur ses publications sans autorisation, lui faisant ainsi pe...

Que sait-on de Ferret, le LLM multimodal dévoilé par Apple ?

On apprenait en juillet dernier qu’Apple faisait discrètement ses premiers pas dans le domaine de l’IA générative avec le chatbot “Apple GPT”, utilisé seulement en interne par ses collaborateurs. Ferret, un LLM conçu spécifiquement pour ses smartphones, n&...

Retour sur GAIA, le benchmark visant à évaluer les assistants d’IA

Différents articles consacrés aux derniers LLMs soulignent la supériorité de leurs performances par rapport à celles des humains dans des domaines spécifiques tels que le droit ou la chimie, mais qu’en est-il pour le raisonnement, la gestion multimodale, la navigation sur l...

Stability AI présente la dernière itération de ses LLM légers : Stable LM Zephyr 3B

En avril dernier, Stability AI, après s’être intéressée à la génération d’images avec Stable Diffusion, publiait la version Alpha de StableLM, une suite de modèles de langage open source, disponible en 3 et 7 milliards de paramètres sur GitHub. Elle a lancé récemment ...

Retour sur la folle semaine de Mistral AI : annonce de Mixtral AI et confirmation d’une levée de fonds de 385 millions d’euros

Bloomberg avait révélé la semaine dernière que Mistral AI préparait une seconde levée de fonds, estimée à 450 millions d’euros. Finalement, l’investissement est de 385 millions d’euros, une somme considérable en Europe pour une start-up aussi jeune qui passe d&#...

Mistral AI finalise une levée de fonds de 450 millions d’euros

Mistral AI, fervent défenseur de l’open source, s’est rapidement imposé comme un acteur français et européen incontournable de l’IA générative. En mai dernier, un mois seulement après sa création, la société annonçait une levée de fonds de 105 millions d’euros, ...

Inflection AI annonce Inflection-2, le LLM le plus performant après GPT-4

Inflection AI annonce avoir terminé l’entraînement d’Inflection-2 qui alimentera prochainement son chabot conversationnel Pi (pour intelligence personnelle), un concurrent de chatGPT, Bard de Google, ou encore Claude d’Anthropic. Selon la société, il serait R...

LightOn annonce la seconde version d’Alfred, son modèle LLM open-source

Trois mois après avoir annoncé la sortie d’Alfred-40B-0723, LightOn, un des acteurs clés français de l’IA générative, dévoile la seconde version de son modèle open-source, Alfred-40B-1023. Plus performant, plus fiable répondant “Je ne sais pas” lorsqu’il n’est p...

Conférence Dataiku Everyday AI Paris : vers une démocratisation de l’IA générative en entreprise

Après New York, c’est à Paris, dans les Salles du Carrousel du Louvres, que s’est déroulé la conférence annuelle Everyday AI de la licorne Dataiku. Cette année, comme dans de nombreux évènements dédiés à l’intelligence artificielle, l’IA générative a été a...

Mistral AI dévoile Mistral 7B, son premier modèle open-source à destination des développeurs

Un peu plus de quatre mois après sa création, Mistral AI annonce la mise à disposition open-source de son premier LLM : Mistral 7B. Bien que de petite taille, le modèle de langage surpasse tous les modèles ouverts allant jusqu’à 13B paramètres actuellement disponibles sur tous le...

PHI-1.5 : Microsoft Research ouvre la voie à des LLM moins coûteux et plus respectueux de l’environnement

En juin dernier, les chercheurs de Microsoft Research avaient démontré avec Phi-1, un LLM de 13 milliards de paramètres pour le code Python, que, la qualité des données d’entraînement prévalait sur leur nombre. Phi-1,5, également de 1,3B, entraîné principalement avec des do...

IBM annonce de nouvelles fonctionnalités et de nouveaux modèles d’IA pour Watsonx, sa plateforme d’IA et de données

TechXchange, le principal événement de formation technique d’IBM, a débuté ce 11 septembre à Las Vegas. IBM propose aux développeurs d’y venir tester les nouvelles fonctionnalités et les nouveaux modèles d’IA génératives qu’il s’apprête à lancer pour...

Le Technology Innovation Institute présente son LLM Falcon 180B

Le Technology Innovation Institute (TII) des Émirats arabes unis a dévoilé ce 6 septembre le dernier ajout à sa famille de modèles Falcon : le Falcon 180B, qui est en libre accès pour la recherche et un usage commercial.  Falcon 180B rejoint donc les LLM Falcon à paramètres 1.3B,...

Microsoft et Databricks renforcent leur partenariat pour proposer des modèles d’IA open source sur Azure

Selon The Information, Microsoft et Databricks envisagent de renforcer leur collaboration pour intégrer des modèles et des outils d’IA open source à la plateforme cloud Azure. L’unité de serveur cloud Azure de Microsoft vendrait bientôt le logiciel Databricks qui permettra ...

Meta publie la famille de modèles de fondation Code Llama en open source

De nombreux médias avaient relayé l’annonce de The Information indiquant que Meta se préparait à lancer un outil d’IA capable de générer du code à partir du langage naturel. C’est chose faite : ce jeudi 24 août, la société a publié la famille de LLM Code Llama, ...

Rights Alliance obtient le retrait de Books3 de la plateforme The Eye

Rights Alliance, une organisation danoise qui vise à promouvoir le respect des droits d’auteur et des droits de propriété intellectuelle, en particulier dans le contexte numérique, agissant au nom d’auteurs de son pays, a envoyé une notification DMCA au site The Eye s...

SKT investit 100 millions de dollars dans Anthropic pour promouvoir l’innovation en matière d’IA 

SK Telecom, qui avait déjà investi dans Anthropic via SK Telecom Venture Capital (SKTVC), sa branche de capital-risque basée dans la Silicon Valley a annoncé la semaine dernière un investissement supplémentaire de 100 millions de dollars dans la société. Tous deux ont conclu un a...

LightOn dévoile Alfred-40B-0723, un LLM open source destiné aux entreprises construit sur Falcon-40B

Tandis que les acteurs de l’IA générative comme OpenAI ou Anthropic travaillent à améliorer les performances de leurs modèles, des start-ups européennes ont fait irruption sur le marché. C’est notamment le cas de LightOn, une alternative française aux services d’OpenA...

AWS enrichit Amazon Bedrock avec de nouveaux modèles et des capacités avancées pour l’IA générative

Amazon Web Services a annoncé ce jeudi 26 juillet à l’AWS Summit New York l’expansion de son service de modèle de fondation Amazon Bedrock pour inclure l’ajout des modèles de base de Cohere, des derniers modèles d’Anthropic et de Stability AI et de la fonctionnalité “Agents...

Le comportement de ChatGPT évolue-t-il avec le temps ?

Matei Zaharia, James Zou et Lingjiao Chen, des chercheurs de l’Université de Stanford et de l’UC Berkeley ont voulu vérifier si le comportement de GPT 3,5 qui alimente ChatGPT et celui  de GPT 4 évoluaient dans le temps comme certains de leurs utilisateurs le prétendent. Il...

ORCA, le nouveau LLM de Microsoft Research qui surpasse ChatGPT sur certaines tâches

Microsoft Research a récemment présenté Orca, un nouveau LLM open-source construit sur llama13b et a démontré que, malgré le fait qu’il n’ait “que” 13 milliards de paramètres, il atteint souvent ou dépasse les performances de ChatGPT, et que dans certains domaines, il...

Interaction homme-machine et IA : utiliser des LLM pour les interactions linguistiques avec les smartphones

Yang Li et Gang Li, chercheurs à Google Research ainsi que Brian Wang de l’Université de Toronto ont étudié et démontré la viabilité de l’utilisation de grands modèles linguistiques (LLM) pour permettre diverses interactions linguistiques avec les interfaces utilisateur mob...

Google présente sa nouvelle IA : PaLM 2, lors de la Google I/O 2023

Présentation de PaLM 2 Google a annoncé PaLM 2, son dernier modèle de langage doté de capacités améliorées en matière de multilinguisme, de raisonnement et de codage. PaLM 2 est entraîné sur des textes en plus de 100 langues, ce qui améliore considérablement sa compréhension et s...

Hugging Face et Service Now lancent StarCoder, un LLM de génération de code de 15 milliards de paramètres

StarCoder est un LLM de génération de code en accès libre couvrant 80 langages de programmation, permettant de modifier le code existant ou de créer un nouveau code. Il représente une étape majeure du projet BigCode, une initiative conjointe de Service Now, plateforme cloud d’aut...

IA générative : Cerebras Systems lance la famille Cerebras-GPT en open source

Cerebras Systems, start-up californienne, a annoncé fin mars dernier la sortie open source de Cerebras-GPT, une famille de sept modèles GPT allant de 111 millions à 13 milliards de paramètres. Formés à l’aide de la formule d’entrainement de Chinchilla, Cerebras-GPT a,...

AWS et NVIDIA collaborent pour accélérer l’entraînement des grands modèles de langage

Dans le cadre de la GTC 2023, Amazon Web Services (AWS), la filiale cloud d’Amazon, et NVIDIA ont annoncé collaborer à la création d’une infrastructure de nouvelle génération optimisée pour la formation de grands modèles de langage (LLM) complexes et le développement ...

Meta présente LLaMA, conçu pour accélérer le développement des LLM et atténuer leurs problèmes

On se demandait quelle serait la réponse de Meta au succès fulgurant de ChatGPT  : elle se nomme LLaMA (Large Language Model Meta AI). Ce modèle, publié récemment par la société “dans le cadre de son engagement envers l’open science”, disponible en plusieurs tai...