LLM : grands modèles de langage et modèles de fondation

Tech family

Les grands modèles de langage (en anglais Large Language Models, ou LLM) sont des réseaux de neurones entraînés sur des corpus textuels massifs pour prédire la suite la plus probable d'une séquence de mots. Ils constituent depuis 2022 le moteur principal de l'IA générative et le terrain d'une compétition industrielle sans précédent entre OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba, DeepSeek et une vingtaine d'autres acteurs. Cette page synthétise leur architecture, les acteurs majeurs, les modèles de référence en 2026 et les controverses qui les entourent.

📰 Actualités récentes

Actualités récentes

Les grands modèles de langage (LLM) continuent de transformer le paysage de l'intelligence artificielle, en s'imposant comme des outils essentiels dans divers domaines, allant de la cybersécurité à la médecine. Récemment, DeepSeek a dévoilé une mise à jour de son modèle R1, le DeepSeek-R1-0528, qui renforce ses capacités de raisonnement, de logique et de programmation. Cette version, publiée le 28 mai 2025, se rapproche des performances des modèles phares d'OpenAI et de Google, tout en réduisant le taux d'hallucination, un problème récurrent pour les LLMs. Parallèlement, Tencent a introduit Hunyuan-T1, un modèle de raisonnement qui utilise une architecture hybride innovante pour rivaliser avec les leaders du marché. Ces développements soulignent une tendance croissante vers l'amélioration des capacités de raisonnement des LLMs, un élément clé dans leur capacité à s'intégrer dans des systèmes complexes et critiques.

Dans le domaine de la cybersécurité, les LLMs démontrent leur potentiel en facilitant la détection et l'analyse des menaces. Une étude de l'Université de New York souligne leur capacité à exploiter des masses de données textuelles pour anticiper et réagir à des attaques, transformant ainsi la cybersécurité en un secteur plus réactif et proactif. Les modèles comme SecureBERT, spécialisés dans la cybersécurité, montrent des résultats prometteurs, bien que leur affinement reste un défi pour les entreprises. Cette évolution vers des LLMs spécialisés reflète une tendance à la diversification des applications des modèles de langage, répondant à des besoins spécifiques tout en améliorant leur précision et leur fiabilité.

L'engouement pour les LLMs open source se poursuit également, avec des initiatives comme celles de l'Allen Institute for AI, qui a lancé Tülu 3 405B, un modèle open source performant basé sur Llama 3.1. Ce modèle se distingue par l'utilisation de l'apprentissage par renforcement avec récompenses vérifiables, améliorant ses performances dans des tâches complexes. En parallèle, Mistral AI a lancé Mistral Small 3, un modèle optimisé pour la latence, offrant une alternative open source aux modèles propriétaires. Ces initiatives reflètent une volonté de démocratiser l'accès aux LLMs tout en réduisant les coûts d'inférence, un enjeu crucial pour élargir leur adoption, surtout dans les environnements où les ressources sont limitées.

Alors que les grands modèles de langage continuent de se développer, des défis subsistent, notamment en termes de coût d'inférence et d'impact environnemental. Microsoft a récemment présenté BitNet.cpp, un cadre open source qui optimise l'inférence des LLMs quantifiés à 1 bit, réduisant ainsi leur empreinte carbone. Cette innovation souligne l'importance de la durabilité dans l'évolution des LLMs, alors que la taille et la complexité des modèles ne cessent d'augmenter. Par ailleurs, l'intégration des LLMs dans des domaines tels que le diagnostic médical reste à affiner, l'étude menée par UVA Health indiquant que si les LLMs peuvent surpasser les médecins dans certaines tâches, leur intégration n'a pas encore significativement amélioré les performances diagnostiques globales.

Guide complet

Architecture : du transformer aux modèles modernes

L'architecture transformer, dont dérivent tous les LLM modernes, repose sur deux briques fondamentales. La première est le mécanisme d'auto-attention qui permet au modèle de calculer, pour chaque position du texte, une combinaison pondérée des représentations des autres positions. Cette opération est intrinsèquement parallélisable, ce qui explique pourquoi les transformers ont supplanté les architectures récurrentes (RNN, LSTM) qui dominaient le NLP jusqu'en 2017. La seconde brique est l'empilement de dizaines de couches identiques de transformer (typiquement entre 32 et 96 dans les modèles de pointe), chacune apportant un raffinement de la représentation.

Les LLM contemporains se déclinent en plusieurs variantes architecturales :

les modèles dense, où tous les paramètres sont activés à chaque inférence (GPT-4 historique, Claude, Llama 3.1 405B) ;
les modèles Mixture of Experts (MoE), où seuls quelques sous-réseaux experts sont activés selon le token traité, ce qui réduit le coût d'inférence à paramètres équivalents (Mixtral, DeepSeek-V3, GPT-4o présumé) ;
les modèles multimodaux natifs, qui ingèrent et produisent du texte, des images, du son et de la vidéo dans un espace de représentation unifié (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet) ;
les modèles de raisonnement (reasoning models), qui produisent une chaîne de pensée explicite avant de répondre - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - au prix d'une latence accrue mais d'une qualité supérieure sur les tâches de mathématiques, de logique et de programmation.

Les acteurs majeurs en 2026

OpenAI reste le leader perçu du marché avec ChatGPT, GPT-4o, GPT-4o mini et la famille des modèles de raisonnement o1/o3. La société, valorisée plusieurs centaines de milliards de dollars en 2026, est financée principalement par Microsoft et SoftBank. Sa stratégie commerciale combine API (paiement au token), produit grand public (ChatGPT Plus à 20 $/mois) et entreprise (ChatGPT Enterprise, Azure OpenAI Service). OpenAI a élargi son périmètre avec OAI-SearchBot, son crawler de recherche, et SearchGPT.

Anthropic, fondée en 2021 par des anciens d'OpenAI dont Dario et Daniela Amodei, a fait de la sécurité son axe différenciant. Sa famille Claude (Haiku, Sonnet, Opus) est particulièrement appréciée pour la rédaction, le code et le raisonnement long-contexte. Anthropic est financée par Amazon, Google et la SoftBank. En mai 2026, Anthropic a confirmé louer une fraction de la capacité de Colossus 1 de xAI pour environ 1,25 milliard de dollars par mois, illustrant la concentration des ressources de calcul.

Google DeepMind consolide depuis 2023 ses activités IA sous la marque Gemini. La famille Gemini (Nano, Flash, Pro, Ultra, puis Gemini 2.0 Flash en décembre 2024) est intégrée au moteur de recherche (AI Overviews) et à la suite Workspace. Google bénéficie d'un avantage structurel par son contrôle des données d'entraînement (Web, YouTube, Books) et de son infrastructure TPU.

Meta a fait le pari du weights open avec la famille Llama (Llama 1 en février 2023, Llama 2 en juillet 2023, Llama 3 en avril 2024, Llama 3.1 405B en juillet 2024). Cette stratégie a démocratisé l'accès aux modèles de fondation et nourri un écosystème de modèles dérivés (Vicuna, Tulu, fine-tunes sectoriels). Meta a néanmoins refusé en juillet 2025 de signer le code de bonnes pratiques GPAI européen et a suspendu temporairement la sortie de Llama 3 multimodal en Europe.

Mistral AI, fondée à Paris en avril 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix, s'est imposée comme le champion européen. Sa stratégie hybride combine modèles ouverts (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) et modèles propriétaires (Mistral Large 2, Pixtral Large). Mistral a signé le code de bonnes pratiques GPAI et noué des partenariats stratégiques avec NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini et SAP.

En Chine, Alibaba (famille Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) et surtout DeepSeek ont rattrapé puis défié les laboratoires américains. DeepSeek-V3 a stupéfié la communauté en janvier 2025 par sa qualité à un coût d'entraînement ~30 fois inférieur à celui des concurrents occidentaux. DeepSeek-R1, sorti dans la foulée et mis à jour en juin 2025 (R1-0528), a déclenché une chute boursière temporaire de NVIDIA en remettant en question la prime aux infrastructures démesurées.

D'autres acteurs jouent des rôles spécialisés : xAI (Grok, infrastructure Colossus), Cohere (modèles entreprise multilingues, Aya 23), AI2 (Tülu 3 405B, modèles entièrement open), Aleph Alpha (Pharia-1-LLM allemand), Black Forest Labs (FLUX-1 pour le text-to-image), LightOn (Paradigm pour l'entreprise), Hugging Face (hub modèles, SmolLM2), OpenEuroLLM (consortium européen open).

Modèles de référence en 2026

Le tableau des LLM de pointe en 2026 se compose d'environ une douzaine de familles, chacune avec ses tailles et variantes :

GPT-4o / GPT-4o mini (OpenAI) - multimodal natif, latence réduite, fenêtre de contexte 128k tokens. GPT-4o mini est devenu la référence économique pour les déploiements à fort volume.
o1 / o3 (OpenAI) - modèles de raisonnement avec chain-of-thought interne, surpuissants en mathématiques compétitives (AIME, IMO) et en programmation (Codeforces).
Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - fenêtre 200k, excellents en rédaction longue et en lecture de documents.
Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - multimodal natif, intégration avec l'écosystème Google.
Llama 3.1 405B / Llama 3.3 (Meta) - leader open source dense.
Mistral Large 2 / Pixtral Large (Mistral AI) - européens, open weights pour certaines versions.
DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - open source chinois, raisonnement, coût d'entraînement spectaculairement bas.
Qwen2.5 (Alibaba) - leader open source multilingue chinois, fenêtre 1M tokens.
NOVA (Amazon) - famille de fondation propre annoncée en décembre 2024.
Phi-3 / Phi-3.5 (Microsoft) - petits modèles efficaces pour l'embarqué.
Hunyuan-T1 (Tencent) - modèle de raisonnement chinois rivalisant avec l'état de l'art.
Grok 3 (xAI) - accès en temps réel à X, infrastructure massive.

Entraînement et coûts

L'entraînement d'un LLM de pointe mobilise des ressources considérables. Pour GPT-4, les estimations publiques évoquent un budget de l'ordre de 100 millions de dollars et plusieurs dizaines de milliers de GPU H100 pendant trois mois. Llama 3.1 405B a nécessité 16 000 H100 et environ 30 millions d'heures GPU. Mistral Large 2 et Mixtral, à l'autre extrême du spectre européen, ont été entraînés avec des budgets significativement plus modestes, démontrant qu'il est possible d'atteindre des performances compétitives à effort réduit grâce à un travail soigné sur les données.

Les scaling laws formalisées par OpenAI puis affinées par DeepMind (Chinchilla, 2022) ont longtemps dicté la dynamique : la qualité d'un modèle progresse de façon prévisible avec le produit du nombre de paramètres et de la quantité de données d'entraînement, à condition d'équilibrer les deux. Cette équation a été remise en cause à la fin de 2024 : l'inflation des budgets ne se traduit plus par des gains spectaculaires sur les benchmarks ouverts, et l'attention s'est déplacée vers d'autres dimensions - qualité des données, raisonnement post-entraînement, agents, multimodalité.

L'infrastructure de calcul est devenue un enjeu géopolitique majeur. NVIDIA, par sa quasi-exclusivité sur les GPU H100/H200/B200, capture l'essentiel de la valeur. Les contrôles à l'export américains restreignent les ventes vers la Chine, ce qui a notamment poussé DeepSeek et Alibaba à optimiser leurs entraînements pour des puces dégradées (H800). xAI a construit en 2024 le data center Colossus de Memphis, intégrant 100 000 H100 puis 200 000 H100/H200, en moins d'un an - un record industriel.

Capacités et limites

Les LLM modernes maîtrisent un large éventail de tâches : rédaction, résumé, traduction, génération de code, dialogue, extraction d'information, classification, traitement de documents structurés et non structurés. Ils sont devenus des composants standards dans de nombreuses applications - moteurs de recherche conversationnels, assistants de codage (Copilot, Cursor), agents juridiques et médicaux, systèmes de support client, outils de productivité Office et Workspace.

Leurs limites sont également bien documentées. Les LLM hallucinent - ils produisent du contenu plausible mais factuellement faux - surtout sur les sujets de niche, les chiffres précis et les références bibliographiques. Ils manquent de robustesse face aux attaques adversariales (prompt injection, jailbreak), comme l'a démontré l'étude de l'EPFL en décembre 2024 sur les limites des LLM face aux attaques adaptatives. Ils peuvent être manipulés pour modifier les opinions des utilisateurs (étude EPFL d'avril 2024). Ils consomment de l'énergie et de l'eau de manière significative - sujet de plus en plus surveillé par les régulateurs et les actionnaires. Leur biais reflète celui des corpus d'entraînement, principalement anglophones et nord-occidentaux.

Open source vs propriétaire

Le clivage entre LLM ouverts et fermés structure le débat depuis 2023. Les partisans des modèles ouverts - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - invoquent la souveraineté technologique, la possibilité d'audit indépendant, la diffusion académique et la résilience industrielle. Leurs opposants - Anthropic, OpenAI sur certains aspects - pointent les risques de prolifération d'usages malveillants (bio-terrorisme, désinformation à grande échelle, fraude) et l'impossibilité de retirer un modèle une fois publié.

L'AI Act tranche partiellement la question en accordant des exemptions partielles aux modèles dont les paramètres, l'architecture et les informations d'usage sont publiés. Ces exemptions ne s'appliquent pas aux modèles à risque systémique (10²⁵ FLOPS d'entraînement). En 2026, l'écosystème open source est dominé par Llama, Mistral, DeepSeek et Qwen, qui couvrent l'essentiel des cas d'usage entreprise et académique sans dépendre de l'API d'un fournisseur unique.

Modèles spécialisés et verticaux

Au-delà des modèles généralistes, l'écosystème se diversifie en modèles verticaux. Dans le médical : H-optimus-0 de Bioptimus pour le diagnostic médical assisté, Pharia-1-LLM d'Aleph Alpha en allemand, des fine-tunes spécifiques pour la radiologie et l'oncologie. Dans le juridique : assistants Lefebvre Dalloz-Barreau de Paris, applications Talan-Mutuelle Générale. Dans le code : Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. Dans la finance : modèles internes BNP Paribas, Crédit Agricole, JPMorgan. Le mouvement des petits modèles efficaces (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - vise les déploiements embarqués (téléphones, voitures, IoT) avec une qualité acceptable à coût d'inférence très réduit.

L'année 2025 a vu émerger les agents IA comme nouveau paradigme d'usage des LLM. Plutôt que de répondre à une requête isolée, l'agent enchaîne des actions (appels d'outils, consultations Web, écriture de fichiers, exécution de code) pour résoudre une tâche complexe. Gemini 2.0 Flash a été présenté en décembre 2024 comme le modèle qui ouvre la voie à cette nouvelle famille de produits. AI Decision Matrix d'AI Builders fournit un cadre d'évaluation comparative pour les responsables IT confrontés à la profusion de solutions.

Enjeux 2026 et au-delà

Plusieurs dynamiques à surveiller dans les 18 prochains mois :

la conformité GPAI au regard de l'AI Act, désormais applicable depuis août 2025 ;
l'économie de l'inférence, devenue dominante en volume sur l'économie de l'entraînement, avec un report sur les architectures MoE et la quantification (BitNet, vLLM, llm-optimizer) ;
l'articulation avec le droit d'auteur, particulièrement après l'écartement de la loi Darcos en France et la jurisprudence en cours sur Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion ;
la course aux modèles de raisonnement, où s'affrontent OpenAI o3, DeepSeek-R1, Gemini Thinking et Hunyuan-T1 ;
la convergence multimodale, avec des modèles natifs capables de traiter texte, image, vidéo et audio dans un espace unifié ;
l'émergence des agents et la question associée de la fiabilité (taux de succès sur des tâches longues), de la sécurité (contrôle des actions effectuées) et du modèle économique ;
la souveraineté européenne, qui s'incarne dans Mistral, OpenEuroLLM, LightOn, Aleph Alpha, et l'effort de désindexation du calcul d'inférence avec OVHcloud et les nouveaux GPUs NVIDIA Tensor Core.

L'évolution des LLM ne se résume plus à une course aux paramètres. Les acteurs gagnants combineront qualité des données, post-entraînement par renforcement, infrastructure d'inférence maîtrisée, stratégie de licence cohérente avec leur marché cible, et conformité réglementaire. C'est désormais un sujet industriel, géopolitique et juridique autant que scientifique.

Questions fréquentes

Qu'est-ce qu'un LLM (grand modèle de langage) ?

Un LLM est un réseau de neurones de très grande taille - de plusieurs milliards à plusieurs centaines de milliards de paramètres - basé sur l'architecture transformer. Il est entraîné à prédire la prochaine unité (token) d'un texte à partir de centaines de milliards à plusieurs milliers de milliards de tokens. De cette tâche simple émergent des capacités complexes : dialogue, raisonnement, génération de code, traduction.

Quelle différence entre LLM et modèle de fondation ?

Un modèle de fondation est un modèle d'IA réutilisable comme base pour de nombreuses applications spécialisées via fine-tuning, RAG ou prompt engineering. Un LLM est un type de modèle de fondation spécialisé sur le langage. Mais le terme s'étend aussi aux modèles multimodaux (image, audio, vidéo) qui partagent la même logique architecturale et économique.

Quels sont les LLM les plus performants en 2026 ?

Sur les benchmarks publics : GPT-4o et o1/o3 (OpenAI), Claude 3.5 Sonnet et Claude 3 Opus (Anthropic), Gemini 2.0 Flash et Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 et DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Aucun ne domine sur toutes les dimensions ; le choix dépend du cas d'usage (raisonnement, latence, coût, langues, multimodalité).

Combien coûte l'entraînement d'un LLM de pointe ?

Pour les modèles dense de plus de 70 milliards de paramètres, les budgets vont de 5 à 100 millions de dollars selon la taille et l'efficacité. GPT-4 est estimé à ~100 M$, Llama 3.1 405B à ~50 M$, DeepSeek-V3 à ~5 M$ (record d'efficacité). Ces chiffres ne couvrent que l'entraînement final ; en incluant l'expérimentation préalable et le post-entraînement, les coûts complets sont 3 à 10 fois supérieurs.

Qu'est-ce qu'un modèle Mixture of Experts (MoE) ?

C'est une architecture où le réseau est divisé en plusieurs sous-réseaux experts spécialisés, et un routeur sélectionne quelques experts à activer pour chaque token. Cela permet d'augmenter le nombre total de paramètres sans augmenter proportionnellement le coût d'inférence. Mixtral 8x7B, DeepSeek-V3 et GPT-4o (présumé) utilisent cette architecture.

Pourquoi DeepSeek a-t-il créé un tel choc en janvier 2025 ?

DeepSeek-V3 puis DeepSeek-R1 ont démontré qu'il était possible d'atteindre le niveau des meilleurs modèles propriétaires américains avec un budget d'entraînement environ 30 fois inférieur et en open source. Cela a remis en question la prime aux infrastructures massives et provoqué une chute boursière temporaire de NVIDIA, illustrant la fragilité de la valorisation actuelle de l'écosystème IA.

Quels sont les LLM européens ?

Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) est le leader européen. Aleph Alpha développe Pharia-1-LLM en allemand. LightOn propose Paradigm pour l'entreprise. Black Forest Labs édite FLUX-1 pour le text-to-image. OpenEuroLLM est un consortium académique européen. Le projet vise à constituer une alternative souveraine aux modèles américains et chinois.

Open source ou propriétaire : quel choix faire ?

Cela dépend du cas d'usage. Le propriétaire (OpenAI, Anthropic, Gemini) offre la simplicité d'une API gérée et l'accès aux modèles de pointe. L'open source (Llama, Mistral, DeepSeek) permet l'hébergement on-premise, la souveraineté des données, l'audit du modèle et l'évitement du verrouillage fournisseur - au prix d'un coût d'infrastructure et d'expertise interne. Pour des usages réglementés (santé, finance, défense), l'open source hébergé devient souvent la norme.

Qu'est-ce qu'un modèle de raisonnement ?

Un modèle de raisonnement produit explicitement une chaîne de pensée (chain-of-thought) avant de répondre, ce qui améliore drastiquement ses performances sur les mathématiques compétitives, la logique et la programmation. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 et Gemini Thinking sont les principaux représentants. Le coût d'inférence augmente (latence supérieure) mais la qualité aussi.

Quels sont les principaux risques associés aux LLM ?

Hallucinations (génération de contenu factuellement faux), prompt injection et jailbreak (contournement des garde-fous), biais (reflet du corpus d'entraînement), manipulation de l'opinion (étude EPFL 2024), consommation énergétique et hydrique, fuite de données privées, dépendance industrielle aux fournisseurs de modèles et de GPU. L'AI Act répond à plusieurs de ces risques pour les modèles à risque systémique.

Comment évalue-t-on un LLM ?

Par des benchmarks publics (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), par des évaluations humaines en aveugle (Chatbot Arena), et par des tests internes adaptés au cas d'usage. Les benchmarks ouverts saturent rapidement : un modèle qui dépasse 90 % sur MMLU n'est plus distinguable des autres. L'évaluation par tâche réelle (rédaction, code production, raisonnement long) reste indispensable.

Quelle est la prochaine étape pour les LLM ?

Les agents IA - systèmes capables d'enchaîner des actions complexes en autonomie - sont le grand chantier 2025-2027. Au-delà, l'industrie travaille sur la fiabilité à long terme (alignement, sécurité), l'efficacité d'inférence, la convergence multimodale native, l'apprentissage en continu et la souveraineté infrastructurelle. La question des données d'entraînement reste structurante : les corpus web publics commencent à saturer, ouvrant la voie à des données synthétiques et à des partenariats éditoriaux.

Articles récents

89 articles liés à ce sujet

Alibaba présente ses cockpits intelligents, lunettes IA et partenariats stratégiques au WAIC 2025

À l’occasion de la World Artificial Intelligence Conference (WAIC) 2025, Alibaba Cloud a présenté plusieurs démonstr...

Marché de l'IA Produit commercial

1 août 2025 Lire la suite →

DeepSeek-R1-0528 : la start-up chinoise continue à se mesurer aux géants américains avec une mise à jour de son modèle phare

Alors que les spéculations allaient bon train autour du prochain lancement de DeepSeek R2, c'est finalement une mise à jour du mod&egrav...

Outils et technos Produit commercial

2 juin 2025 Lire la suite →

Quand l’IA devient bouclier : ce que les LLMs changent concrètement à la cybersécurité

Les grands modèles de langage (LLMs) s’imposent peu à peu dans tous les secteurs, y compris celui, hautement stratégique, d...

Sécurité

15 mai 2025 Lire la suite →

Tencent lance le modèle de raisonnement Hunyuan-T1, rivalisant avec l'état de l'art

Tout juste un mois après avoir introduit son modèle de raisonnement TurboS, le conglomérat chinois Tencent dévoile celui &...

Marché de l'IA

26 mars 2025 Lire la suite →

AI2 lance Tülu 3 405B : une avancée vers un nouveau standard de l'IA open source

Après avoir publié en décembre dernier sa famille de modèles OLMO 2, l’Allen Institute for Artificial Intelligence (AI2) poursuit son engagement enver...

Recherche en intelligence artificielle Produit commercial

4 févr. 2025 Lire la suite →

Mistral Small 3 : la réponse open source française optimisée pour la latence aux modèles GenAI propriétaires

En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a l...

Produit commercial

3 févr. 2025 Lire la suite →

Alibaba : l'équipe Qwen annonce l'ajout de deux nouveaux modèles open source à Qwen2.5-1M

L’avancement des LLMs repose souvent sur leur capacité à traiter des volumes croissants de données dans des contextes plus longs et plus complexes. Av...

Recherche en intelligence artificielle Produit commercial

29 janv. 2025 Lire la suite →

DeepSeek-R1, le modèle open source chinois venu déstabiliser NVIDIA et le marché de l'IA

Après avoir suscité l’attention en décembre dernier avec l'annonce de DeepSeek-V3, son modèle open source éponyme, la start-up chinoise DeepSeek est v...

Produit commercial Marché de l'IA

28 janv. 2025 Lire la suite →

GenAI : Europrop International opte pour la solution Paradigm de LightOn

LightOn, acteur européen majeur dans le domaine de l’IA générative, et Europrop International GmbH (EPI), consortium regroupant quatre leaders europée...

Marché de l'IA

10 janv. 2025 Lire la suite →

DeepSeek-V3 : quand l'open source chinois défie les LLMs américains de pointe

C'est sous la licence MIT, l'une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembr...

Marché de l'IA

2 janv. 2025 Lire la suite →

Etude EPFL : les limites des LLMs face aux attaques adaptatives

Une récente étude menée par des chercheurs de l’École Polytechnique fédérale de Lausanne (EPFL), présentée lors de l’atelier sur la sécurité de l’IA à...

Sécurité

23 déc. 2024 Lire la suite →

AI Decision Matrix : un outil d'AI Builders pour évaluer les assistants applicatifs

Les assistants applicatifs, comme Google Gemini ou Notion AI, incarnent une nouvelle ère de productivité. Ils ne se contentent plus de prédire des rés...

Marché de l'IA Transformation numérique

17 déc. 2024 Lire la suite →

Statistiques

Articles totaux 89

Contenu mis à jour il y a 1 semaine

LLM : grands modèles de langage et modèles de fondation

📰 Actualités récentes

Actualités récentes

Guide complet

Architecture : du transformer aux modèles modernes

Les acteurs majeurs en 2026

Modèles de référence en 2026

Entraînement et coûts

Capacités et limites

Open source vs propriétaire

Modèles spécialisés et verticaux

Enjeux 2026 et au-delà

Questions fréquentes

Qu'est-ce qu'un LLM (grand modèle de langage) ?

Quelle différence entre LLM et modèle de fondation ?

Quels sont les LLM les plus performants en 2026 ?

Combien coûte l'entraînement d'un LLM de pointe ?

Qu'est-ce qu'un modèle Mixture of Experts (MoE) ?

Pourquoi DeepSeek a-t-il créé un tel choc en janvier 2025 ?

Quels sont les LLM européens ?

Open source ou propriétaire : quel choix faire ?

Qu'est-ce qu'un modèle de raisonnement ?

Quels sont les principaux risques associés aux LLM ?

Comment évalue-t-on un LLM ?

Quelle est la prochaine étape pour les LLM ?

sur le même thème

Articles récents

Statistiques