Pendant que la France débat de souveraineté IA, le Portugal a livré la sienne pour 7 M€

Le 1er juillet 2026, le gouvernement portugais a présenté officiellement Amália, présenté par ses concepteurs comme le premier grand modèle de langue (LLM) ouvert développé en portugais européen. L'événement, organisé au centre d'innovation de l'Instituto Superior Técnico à Lisbonne, marque le passage en code ouvert d'un modèle dont la version de base avait été livrée en septembre 2025. Financé par le Plan de relance et de résilience (PRR), pour un investissement public porté à 7 millions d'euros d'ici 2027, Amália pose une question qui résonne bien au-delà de Lisbonne : comment un pays de dix millions d'habitants livre-t-il un LLM souverain quand la France, malgré des moyens et un champion mondial, ne dispose toujours d'aucun modèle de langue public national ?

La livraison portugaise dans le détail

Selon le communiqué officiel du gouvernement portugais, qui présente Amália comme le premier modèle de langue ouvert développé en portugais européen, le projet est le fruit d'un consortium d'universités et de centres de recherche portugais, mobilisant plus de soixante chercheurs. La coordination revient à la NOVA University de Lisbonne, aux côtés de l'Instituto Superior Técnico et des universités de Coimbra, Porto et Minho, avec l'appui de la Fondation pour la science et la technologie (FCT). Le modèle est mis à disposition en code ouvert sous licence Apache 2.0, publié sur la plateforme Hugging Face sous l'organisation amalia-llm.

Le communiqué décrit un modèle entraîné pour comprendre le texte, les documents, les images et la parole, et adapté à la langue, au contexte juridique et à la réalité nationale du pays. Cette multimodalité est en réalité répartie sur plusieurs modèles distincts publiés par l'équipe (un modèle de texte, un modèle vision, une brique de reconnaissance de la parole), et non concentrée dans un système unique. Le cœur textuel, un modèle de 9 milliards de paramètres, n'a pas été entraîné à partir de zéro : il s'appuie sur des modèles de base déjà développés, dont EuroLLM-9B, un modèle multilingue européen ouvert, ainsi que sur GlorIA, un modèle antérieur en portugais. La documentation technique de la version publiée indique qu'elle prolonge le pré-entraînement d'EuroLLM pour mieux couvrir les connaissances en portugais européen et étend sa fenêtre de contexte à 32 000 tokens.

Cette précision explique le budget. Adapter un modèle de fondation existant coûte un ordre de grandeur de moins que d'en entraîner un de bout en bout, opération qui se chiffre en dizaines, voire en centaines de millions pour les modèles de pointe. Les 5,5 millions d'euros initiaux, complétés par 1,5 million supplémentaire jusqu'en 2027, financent donc une adaptation, un enrichissement en données, l'ajout des capacités multimodales et l'ingénierie de plusieurs dizaines de personnes, sur une infrastructure de calcul européenne largement mutualisée. C'est précisément ce qui rend l'opération soutenable pour un budget public modeste.

Une méthode déjà éprouvée ailleurs en Europe

Le cas portugais applique une recette désormais bien identifiée en Europe : partir d'un socle ouvert existant, l'adapter à une langue et à un contexte nationaux, s'appuyer sur les supercalculateurs publics européens du programme EuroHPC, et publier le résultat en open source. Le Pays basque a suivi la même voie avec Latxa, adaptation de Llama 2 à l'euskara portée par un centre universitaire. L'Espagne a poussé plus loin avec ALIA, un modèle de 40 milliards de paramètres entraîné au Barcelona Supercomputing Center, quand l'Allemagne a livré fin 2024 Teuken-7B, fruit du consortium public OpenGPT-X financé à hauteur d'environ 14 millions d'euros par le ministère fédéral de l'Économie.

Ces initiatives partagent une architecture institutionnelle plus qu'une performance : un consortium universitaire, un financement public fléché, un socle et un calcul européens partagés. À l'échelle de l'Union, le projet OpenEuroLLM, lancé en février 2025 et réunissant une vingtaine d'organisations, vise une famille de modèles couvrant toutes les langues officielles ; il a obtenu un accès stratégique à plusieurs supercalculateurs EuroHPC. La souveraineté linguistique européenne se construit ainsi par briques nationales adossées à une infrastructure commune, plutôt que par un unique modèle continental.

Le contraste français

C'est à cette aune que le cas français interpelle. La France dispose d'un champion de rang mondial, Mistral AI, dont la série C a valorisé l'entreprise autour de 11,7 milliards d'euros en septembre 2025. Mais Mistral est une entreprise privée qui publie des modèles à poids ouverts sans être un modèle public financé et gouverné par la puissance publique. Côté État, l'outil le plus proche s'appelle Albert, développé par la Direction interministérielle du numérique : une infrastructure souveraine qui agrège et sert des modèles ouverts tiers, dont ceux de Meta et de Mistral, sur des serveurs de l'État, et non un modèle de langue entraîné sur fonds publics.

La France a pourtant un précédent marquant : BLOOM, grand modèle multilingue de 176 milliards de paramètres entraîné à l'été 2022 sur le supercalculateur public Jean Zay, dans le cadre du projet international BigScience coordonné par Hugging Face. BLOOM restait toutefois un effort collectif international, sans vocation de modèle national dédié au français. Depuis, le débat hexagonal sur la souveraineté a été prolifique (le sommet de Paris en février 2025, les annonces d'investissements, la troisième étape de la stratégie nationale) sans déboucher sur l'équivalent frugal et ciblé qu'est Amália : un modèle public, ouvert, adapté à la langue nationale, livré pour le prix d'un projet de recherche.

Les limites de l'exploit portugais

L'exploit a néanmoins ses limites. Amália reste une adaptation d'un socle existant, dont la portée est celle d'un LLM de 9 milliards de paramètres, loin des systèmes de pointe américains ou chinois. Certains éléments souvent repris dans la presse méritent d'ailleurs la prudence : la présentation d'Amália comme une « alternative aux géants américains » relève du cadrage médiatique plus que du discours gouvernemental, qui parle, lui, de souveraineté et de transparence.

L'essentiel demeure : un petit pays a démontré qu'un LLM souverain, ouvert et adapté à sa langue s'obtient avec un consortium universitaire, un fléchage de fonds européens et l'accès à une infrastructure de calcul mutualisée. La démonstration, répétée du Pays basque à l'Allemagne, place la France devant une question très concrète. Le supercalculateur Jean Zay a déjà entraîné BLOOM, EuroLLM est disponible sous licence ouverte et le Portugal vient de chiffrer l'opération à 7 millions d'euros : tous les ingrédients d'un modèle public national sont sur la table.

Stephane Nachez

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.