El 1 de julio de 2026, el gobierno portugués presentó oficialmente Amália, descrito por sus creadores como el primer gran modelo de lenguaje (LLM) abierto desarrollado en portugués europeo. El acto, celebrado en el centro de innovación del Instituto Superior Técnico de Lisboa, marca el paso a código abierto de un modelo cuya versión base había sido entregada en septiembre de 2025. Financiado por el Plan de Recuperación y Resiliencia (PRR), con una inversión pública que ascenderá a 7 millones de euros de aquí a 2027, Amália plantea una pregunta que resuena mucho más allá de Lisboa: ¿cómo consigue un país de diez millones de habitantes entregar un LLM soberano cuando Francia, pese a contar con recursos y con un campeón global, sigue sin disponer de ningún modelo de lenguaje público nacional?
La entrega portuguesa, en detalle
Según el comunicado oficial del gobierno portugués, que presenta Amália como el primer modelo de lenguaje abierto desarrollado en portugués europeo, el proyecto es fruto de un consorcio de universidades y centros de investigación portugueses, con la participación de más de sesenta investigadores. La coordinación recae en la NOVA University de Lisboa, junto con el Instituto Superior Técnico y las universidades de Coimbra, Porto y Minho, con el apoyo de la Fundación para la Ciencia y la Tecnología (FCT). El modelo se distribuye en código abierto bajo licencia Apache 2.0 y está publicado en la plataforma Hugging Face bajo la organización amalia-llm.
El comunicado describe un modelo entrenado para comprender texto, documentos, imágenes y voz, y adaptado al idioma, al contexto jurídico y a la realidad nacional del país. En realidad, esa multimodalidad se reparte entre varios modelos distintos publicados por el equipo (un modelo de texto, un modelo de visión y un componente de reconocimiento de voz), y no se concentra en un único sistema. El núcleo textual, un modelo de 9.000 millones de parámetros, no se ha entrenado desde cero: se apoya en modelos base ya desarrollados, entre ellos EuroLLM-9B, un modelo multilingüe europeo abierto, así como en GlorIA, un modelo anterior en portugués. La documentación técnica de la versión publicada indica que prolonga el preentrenamiento de EuroLLM para cubrir mejor el conocimiento en portugués europeo y amplía su ventana de contexto a 32.000 tokens.
Este detalle explica el presupuesto. Adaptar un modelo fundacional existente cuesta un orden de magnitud menos que entrenar uno desde cero, una operación que asciende a decenas o incluso cientos de millones en el caso de los modelos de referencia. Los 5,5 millones de euros iniciales, a los que se suman 1,5 millones adicionales hasta 2027, financian por tanto una adaptación, un enriquecimiento de datos, la incorporación de capacidades multimodales y la ingeniería de varias decenas de personas, sobre una infraestructura de cálculo europea ampliamente compartida. Eso es precisamente lo que hace viable la operación con un presupuesto público modesto.
Un método ya probado en otros lugares de Europa
El caso portugués aplica una receta ya bien identificada en Europa: partir de una base abierta existente, adaptarla a una lengua y a un contexto nacionales, apoyarse en los superordenadores públicos europeos del programa EuroHPC y publicar el resultado en open source. El País Vasco siguió la misma vía con Latxa, adaptación de Llama 2 al euskera impulsada por un centro universitario. España fue más lejos con ALIA, un modelo de 40.000 millones de parámetros entrenado en el Barcelona Supercomputing Center, mientras que Alemania entregó a finales de 2024 Teuken-7B, fruto del consorcio público OpenGPT-X financiado con unos 14 millones de euros por el Ministerio Federal de Economía.
Estas iniciativas comparten más una arquitectura institucional que una métrica de rendimiento: un consorcio universitario, financiación pública específica, una base y un cómputo europeos compartidos. A escala de la Unión, el proyecto OpenEuroLLM, lanzado en febrero de 2025 y que reúne a una veintena de organizaciones, aspira a construir una familia de modelos que cubra todas las lenguas oficiales; ha obtenido acceso estratégico a varios superordenadores EuroHPC. La soberanía lingüística europea se construye así mediante bloques nacionales apoyados en una infraestructura común, en lugar de a través de un único modelo continental.
El contraste francés
Es bajo esa luz como el caso francés resulta llamativo. Francia cuenta con un campeón de alcance mundial, Mistral AI, cuya ronda C valoró la empresa en torno a 11.700 millones de euros en septiembre de 2025. Pero Mistral es una empresa privada que publica modelos con pesos abiertos sin ser un modelo público financiado y gobernado por la administración. En el ámbito estatal, la herramienta más cercana se llama Albert, desarrollada por la Dirección Interministerial Digital: una infraestructura soberana que agrega y sirve modelos abiertos de terceros, entre ellos los de Meta y Mistral, en servidores del Estado, y no un modelo de lenguaje entrenado con fondos públicos.
Sin embargo, Francia sí tiene un precedente notable: BLOOM, un gran modelo multilingüe de 176.000 millones de parámetros entrenado en el verano de 2022 en el superordenador público Jean Zay, en el marco del proyecto internacional BigScience coordinado por Hugging Face. Aun así, BLOOM seguía siendo un esfuerzo colectivo internacional, sin vocación de modelo nacional dedicado al francés. Desde entonces, el debate francés sobre la soberanía ha sido prolífico (la cumbre de París en febrero de 2025, los anuncios de inversión, la tercera fase de la estrategia nacional) sin desembocar en el equivalente frugal y focalizado que representa Amália: un modelo público, abierto, adaptado a la lengua nacional y entregado por el precio de un proyecto de investigación.
Los límites del logro portugués
El logro, no obstante, también tiene límites. Amália sigue siendo una adaptación de una base existente, con el alcance propio de un LLM de 9.000 millones de parámetros, lejos de los sistemas punteros estadounidenses o chinos. Algunos elementos que se repiten con frecuencia en la prensa, además, merecen cautela: presentar Amália como una «alternativa a los gigantes estadounidenses» responde más al encuadre mediático que al discurso del gobierno, que habla de soberanía y transparencia.
Lo esencial, en cualquier caso, permanece: un país pequeño ha demostrado que un LLM soberano, abierto y adaptado a su lengua puede lograrse con un consorcio universitario, una asignación de fondos europeos y acceso a una infraestructura de cálculo compartida. La demostración, repetida desde el País Vasco hasta Alemania, sitúa a Francia ante una cuestión muy concreta. El superordenador Jean Zay ya entrenó BLOOM, EuroLLM está disponible con licencia abierta y Portugal acaba de cifrar la operación en 7 millones de euros: todos los ingredientes de un modelo público nacional están sobre la mesa.
