Il 1° luglio 2026, il governo portoghese ha presentato ufficialmente Amália, descritto dai suoi ideatori come il primo grande modello linguistico (LLM) aperto sviluppato in portoghese europeo. L'evento, organizzato presso il centro di innovazione dell'Instituto Superior Técnico a Lisbona, segna il passaggio in codice aperto di un modello la cui versione base era stata consegnata nel settembre 2025. Finanziato dal Piano di Ripresa e Resilienza (PRR), per un investimento pubblico che raggiungerà 7 milioni di euro entro il 2027, Amália pone una domanda che risuona ben oltre Lisbona: come fa un paese di dieci milioni di abitanti a consegnare un LLM sovrano quando la Francia, nonostante risorse importanti e un campione mondiale, non dispone ancora di alcun modello linguistico pubblico nazionale?
La consegna portoghese nel dettaglio
Secondo il comunicato ufficiale del governo portoghese, che presenta Amália come il primo modello linguistico aperto sviluppato in portoghese europeo, il progetto è il frutto di un consorzio di università e centri di ricerca portoghesi, che coinvolge oltre sessanta ricercatori. Il coordinamento è affidato alla NOVA University di Lisbona, insieme all'Instituto Superior Técnico e alle università di Coimbra, Porto e Minho, con il supporto della Fondazione per la scienza e la tecnologia (FCT). Il modello è reso disponibile in codice aperto con licenza Apache 2.0, pubblicato sulla piattaforma Hugging Face sotto l'organizzazione amalia-llm.
Il comunicato descrive un modello addestrato per comprendere testo, documenti, immagini e voce, e adattato alla lingua, al contesto giuridico e alla realtà nazionale del Paese. In realtà, questa multimodalità è distribuita su più modelli distinti pubblicati dal team (un modello di testo, un modello vision, un componente di riconoscimento vocale), e non concentrata in un unico sistema. Il nucleo testuale, un modello da 9 miliardi di parametri, non è stato addestrato da zero: si basa su modelli di base già sviluppati, tra cui EuroLLM-9B, un modello multilingue europeo aperto, oltre che su GlorIA, un modello precedente in portoghese. La documentazione tecnica della versione pubblicata indica che estende il pre-addestramento di EuroLLM per coprire meglio le conoscenze in portoghese europeo e amplia la finestra di contesto a 32.000 token.
Questa precisazione spiega il budget. Adattare un modello di fondazione esistente costa un ordine di grandezza in meno rispetto ad addestrarne uno da zero, operazione che per i modelli più avanzati arriva a decine, se non centinaia, di milioni. I 5,5 milioni di euro iniziali, completati da 1,5 milioni aggiuntivi fino al 2027, finanziano quindi un adattamento, l'arricchimento dei dati, l'aggiunta di capacità multimodali e l'ingegneria di diverse decine di persone, su un'infrastruttura di calcolo europea ampiamente condivisa. È proprio questo che rende l'operazione sostenibile con un budget pubblico modesto.
Un metodo già collaudato altrove in Europa
Il caso portoghese applica una ricetta ormai ben identificata in Europa: partire da una base aperta esistente, adattarla a una lingua e a un contesto nazionali, appoggiarsi ai supercomputer pubblici europei del programma EuroHPC e pubblicare il risultato in open source. Il Paese Basco ha seguito la stessa via con Latxa, adattamento di Llama 2 all'euskara promosso da un centro universitario. La Spagna è andata oltre con ALIA, un modello da 40 miliardi di parametri addestrato al Barcelona Supercomputing Center, mentre la Germania ha consegnato alla fine del 2024 Teuken-7B, frutto del consorzio pubblico OpenGPT-X finanziato con circa 14 milioni di euro dal ministero federale dell'Economia.
Queste iniziative condividono più un'architettura istituzionale che una performance: un consorzio universitario, un finanziamento pubblico mirato, una base e un calcolo europei condivisi. Su scala dell'Unione, il progetto OpenEuroLLM, lanciato nel febbraio 2025 e che riunisce una ventina di organizzazioni, mira a una famiglia di modelli che copra tutte le lingue ufficiali; ha ottenuto un accesso strategico a diversi supercomputer EuroHPC. La sovranità linguistica europea si costruisce così per mattoni nazionali appoggiati a un'infrastruttura comune, piuttosto che con un unico modello continentale.
Il contrasto francese
È a questa luce che il caso francese interroga. La Francia dispone di un campione di livello mondiale, Mistral AI, la cui serie C ha valorizzato l'azienda intorno agli 11,7 miliardi di euro nel settembre 2025. Ma Mistral è un'azienda privata che pubblica modelli con pesi aperti senza essere un modello pubblico finanziato e governato dalla mano pubblica. Sul fronte dello Stato, lo strumento più vicino si chiama Albert, sviluppato dalla Direction interministérielle du numérique: un'infrastruttura sovrana che aggrega e fornisce modelli aperti di terzi, tra cui quelli di Meta e di Mistral, sui server dello Stato, e non un modello linguistico addestrato con fondi pubblici.
Eppure la Francia ha un precedente importante: BLOOM, grande modello multilingue da 176 miliardi di parametri addestrato nell'estate 2022 sul supercomputer pubblico Jean Zay, nell'ambito del progetto internazionale BigScience coordinato da Hugging Face. BLOOM restava tuttavia uno sforzo collettivo internazionale, senza la vocazione di un modello nazionale dedicato al francese. Da allora, il dibattito francese sulla sovranità è stato molto prolifico (il vertice di Parigi del febbraio 2025, gli annunci di investimenti, la terza fase della strategia nazionale) senza sfociare nell'equivalente frugale e mirato che è Amália: un modello pubblico, aperto, adattato alla lingua nazionale, consegnato al prezzo di un progetto di ricerca.
I limiti dell'impresa portoghese
L'impresa ha però anche i suoi limiti. Amália resta un adattamento di una base esistente, la cui portata è quella di un LLM da 9 miliardi di parametri, lontano dai sistemi di punta americani o cinesi. Alcuni elementi spesso ripresi dalla stampa meritano inoltre cautela: presentare Amália come una «alternativa ai giganti americani» rientra più nel framing mediatico che nel discorso governativo, che parla invece di sovranità e trasparenza.
Il punto essenziale resta questo: un piccolo paese ha dimostrato che un LLM sovrano, aperto e adattato alla propria lingua si può ottenere con un consorzio universitario, un indirizzamento di fondi europei e l'accesso a un'infrastruttura di calcolo condivisa. La dimostrazione, replicata dal Paese Basco alla Germania, mette la Francia di fronte a una questione molto concreta. Il supercomputer Jean Zay ha già addestrato BLOOM, EuroLLM è disponibile con licenza aperta e il Portogallo ha appena quantificato l'operazione in 7 milioni di euro: tutti gli ingredienti di un modello pubblico nazionale sono già sul tavolo.
