Op 1 juli 2026 heeft de Portugese regering officieel Amália voorgesteld, door de makers omschreven als het eerste open grote taalmodel (LLM) ontwikkeld in Europees Portugees. Het evenement, georganiseerd in het innovatiecentrum van het Instituto Superior Técnico in Lissabon, markeert de open-source publicatie van een model waarvan de basisversie al in september 2025 was opgeleverd. Gefinancierd via het Herstel- en Veerkrachtplan (PRR), met een publieke investering die tegen 2027 oploopt tot €7 miljoen, roept Amália een vraag op die veel verder reikt dan Lissabon: hoe levert een land met tien miljoen inwoners een soeverein LLM, terwijl Frankrijk, ondanks zijn middelen en een wereldspeler, nog steeds geen publiek nationaal taalmodel heeft?
De Portugese oplevering in detail
Volgens het officiële communiqué van de Portugese regering, waarin Amália wordt gepresenteerd als het eerste open taalmodel ontwikkeld in Europees Portugees, is het project het resultaat van een consortium van Portugese universiteiten en onderzoekscentra, met meer dan zestig onderzoekers. De coördinatie ligt bij NOVA University Lisbon, samen met het Instituto Superior Técnico en de universiteiten van Coimbra, Porto en Minho, met steun van de Fundação para a Ciência e a Tecnologia (FCT). Het model wordt als open source beschikbaar gemaakt onder de Apache 2.0-licentie en gepubliceerd op Hugging Face onder de organisatie amalia-llm.
In het communiqué wordt het model beschreven als een systeem dat is getraind om tekst, documenten, beelden en spraak te begrijpen, en dat is aangepast aan de taal, de juridische context en de nationale realiteit van het land. In de praktijk is die multimodaliteit echter verdeeld over verschillende afzonderlijke modellen die door het team zijn gepubliceerd (een tekstmodel, een vision-model en een spraakherkenningscomponent), en niet geconcentreerd in één enkel systeem. De tekstkern, een model met 9 miljard parameters, is bovendien niet vanaf nul getraind: het bouwt voort op bestaande basismodellen, waaronder EuroLLM-9B, een open Europees meertalig model, evenals GlorIA, een eerder Portugees model. De technische documentatie van de gepubliceerde versie geeft aan dat de voortraining van EuroLLM is voortgezet om kennis over Europees Portugees beter te dekken en dat het contextvenster is uitgebreid tot 32.000 tokens.
Die precisering verklaart het budget. Een bestaand foundation model aanpassen kost een orde van grootte minder dan het van nul af aan trainen, een operatie die voor toonaangevende modellen uitloopt in tientallen of zelfs honderden miljoenen euro’s. De initiële €5,5 miljoen, aangevuld met nog eens €1,5 miljoen tot 2027, financieren dus een adaptatie, verrijking met data, de toevoeging van multimodale capaciteiten en de engineering door enkele tientallen mensen, op een grotendeels gedeelde Europese rekeninfrastructuur. Juist dat maakt de operatie haalbaar binnen een bescheiden publiek budget.
Een methode die elders in Europa al beproefd is
De Portugese aanpak volgt een inmiddels goed herkenbaar Europees recept: vertrekken vanuit een bestaande open basis, die aanpassen aan een nationale taal en context, gebruikmaken van de publieke Europese supercomputers binnen het EuroHPC-programma en het resultaat open source publiceren. De Baskische regio volgde dezelfde weg met Latxa, een aanpassing van Llama 2 aan het Euskara, gedragen door een universitair centrum. Spanje ging nog een stap verder met ALIA, een model met 40 miljard parameters dat werd getraind aan het Barcelona Supercomputing Center, terwijl Duitsland eind 2024 Teuken-7B opleverde, het resultaat van het publieke consortium OpenGPT-X, gefinancierd met ongeveer €14 miljoen door het federale ministerie van Economische Zaken.
Deze initiatieven delen vooral een institutionele architectuur en minder een prestatiedoelstelling: een universitair consortium, gerichte publieke financiering en een gedeelde Europese basis en rekenkracht. Op EU-niveau wil het project OpenEuroLLM, gelanceerd in februari 2025 en gedragen door een twintigtal organisaties, een familie van modellen ontwikkelen die alle officiële talen dekt; het kreeg strategische toegang tot meerdere EuroHPC-supercomputers. Europese taalsoevereiniteit ontstaat zo via nationale bouwstenen bovenop een gemeenschappelijke infrastructuur, in plaats van via één enkel continentaal model.
Het Franse contrast
Precies in dat licht is de Franse situatie opvallend. Frankrijk beschikt wel over een wereldspeler, Mistral AI, waarvan de C-serie het bedrijf in september 2025 waardeerde op ongeveer €11,7 miljard. Maar Mistral is een privaat bedrijf dat modellen met open gewichten publiceert, zonder publiek gefinancierd en publiek bestuurd model door de overheid. Aan de kant van de staat is het dichtstbijzijnde instrument Albert, ontwikkeld door de Direction interministérielle du numérique: een soevereine infrastructuur die open modellen van derden bundelt en aanbiedt, waaronder die van Meta en Mistral, op overheidsservers — en dus geen taalmodel dat met publieke middelen is getraind.
Frankrijk heeft nochtans een belangrijk precedent: BLOOM, een groot meertalig model met 176 miljard parameters dat in de zomer van 2022 werd getraind op de publieke supercomputer Jean Zay, in het kader van het internationale BigScience-project gecoördineerd door Hugging Face. BLOOM bleef echter een internationale collectieve inspanning, zonder het specifieke doel een nationaal model voor het Frans te worden. Sindsdien is het debat over soevereiniteit in Frankrijk bijzonder levendig geweest (de top van Parijs in februari 2025, investeringsaankondigingen, de derde fase van de nationale strategie), maar zonder uit te monden in het frugale en gerichte equivalent van Amália: een publiek, open model aangepast aan de nationale taal, geleverd voor de prijs van een onderzoeksproject.
De grenzen van het Portugese succes
Die prestatie heeft uiteraard ook haar grenzen. Amália blijft een adaptatie van een bestaande basis, met de schaal van een LLM met 9 miljard parameters — ver verwijderd van de geavanceerde Amerikaanse of Chinese systemen. Sommige elementen die in de pers vaak worden overgenomen, verdienen bovendien nuance: de voorstelling van Amália als een “alternatief voor de Amerikaanse giganten” is vooral een mediamatige framing, terwijl de regering zelf spreekt over soevereiniteit en transparantie.
De kern blijft echter overeind: een klein land heeft aangetoond dat een soeverein, open en aan de eigen taal aangepast LLM haalbaar is met een universitair consortium, gericht Europees geld en toegang tot een gedeelde rekeninfrastructuur. Die demonstratie, herhaald van Baskenland tot Duitsland, plaatst Frankrijk voor een zeer concrete vraag. De supercomputer Jean Zay heeft al BLOOM getraind, EuroLLM is beschikbaar onder een open licentie en Portugal heeft de operatie nu op €7 miljoen geraamd: alle ingrediënten voor een publiek nationaal model liggen op tafel.
