Am 1. Juli 2026 stellte die portugiesische Regierung offiziell Amália vor, das nach Angaben seiner Entwickler erste offene Large Language Model (LLM), das in europäischem Portugiesisch entwickelt wurde. Die Veranstaltung im Innovationszentrum des Instituto Superior Técnico in Lissabon markiert die Veröffentlichung als Open Source eines Modells, dessen Basismodell bereits im September 2025 ausgeliefert worden war. Finanziert über den Wiederaufbau- und Resilienzplan (PRR) und mit öffentlichen Investitionen von insgesamt 7 Millionen Euro bis 2027 wirft Amália eine Frage auf, die weit über Lissabon hinausreicht: Wie liefert ein Land mit zehn Millionen Einwohnern ein souveränes LLM, während Frankreich trotz seiner Ressourcen und eines globalen Vorzeigeunternehmens immer noch über kein öffentliches nationales Sprachmodell verfügt?
Die portugiesische Auslieferung im Detail
Laut dem offiziellen Kommuniqué der portugiesischen Regierung, das Amália als erstes offenes, in europäischem Portugiesisch entwickeltes Sprachmodell vorstellt, ist das Projekt das Ergebnis eines Konsortiums portugiesischer Universitäten und Forschungszentren mit mehr als sechzig Forschenden. Die Koordination liegt bei der NOVA University of Lisbon, gemeinsam mit dem Instituto Superior Técnico sowie den Universitäten Coimbra, Porto und Minho, mit Unterstützung der Fundação para a Ciência e a Tecnologia (FCT). Das Modell wird als Open Source unter der Apache-2.0-Lizenz bereitgestellt und auf der Plattform Hugging Face unter der Organisation amalia-llm veröffentlicht.
Das Kommuniqué beschreibt ein Modell, das darauf trainiert wurde, Text, Dokumente, Bilder und Sprache zu verstehen und an die Sprache, den rechtlichen Kontext und die nationale Realität des Landes angepasst ist. Diese Multimodalität ist in Wirklichkeit auf mehrere vom Team veröffentlichte Einzelmodelle verteilt – ein Textmodell, ein Vision-Modell und eine Komponente für Spracherkennung – und nicht in einem einzigen System gebündelt. Der textuelle Kern, ein Modell mit 9 Milliarden Parametern, wurde nicht von Grund auf neu trainiert: Er baut auf bereits entwickelten Basismodellen auf, darunter EuroLLM-9B, ein offenes europäisches Multilingual-Modell, sowie auf GlorIA, einem früheren portugiesischen Modell. Die technische Dokumentation der veröffentlichten Version zeigt, dass das Vortraining von EuroLLM fortgesetzt wurde, um Wissen über europäisches Portugiesisch besser abzudecken, und dass das Kontextfenster auf 32.000 Tokens erweitert wurde.
Diese Präzisierung erklärt das Budget. Ein vorhandenes Foundation Model anzupassen kostet um Größenordnungen weniger, als eines vollständig neu zu trainieren – ein Vorhaben, das bei Spitzensystemen schnell Dutzende oder sogar Hunderte Millionen verschlingt. Die anfänglichen 5,5 Millionen Euro, ergänzt um 1,5 Millionen Euro bis 2027, finanzieren daher eine Anpassung, die Anreicherung mit Daten, den Ausbau multimodaler Fähigkeiten und die Arbeit von mehreren Dutzend Personen auf einer weitgehend gemeinsam genutzten europäischen Recheninfrastruktur. Genau das macht das Vorhaben für ein überschaubares öffentliches Budget tragfähig.
Eine Methode, die sich in Europa bereits bewährt hat
Der portugiesische Fall folgt einer inzwischen in Europa klar erkennbaren Strategie: von einer bestehenden offenen Basis ausgehen, sie an eine nationale Sprache und einen nationalen Kontext anpassen, auf die öffentlichen europäischen Supercomputer des EuroHPC-Programms zurückgreifen und das Ergebnis als Open Source veröffentlichen. Das Baskenland ist mit Latxa denselben Weg gegangen, einer an das Euskara angepassten Version von Llama 2, getragen von einem universitären Zentrum. Spanien ging mit ALIA noch weiter, einem Modell mit 40 Milliarden Parametern, das im Barcelona Supercomputing Center trainiert wurde, während Deutschland Ende 2024 Teuken-7B ausgeliefert hat, Ergebnis des öffentlichen Konsortiums OpenGPT-X, das vom Bundesministerium für Wirtschaft mit rund 14 Millionen Euro finanziert wurde.
Diese Initiativen teilen mehr eine institutionelle Architektur als eine bestimmte Leistungsstufe: ein universitäres Konsortium, gezielte öffentliche Finanzierung, eine geteilte europäische Basis und gemeinsames Rechnen. Auf Ebene der Europäischen Union zielt das im Februar 2025 gestartete Projekt OpenEuroLLM, an dem rund zwanzig Organisationen beteiligt sind, auf eine Modellfamilie, die alle Amtssprachen abdeckt; dafür erhielt es strategischen Zugang zu mehreren EuroHPC-Supercomputern. Europäische sprachliche Souveränität entsteht damit durch nationale Bausteine auf einer gemeinsamen Infrastruktur – und nicht durch ein einziges kontinentales Modell.
Der französische Kontrast
Gerade vor diesem Hintergrund wirft der französische Fall Fragen auf. Frankreich verfügt mit Mistral AI über einen Akteur von Weltrang; die C-Runde bewertete das Unternehmen im September 2025 mit rund 11,7 Milliarden Euro. Doch Mistral ist ein Privatunternehmen, das Modelle mit offenen Gewichten veröffentlicht, ohne ein öffentlich finanziertes und von der öffentlichen Hand gesteuertes Modell zu sein. Auf Staatsebene heißt das nächstliegende Werkzeug Albert, entwickelt von der Direction interministérielle du numérique: eine souveräne Infrastruktur, die offene Drittmodelle – darunter von Meta und Mistral – auf Servern des Staates bündelt und bereitstellt, aber kein mit öffentlichen Mitteln trainiertes Sprachmodell.
Frankreich hat dennoch einen bemerkenswerten Vorläufer: BLOOM, ein großes multilinguals Modell mit 176 Milliarden Parametern, das im Sommer 2022 auf dem öffentlichen Supercomputer Jean Zay im Rahmen des internationalen BigScience-Projekts unter Koordination von Hugging Face trainiert wurde. BLOOM blieb jedoch ein internationales Gemeinschaftsvorhaben ohne den Anspruch, ein dediziertes nationales Modell für das Französische zu sein. Seitdem war die französische Debatte über Souveränität äußerst lebhaft – der Pariser Gipfel im Februar 2025, Investitionsankündigungen, die dritte Stufe der nationalen Strategie –, doch sie mündete nicht in ein ebenso frugales und zielgerichtetes Gegenstück wie Amália: ein öffentliches, offenes Modell, angepasst an die nationale Sprache und ausgeliefert zum Preis eines Forschungsprojekts.
Die Grenzen des portugiesischen Erfolgs
Der Erfolg hat dennoch seine Grenzen. Amália bleibt eine Anpassung auf Basis eines vorhandenen Fundaments und bewegt sich mit 9 Milliarden Parametern weit unterhalb der Spitzenmodelle aus den USA oder China. Auch einige Punkte, die in der Presse häufig aufgegriffen werden, verdienen Vorsicht: Die Darstellung von Amália als „Alternative zu den amerikanischen Tech-Giganten“ stammt eher aus der medialen Rahmung als aus der Regierungssprache, die von Souveränität und Transparenz spricht.
Das Wesentliche bleibt jedoch: Ein kleines Land hat gezeigt, dass ein souveränes, offenes und an die eigene Sprache angepasstes LLM mit einem universitären Konsortium, gezielten europäischen Mitteln und Zugang zu gemeinsamer Recheninfrastruktur möglich ist. Diese Demonstration, vom Baskenland bis Deutschland wiederholt, stellt Frankreich vor eine sehr konkrete Frage. Der Supercomputer Jean Zay hat bereits BLOOM trainiert, EuroLLM ist unter offener Lizenz verfügbar, und Portugal hat das Projekt gerade mit 7 Millionen Euro beziffert: Alle Zutaten für ein nationales öffentliches Modell liegen auf dem Tisch.
