2026年7月1日、ポルトガル政府はAmáliaを正式に発表した。開発者らによれば、これは欧州ポルトガル語で開発された初のオープンな大規模言語モデル(LLM)である。リスボンのInstituto Superior Técnico のイノベーションセンターで行われたこの発表は、2025年9月にベース版が提供されていたモデルが、ついにオープンソースとして公開されたことを意味する。復興・強靭化計画(PRR)によって資金提供され、2027年までに公的投資額は700万ユーロに達する見込みだ。Amáliaは、10万人ではなく1000万人規模の国が、いかにして主権的LLMを提供できるのかという、リスボンを超えて広く響く問いを投げかけている。一方のフランスは、十分な手段を持ちながらも、そして世界的な旗艦企業を抱えながらも、いまだに公的な国家LLMを持っておらず、民間の雄であるMistralに依存している。
ポルトガルの提供内容を詳しく見る
ポルトガル政府の公式発表によると、Amáliaは欧州ポルトガル語で開発された初のオープンな言語モデルとして位置づけられている。このプロジェクトは、ポルトガル国内の大学や研究機関から成るコンソーシアムの成果であり、60人以上の研究者が関わっている。調整役はNOVA University Lisbonが担い、Instituto Superior Técnico、Coimbra大学、Porto大学、Minho大学が参加し、科学技術財団(FCT)が支援している。モデルはApache 2.0ライセンスの下でオープンソース公開され、Hugging Face上のamalia-llm組織から提供されている。
同発表では、このモデルはテキスト、文書、画像、音声を理解し、同国の言語、法的文脈、社会的現実に適応していると説明されている。実際には、このマルチモーダル機能はチームが公開した複数の別々のモデル(テキストモデル、ビジョンモデル、音声認識コンポーネント)に分かれており、単一の統合システムに集約されているわけではない。中核となる9億パラメータ級のテキストモデルはゼロから学習されたものではなく、EuroLLM-9Bのような既存のオープンな欧州多言語基盤モデルや、以前のポルトガル語モデルであるGlorIAを土台としている。公開版の技術文書によれば、EuroLLMの事前学習を延長して欧州ポルトガル語の知識をより広くカバーし、コンテキスト長を32,000トークンに拡張している。
この点が予算規模を説明している。既存の基盤モデルを調整するコストは、ゼロから学習する場合と比べて桁違いに小さい。最先端モデルの完全学習には数千万から、場合によっては数億ユーロが必要になることもある。したがって、当初の550万ユーロに2027年までの追加150万ユーロを加えた資金は、モデルの適応、データの拡充、マルチモーダル機能の追加、そして数十人規模のエンジニアリングを、欧州内で広く共有された計算基盤の上で賄うものとなる。まさにこれが、限られた公的予算でも実行可能な理由である。
すでに欧州で実証されてきた手法
ポルトガルのケースは、欧州でいまや定着しつつある手法を踏襲している。すなわち、既存のオープンな基盤を出発点にし、それを国の言語と文脈に適応させ、EuroHPCプログラムの欧州公共スーパーコンピュータを活用し、その結果をオープンソースで公開するという方法だ。バスク自治州も同様に、大学センター主導でLlama 2をeuskara向けに適応させたLatxaを進めた。スペインはさらに踏み込み、Barcelona Supercomputing Centerで学習された400億パラメータのALIAを発表した。一方、ドイツでは2024年末に、連邦経済省の約1,400万ユーロの資金提供を受けた公的コンソーシアムOpenGPT-Xの成果としてTeuken-7Bが公開された。
これらの取り組みに共通するのは、性能そのものよりも制度設計である。すなわち、大学コンソーシアム、公的資金の重点投入、欧州で共有される基盤モデルと計算資源という構造だ。EU全体では、2025年2月に始動したOpenEuroLLMが、約20の組織を束ね、すべての公用語をカバーするモデル群の構築を目指している。このプロジェクトは、複数のEuroHPCスーパーコンピュータへの戦略的アクセスを獲得した。こうして欧州の言語主権は、単一の大陸共通モデルではなく、共通インフラに支えられた国別の構成要素によって築かれている。
フランスとの対照
この観点から見ると、フランスの状況は際立っている。フランスには、2025年9月のシリーズCで企業評価額117億ユーロに達したMistral AIという世界水準の旗手が存在する。しかしMistralは民間企業であり、重みを公開するモデルを提供してはいるものの、公的資金と公的統治のもとで運営される公共モデルではない。国家側で最も近い仕組みは、デジタル担当省庁間局(Direction interministérielle du numérique)が開発したAlbertだ。これは、MetaやMistralを含む外部のオープンモデルを集約し、国家のサーバー上で提供する主権的インフラであり、公的資金で学習された言語モデルそのものではない。
それでもフランスには重要な前例がある。BLOOMは、Hugging Faceが主導する国際プロジェクトBigScienceの一環として、2022年夏に公共スーパーコンピュータJean Zay上で学習された、1,760億パラメータの大規模多言語モデルだった。ただしBLOOMは、フランス語専用の国家モデルというより、国際的な共同成果だった。その後、フランス国内では主権をめぐる議論が活発に展開されてきたが(2025年2月のパリAIサミット、投資発表、国家戦略の第3段階など)、Amáliaのような、公開され、国語に適応し、研究プロジェクト並みの費用で提供される実用的な公共モデルには至っていない。
ポルトガルの成功にも限界はある
もっとも、この成果にも限界はある。Amáliaはあくまで既存の基盤を適応させたものであり、その規模は90億パラメータ級のLLMにとどまる。米国や中国の最先端システムには遠く及ばない。さらに、報道でしばしば引用される表現の中には慎重さが必要なものもある。Amáliaを「米国の巨大企業に対する代替手段」とする見方はメディアのフレーミングに近く、政府の説明ではむしろ主権と透明性が強調されている。
それでも本質は明確だ。小国であっても、大学コンソーシアム、欧州資金の適切な配分、共有型計算インフラへのアクセスがあれば、主権的でオープン、かつ自国語に適応したLLMを実現できることを示したのである。バスク自治州からドイツまで繰り返されてきたこの実証は、フランスに極めて具体的な問いを突きつけている。Jean ZayではすでにBLOOMが学習され、EuroLLMはオープンライセンスで利用可能であり、ポルトガルは今回その運用コストを700万ユーロと示した。国家公的モデルに必要な要素は、すでにすべて机の上に揃っている。
