2026年7月1日,葡萄牙政府正式发布Amália。其开发团队将其描述为首个以欧洲葡萄牙语开发的开放大语言模型(LLM)。发布会在里斯本 Instituto Superior Técnico 的创新中心举行,标志着该项目从2025年9月交付基础版本后,正式进入开源阶段。该项目由恢复与韧性计划(PRR)资助,公共投资到2027年将增至700万欧元。Amália 提出了一个超越里斯本本地意义的问题:一个只有一千万人口的国家,如何交付一个主权 LLM,而法国尽管资源更充足、且拥有全球级“冠军企业”,却至今仍没有任何国家级公共语言模型?
葡萄牙交付的具体情况
根据葡萄牙政府官方公告,Amália 被介绍为首个以欧洲葡萄牙语开发的开放语言模型。该项目由葡萄牙多所大学和研究中心组成的联盟完成,汇聚了60多名研究人员。项目由 NOVA University of Lisbon 牵头,联合 Instituto Superior Técnico、Coimbra 大学、Porto 大学和 Minho 大学,并得到科学与技术基金会(FCT)支持。该模型以开源方式发布,采用 Apache 2.0 许可证,并已在 Hugging Face 平台以amalia-llm组织名义上线。
官方公告称,该模型经过训练,可理解文本、文档、图像和语音,并针对该国的语言、法律语境和现实需求进行了适配。实际上,这种多模态能力是由团队发布的多个独立模型分别承担的(文本模型、视觉模型、语音识别模块),而非集成于单一系统之中。其文本核心模型拥有90亿参数,也并非从零训练,而是建立在已有基础模型之上,包括EuroLLM-9B这一开源欧洲多语言模型,以及此前的葡萄牙语模型 GlorIA。已发布的技术文档显示,新版本是在 EuroLLM 的预训练基础上继续扩展,以更好覆盖欧洲葡萄牙语知识,并将上下文窗口扩展至32,000个 token。
这一点也解释了预算规模。对现有基础模型进行适配,成本通常比从头训练一个基础模型低一个数量级;而后者对于前沿模型来说,往往需要数千万甚至数亿美元。因此,最初的550万欧元,加上到2027年前追加的150万欧元,主要用于模型适配、数据增强、多模态能力补充以及数十名工程与研究人员的协作,并依托欧洲范围内高度共享的计算基础设施。这也正是该项目能在有限公共预算下落地的原因。
一种已在欧洲验证过的方法
葡萄牙模式实际上沿用了欧洲已相当成熟的一条路线:基于现有开放底座模型,针对本国语言和本国场景进行微调,借助 EuroHPC 计划下的欧洲公共超级计算资源,并以开源形式发布成果。巴斯克地区也采取了类似路径,推出了 Latxa——在大学中心推动下,将 Llama 2 适配为巴斯克语模型。西班牙则更进一步,推出 ALIA,这是一款在 Barcelona Supercomputing Center 训练的400亿参数模型;德国则在2024年底交付 Teuken-7B,它是公共联盟 OpenGPT-X 的成果,由联邦经济部提供约1400万欧元资金支持。
这些项目的共同点更多体现在制度架构,而不是单纯性能:大学联盟、定向公共资金、共享的欧洲底座模型与计算资源。在欧盟层面,OpenEuroLLM 项目于2025年2月启动,汇聚约20家机构,目标是构建覆盖所有官方语言的一系列模型;该项目已获得多个 EuroHPC 超级计算中心的战略访问权限。由此可见,欧洲的语言主权正在通过各国分块建设、再由共同基础设施支撑的方式逐步形成,而不是依赖一个单一的大陆级模型。
法国的对比
正是在这一背景下,法国的情况显得格外耐人寻味。法国拥有一家世界级企业 Mistral AI,其于2025年9月完成 C 轮融资后,估值达到约117亿欧元。但 Mistral 是一家私营公司,尽管发布了权重开放的模型,却并不是由公共部门资助、治理的公共模型。就国家层面而言,最接近的工具是 Albert,由 Direction interministérielle du numérique 开发:这是一套主权基础设施,在国家服务器上汇聚并提供来自 Meta、Mistral 等第三方开放模型,而不是一个由公共资金训练的语言模型。
法国其实也有一个重要先例:BLOOM。它是一个1760亿参数的多语言大模型,于2022年夏季在公共超级计算机 Jean Zay 上训练完成,隶属于由 Hugging Face 协调的国际项目 BigScience。不过,BLOOM 仍是一次国际协作成果,并未作为面向法语的专属国家模型而设计。此后,法国围绕主权问题的讨论不断升温——包括2025年2月巴黎峰会、投资宣布以及国家战略第三阶段——但始终没有产出像 Amália 这样节制而精准的成果:一个公共、开放、适配本国语言、且交付成本仅相当于一个科研项目的模型。
葡萄牙成就的边界
当然,这一成就也有其局限。Amália 仍然是基于现有底座模型的适配,其能力上限也只是90亿参数级 LLM,远不及美国或中国的前沿系统。媒体中常见的一些表述也值得谨慎看待:将 Amália 描述为“美国巨头的替代方案”,更多是媒体叙事框架,而非政府表述;政府更强调的是主权与透明性。
但最重要的事实依然不变:一个小国已经证明,只要有大学联盟、欧盟资金定向支持,以及共享计算基础设施的使用权限,就能够交付一个主权、开放、且适配本国语言的 LLM。从巴斯克地区到德国,再到葡萄牙,类似实践不断重复,也把法国推到了一个非常具体的问题面前。Jean Zay 超级计算机已经训练过 BLOOM,EuroLLM 也已在开放许可下可用,而葡萄牙刚刚把这项工程的成本明确到700万欧元:一个国家级公共模型所需的一切要素,其实都已摆在桌面上。
