Enquanto a França debate a soberania em IA, Portugal já entregou a sua por 7 M€

Em 1 de julho de 2026, o governo português apresentou oficialmente Amália, apresentado pelos seus criadores como o primeiro grande modelo de linguagem (LLM) aberto desenvolvido em português europeu. O evento, realizado no centro de inovação do Instituto Superior Técnico, em Lisboa, marca a passagem em código aberto de um modelo cuja versão-base havia sido entregue em setembro de 2025. Financiado pelo Plano de Recuperação e Resiliência (PRR), com um investimento público que deverá atingir 7 milhões de euros até 2027, Amália levanta uma questão que ecoa muito além de Lisboa: como é que um país de dez milhões de habitantes entrega um LLM soberano quando a França, apesar dos seus meios e de um campeão mundial, continua sem um modelo de linguagem público nacional?

A entrega portuguesa em detalhe

Segundo o comunicado oficial do governo português, que apresenta Amália como o primeiro modelo de linguagem aberto desenvolvido em português europeu, o projeto resulta de um consórcio de universidades e centros de investigação portugueses, mobilizando mais de sessenta investigadores. A coordenação cabe à NOVA University de Lisboa, em conjunto com o Instituto Superior Técnico e as universidades de Coimbra, Porto e Minho, com o apoio da Fundação para a Ciência e a Tecnologia (FCT). O modelo é disponibilizado em código aberto sob licença Apache 2.0, publicado na plataforma Hugging Face sob a organização amalia-llm.

O comunicado descreve um modelo treinado para compreender texto, documentos, imagens e fala, e adaptado à língua, ao contexto jurídico e à realidade nacional do país. Na verdade, esta multimodalidade está distribuída por vários modelos distintos publicados pela equipa — um modelo de texto, um modelo de visão e um componente de reconhecimento de voz —, e não concentrada num sistema único. O núcleo textual, um modelo de 9 mil milhões de parâmetros, não foi treinado de raiz: assenta em modelos-base já desenvolvidos, incluindo EuroLLM-9B, um modelo multilingue europeu aberto, bem como em GlorIA, um modelo anterior em português. A documentação técnica da versão publicada indica que esta prolonga o pré-treino de EuroLLM para cobrir melhor o conhecimento em português europeu e amplia a janela de contexto para 32 000 tokens.

Esta precisão explica o orçamento. Adaptar um modelo de fundação existente custa uma ordem de grandeza menos do que treinar um de raiz, operação que se mede em dezenas, ou até centenas, de milhões para os modelos de topo. Os 5,5 milhões de euros iniciais, reforçados por mais 1,5 milhão até 2027, financiam assim uma adaptação, o enriquecimento de dados, a adição de capacidades multimodais e a engenharia de várias dezenas de pessoas, numa infraestrutura de cálculo europeia amplamente partilhada. É precisamente isso que torna a operação sustentável para um orçamento público modesto.

Um método já testado noutras partes da Europa

O caso português segue uma receita hoje bem identificada na Europa: partir de uma base aberta já existente, adaptá-la a uma língua e a um contexto nacionais, recorrer aos supercomputadores públicos europeus do programa EuroHPC e publicar o resultado em open source. O País Basco seguiu o mesmo caminho com Latxa, adaptação de Llama 2 ao euskara liderada por um centro universitário. A Espanha foi mais longe com ALIA, um modelo de 40 mil milhões de parâmetros treinado no Barcelona Supercomputing Center, enquanto a Alemanha entregou no final de 2024 o Teuken-7B, fruto do consórcio público OpenGPT-X, financiado em cerca de 14 milhões de euros pelo Ministério Federal da Economia.

Estas iniciativas partilham uma arquitetura institucional mais do que uma performance: um consórcio universitário, financiamento público direcionado, uma base e computação europeias partilhadas. À escala da União, o projeto OpenEuroLLM, lançado em fevereiro de 2025 e reunindo cerca de vinte organizações, visa uma família de modelos que cubra todas as línguas oficiais; obteve acesso estratégico a vários supercomputadores EuroHPC. A soberania linguística europeia constrói-se assim por blocos nacionais apoiados numa infraestrutura comum, e não por um único modelo continental.

O contraste francês

É sob esta perspetiva que o caso francês se torna incómodo. A França dispõe de um campeão de classe mundial, Mistral AI, cuja série C avaliou a empresa em cerca de 11,7 mil milhões de euros em setembro de 2025. Mas Mistral é uma empresa privada que publica modelos com pesos abertos sem ser um modelo público financiado e governado pelo poder público. Do lado do Estado, a ferramenta mais próxima chama-se Albert, desenvolvida pela Direction interministérielle du numérique: uma infraestrutura soberana que agrega e serve modelos abertos de terceiros, incluindo os da Meta e da Mistral, em servidores do Estado, e não um modelo de linguagem treinado com fundos públicos.

A França, no entanto, tem um precedente marcante: BLOOM, um grande modelo multilingue de 176 mil milhões de parâmetros treinado no verão de 2022 no supercomputador público Jean Zay, no âmbito do projeto internacional BigScience coordenado pela Hugging Face. Ainda assim, BLOOM permaneceu um esforço coletivo internacional, sem vocação para modelo nacional dedicado ao francês. Desde então, o debate francês sobre soberania tem sido prolífico (a cimeira de Paris em fevereiro de 2025, os anúncios de investimento, a terceira fase da estratégia nacional), sem dar origem ao equivalente frugal e focado que é Amália: um modelo público, aberto, adaptado à língua nacional, entregue pelo preço de um projeto de investigação.

Os limites da proeza portuguesa

O feito tem, ainda assim, os seus limites. Amália continua a ser uma adaptação de uma base existente, com o alcance de um LLM de 9 mil milhões de parâmetros, longe dos sistemas de ponta americanos ou chineses. Aliás, alguns elementos frequentemente retomados pela imprensa merecem prudência: a apresentação de Amália como uma «alternativa aos gigantes americanos» resulta mais do enquadramento mediático do que do discurso governamental, que fala, isso sim, de soberania e transparência.

O essencial mantém-se: um pequeno país demonstrou que um LLM soberano, aberto e adaptado à sua língua pode ser obtido com um consórcio universitário, uma afetação de fundos europeus e acesso a uma infraestrutura de cálculo partilhada. A demonstração, repetida do País Basco à Alemanha, coloca a França perante uma questão muito concreta. O supercomputador Jean Zay já treinou BLOOM, EuroLLM está disponível sob licença aberta e Portugal acaba de quantificar a operação em 7 milhões de euros: todos os ingredientes de um modelo público nacional estão em cima da mesa.

Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.