Нова модель

Поки Франція дискутує про суверенітет ШІ, Португалія вже реалізувала свій за 7 млн євро

1 липня 2026 року Португалія офіційно представила Amália — першу відкриту велику мовну модель, створену європейською португальською мовою, профінансовану з державного бюджету на 7 млн євро. На тлі цього запуску Франція, яка досі не має національної публічної LLM і спирається на приватного чемпіона Mistral, опиняється перед незручним питанням про свою стратегію цифрового суверенітету.

STStephane Nachez · ·5 min
Поки Франція дискутує про суверенітет ШІ, Португалія вже реалізувала свій за 7 млн євро
Visuel d'illustration généré par IA - ActuIA
Зміст

1 липня 2026 року уряд Португалії офіційно представив Amália — за словами розробників, першу відкриту велику мовну модель (LLM), створену європейською португальською мовою. Подія, що відбулася в центрі інновацій Instituto Superior Técnico у Лісабоні, ознаменувала перехід у відкритий код моделі, базова версія якої була передана ще у вересні 2025 року. Проєкт, профінансований у межах Плану відновлення та стійкості (PRR), отримав публічні інвестиції на рівні 7 млн євро до 2027 року. І це ставить питання, яке виходить далеко за межі Лісабона: як країна з населенням у десять мільйонів людей змогла випустити суверенну LLM, тоді як Франція, попри значно більші ресурси та наявність глобального чемпіона, досі не має жодної національної публічної мовної моделі?

Португальська реалізація в деталях

Згідно з офіційним повідомленням уряду Португалії, де Amália представлено як першу відкриту мовну модель, розроблену європейською португальською мовою, проєкт є результатом роботи консорціуму португальських університетів і дослідницьких центрів, який залучив понад шістдесят дослідників. Координацію здійснює NOVA University of Lisbon разом із Instituto Superior Técnico та університетами Coimbra, Porto і Minho, за підтримки Fundação para a Ciência e a Tecnologia (FCT). Модель доступна в open source за ліцензією Apache 2.0 і опублікована на платформі Hugging Face в організації amalia-llm.

У повідомленні йдеться про модель, натреновану для роботи з текстом, документами, зображеннями та мовленням, а також адаптовану до мови, правового контексту й національних реалій країни. Насправді ж ця мультимодальність розподілена між кількома окремими моделями, оприлюдненими командою (текстова модель, vision-модель, модуль розпізнавання мовлення), а не зосереджена в одному системному рішенні. Текстове ядро — модель із 9 млрд параметрів — не навчали з нуля: воно спирається на вже існуючі базові моделі, зокрема EuroLLM-9B, відкриту європейську багатомовну модель, а також на GlorIA, попередню португальськомовну модель. Технічна документація до оприлюдненої версії вказує, що вона продовжує переднавчання EuroLLM, щоб краще охоплювати знання про європейську португальську мову, і розширює контекстне вікно до 32 000 токенів.

Саме це пояснює бюджет. Адаптація вже наявної базової моделі коштує на порядок менше, ніж навчання моделі з нуля — операції, яка для провідних систем оцінюється в десятки або навіть сотні мільйонів. Початкові 5,5 млн євро, доповнені ще 1,5 млн до 2027 року, фінансують адаптацію, збагачення даними, додавання мультимодальних можливостей та інженерну роботу кількох десятків фахівців на європейській обчислювальній інфраструктурі, яка значною мірою є спільною. Саме це й робить проєкт реалістичним для скромного публічного бюджету.

Метод, який уже довів свою ефективність у Європі

Португальський кейс застосовує рецепт, який уже добре окреслився в Європі: взяти відкриту базову модель, адаптувати її до національної мови та контексту, використати публічні європейські суперкомп’ютери програми EuroHPC і оприлюднити результат у форматі open source. Країна Басків пішла тим самим шляхом із Latxa — адаптацією Llama 2 до еускари, яку реалізував університетський центр. Іспанія пішла ще далі з ALIA — моделлю на 40 млрд параметрів, натренованою в Barcelona Supercomputing Center, тоді як Німеччина наприкінці 2024 року представила Teuken-7B, результат консорціуму OpenGPT-X, профінансованого Міністерством економіки Німеччини приблизно на 14 млн євро.

Спільним для цих ініціатив є передусім інституційна архітектура, а не «максимальна продуктивність»: університетський консорціум, цільове державне фінансування, спільна європейська базова модель і обчислювальні ресурси. На рівні ЄС проєкт OpenEuroLLM, запущений у лютому 2025 року та який об’єднує близько двадцяти організацій, прагне створити сімейство моделей, що охоплюватиме всі офіційні мови; він уже отримав стратегічний доступ до кількох суперкомп’ютерів EuroHPC. Таким чином європейський мовний суверенітет вибудовується через національні «цеглинки», що спираються на спільну інфраструктуру, а не через одну континентальну модель.

Французький контраст

Саме на цьому тлі французький кейс виглядає особливо промовисто. Франція має чемпіона світового рівня — Mistral AI, чия серія C у вересні 2025 року оцінила компанію приблизно в 11,7 млрд євро. Але Mistral — це приватна компанія, яка публікує моделі з відкритими вагами, однак не є державною моделлю, профінансованою та керованою публічною владою. З боку держави найближчим аналогом є Albert, розроблений Direction interministérielle du numérique: суверенна інфраструктура, що агрегує й надає доступ до сторонніх відкритих моделей, зокрема від Meta та Mistral, на державних серверах, але не мовна модель, навчена за бюджетні кошти.

Водночас у Франції є й важливий прецедент: BLOOM — велика багатомовна модель із 176 млрд параметрів, навчена влітку 2022 року на державному суперкомп’ютері Jean Zay у межах міжнародного проєкту BigScience, координованого Hugging Face. Проте BLOOM залишався міжнародною колективною ініціативою без амбіції стати окремою національною моделлю для французької мови. Відтоді французькі дискусії про суверенітет були активними — саміт у Парижі в лютому 2025 року, анонси інвестицій, третій етап національної стратегії — але так і не привели до появи настільки ж компактного й цільового рішення, як Amália: публічної, відкритої моделі, адаптованої до національної мови й створеної за вартість дослідницького проєкту.

Межі португальського успіху

Втім, цей успіх має свої межі. Amália все ще є адаптацією вже наявної бази, а її масштаб відповідає LLM із 9 млрд параметрів, що далеко від провідних американських або китайських систем. Деякі формулювання, які часто з’являються в пресі, також варто сприймати обережно: опис Amália як «альтернативи американським гігантам» належить радше до медійного обрамлення, ніж до офіційної урядової риторики, яка говорить насамперед про суверенітет і прозорість.

Але головне залишається незмінним: невелика країна довела, що суверенну, відкриту й адаптовану до своєї мови LLM можна створити через університетський консорціум, спрямування європейського фінансування та доступ до спільної обчислювальної інфраструктури. Цей приклад, який уже повторювався від Країни Басків до Німеччини, ставить Францію перед дуже конкретним питанням. Supercalculateur Jean Zay уже тренував BLOOM, EuroLLM доступна за відкритою ліцензією, а Португалія щойно оцінила всю операцію в 7 млн євро: всі складові для національної публічної моделі вже лежать на столі.

ST
Stephane Nachez

Редакція ActuIA — новини, дані й аналітика про штучний інтелект для керівників.

Згадані учасники
BABarcelona Supercomputing Center
HUHugging Face
OPOpenEuroLLM
MIMistral AI
ALAllemagne
EUEuroHPC
ESEspagne
FRFrance
Щотижневик ActuIA

Підписку підтверджено, до зустрічі!