Досьє / поглиблений аналіз

Справжній виклик ШІ в компаніях уже не в моделі, а в її експлуатації

У червні 2026 року найбільші cloud-провайдери зміщують фокус із гонки моделей на експлуатацію AI-агентів. У центрі MLOps опиняються бізнес-контекст, governance, observability та собівартість інференсу, а cloud дедалі більше виступає як операційна система ШІ.

STStephane Nachez · ·11 min
Справжній виклик ШІ в компаніях уже не в моделі, а в її експлуатації
Visuel d'illustration créé avec l'IA
Зміст

У червні 2026 року найважливіший сигнал для бізнесу — не поява чергового LLM і навіть не гонка бенчмарків. Справжній зсув, який видно у Google Cloud, AWS, Microsoft і Databricks, відбувається в іншому: MLOps стає дисципліною експлуатації агентів, а в центр одночасно виходять чотири ключові питання — бізнес-контекст, governance, observability та собівартість інференсу. Коли всі великі гравці перебудовують свої анонси навколо runtime, identity, gateways, memory, tracing та безперервної оцінки, це вже не тренд; це зміна рівня архітектури.

Інакше кажучи: у 2024 році головне питання було — яку модель обрати; у 2026 році рішення про перехід у production визначає вже те, хто контролює контекст, permissions, traces, витрати та можливість змінити постачальника. Microsoft майже прямо пише: вузьке місце — більше не потужність моделей, а спільний контекст компанії. Databricks, зі свого боку, пояснює, що видимий agentic loop — це лише невелика частина роботи, а решта є прихованим технічним боргом, що складається з security, deployment, monitoring, cost і quality. AWS тепер робить акцент на безперервному поліпшенні на основі production traces. Google просуває повноцінну платформу для створення, розгортання, governance та оптимізації агентів.

Це не ШІ входить у cloud; це cloud знову стає операційною системою ШІ.

Зсув, який видно у всіх провайдерів

Спільна риса анонсів цієї весни та червня вражає. Google Cloud запустив Gemini Enterprise Agent Platform як платформу для створення, масштабування, governance та оптимізації агентів, об’єднавши вибір моделей, інтеграційні інструменти, DevOps, orchestration і безпеку в одному шарі. На Google Cloud Next ’26 компанія також представила Agent Developer Kit на основі графів, а також Agent Studio для створення, тестування й публікації агентів у великому масштабі.

У Microsoft меседж Build 2026 майже не менш прямолінійний. Компанія заявляє, що проблема вже не в потужності моделі, а в здатності забезпечити узгоджений data context для агентів, які мають діяти в бізнес-системах. Офіційна сторінка Build 2026 серед ключових анонсів виділяє блоки від «observability to ROI for AI agents» до portable governance агентів, а також розгортання та виконання Foundry у масштабі.

AWS, зі свого боку, перевів Bedrock AgentCore у логіку промислової експлуатації. У повідомленні від 18 червня 2026 року про нові можливості оптимізації акцент зроблено не на створенні агентів, а на циклі, в якому production traces допомагають зрозуміти, що відбувається, виправити збої та довести, що корекції реально покращують систему. AWS навіть формулює головний ризик дуже чітко: найнебезпечніші збої — це не ті, що повертають помилку, а тихі відмови, які стають помітними лише постфактум у скаргах клієнтів.

Databricks говорить про те саме іншими словами. У своєму матеріалі DAIS 2026 компанія пояснює, що agentic loop — це лише «1%» видимої роботи, тоді як решта «99%» — це deployment, token capacity, security, evaluation, observability, context і sharing. Найцікавіше тут не стільки саме оголошення продукту, скільки рамка: для Databricks ринкова проблема вже не в тому, як показати демо агента, а в тому, як експлуатувати надійну agentic system.

Висновок для керівника простий: коли Google, AWS, Microsoft і Databricks, кожен зі своєю термінологією, сходяться до одних і тих самих блоків — runtime, identity, memory, gateways, tracing, scoring, governance — це означає вихід із циклу «POC + hype» в цикл архітектури. Центр ваги MLOps зміщується від моделі до ланцюга експлуатації.

Чому MLOps перетворюється на AgentOps

Цей зсув змінює саму природу технічного стеку. У класичному MLOps головне було версіонувати дані та моделі, розгорнути endpoint, відстежувати кілька метрик і потім перезапускати pipeline retraining. У стеку 2026 року додатково потрібно керувати runtime агентів, short- і long-term memory, правами дії, зовнішніми інструментами, execution traces, якістю відповідей, відповідністю поведінки та latency багатокрокових ланцюжків. Google уже документує цю багатошаровість: Agent Platform пропонує керований runtime, sessions, Memory Bank, функції logging, tracing і monitoring, а також identity для кожного агента.

Найцікавіша деталь — це, мабуть, зростання значення agentic identity. У документації Google Agent Identity базується на криптографічно підтвердженій ідентичності, побудованій на стандарті SPIFFE, щоб автентифікувати агента перед MCP-серверами, cloud-ресурсами, endpoints та іншими агентами. Інакше кажучи, питання вже не лише в тому, «хто викликає API?», а в тому, «який саме агент діє, від чийого імені та в межах яких прав?». Це суттєвий зсув: безпека піднімається на рівень автоматизованої поведінки.

AWS рухається в тому самому напрямку з AgentCore Gateway, який перетворює API, Lambda-функції та наявні сервіси на інструменти, сумісні з Model Context Protocol, із вхідною та вихідною автентифікацією, готовими інтеграціями та тонким контролем доступу. Цей шар є стратегічним, бо він з’єднує світ агентів із реальним SI: CRM, поштою, тикетами, документацією, базами даних, workflows. MLOps тоді перестає бути суто «model» темою і стає темою платформи + інтеграції + безпеки.

Інший зсув — це якісна observability. MLflow 3 у Databricks уже об’єднує tracking, evaluation та observability GenAI-додатків і агентів із real-time traces, scorers, human feedback і versioning. У production Databricks пропонує monitoring, який автоматично запускає scorers на вибірках traces, щоб безперервно оцінювати якість, — це ознака того, що тепер оцінюють не лише версію до релізу, а реальну поведінку після запуску. AWS каже про те саме іншою мовою: AgentCore Observability надає метрики в реальному часі щодо кількості сесій, latency, тривалості, використання tokens і error rate, із фільтрацією за metadata для розслідувань.

Нарешті, сама інфраструктура інференсу стає більше «platform», ніж просто «GPU hosting». CNCF нагадує, що Inference Gateway на базі Gateway API вже отримав GA і дозволяє маршрутизувати трафік за назвою моделі, LoRA adapters та станом endpoints, щоб краще спільно використовувати серверні пули й підвищувати завантаження accelerator-ів. Google підсилює цей рух інтеграцією NVIDIA Dynamo з GKE Inference Gateway, одночасно анонсуючи VM G4, які можна дробити для кращого dimensioning навантажень. І тут питання вже не лише в тому, де знайти GPU, а в тому, як дисципліновано використовувати інференсну потужність, спільно її розподіляти та тонко арбітрувати.

Для організації це принципово змінює картину: MLOps тепер має працювати разом із безпекою, cloud platform, data engineering, командами IAM, FinOps і, подекуди, юридичним відділом. «AgentOps» — це не нове модне слово; це доказ того, що експлуатація ШІ виходить із data science-силосу та входить у ядро операційної системи компанії.

Прихована вартість, яка зрештою повертається в бюджет

Саме тут тема стає по-справжньому управлінською. Згідно зі State of the Cloud 2026 від Flexera, 58% організацій уже використовують public cloud GenAI-сервіси, 45% кажуть, що використовують їх масштабно, 73% працюють у гібридній моделі, 49% тепер застосовують unit economics, щоб пов’язати cloud-витрати з бізнес-результатами, а частка IaaS/PaaS waste оцінюється на рівні 29%. Flexera також зазначає, що 64% організацій тепер вимірюють cloud більше через цінність для бізнесу, ніж через суто cost efficiency. Це не дрібниця: розмова переходить від «скільки це коштує?» до «яка собівартість на сервіс, на usage, на workflow, на команду, на клієнта?».

Ця еволюція добре узгоджується з тим, що вже бачать європейські компанії на практиці. Reuters повідомляє, що такі групи, як Siemens, Renault, Orange або ChapsVision, дедалі частіше працюють із кількома постачальниками, щоб знизити ризик залежності, а також тому, що вартість за token стає дедалі чутливішою, коли агенти автоматизують більше завдань. У матеріалі прямо згадується зростання уваги до unit cost і приклад token budget, який споживається набагато швидше, ніж очікувалося. Навіть фінансові ринки тепер непокояться через рівень інфраструктурних витрат на AI у hyperscalers — це означає, що питання економічної віддачі вже вийшло за межі технічного кола.

Є ще один часто неправильно зрозумілий момент: рахунок за agentic system не обмежується ціною model API. AWS у своїй сторінці AgentCore pricing показує, що навколо моделі виникають додаткові витрати — gateway calls, short-term memory, long-term memory storage, retrieval of memories, observability — окремими рядками. Опубліковані приклади тарифікації якраз і демонструють цю деталізацію: навіть без урахування вартості самої моделі agentic operating layer створює власну економіку.

Тому правильний бюджетний кут для CIO або CFO — це вже не «скільки коштує prompt?», а «яка моя повна собівартість одного корисного агента?». До цієї повної вартості мають входити щонайменше модель, зовнішні інструменти, memory, logging, tracing, безпека, guardrails, storage, context data та людський час, потрібний для evaluation і remediations. Якщо компанія не відстежує цю економічну одиницю, вона може легко побачити adoption, але не зрозуміти, чи створює той цінність, чи лише збільшує cloud load.

Саме тому FinOps змінює свою природу. Flexera вже анонсує не просто класичні функції cloud cost management, а окремий шар AI Cost Management, що охоплює applications, agents, models, data platforms і compute. Прихований меседж очевидний: витрати на ШІ більше не є додатком до cloud-витрат; вони стають окремим контуром управління, достатньо складним, щоб потребувати спеціалізованих інструментів.

Cloud для ШІ знову стає питанням суверенітету

Ще одна помилка в інтерпретації — сприймати AI cloud як простий технічний вибір між AWS, Azure та Google Cloud. У Європі в червні 2026 року це вже також питання безперервності бізнесу та операційного суверенітету. 3 червня Європейська комісія ухвалила пропозицію Cloud and AI Development Act, подану як інструмент для посилення європейської cloud- та AI-екосистеми, інвестицій і інфраструктури. Водночас офіційний календар нагадує, що AI Act повністю застосовуватиметься з 2 серпня 2026 року, а правила прозорості почнуть діяти в серпні 2026 року, при цьому загальна рамка посилює відповідальність провайдерів і тих, хто розгортає системи.

Цей політичний вимір уже відображається в архітектурах компаній. Reuters пояснює, що європейські групи прискорюють диверсифікацію моделей і постачальників після обмежень доступу до деяких американських сервісів, саме тому, що власницький віддалений сервіс може бути обмежений самим провайдером і не обов’язково придатний для роботи на власних серверах клієнта. У цьому контексті sovereignty не означає автаркію: Siemens, Orange чи Renault говорять насамперед про гнучкість, mix постачальників і наявність резервного варіанту, якщо хтось закриє доступ або змінить умови.

Саме так слід читати й анонс OVHcloud. Reuters повідомляє, що французька група хоче тренувати frontier models, щоб стати другим великим європейським гравцем у сегменті LLM, із витратами, оціненими в 150–200 мільйонів євро для цього нового технологічного циклу, що значно нижче за часто згадуваний раніше мільярд євро. Чи реалізується ініціатива комерційно, чи ні, вона показує важливу річ: суверенітет cloud для ШІ вже не є абстрактним інституційним дискурсом; він піднімається в продуктову та інфраструктурну стратегію великих європейських гравців.

Для компанії правильний бізнес-переклад цього напруження є цілком конкретним. «Суверенна» архітектура — це не просто архітектура, розміщена в Європі. Це архітектура, здатна визначити, які компоненти мають бути керованими власноруч, які інструменти повинні залишатися взаємозамінними, які context data не мають бути заручниками proprietary runtime, і за який час критичний агент може змінити модель або постачальника. Щойно агент починає діяти в бізнес-процесах, залежність від постачальника стає змінною ризику, а не просто вибором розробника.

Практична рамка для ухвалення рішень уже зараз

Отже, питання не в тому, «чи потрібно робити MLOps для generative AI?», а в тому, який саме тип експлуатації компанія хоче стандартизувати. Наведена нижче рамка узагальнює, що реально змінюють сигнали червня 2026 року для бізнесу. Вона допомагає ухвалювати рішення щодо бюджету, архітектурної траєкторії або вибору постачальника.

Параметр рішення Що змінюється у 2026 році Питання для комітету
Архітектура Базовим елементом більше не є model endpoint, а сукупність runtime + memory + gateway + identity + traces + evaluation. Чи хочемо ми стандартизувати єдиний agent runtime, чи залишити portable layer між кількома cloud і framework?
Governance Observability стає поведінковою: tokens, latency, sessions, викликані інструменти, traces, feedback, безперервне scoring. Які показники ми маємо вимагати до будь-якого production-розгортання: cost, quality, groundedness, security, time to resolution?
Бюджет AI-витрати стають складеними: модель, memory, інструменти, logs, tracing, безпека, дані, GPU capacity. Flexera фіксує зростання unit economics і cloud waste. Чи знаємо ми повну собівартість одного корисного агента, одного user journey або одного бізнес-процесу?
Бізнес-контекст Microsoft наголошує, що вузьке місце — вже не модель, а спільний контекст; Databricks робить якість контексту та governance знань одним із стовпів платформи. Які набори даних, онтології, документи та permissions є нашою “source of truth” для агентів?
Суверенітет У Європі стійкість забезпечується різноманітністю постачальників, substitutability та здатністю локально експлуатувати частину компонентів; регуляторна рамка посилюється до серпня 2026 року. Якщо постачальник змінить правила доступу, за скільки днів ми зможемо перевести критичного агента?

 

Найпрактичніший висновок полягає в тому, що закупівлі AI cloud більше не слід оцінювати насамперед за критерієм «найкраща доступна модель», а за п’ятьма менш ефектними, але значно важливішими параметрами: portability контексту, якість observability, деталізація контролів, прозорість витрат і здатність до fallback. Постачальник може бути чудовим у демонстрації та слабким в industrialization. Саме цей розрив і починає структурувати ринок.

Що вже зрозуміли ті, хто попереду

Сигнал, який варто читати наперед, такий: наступна битва в enterprise AI стосуватиметься не стільки доступу до кращої моделі, скільки здатності підтримувати агентів у економічно й юридично стійкій рамці. Організації, які вириваються вперед, — це не лише ті, що розгортають найшвидше; це ті, що роблять агентів вимірюваними, змінними та керованими. Вони трактують контекст як стратегічний актив, вартість — як product metric, а безпеку — як політику дії, а не як перелік доступів.

Водночас слід зберігати методологічну обережність. Значна частина сигналу походить із vendor announcements і product documentation; деякі функції досі перебувають у beta або preview, як-от production monitoring у MLflow 3 від Databricks. Це означає, що реальне впровадження буде повільнішим і нерівномірнішим, ніж натякають keynote-презентації. Але це не змінює головного висновку: коли чотири великі cloud- і data-екосистеми сходяться до одних і тих самих технічних примітивів, цей рух має всі шанси стати довготривалим.

Тож теза, яку варто запам’ятати, така: справжня тема MLOps і Cloud AI у 2026 році — вже не обслуговування моделі, а експлуатація агентів із контекстом, доказами та guardrails. Компанії, які сприймуть це лише як питання інструментів, відстануть. Ті ж, хто побачить у цьому перебудову cloud governance, фінансового контролю та операційного управління, будуть краще підготовлені до наступної хвилі.

ST
Stephane Nachez

Редакція ActuIA — новини, дані й аналітика про штучний інтелект для керівників.

Згадані учасники
GOGoogle Cloud
CHChapsVision
MIMicrosoft
OVOVHcloud
REReuters
SISiemens
RERenault
OROrange
Щотижневик ActuIA

Підписку підтверджено, до зустрічі!