Red Hat AI Inference Server: до відкритої стандартизації AI інференції у бізнесі

Red Hat AI Inference Server: до відкритої стандартизації AI інференції у бізнесі

У короткому : Red Hat випустила Red Hat AI Inference Server, open source рішення для спрощення та покращення виконання AI моделей в гібридних хмарних середовищах. Оснащений передовими інструментами оптимізації, він пропонує гнучкість виконання на будь-якому типі AI прискорювача та в будь-якій хмарі, сприяючи демократизації генеративного AI в бізнесі.

На Red Hat Summit 2025, Red Hat оголосила про запуск Red Hat AI Inference Server, нового компонента в лінійці Red Hat AI. Розроблене для хмарних гібридних середовищ, це open source рішення спрямоване на спрощення виконання генеративних AI моделей, одночасно покращуючи їх операційну продуктивність.
Inference сервер діє як інтерфейс між AI додатками та великими мовними моделями (LLMs), полегшуючи генерацію відповідей на основі вхідних даних. Оскільки розгортання LLMs множаться у виробництві, фаза інференції стає критично важливою як з технічної, так і з економічної точки зору.
Базуючись на проекті спільноти vLLM, ініційованому Університетом Берклі, Red Hat AI Inference Server включає передові інструменти оптимізації, серед яких інструменти Neural Magic, що дозволяють зменшити енергоспоживання, прискорити обчислення та підвищити рентабельність. Доступний у контейнеризованій версії або інтегрований у рішення RHEL AI та Red Hat OpenShift AI, він пропонує велику гнучкість, виконуючись на будь-якому типі AI прискорювача та в будь-якій хмарі.
Серед основних оголошених функцій:
  • Інтелектуальне стиснення моделей для зменшення їх розміру без втрати точності;
  • Оптимізоване сховище перевірених моделей, доступне через сторінку Red Hat AI на Hugging Face;
  • Інтероперабельність з сторонніми платформами, включаючи Linux та Kubernetes за межами середовища Red Hat;
  • Корпоративна підтримка, успадкована з досвіду Red Hat в індустріалізації open source технологій.
Рішення підтримує численні провідні мовні моделі (Gemma, Llama, Mistral, Phi), одночасно інтегруючи останні розробки в мові vLLM: обробка на кількох GPU, безперервний пакетинг, розширений контекст та висока швидкість інференції.
З цією заявою, Red Hat підкреслює свою прихильність до створення vLLM як відкритого стандарту для AI інференції, сприяючи підвищеній інтероперабельності та зміцнюючи технологічний суверенітет компаній. Задовольняючи зростаючі потреби в індустріальній інференції, він активно сприяє демократизації генеративного AI.
  • Інструменти стиснення моделей, що дозволяють зменшити їх розмір та енергетичний відбиток без втрати точності;
  • Оптимізоване сховище, розміщене на сторінці Red Hat AI на Hugging Face;
  • Корпоративна підтримка та інтероперабельність з сторонніми платформами, включаючи Linux та Kubernetes поза Red Hat.

До демократизації генеративного AI

Рішення нативно підтримує кілька провідних мовних моделей, включаючи Gemma, Llama, Mistral та Phi, і використовує останні функції vLLM: висока швидкість інференції, обробка на кількох GPU, безперервний пакетинг та розширений вхідний контекст.
Red Hat прагне зробити мову vLLM відкритим стандартом для інференції генеративного AI в бізнесі незалежно від моделі AI, базового прискорювача та середовища розгортання.

Краще зрозуміти

Що таке проект vLLM і чому він важливий для інференції штучного інтелекту?

Проект vLLM, ініційований Університетом Берклі, є передовою технологією для оптимізації мовних моделей. Він покращує експлуатаційну ефективність моделей штучного інтелекту через інновації, такі як багатопроцесорна обробка та висока пропускна здатність інференції, зменшуючи таким чином споживання енергії та підвищуючи прибутковість.

Як інтелектуальне стиснення моделей ШІ може зменшити споживання енергії без втрати точності?

Інтелектуальне стиснення зменшує розмір моделей ШІ, усуваючи надмірності та оптимізуючи обчислення, що зменшує потреби у ресурсах, зберігаючи при цьому точність завдяки передовим алгоритмам оптимізації.