Red Hat AI Inference Server: w kierunku otwartego standardu inferencji AI w przedsiębiorstwach

Podczas Red Hat Summit 2025, Red Hat ogłosił wprowadzenie Red Hat AI Inference Server, nowego elementu z serii Red Hat AI. Zaprojektowane dla środowisk chmurowych hybrydowych, to rozwiązanie open source ma na celu uproszczenie wykonywania modeli AI generatywnej, jednocześnie poprawiając ich wydajność operacyjną.

Serwer inferencyjny działa jako interfejs między aplikacjami AI a dużymi modelami językowymi (LLM), ułatwiając generowanie odpowiedzi na podstawie danych wejściowych. W miarę jak wdrożenia LLM w produkcji stają się coraz powszechniejsze, faza inferencji staje się kluczowym wyzwaniem zarówno technicznym, jak i ekonomicznym.

Opierając się na projekcie społecznościowym vLLM, zainicjowanym przez Uniwersytet Berkeley, Red Hat AI Inference Server zawiera zaawansowane narzędzia optymalizacyjne, w tym te od Neural Magic, umożliwiając redukcję zużycia energii, przyspieszenie obliczeń i lepszą opłacalność. Dostępny w wersji konteneryzowanej lub zintegrowany z rozwiązaniami RHEL AI i Red Hat OpenShift AI, oferuje dużą elastyczność, działając na każdym typie akceleratora AI i w dowolnej chmurze.

Wśród głównych funkcji ogłoszonych:

Inteligentna kompresja modeli, aby zmniejszyć ich rozmiar bez utraty precyzji;
Optymalizowany repozytorium modeli zatwierdzonych, dostępny poprzez stronę Red Hat AI na Hugging Face;
Interoperacyjność z platformami trzecimi, w tym Linux i Kubernetes poza środowiskiem Red Hat;
Wsparcie dla przedsiębiorstw oparte na doświadczeniu Red Hat w industrializacji technologii open source.

Rozwiązanie obsługuje wiele wiodących modeli językowych (Gemma, Llama, Mistral, Phi), integrując najnowsze osiągnięcia języka vLLM: przetwarzanie multi-GPU, ciągłe grupowanie, rozszerzony kontekst i inferencję o wysokiej przepustowości.

Dzięki temu ogłoszeniu, Red Hat potwierdza swoje zaangażowanie w uczynienie vLLM otwartym standardem inferencji AI, sprzyjając zwiększonej interoperacyjności i wzmacniając suwerenność technologiczną przedsiębiorstw. Odpowiadając na rosnące potrzeby przemysłowej inferencji, aktywnie przyczynia się do demokratyzacji AI generatywnej.

Narzędzia do kompresji modeli umożliwiające zmniejszenie ich rozmiaru i śladu energetycznego bez utraty precyzji;
Optymalizowany repozytorium hostowane na stronie Red Hat AI na Hugging Face;
Wsparcie dla przedsiębiorstw oraz interoperacyjność z platformami trzecimi, w tym Linux i Kubernetes poza Red Hat.

W kierunku demokratyzacji AI generatywnej

Rozwiązanie natywnie obsługuje kilka wiodących modeli językowych, takich jak Gemma, Llama, Mistral i Phi, wykorzystując najnowsze funkcje vLLM: inferencję o wysokiej przepustowości, przetwarzanie multi-GPU, ciągłe grupowanie i rozszerzony kontekst wejściowy.

Red Hat ma na celu przyczynienie się do uczynienia języka vLLM otwartym standardem inferencji dla AI generatywnej w przedsiębiorstwach, niezależnie od modelu AI, podległego akceleratora i środowiska wdrożeniowego.

Marie-Claude Benoit

Redakcja ActuIA — wiadomości, dane i analizy o sztucznej inteligencji dla decydentów.

Red Hat AI Inference Server: w kierunku otwartego standardu inferencji AI w przedsiębiorstwach

W kierunku demokratyzacji AI generatywnej

Prawdziwe wyzwanie AI w firmach nie dotyczy już modelu, lecz jego eksploatacji

VivaTech 2026 : start 10. edycji, AI jako motyw przewodni

ActuIA zaprasza na VivaTech Festival: do wygrania 50 wejściówek na dzień otwarty 20 czerwca