W skrócie : Red Hat wprowadził na rynek Red Hat AI Inference Server, rozwiązanie open source do uproszczenia i poprawy wykonywania modeli AI w środowiskach chmurowych hybrydowych. Wyposażony w zaawansowane narzędzia optymalizacyjne, oferuje elastyczność działania na każdym typie akceleratora AI i w każdej chmurze, przyczyniając się do demokratyzacji AI generatywnej w przedsiębiorstwach.
Podczas Red Hat Summit 2025, Red Hat ogłosił wprowadzenie Red Hat AI Inference Server, nowego elementu z serii Red Hat AI. Zaprojektowane dla środowisk chmurowych hybrydowych, to rozwiązanie open source ma na celu uproszczenie wykonywania modeli AI generatywnej, jednocześnie poprawiając ich wydajność operacyjną.
Serwer inferencyjny działa jako interfejs między aplikacjami AI a dużymi modelami językowymi (LLM), ułatwiając generowanie odpowiedzi na podstawie danych wejściowych. W miarę jak wdrożenia LLM w produkcji stają się coraz powszechniejsze, faza inferencji staje się kluczowym wyzwaniem zarówno technicznym, jak i ekonomicznym.
Opierając się na projekcie społecznościowym vLLM, zainicjowanym przez Uniwersytet Berkeley, Red Hat AI Inference Server zawiera zaawansowane narzędzia optymalizacyjne, w tym te od Neural Magic, umożliwiając redukcję zużycia energii, przyspieszenie obliczeń i lepszą opłacalność. Dostępny w wersji konteneryzowanej lub zintegrowany z rozwiązaniami RHEL AI i Red Hat OpenShift AI, oferuje dużą elastyczność, działając na każdym typie akceleratora AI i w dowolnej chmurze.
Wśród głównych funkcji ogłoszonych:
Inteligentna kompresja modeli, aby zmniejszyć ich rozmiar bez utraty precyzji;
Interoperacyjność z platformami trzecimi, w tym Linux i Kubernetes poza środowiskiem Red Hat;
Wsparcie dla przedsiębiorstw oparte na doświadczeniu Red Hat w industrializacji technologii open source.
Rozwiązanie obsługuje wiele wiodących modeli językowych (Gemma, Llama, Mistral, Phi), integrując najnowsze osiągnięcia języka vLLM: przetwarzanie multi-GPU, ciągłe grupowanie, rozszerzony kontekst i inferencję o wysokiej przepustowości.
Dzięki temu ogłoszeniu, Red Hat potwierdza swoje zaangażowanie w uczynienie vLLM otwartym standardem inferencji AI, sprzyjając zwiększonej interoperacyjności i wzmacniając suwerenność technologiczną przedsiębiorstw. Odpowiadając na rosnące potrzeby przemysłowej inferencji, aktywnie przyczynia się do demokratyzacji AI generatywnej.
Narzędzia do kompresji modeli umożliwiające zmniejszenie ich rozmiaru i śladu energetycznego bez utraty precyzji;
Wsparcie dla przedsiębiorstw oraz interoperacyjność z platformami trzecimi, w tym Linux i Kubernetes poza Red Hat.
W kierunku demokratyzacji AI generatywnej
Rozwiązanie natywnie obsługuje kilka wiodących modeli językowych, takich jak Gemma, Llama, Mistral i Phi, wykorzystując najnowsze funkcje vLLM: inferencję o wysokiej przepustowości, przetwarzanie multi-GPU, ciągłe grupowanie i rozszerzony kontekst wejściowy.
Red Hat ma na celu przyczynienie się do uczynienia języka vLLM otwartym standardem inferencji dla AI generatywnej w przedsiębiorstwach, niezależnie od modelu AI, podległego akceleratora i środowiska wdrożeniowego.
Bardziej zrozumiałe
Czym jest projekt vLLM i dlaczego jest ważny dla inferencji AI?
Projekt vLLM, zainicjowany przez Uniwersytet Berkeley, to zaawansowana technologia optymalizacji modeli językowych. Poprawia wydajność operacyjną modeli AI dzięki innowacjom takim jak przetwarzanie wielo-GPU i inferencja o wysokiej przepustowości, redukując zużycie energii i zwiększając rentowność.
Jak inteligentna kompresja modeli AI może zmniejszyć zużycie energii bez kompromisu w dokładności?
Inteligentna kompresja zmniejsza rozmiar modeli AI poprzez eliminację redundancji i optymalizację obliczeń, co zmniejsza zapotrzebowanie na zasoby, jednocześnie utrzymując dokładność dzięki zaawansowanym algorytmom optymalizacyjnym.