În scurt : Red Hat a lansat Red Hat AI Inference Server, o soluție open source pentru a simplifica și îmbunătăți execuția modelelor de IA în mediile de cloud hibride. Dotată cu instrumente avansate de optimizare, oferă o flexibilitate de execuție pe orice tip de accelerator IA și în orice cloud, contribuind la democratizarea IA generativă în întreprinderi.
Cu ocazia Red Hat Summit 2025, Red Hat a anunțat lansarea Red Hat AI Inference Server, o nouă componentă a gamei Red Hat AI. Concepută pentru mediile de cloud hibride, această soluție open source își propune să simplifice execuția modelelor de IA generativă și să îmbunătățească performanța lor operațională.
Un server de inferență acționează ca o interfață între aplicațiile de IA și marile modele de limbaj (LLMs), facilitând generarea de răspunsuri pe baza datelor de intrare. Pe măsură ce implementările LLM-urilor se înmulțesc în producție, faza de inferență devine o provocare critică, atât din punct de vedere tehnic, cât și economic.
Bazat pe proiectul comunitar vLLM, inițiat de Universitatea din Berkeley, Red Hat AI Inference Server încorporează instrumente avansate de optimizare, inclusiv cele de la Neural Magic, care permit reducerea consumului de energie, accelerarea calculului și îmbunătățirea rentabilității. Disponibil în versiune containerizată sau integrat în soluțiile RHEL AI și Red Hat OpenShift AI, oferă o mare flexibilitate prin execuția pe orice tip de accelerator IA și în orice cloud.
Dintre principalele caracteristici anunțate:
O compresie inteligentă a modelelor pentru a reduce dimensiunea fără a sacrifica precizia;
O interoperabilitate cu platforme terțe, inclusiv Linux și Kubernetes în afara mediului Red Hat;
Un suport pentru întreprinderi moștenit din experiența Red Hat în industrializarea tehnologiilor open source.
Soluția suportă numeroase modele de limbaj de top (Gemma, Llama, Mistral, Phi), integrând în același timp cele mai recente evoluții ale limbajului vLLM: procesare multi-GPU, batching continuu, context extins și inferență de mare viteză.
Cu acest anunț, Red Hat își reafirmă angajamentul de a face din vLLM un standard deschis pentru inferența IA, promovând o interoperabilitate crescută și consolidând suveranitatea tehnologică a întreprinderilor. Răspunzând nevoilor tot mai mari de inferență industrială, contribuie activ la democratizarea IA generativă.
Instrumente de compresie a modelelor care permit reducerea dimensiunii și amprentei energetice fără pierderi de precizie;
Un suport pentru întreprinderi și o interoperabilitate cu platforme terțe, inclusiv Linux și Kubernetes în afara Red Hat.
Către o democratizare a IA generativă
Soluția suportă în mod nativ mai multe modele de limbaj de top, inclusiv Gemma, Llama, Mistral și Phi, și exploatează cele mai recente funcționalități ale vLLM: inferență de mare viteză, procesare multi-GPU, batching continuu și context de intrare extins.
Red Hat intenționează astfel să contribuie la transformarea limbajului vLLM într-un standard de inferență deschis pentru IA generativă în întreprinderi, indiferent de modelul de IA, acceleratorul subsecvent și mediul de implementare.
Pentru a înțelege mai bine
Ce este proiectul vLLM și de ce este important pentru inferența AI?
Proiectul vLLM, inițiat de Universitatea din Berkeley, este o tehnologie avansată pentru optimizarea modelelor de limbaj. Îmbunătățește performanța operațională a modelelor AI prin inovații precum procesarea multi-GPU și inferența cu randament ridicat, reducând astfel consumul de energie și crescând rentabilitatea.
Cum poate compresia inteligentă a modelelor de IA reduce consumul de energie fără a compromite acuratețea?
Compresia inteligentă reduce dimensiunea modelelor de IA prin eliminarea redundanțelor și optimizarea calculului, ceea ce reduce nevoile de resurse, menținând în același timp acuratețea prin algoritmi avansați de optimizare.