Red Hat AI Inference Server: verso una standardizzazione aperta dell'inferenza IA in azienda

TLDR : Red Hat ha lanciato il Red Hat AI Inference Server, una soluzione open source per semplificare e migliorare l'esecuzione di modelli di IA in ambienti di cloud ibridi. Dotato di strumenti di ottimizzazione avanzati, offre una flessibilità di esecuzione su qualsiasi tipo di acceleratore IA e in qualsiasi cloud, contribuendo alla democratizzazione dell'IA generativa in azienda.

In occasione del Red Hat Summit 2025, Red Hat ha annunciato il lancio di Red Hat AI Inference Server, una nuova componente della gamma Red Hat AI. Progettata per gli ambienti di cloud ibridi, questa soluzione open source mira a semplificare l'esecuzione di modelli di IA generativa migliorandone al contempo la performance operativa.

Un server di inferenza agisce come un'interfaccia tra le applicazioni di IA e i grandi modelli di linguaggio (LLMs), facilitando la generazione di risposte a partire da dati di input. Mentre i dispiegamenti di LLMs si moltiplicano in produzione, la fase di inferenza diventa una sfida critica, sia dal punto di vista tecnico che economico.

Basato sul progetto comunitario vLLM, iniziato dall'Università di Berkeley, Red Hat AI Inference Server integra strumenti di ottimizzazione avanzati, inclusi quelli di Neural Magic, permettendo una riduzione del consumo energetico, un'accelerazione dei calcoli e una migliore redditività. Disponibile in versione containerizzata o integrato nelle soluzioni RHEL AI e Red Hat OpenShift AI, offre grande flessibilità eseguendosi su qualsiasi tipo di acceleratore IA e in qualsiasi cloud.

Tra le principali funzionalità annunciate:

Una compressione intelligente dei modelli per ridurre la dimensione senza sacrificare la precisione;
Un repertorio ottimizzato di modelli validati, accessibile tramite la pagina Red Hat AI su Hugging Face;
Un'interoperabilità con piattaforme di terze parti, inclusi Linux e Kubernetes fuori dall'ambiente Red Hat;
Un supporto aziendale ereditato dall'esperienza di Red Hat nell'industrializzazione di tecnologie open source.

La soluzione supporta numerosi modelli di linguaggio di primo piano (Gemma, Llama, Mistral, Phi), integrando le ultime evoluzioni del linguaggio vLLM: elaborazione multi-GPU, batching continuo, contesto esteso e inferenza ad alta velocità.

Con questo annuncio, Red Hat riafferma il suo impegno a fare di vLLM uno standard aperto per l'inferenza IA, promuovendo una maggiore interoperabilità e rafforzando la sovranità tecnologica delle aziende. Rivolgendosi ai crescenti bisogni di inferenza industriale, contribuisce attivamente alla democratizzazione dell'IA generativa.

Strumenti di compressione dei modelli che consentono di ridurre la loro dimensione e l'impronta energetica senza perdita di precisione;
Un repertorio ottimizzato ospitato sulla pagina Red Hat AI su Hugging Face;
Un supporto aziendale e un'interoperabilità con piattaforme di terze parti, inclusi Linux e Kubernetes fuori-Red Hat.

Verso una democratizzazione dell'IA generativa

La soluzione supporta nativamente diversi modelli di linguaggio di primo piano, tra cui Gemma, Llama, Mistral e Phi, e sfrutta le ultime funzionalità di vLLM: inferenza ad alta velocità, elaborazione multi-GPU, batching continuo e contesto di input esteso.

Red Hat intende così contribuire a fare del linguaggio vLLM uno standard di inferenza aperto per l'IA generativa in azienda, indipendentemente dal modello di IA, dall'acceleratore sottostante e dall'ambiente di distribuzione.

Tradotto da Red Hat AI Inference Server : vers une standardisation ouverte de l’inférence IA en entreprise

Per capire meglio

Cos'è il progetto vLLM e perché è importante per l'inferenza dell'IA?

Il progetto vLLM, avviato dall'Università di Berkeley, è una tecnologia avanzata per l'ottimizzazione dei modelli di linguaggio. Migliora le prestazioni operative dei modelli di IA attraverso innovazioni come l'elaborazione multi-GPU e l'inferenza ad alta velocità, riducendo così il consumo energetico e aumentando la redditività.

Come può la compressione intelligente dei modelli di IA ridurre il consumo energetico senza compromettere la precisione?

La compressione intelligente riduce le dimensioni dei modelli di IA eliminando le ridondanze e ottimizzando i calcoli, il che diminuisce le esigenze di risorse preservando la precisione grazie ad algoritmi avanzati di ottimizzazione.