TLDR : Red Hat ha lanciato il Red Hat AI Inference Server, una soluzione open source per semplificare e migliorare l'esecuzione di modelli di IA in ambienti di cloud ibridi. Dotato di strumenti di ottimizzazione avanzati, offre una flessibilità di esecuzione su qualsiasi tipo di acceleratore IA e in qualsiasi cloud, contribuendo alla democratizzazione dell'IA generativa in azienda.
In occasione del Red Hat Summit 2025, Red Hat ha annunciato il lancio di Red Hat AI Inference Server, una nuova componente della gamma Red Hat AI. Progettata per gli ambienti di cloud ibridi, questa soluzione open source mira a semplificare l'esecuzione di modelli di IA generativa migliorandone al contempo la performance operativa. Un server di inferenza agisce come un'interfaccia tra le applicazioni di IA e
i grandi modelli di linguaggio (LLMs), facilitando la generazione di risposte a partire da dati di input. Mentre i dispiegamenti di LLMs si moltiplicano in produzione, la fase di inferenza diventa una sfida critica, sia dal punto di vista tecnico che economico.
Basato sul progetto comunitario vLLM, iniziato dall'Università di
Berkeley,
Red Hat AI Inference Server integra strumenti di ottimizzazione avanzati, inclusi quelli di Neural Magic, permettendo una riduzione del consumo energetico, un'accelerazione dei calcoli e una migliore redditività. Disponibile in versione containerizzata o integrato nelle soluzioni RHEL AI e Red Hat OpenShift AI, offre grande flessibilità eseguendosi su qualsiasi tipo di acceleratore IA e in qualsiasi cloud.
Tra le principali funzionalità annunciate:
La soluzione supporta numerosi modelli di linguaggio di primo piano (Gemma, Llama, Mistral, Phi), integrando le ultime evoluzioni del linguaggio vLLM: elaborazione multi-GPU, batching continuo, contesto esteso e inferenza ad alta velocità.
Con questo annuncio,
Red Hat riafferma il suo impegno a fare di vLLM uno standard aperto per l'inferenza IA, promuovendo una maggiore interoperabilità e rafforzando la sovranità tecnologica delle aziende. Rivolgendosi ai crescenti bisogni di inferenza industriale, contribuisce attivamente alla democratizzazione dell'IA generativa.
-
Strumenti di compressione dei modelli che consentono di ridurre la loro dimensione e l'impronta energetica senza perdita di precisione;
-
-
Un supporto aziendale e un'interoperabilità con piattaforme di terze parti, inclusi Linux e Kubernetes fuori-Red Hat.
Verso una democratizzazione dell'IA generativa
La soluzione supporta nativamente diversi modelli di linguaggio di primo piano, tra cui Gemma, Llama, Mistral e Phi, e sfrutta le ultime funzionalità di vLLM: inferenza ad alta velocità, elaborazione multi-GPU, batching continuo e contesto di input esteso.
Red Hat intende così contribuire a fare del linguaggio vLLM uno standard di inferenza aperto per l'IA generativa in azienda, indipendentemente dal modello di IA, dall'acceleratore sottostante e dall'ambiente di distribuzione.
Per capire meglio
Cos'è il progetto vLLM e perché è importante per l'inferenza dell'IA?
Il progetto vLLM, avviato dall'Università di Berkeley, è una tecnologia avanzata per l'ottimizzazione dei modelli di linguaggio. Migliora le prestazioni operative dei modelli di IA attraverso innovazioni come l'elaborazione multi-GPU e l'inferenza ad alta velocità, riducendo così il consumo energetico e aumentando la redditività.
Come può la compressione intelligente dei modelli di IA ridurre il consumo energetico senza compromettere la precisione?
La compressione intelligente riduce le dimensioni dei modelli di IA eliminando le ridondanze e ottimizzando i calcoli, il che diminuisce le esigenze di risorse preservando la precisione grazie ad algoritmi avanzati di ottimizzazione.