TLDR : Red Hat hat den Red Hat AI Inference Server vorgestellt, eine Open-Source-Lösung zur Vereinfachung und Verbesserung der Ausführung von KI-Modellen in hybriden Cloud-Umgebungen. Mit fortschrittlichen Optimierungstools bietet es Flexibilität bei der Ausführung auf jedem KI-Beschleuniger und in jeder Cloud und trägt zur Demokratisierung der generativen KI in Unternehmen bei.
Anlässlich des Red Hat Summit 2025 hat Red Hat die Einführung des Red Hat AI Inference Server bekanntgegeben, einer neuen Komponente der Red Hat AI-Produktreihe. Diese Open-Source-Lösung wurde für hybride Cloud-Umgebungen entwickelt und zielt darauf ab, die Ausführung generativer KI-Modelle zu vereinfachen und gleichzeitig ihre betriebliche Leistung zu verbessern. Ein Inferenzserver fungiert als Schnittstelle zwischen KI-Anwendungen und großen Sprachmodellen (LLMs) und erleichtert die Generierung von Antworten aus Eingangsdaten. Da die Bereitstellung von LLMs in der Produktion zunimmt, wird die Inferenzphase sowohl technisch als auch wirtschaftlich zu einem kritischen Punkt.
Basierend auf dem Community-Projekt vLLM, das von der Universität
Berkeley initiiert wurde, integriert der
Red Hat AI Inference Server fortschrittliche Optimierungstools, darunter diejenigen von Neural Magic, die den Energieverbrauch reduzieren, die Berechnungen beschleunigen und die Rentabilität verbessern. Er ist als containerisierte Version oder in die Lösungen RHEL AI und Red Hat OpenShift AI integriert erhältlich und bietet große Flexibilität, indem er auf jedem Typ von KI-Beschleuniger und in jeder Cloud ausgeführt werden kann.
Zu den wichtigsten angekündigten Funktionen gehören:
Eine intelligente Modellkompression zur Reduzierung der Größe ohne Präzisionseinbußen;
Interoperabilität mit Drittanbieterplattformen, einschließlich Linux und Kubernetes außerhalb der Red Hat-Umgebung;
Ein Unternehmenssupport, der aus der Erfahrung von
Red Hat in der Industrialisierung von Open-Source-Technologien stammt.
Die Lösung unterstützt zahlreiche führende Sprachmodelle (Gemma, Llama, Mistral, Phi) und integriert die neuesten Entwicklungen der vLLM-Sprache: Multi-GPU-Verarbeitung, kontinuierliches Batching, erweiterter Kontext und Hochgeschwindigkeitsinferenz.
Mit dieser Ankündigung bekräftigt
Red Hat sein Engagement, vLLM zu einem offenen Standard für die KI-Inferenz zu machen, was eine erhöhte Interoperabilität fördert und die technologische Souveränität der Unternehmen stärkt. Durch die Ansprache der wachsenden Bedürfnisse der industriellen Inferenz trägt es aktiv zur Demokratisierung der generativen KI bei.
Hin zur Demokratisierung der generativen KI
Die Lösung unterstützt nativ mehrere führende Sprachmodelle, darunter Gemma, Llama, Mistral und Phi, und nutzt die neuesten Funktionen von vLLM: Hochgeschwindigkeitsinferenz, Multi-GPU-Verarbeitung, kontinuierliches Batching und erweiterter Eingangskontext.
Red Hat beabsichtigt damit, die vLLM-Sprache zu einem offenen Inferenzstandard für generative KI in Unternehmen zu machen, unabhängig vom KI-Modell, dem zugrunde liegenden Beschleuniger und der Bereitstellungsumgebung.
Besser verstehen
Was ist das vLLM-Projekt und warum ist es wichtig für die KI-Inferenz?
Das vLLM-Projekt, initiiert von der Universität Berkeley, ist eine fortschrittliche Technologie zur Optimierung von Sprachmodellen. Es verbessert die Betriebsleistung von KI-Modellen durch Innovationen wie Multi-GPU-Verarbeitung und Hochdurchsatz-Inferenz, wodurch der Energieverbrauch reduziert und die Rentabilität erhöht wird.
Wie kann die intelligente Komprimierung von KI-Modellen den Energieverbrauch senken, ohne die Genauigkeit zu beeinträchtigen?
Die intelligente Komprimierung reduziert die Größe von KI-Modellen, indem Redundanzen eliminiert und Berechnungen optimiert werden, was den Ressourcenbedarf verringert und die Genauigkeit durch fortschrittliche Optimierungsalgorithmen bewahrt.