Red Hat Summit 2025の開催に際し、Red HatはRed Hat AI Inference Serverの発売を発表しました。これはRed Hat AIの新しいコンポーネントであり、ハイブリッドクラウド環境向けに設計されたこのオープンソースソリューションは、生成AIモデルの実行を簡素化し、パフォーマンスを向上させることを目的としています。
推論サーバーは、AIアプリケーションと大規模言語モデル(LLM)の間のインターフェースとして機能し、入力データからの応答生成を容易にします。LLMの導入が生産環境で増加する中、推論フェーズは技術的および経済的に重要な課題となっています。
Berkeley大学が開始したコミュニティプロジェクトvLLMに基づいて、Red Hat AI Inference ServerはNeural Magicのツールを含む高度な最適化ツールを搭載し、エネルギー消費の削減、計算の加速、収益性の向上を可能にします。コンテナ化されたバージョンで提供され、RHEL AIおよびRed Hat OpenShift AIソリューションに統合されており、あらゆる種類のAIアクセラレーターと任意のクラウドでの実行を可能にする大きな柔軟性を提供します。
発表された主な機能には以下が含まれます:
- 精度を犠牲にせずにサイズを削減するインテリジェントなモデル圧縮;
- 最適化された検証済みモデルのリポジトリが、Hugging FaceのRed Hat AIページからアクセス可能;
- Red Hat以外の環境でも、LinuxやKubernetesを含むサードパーティプラットフォームとの相互運用性;
- オープンソース技術の産業化におけるRed Hatの経験に基づく企業サポート。
このソリューションは、Gemma、Llama、Mistral、Phiなどの主要な言語モデルをサポートし、vLLMの最新の進化を統合しています:マルチGPU処理、継続的バッチ処理、拡張コンテキスト、および高速推論。
この発表により、Red HatはvLLMをAI推論のオープンスタンダードとし、企業の技術的主権を強化し、相互運用性を高めることへのコミットメントを再確認しました。産業推論の増大するニーズに応えることで、生成AIの民主化に積極的に貢献しています。
- 精度を損なわずにモデルのサイズとエネルギーフットプリントを削減するためのモデル圧縮ツール;
- Hugging FaceのRed Hat AIページにホストされている最適化されたリポジトリ;
- 企業サポートとRed Hat外のLinuxやKubernetesを含むサードパーティプラットフォームとの相互運用性。
生成AIの民主化へ
このソリューションは、Gemma、Llama、Mistral、Phiなどの主要な言語モデルをネイティブにサポートし、vLLMの最新機能を活用しています:高速推論、マルチGPU処理、継続的バッチ処理、拡張入力コンテキスト。
Red Hatは、vLLM言語を企業の生成AIのオープン推論スタンダードにすることを目指しており、AIモデル、基盤となるアクセラレーター、および展開環境に依存しないソリューションを提供します。
