Red Hat AI Inference Server：企業におけるAI推論のオープンスタンダード化を目指して

TLDR : Red Hatは、ハイブリッドクラウド環境におけるAIモデルの実行を簡素化し、向上させるオープンソースソリューションであるRed Hat AI Inference Serverを発表しました。高度な最適化ツールを備え、あらゆるAIアクセラレーターやクラウドでの実行を可能にし、企業における生成AIの民主化に貢献します。

Red Hat Summit 2025の開催に際し、Red HatはRed Hat AI Inference Serverの発売を発表しました。これはRed Hat AIの新しいコンポーネントであり、ハイブリッドクラウド環境向けに設計されたこのオープンソースソリューションは、生成AIモデルの実行を簡素化し、パフォーマンスを向上させることを目的としています。

推論サーバーは、AIアプリケーションと大規模言語モデル（LLM）の間のインターフェースとして機能し、入力データからの応答生成を容易にします。LLMの導入が生産環境で増加する中、推論フェーズは技術的および経済的に重要な課題となっています。

Berkeley大学が開始したコミュニティプロジェクトvLLMに基づいて、Red Hat AI Inference ServerはNeural Magicのツールを含む高度な最適化ツールを搭載し、エネルギー消費の削減、計算の加速、収益性の向上を可能にします。コンテナ化されたバージョンで提供され、RHEL AIおよびRed Hat OpenShift AIソリューションに統合されており、あらゆる種類のAIアクセラレーターと任意のクラウドでの実行を可能にする大きな柔軟性を提供します。

発表された主な機能には以下が含まれます：

精度を犠牲にせずにサイズを削減するインテリジェントなモデル圧縮；
最適化された検証済みモデルのリポジトリが、Hugging FaceのRed Hat AIページからアクセス可能；
Red Hat以外の環境でも、LinuxやKubernetesを含むサードパーティプラットフォームとの相互運用性；
オープンソース技術の産業化におけるRed Hatの経験に基づく企業サポート。

このソリューションは、Gemma、Llama、Mistral、Phiなどの主要な言語モデルをサポートし、vLLMの最新の進化を統合しています：マルチGPU処理、継続的バッチ処理、拡張コンテキスト、および高速推論。

この発表により、Red HatはvLLMをAI推論のオープンスタンダードとし、企業の技術的主権を強化し、相互運用性を高めることへのコミットメントを再確認しました。産業推論の増大するニーズに応えることで、生成AIの民主化に積極的に貢献しています。

精度を損なわずにモデルのサイズとエネルギーフットプリントを削減するためのモデル圧縮ツール；
Hugging FaceのRed Hat AIページにホストされている最適化されたリポジトリ；
企業サポートとRed Hat外のLinuxやKubernetesを含むサードパーティプラットフォームとの相互運用性。

生成AIの民主化へ

このソリューションは、Gemma、Llama、Mistral、Phiなどの主要な言語モデルをネイティブにサポートし、vLLMの最新機能を活用しています：高速推論、マルチGPU処理、継続的バッチ処理、拡張入力コンテキスト。

Red Hatは、vLLM言語を企業の生成AIのオープン推論スタンダードにすることを目指しており、AIモデル、基盤となるアクセラレーター、および展開環境に依存しないソリューションを提供します。

翻訳元 Red Hat AI Inference Server : vers une standardisation ouverte de l’inférence IA en entreprise

Pour mieux comprendre

vLLMプロジェクトとは何ですか？また、それがAI推論にとってなぜ重要ですか？

バークレー大学によって始められたvLLMプロジェクトは、言語モデルを最適化するための高度な技術です。マルチGPU処理や高スループット推論などの革新を通じて、AIモデルの運用パフォーマンスを向上させ、エネルギー消費を減らし、収益性を高めます。

AIモデルのインテリジェントな圧縮は、正確さを損なうことなくどのようにエネルギー消費を削減することができますか？

インテリジェントな圧縮は、重複を排除し計算を最適化することでAIモデルのサイズを減少させ、資源の必要性を減らしつつ、高度な最適化アルゴリズムを通じて正確さを維持します。