Red Hat AI Inference Server: نحو توحيد مفتوح للاستدلال في الذكاء الاصطناعي في الشركات

Red Hat AI Inference Server: نحو توحيد مفتوح للاستدلال في الذكاء الاصطناعي في الشركات

TLDR : أطلقت Red Hat خادم Red Hat AI Inference Server، وهو حل مفتوح المصدر لتبسيط وتحسين تنفيذ نماذج الذكاء الاصطناعي في بيئات السحابة الهجينة. مزود بأدوات تحسين متقدمة، يوفر مرونة في التنفيذ على أي نوع من مسرعات الذكاء الاصطناعي وفي أي سحابة، مما يساهم في ديمقراطية الذكاء الاصطناعي التوليدي في الشركات.

بمناسبة Red Hat Summit 2025، أعلنت Red Hat عن إطلاق Red Hat AI Inference Server، وهو عنصر جديد في مجموعة Red Hat AI. تم تصميمه لبيئات cloud الهجينة، ويهدف هذا الحل مفتوح المصدر إلى تبسيط تنفيذ نماذج الذكاء الاصطناعي التوليدية مع تحسين أدائها التشغيلي.
يعمل خادم الاستدلال كواجهة بين تطبيقات الذكاء الاصطناعي والنماذج اللغوية الكبيرة (LLMs)، مما يسهل توليد الردود من بيانات الإدخال. بينما تتزايد عمليات نشر LLMs في الإنتاج، تصبح مرحلة الاستدلال قضية حاسمة سواء من الناحية التقنية أو الاقتصادية.
استنادًا إلى مشروع vLLM المجتمعي، الذي بدأته جامعة Berkeley، يتضمن Red Hat AI Inference Server أدوات تحسين متقدمة، بما في ذلك تلك الخاصة بـNeural Magic، مما يسمح بتقليل استهلاك الطاقة، تسريع الحسابات، وتحسين الربحية. متاح في إصدار containerized أو مدمج مع حلول RHEL AI وRed Hat OpenShift AI، ويوفر مرونة كبيرة في التشغيل على أي نوع من مسرعات الذكاء الاصطناعي وفي أي cloud.
تشمل الميزات الرئيسية المعلن عنها:
  • ضغط ذكي للنماذج لتقليل الحجم دون التضحية بالدقة؛
  • مستودع نماذج محسن يمكن الوصول إليه عبر صفحة Red Hat AI على Hugging Face؛
  • التوافق مع المنصات الخارجية، بما في ذلك Linux وKubernetes خارج بيئة Red Hat؛
  • دعم مؤسسي مستمد من خبرة Red Hat في توجيه تقنيات المصدر المفتوح نحو الصناعة.
يدعم الحل العديد من النماذج اللغوية الرائدة (Gemma، Llama، Mistral، Phi)، بينما يدمج أحدث تطورات لغة vLLM: معالجة متعددة GPU، batching المستمر، سياق موسع، واستدلال عالي السرعة.
مع هذا الإعلان، تؤكد Red Hat التزامها بجعل vLLM معيارًا مفتوحًا للاستدلال في الذكاء الاصطناعي، مما يعزز التوافق المتزايد ويقوي السيادة التكنولوجية للشركات. من خلال تلبية احتياجات الاستدلال الصناعي المتزايدة، يساهم بشكل فعال في ديمقراطية الذكاء الاصطناعي التوليدي.
  • أدوات ضغط النماذج التي تسمح بتقليل حجمها وبصمتها الطاقوية دون فقدان الدقة؛
  • مستودع محسن مستضاف على صفحة Red Hat AI على Hugging Face؛
  • دعم مؤسسي وتوافق مع المنصات الخارجية، بما في ذلك Linux وKubernetes خارج Red Hat.

نحو ديمقراطية الذكاء الاصطناعي التوليدي

يدعم الحل بشكل أصلي العديد من النماذج اللغوية الرائدة، بما في ذلك Gemma، Llama، Mistral وPhi، ويستفيد من أحدث ميزات vLLM: استدلال عالي السرعة، معالجة متعددة GPU، batching المستمر، وسياق إدخال موسع.
تسعى Red Hat من خلال ذلك إلى المساهمة في جعل لغة vLLM معيار استدلال مفتوح للذكاء الاصطناعي التوليدي في الشركات، بغض النظر عن نموذج الذكاء الاصطناعي، المسرع الأساسي، وبيئة النشر.

لتحسين الفهم

ما هو مشروع vLLM ولماذا هو مهم لاستدلال الذكاء الاصطناعي؟

مشروع vLLM، الذي بدأته جامعة بيركلي، هو تكنولوجيا متقدمة لتحسين نماذج اللغة. إنها تعزز الأداء التشغيلي لنماذج الذكاء الاصطناعي من خلال الابتكارات مثل المعالجة متعددة <span dir="ltr">GPU</span> والاستدلال عالي السعة، مما يقلل من استهلاك الطاقة ويزيد من الربحية.

كيف يمكن للضغط الذكي لنماذج الذكاء الاصطناعي تقليل استهلاك الطاقة دون التأثير على الدقة؟

يقلص الضغط الذكي حجم نماذج الذكاء الاصطناعي من خلال القضاء على التكرارات وتحسين الحسابات، مما يقلل من احتياجات الموارد مع الحفاظ على الدقة من خلال خوارزميات متقدمة لتحسين الأداء.