TLDR : Red Hat推出了Red Hat AI Inference Server,这是一种开源解决方案,旨在简化和优化生成式AI模型在混合云环境中的执行。凭借先进的优化工具,该服务器能够在任何AI加速器和云中灵活运行,有助于推动企业生成式AI的普及。
在2025年的Red Hat峰会上,Red Hat宣布推出Red Hat AI Inference Server,这是Red Hat AI系列的新组件。该开源解决方案旨在简化生成式AI模型的执行,同时提升其在混合云环境中的运行性能。
推理服务器充当AI应用程序与大型语言模型(LLMs)之间的接口,方便从输入数据生成响应。随着LLMs的部署在生产中日益增多,推理阶段在技术和经济层面上都变得至关重要。
基于由伯克利大学发起的社区项目vLLM,Red Hat AI Inference Server集成了包括Neural Magic在内的先进优化工具,可降低能耗、加速计算并提高经济效益。该服务器可以容器化版本或集成于RHEL AI和Red Hat OpenShift AI解决方案中提供,具有极大的灵活性,能够在任何类型的AI加速器和任何云环境中运行。
宣布的主要功能包括:
- 智能模型压缩,可在不牺牲精度的情况下减少模型大小;
- 优化的验证模型库,可通过Hugging Face上的Red Hat AI页面访问;
- 与第三方平台的互操作性,包括在非Red Hat环境下的Linux和Kubernetes;
- 基于Red Hat在开源技术工业化方面经验的企业支持。
该解决方案支持众多顶级语言模型(如Gemma、Llama、Mistral、Phi),并集成了vLLM的最新发展:多GPU处理、连续批处理、扩展上下文和高速推理。
通过此公告,Red Hat重申了其将vLLM打造为AI推理开放标准的承诺,促进更高的互操作性并增强企业技术主权。通过满足日益增长的工业推理需求,它积极推动生成式AI的普及。
- 模型压缩工具,在不损失精度的情况下减少其大小和能耗足迹;
- 托管在Hugging Face上的Red Hat AI页面上的优化库;
- 企业支持和与第三方平台的互操作性,包括在非Red Hat环境下的Linux和Kubernetes。
走向生成式AI的普及
该解决方案本地支持多个顶级语言模型,包括Gemma、Llama、Mistral和Phi,并利用vLLM的最新功能:高速推理、多GPU处理、持续批处理以及扩展的输入上下文。
Red Hat旨在将vLLM语言打造为企业生成式AI的开放推理标准,无论AI模型、底层加速器还是部署环境如何。
Pour mieux comprendre
什么是vLLM项目,它对人工智能推理有何重要性?
由伯克利大学发起的vLLM项目是一种用于优化语言模型的先进技术。通过多GPU处理和高吞吐量推理等创新措施,它提高了AI模型的运营性能,从而减少了能源消耗并提高了盈利能力。
智能压缩AI模型如何在不影响准确性的情况下减少能源消耗?
智能压缩通过消除冗余和优化计算来减少AI模型的大小,从而降低资源需求,同时通过先进的优化算法保持准确性。