Red Hat Summit 2025에서 Red Hat은 Red Hat AI Inference Server 출시를 발표했습니다. 이는 Red Hat AI 제품군의 새로운 구성 요소로, 하이브리드 클라우드 환경을 위해 설계된 오픈 소스 솔루션으로, 생성 AI 모델의 실행을 단순화하고 성능을 향상시키는 것을 목표로 합니다.
추론 서버는 AI 애플리케이션과 대형 언어 모델(LLMs) 간의 인터페이스 역할을 하며, 입력 데이터로부터 응답을 생성하는 과정을 용이하게 합니다. LLMs의 배포가 증가함에 따라, 추론 단계는 기술적, 경제적으로 중요한 문제로 부각되고 있습니다.
Berkeley 대학이 시작한 커뮤니티 프로젝트 vLLM을 기반으로, Red Hat AI Inference Server는 Neural Magic의 도구를 포함한 고급 최적화 도구를 내장하여, 에너지 소비를 줄이고 계산 속도를 높이며 수익성을 개선합니다. 컨테이너화된 버전으로 제공되거나 RHEL AI 및 Red Hat OpenShift AI 솔루션에 통합되어, 모든 유형의 AI 가속기와 모든 클라우드에서 실행할 수 있는 높은 유연성을 제공합니다.
주요 기능 중 일부는 다음과 같습니다:
- 정확성을 희생하지 않고 크기를 줄이기 위한 지능형 모델 압축;
- Hugging Face의 Red Hat AI 페이지를 통해 액세스할 수 있는 검증된 모델의 최적화된 레퍼토리;
- Red Hat 외부 환경에서 Linux 및 Kubernetes를 포함한 타사 플랫폼과의 상호운용성;
- 오픈 소스 기술의 산업화에서 Red Hat의 경험을 바탕으로 한 기업 지원.
이 솔루션은 Gemma, Llama, Mistral, Phi와 같은 주요 언어 모델을 지원하며, 다중 GPU 처리, 연속 배칭, 확장된 컨텍스트 및 고속 추론과 같은 최신 vLLM 기능을 통합합니다.
이 발표를 통해 Red Hat은 vLLM을 AI 추론의 오픈 표준으로 자리매김하며, 기업의 기술 주권을 강화하고 상호운용성을 높이기 위한 헌신을 재확인합니다. 산업적 추론의 증가하는 요구를 충족하면서, 생성 AI의 민주화에 적극적으로 기여합니다.
- 정확성을 잃지 않고 모델의 크기와 에너지 소비를 줄일 수 있는 모델 압축 도구;
- Hugging Face의 Red Hat AI 페이지에 호스팅되는 최적화된 레퍼토리;
- 기업 지원 및 Red Hat 외부의 Linux 및 Kubernetes와 같은 타사 플랫폼과의 상호운용성.
생성 AI의 민주화로
이 솔루션은 Gemma, Llama, Mistral 및 Phi와 같은 주요 언어 모델을 본질적으로 지원하며, 고속 추론, 다중 GPU 처리, 연속 배칭, 확장된 입력 컨텍스트와 같은 최신 vLLM 기능을 활용합니다.
Red Hat은 기업용 생성 AI의 오픈 추론 표준으로 vLLM 언어를 만드는 데 기여하고자 하며, 이는 AI 모델, 기본 가속기 및 배포 환경에 관계없이 가능합니다.
