Red Hat AI Inference Server: 기업용 AI 추론의 오픈 표준화로

Red Hat AI Inference Server: 기업용 AI 추론의 오픈 표준화로

TLDR : Red Hat은 하이브리드 클라우드 환경에서 AI 모델 실행을 단순화하고 향상시키기 위한 오픈 소스 솔루션인 Red Hat AI Inference Server를 출시했습니다. 고급 최적화 도구를 갖춘 이 솔루션은 모든 AI 가속기 및 클라우드에서 실행할 수 있는 유연성을 제공하며, 기업에서 생성 AI의 민주화를 촉진합니다.

Red Hat Summit 2025에서 Red Hat은 Red Hat AI Inference Server 출시를 발표했습니다. 이는 Red Hat AI 제품군의 새로운 구성 요소로, 하이브리드 클라우드 환경을 위해 설계된 오픈 소스 솔루션으로, 생성 AI 모델의 실행을 단순화하고 성능을 향상시키는 것을 목표로 합니다.
추론 서버는 AI 애플리케이션과 대형 언어 모델(LLMs) 간의 인터페이스 역할을 하며, 입력 데이터로부터 응답을 생성하는 과정을 용이하게 합니다. LLMs의 배포가 증가함에 따라, 추론 단계는 기술적, 경제적으로 중요한 문제로 부각되고 있습니다.
Berkeley 대학이 시작한 커뮤니티 프로젝트 vLLM을 기반으로, Red Hat AI Inference Server는 Neural Magic의 도구를 포함한 고급 최적화 도구를 내장하여, 에너지 소비를 줄이고 계산 속도를 높이며 수익성을 개선합니다. 컨테이너화된 버전으로 제공되거나 RHEL AI 및 Red Hat OpenShift AI 솔루션에 통합되어, 모든 유형의 AI 가속기와 모든 클라우드에서 실행할 수 있는 높은 유연성을 제공합니다.
주요 기능 중 일부는 다음과 같습니다:
  • 정확성을 희생하지 않고 크기를 줄이기 위한 지능형 모델 압축;
  • Hugging Face의 Red Hat AI 페이지를 통해 액세스할 수 있는 검증된 모델의 최적화된 레퍼토리;
  • Red Hat 외부 환경에서 Linux 및 Kubernetes를 포함한 타사 플랫폼과의 상호운용성;
  • 오픈 소스 기술의 산업화에서 Red Hat의 경험을 바탕으로 한 기업 지원.
이 솔루션은 Gemma, Llama, Mistral, Phi와 같은 주요 언어 모델을 지원하며, 다중 GPU 처리, 연속 배칭, 확장된 컨텍스트 및 고속 추론과 같은 최신 vLLM 기능을 통합합니다.
이 발표를 통해 Red Hat은 vLLM을 AI 추론의 오픈 표준으로 자리매김하며, 기업의 기술 주권을 강화하고 상호운용성을 높이기 위한 헌신을 재확인합니다. 산업적 추론의 증가하는 요구를 충족하면서, 생성 AI의 민주화에 적극적으로 기여합니다.
  • 정확성을 잃지 않고 모델의 크기와 에너지 소비를 줄일 수 있는 모델 압축 도구;
  • Hugging Face의 Red Hat AI 페이지에 호스팅되는 최적화된 레퍼토리;
  • 기업 지원 및 Red Hat 외부의 Linux 및 Kubernetes와 같은 타사 플랫폼과의 상호운용성.

생성 AI의 민주화로

이 솔루션은 Gemma, Llama, Mistral 및 Phi와 같은 주요 언어 모델을 본질적으로 지원하며, 고속 추론, 다중 GPU 처리, 연속 배칭, 확장된 입력 컨텍스트와 같은 최신 vLLM 기능을 활용합니다.
Red Hat은 기업용 생성 AI의 오픈 추론 표준으로 vLLM 언어를 만드는 데 기여하고자 하며, 이는 AI 모델, 기본 가속기 및 배포 환경에 관계없이 가능합니다.

더 잘 이해하기

vLLM 프로젝트는 무엇이며, AI 추론에 왜 중요한가요?

버클리 대학에서 시작한 vLLM 프로젝트는 언어 모델 최적화를 위한 고급 기술입니다. 다중 GPU 처리 및 고속 추론과 같은 혁신을 통해 AI 모델의 운영 성능을 향상시키고, 에너지 소비를 줄이며 수익성을 높입니다.

AI 모델의 지능형 압축이 어떻게 정확성을 손상시키지 않고 에너지 소비를 줄일 수 있습니까?

지능형 압축은 중복성을 제거하고 계산을 최적화하여 AI 모델의 크기를 줄이며, 이를 통해 자원 요구를 줄이고 고급 최적화 알고리즘을 통해 정확성을 유지합니다.