ML Drift : 로컬 추론을 용이하게 하다

TLDR : Google과 Meta의 연구팀이 ML Drift를 개발하여 다양한 GPU 아키텍처의 도전에 대응하면서도 장치에서 직접 인공지능을 효율적으로 실행할 수 있는 솔루션을 제공했습니다. 텐서 가상화 등의 혁신을 통해 성능을 크게 향상시키고, 모바일 및 데스크탑 플랫폼 전반에 걸쳐 높은 호환성을 보장합니다.

대부분의 인공지능 모델은 서버에서 추론(즉, 실행)됩니다. 그러나 로컬 추론, 즉 장치에서 직접 실행하는 개발은 서버 제약을 줄이고 기밀성을 개선하여 인공지능의 확산을 가속화할 수 있습니다.

그러나 다양한 종류의 GPU에서 생성적 인공지능 모델을 배포하는 것은 주목할 만한 어려움을 제기합니다: 독점 솔루션에서 개방형 플랫폼에 이르기까지 다양한 GPU 아키텍처는 각기 다른 특성과 제한사항을 가지고 있어 작업이 복잡합니다.

물리적 의존성의 증가하는 위험에 직면하여, 이질적인 플랫폼에서 성능 최적화는 생성적 모델의 원활하고 효율적인 실행을 보장하기 위한 필수 요건이 됩니다.

이러한 문제를 해결하기 위해 Google과 Meta의 연구팀, Jiuqiang Tang, Raman Sarokin, Ekaterina Ignasheva를 포함한 연구진은 다양한 플랫폼에서의 추론을 위한 솔루션인 ML Drift를 개발했습니다. 이들의 전문성은 생성적 AI 작업의 효율적인 실행을 가능케 하는 GPU 추론 엔진 최적화에 있습니다. ML Drift는 API 간의 기술적 장애를 극복하고 모바일 및 데스크톱 플랫폼 전반에 걸친 광범위한 호환성을 보장하는 능력으로 주목받고 있습니다.

방법론적 접근 및 기술 혁신

ML Drift는 텐서 가상화 및 메모리 관리 최적화를 포함한 여러 기술 혁신을 도입합니다. 텐서 가상화는 GPU의 논리적 인덱스를 물리적 인덱스와 분리하여 메모리 배치와 커널 최적화에 대한 유연성을 제공합니다. 또한, 메모리 관리 및 최적화 전략은 메모리 풋프린트를 줄이고 성능을 향상시키는 데 기여합니다.

성과와 미래 전망

ML Drift의 성능 평가 결과는 기존 오픈 소스 솔루션에 비해 상당한 성능 향상을 보여주며, 성능 측면에서 상당한 이익(10배에서 100배 더 많은 파라미터 지원)을 제공합니다. 이러한 유망한 결과는 향후 응용 및 개선의 길을 열며, 고급 양자화 기술 통합 및 ML 작업 부하를 위한 특수 명령어 탐색을 포함합니다. 앞으로 팀은 ML Drift의 기능을 최신 확산 모델과 변환기 기반 아키텍처로 확장하고, 이질적인 프로세서와의 효율적인 상호운용성을 탐구할 계획입니다.

출판 참조: arXiv:2505.00232v1

번역됨 ML Drift : faciliter l'inférence locale

더 잘 이해하기

텐서 가상화란 무엇이며 다양한 GPU에서의 추론에 왜 중요합니까?

텐서 가상화는 GPU의 논리적 인덱스와 물리적 인덱스를 분리하여 메모리 관리의 유연성을 높입니다. 이는 이종 아키텍처를 가진 다양한 GPU에서 추론 성능을 최적화하는 데 중요하며, 자원 활용을 향상시킵니다.