IA와 로보틱스: SmolVLA로 Hugging Face가 Vision-Language-Action 모델을 커뮤니티에 공개하다

IA와 로보틱스: SmolVLA로 Hugging Face가 Vision-Language-Action 모델을 커뮤니티에 공개하다

TLDR : Hugging Face가 SmolVLA라는 경량의 오픈 소스 VLA 모델을 공개하여, 성능을 유지하면서도 더 작은 파라미터로 대중적인 하드웨어에서 작동할 수 있는 솔루션을 제공합니다. 이 모델은 커뮤니티 기반 데이터로 훈련되었습니다.

지난 6월 3일, Hugging Face는 SmolVLA라는 오픈 소스 Vision-Language-Action 로보틱스 모델을 소개했습니다. 이 컴팩트한 모델은 4억 5천만 개의 파라미터로 구성되어 있으며, 일반적인 맥북 또는 표준 GPU와 같은 대중적인 하드웨어에서 작동할 수 있습니다. 또한, 더 큰 모델들과 비교해도 손색없는 성능을 제공합니다.
 
로보틱스에 적용된 인공지능은 컴퓨터 비전, 자연어 처리, 강화 학습의 발전 덕분에 급성장하고 있습니다. VLA 모델의 발전은 환경을 분석하고, 인간의 지시를 이해하며, 복잡한 환경에서 자율적으로 행동할 수 있는 능력을 강화했습니다.

하지만 이러한 기술적 가능성은 여러 한계에 부딪히고 있습니다. 첫째, 기존 VLA 모델의 대부분은 수십억 개의 파라미터로 구성된 매우 큰 모델로, 훈련 비용이 매우 높아 실제 환경에서의 채택을 제한합니다. 둘째, 최근의 발전은 주로 독점적입니다. 가중치가 공개되더라도 훈련 세부 사항과 핵심 방법론적 구성 요소는 대부분 접근할 수 없는 상태로 남아 있습니다.
SmolVLA는 이러한 제약에 대한 대안으로, 경량화되고 개방적이며 재현 가능한 솔루션을 제안하며 성능에 타협하지 않습니다.

아키텍처와 설계

SmolVLA는 Hugging Face에 호스팅된 LeRobot 플랫폼을 통해 커뮤니티에서 수집한 데이터 세트로만 훈련되었습니다. 이 모델은 두 가지 주요 구성 요소로 구성된 모듈식 아키텍처를 기반으로 합니다:
  • SmolVLM-2, 다중 이미지 및 비디오 처리를 위해 최적화된 경량 고성능 모델입니다. 시각적 환경을 해석하고 이를 자연어로 이해할 수 있도록 하는 시각적 인코더 SigLIP 및 언어 디코더 SmolLM2로 구성되어 있습니다.
  • Action Expert, 1억 개의 파라미터를 가진 변환기로, VLM에서 제공된 정보를 바탕으로 로봇이 수행할 행동을 예측합니다.
설계 선택은 모델의 효율성에 기여합니다:
  •  시각적 토큰 수의 감소는 품질을 손상시키지 않으면서 추론 속도를 가속화합니다.
  • 레이어 스키핑은 모델의 일부 레이어를 건너뛰어 실행 속도를 높입니다.
  • 얽힌 주의 메커니즘은 모달리티 간 정보 흐름을 최적화합니다.
  • 비동기 추론은 이전 행동을 실행하는 동안 다음 행동을 예측할 수 있도록 합니다.
이러한 다양한 요소는 성능을 개선하면서 계산 부하를 관리하는 데 기여합니다. Hugging Face는 모델, 코드 베이스, 훈련 데이터 세트 및 로봇 하드웨어를 오픈 소스로 제공하면서 완전한 재현성을 보장하기 위한 세부 지침을 제공하여 VLA 모델에 대한 접근을 민주화하고 일반적인 로봇 에이전트 연구를 가속화하려고 합니다.