Hugging Face 3 червня представила SmolVLA, модель з відкритим кодом для робототехніки Vision-Language-Action. Ця компактна модель, яка містить всього 450 мільйонів параметрів, може працювати на звичайному обладнанні, такому як MacBook або стандартний GPU, забезпечуючи продуктивність, порівнянну з набагато більшими моделями.
 
ІА, застосована в робототехніці, набирає обертів завдяки прогресу в комп'ютерному зорі, обробці природної мови та навчанні з підкріпленням. Цей розвиток посилився з появою моделей VLA, здатних аналізувати своє оточення, розуміти людські інструкції та діяти автономно в складних середовищах.

Але ця технічна обіцянка наштовхується на декілька обмежень. По-перше, більшість існуючих моделей VLA є надзвичайно великими, часто містять кілька мільярдів параметрів, що призводить до заборонних витрат на навчання та обмежує їх впровадження в реальних умовах. По-друге, недавні досягнення залишаються в основному власницькими: ваги іноді публікуються, але деталі навчання та ключові методологічні компоненти зазвичай залишаються недоступними.
SmolVLA позиціонується як відповідь на ці обмеження : пропонуючи легку, відкриту та відтворювану альтернативу без компромісів у продуктивності.

Архітектура та дизайн

SmolVLA була навчена виключно на наборах даних, зібраних спільнотою, через платформу LeRobot, розміщену на Hugging Face. Вона базується на модульній архітектурі, яка включає два основні компоненти:
  • SmolVLM-2, легка та ефективна модель, оптимізована для обробки мультимедійних зображень і відео. Вона об'єднує два додаткові блоки: візуальний енкодер SigLIP та мовний декодер SmolLM2, що дозволяє системі розшифровувати візуальне середовище робота та генерувати його розуміння природною мовою;
  • Action Expert, трансформер з 100 мільйонами параметрів, який передбачає дії, які повинен виконати робот, на основі інформації, наданої VLM.
Цільові дизайнерські рішення сприяють ефективності моделі:
  •  зменшення кількості візуальних токенів прискорює інференс без шкоди для якості; 
  • пропуск шарів дозволяє швидше виконання, уникаючи деяких шарів моделі;
  • переплетена увага оптимізує циркуляцію інформації між модальностями; 
  • асинхронний інференс дозволяє прогнозувати дію під час виконання попередньої. 
Ці важелі сприяють поліпшенню продуктивності при збереженні обчислювальної навантаженості. Відкриваючи вихідний код моделі, її кодову базу, набори навчальних даних та апаратне забезпечення роботів, а також надаючи детальні інструкції для забезпечення повної відтворюваності, Hugging Face прагне демократизувати доступ до моделей VLA та прискорити дослідження універсальних роботизованих агентів.