W skrócie : Hugging Face wprowadziło SmolVLA, kompaktowy model VLA, który działa na powszechnym sprzęcie i jest open-source, co ma na celu demokratyzację dostępu do zaawansowanej robotyki.
Hugging Face wprowadziło 3 czerwca SmolVLA, open-source'owy model robotyki Vision-Language-Action. Ten kompaktowy model, który zawiera jedynie 450 milionów parametrów, może działać na sprzęcie powszechnie dostępnym, takim jak MacBook lub standardowy GPU, oferując jednocześnie wydajność porównywalną z dużo większymi modelami.
IA stosowana w robotyce rozwija się dynamicznie dzięki postępom w widzeniu komputerowym, przetwarzaniu języka naturalnego i uczeniu się przez wzmocnienie. Ten rozwój przyspieszył dzięki modelom VLA, które potrafią analizować swoje otoczenie, rozumieć instrukcje ludzkie i działać autonomicznie w skomplikowanych środowiskach.
Jednak obietnica technologiczna napotyka na kilka ograniczeń. Z jednej strony, większość istniejących modeli VLA jest niezwykle obszerna, często dysponując wieloma miliardami parametrów, co prowadzi do prohibicyjnych kosztów szkolenia i ogranicza ich adopcję w rzeczywistych warunkach. Z drugiej strony, ostatnie postępy są w dużej mierze zamknięte: wagi są czasami publikowane, ale szczegóły szkolenia i kluczowe komponenty metodologiczne pozostają, najczęściej, poza zasięgiem.
SmolVLA stawia się jako odpowiedź na te ograniczenia : oferując lekką, otwartą i reproduktywną alternatywę, bez kompromisów w zakresie wydajności.
Architektura i projektowanie
SmolVLA został przeszkolony wyłącznie na zbiorach danych zebranych przez społeczność, za pośrednictwem platformy LeRobot hostowanej na Hugging Face. Opiera się na modułowej architekturze obejmującej dwa główne komponenty:
- SmolVLM-2, lekki i wydajny model, zoptymalizowany do przetwarzania obrazów i wideo. Składa się z dwóch uzupełniających się elementów: wizualnego enkodera SigLIP i dekodera języka SmolLM2, umożliwiając systemowi rozszyfrowanie wizualnego środowiska robota i generowanie zrozumienia w języku naturalnym;
- Action Expert, transformer o 100 milionach parametrów, który przewiduje działania do podjęcia przez robota, na podstawie informacji dostarczonych przez VLM.
Celowe wybory projektowe przyczyniają się do efektywności modelu:
- redukcja liczby tokenów wizualnych przyspiesza wnioskowanie bez kompromisów w jakości;
- pomijanie warstw pozwala na szybsze wykonywanie, unikając niektórych warstw modelu;
- przeplatana uwaga optymalizuje przepływ informacji między modalnościami;
- asynchroniczne wnioskowanie pozwala na przewidywanie działania podczas wykonywania poprzedniego.
Tyle dźwigni, które pomagają poprawić wydajność przy jednoczesnym kontrolowaniu obciążenia obliczeniowego. Udostępniając model jako open-source, jego bazę kodu, zbiory danych szkoleniowych i sprzęt robotów, a także dostarczając szczegółowe instrukcje zapewniające pełną reprodukowalność, Hugging Face ma na celu demokratyzację dostępu do modeli VLA i przyspieszenie badań nad ogólnymi agentami robotycznymi.