In kort : Hugging Face introduceert SmolVLA, een lichtgewicht open-source model voor robotica dat toegankelijk is voor de gemeenschap en vergelijkbare prestaties biedt als grotere modellen.
Hugging Face introduceerde op 3 juni SmolVLA, een open-source Vision-Language-Action robotica model. Dit compacte model, dat slechts 450 miljoen parameters bevat, kan op consumentenhardware draaien, zoals een MacBook of een standaard GPU, en biedt prestaties vergelijkbaar met veel grotere modellen.
AI in robotica groeit dankzij vooruitgang in computervisie, natuurlijke taalverwerking en reinforcement learning. Deze vooruitgang is versterkt met VLA-modellen, die in staat zijn hun omgeving te analyseren, menselijke instructies te begrijpen en autonoom te handelen in complexe omgevingen.
Maar deze technische belofte stuit op verschillende beperkingen. Enerzijds zijn de meeste bestaande VLA-modellen extreem groot, vaak met meerdere miljarden parameters, wat leidt tot prohibitieve trainingskosten en hun adoptie in reële omstandigheden beperkt. Anderzijds blijven recente ontwikkelingen grotendeels eigendom: de gewichten worden soms gepubliceerd, maar de trainingsdetails en essentiële methodologische componenten blijven meestal buiten bereik.
SmolVLA positioneert zich als een antwoord op deze beperkingen : het biedt een lichtgewicht, open en reproduceerbaar alternatief zonder compromissen op het gebied van prestaties.
Architectuur en ontwerp
SmolVLA is uitsluitend getraind op datasets verzameld door de gemeenschap, via het LeRobot platform gehost op Hugging Face. Het is gebaseerd op een modulaire architectuur met twee hoofdcomponenten:
- SmolVLM-2, een lichtgewicht en krachtig model, geoptimaliseerd voor multi-image en video verwerking. Het combineert twee complementaire bouwstenen: de visuele encoder SigLIP en de taaldecodeerder SmolLM2, waardoor het systeem de visuele omgeving van de robot kan ontcijferen en een begrip in natuurlijke taal kan genereren;
- Action Expert, een transformer met 100 miljoen parameters die voorspelt welke acties de robot moet ondernemen, gebaseerd op de informatie verstrekt door de VLM.
Gerichte ontwerpkeuzes dragen bij aan de efficiëntie van het model:
- het verminderen van het aantal visuele tokens versnelt de inferentie zonder afbreuk te doen aan de kwaliteit;
- layer skipping maakt een snellere uitvoering mogelijk door bepaalde lagen van het model over te slaan;
- de verweven aandacht optimaliseert de informatiestroom tussen modaliteiten;
- asynchrone inferentie staat de voorspelling van een actie toe tijdens de uitvoering van de vorige.
Al deze hefbomen dragen bij aan het verbeteren van de prestaties terwijl de computationele belasting wordt beheerst. Door het model, de broncode, de trainingsdatasets en de robot-hardware open source te maken, en gedetailleerde instructies te geven voor volledige reproduceerbaarheid, streeft Hugging Face ernaar de toegang tot VLA-modellen te democratiseren en het onderzoek naar algemene robotagents te versnellen.