IA și robotică: cu SmolVLA, Hugging Face deschide modelele Vision-Language-Action comunității

IA și robotică: cu SmolVLA, Hugging Face deschide modelele Vision-Language-Action comunității

În scurt : Hugging Face a lansat SmolVLA, un model VLA compact și open-source, accesibil și performant, ce poate fi utilizat pe hardware obișnuit, promovând astfel democratizarea și cercetarea roboticii.

Hugging Face a introdus pe 3 iunie SmolVLA, un model open-source de robotică Vision-Language-Action. Acest model compact care are doar 450 de milioane de parametri, poate funcționa pe hardware standard, precum un MacBook sau un GPU obișnuit, oferind în același timp performanțe comparabile cu cele ale unor modele mult mai mari.
 
IA aplicată în robotică cunoaște o creștere datorită progreselor în viziune computerizată, procesarea limbajului natural și învățarea prin întărire. Această avansare s-a intensificat cu modelele VLA, capabile să analizeze mediul înconjurător, să înțeleagă instrucțiunile umane și să acționeze în mod autonom în medii complexe.

Dar această promisiune tehnică întâmpină mai multe limite. Pe de o parte, majoritatea modelelor VLA existente sunt extrem de voluminoase, având adesea mai multe miliarde de parametri, ceea ce duce la costuri de antrenare prohibitive și limitează adoptarea lor în condiții reale. Pe de altă parte, progresele recente rămân în mare parte proprietare: greutățile sunt uneori publicate, dar detaliile de antrenare și componentele metodologice esențiale rămân, de cele mai multe ori, inaccesibile.
SmolVLA se poziționează ca un răspuns la aceste constrângeri : propunând o alternativă ușoară, deschisă și reproductibilă, fără compromisuri asupra performanței.

Arhitectură și concepție

SmolVLA a fost antrenat exclusiv pe seturi de date colectate de comunitate, prin platforma LeRobot găzduită pe Hugging Face. Se bazează pe o arhitectură modulară care cuprinde două componente principale:
  • SmolVLM-2, un model ușor și performant, optimizat pentru procesarea multi-imagine și video. Articulează două cărămizi complementare: encoderul vizual SigLIP și decoderul de limbaj SmolLM2, permițând sistemului să descifreze mediul vizual al robotului și să genereze o înțelegere în limbaj natural;
  • Action Expert, un transformator de 100 de milioane de parametri care prezice acțiunile de întreprins de către robot, bazat pe informațiile furnizate de VLM.
Alegerile de concepție țintite contribuie la eficiența modelului:
  •  reducerea numărului de tokens vizuali accelerează inferența fără compromisuri asupra calității; 
  • layer skipping permite o execuție mai rapidă evitând anumite straturi ale modelului;
  • atenția întrețesută optimizează circulația informației între modalități; 
  • inferența asincronă autorizează predicția unei acțiuni în timpul execuției precedentei. 
Atât de mulți factori care contribuie la îmbunătățirea performanțelor, controlând în același timp sarcina computațională. Prin open source-ul modelului, a bazei sale de cod, a seturilor de date de antrenare și a hardware-ului roboților, oferind în același timp instrucțiuni detaliate pentru a asigura o reproductibilitate completă, Hugging Face intenționează să democratizeze accesul la modelele VLA și să accelereze cercetarea asupra agenților robotici generaliști.