IA e robotica: con SmolVLA, Hugging Face apre i modelli Vision-Language-Action alla comunità

IA e robotica: con SmolVLA, Hugging Face apre i modelli Vision-Language-Action alla comunità

TLDR : Hugging Face ha lanciato SmolVLA, un modello VLA open-source, compatto e riproducibile, mirato a democratizzare l'accesso ai modelli di robotica grazie a un'architettura efficiente.

Hugging Face ha introdotto il 3 giugno scorso SmolVLA, un modello open-source di robotica Vision-Language-Action. Questo modello compatto, che conta solo 450 milioni di parametri, può funzionare su hardware di largo consumo, come un MacBook o una GPU standard, offrendo prestazioni comparabili a quelle di modelli molto più grandi.
 
L'IA applicata alla robotica sta conoscendo un'espansione grazie ai progressi nella visione artificiale, nel trattamento del linguaggio naturale e nell'apprendimento per rinforzo. Questo avanzamento si è intensificato con i modelli VLA, capaci di analizzare il loro ambiente, comprendere istruzioni umane e agire in modo autonomo in ambienti complessi.

Ma questa promessa tecnica si scontra con diverse limitazioni. Da un lato, la maggior parte dei modelli VLA esistenti sono estremamente voluminosi, spesso dotati di diversi miliardi di parametri, il che comporta costi di addestramento proibitivi e ne limita l'adozione in condizioni reali. Dall'altro, i recenti avanzamenti rimangono ampiamente proprietari: i pesi sono talvolta pubblicati, ma i dettagli di addestramento e i componenti metodologici essenziali restano, il più delle volte, fuori portata.
SmolVLA si posiziona come una risposta a questi vincoli : proporre un'alternativa leggera, aperta e riproducibile, senza compromettere le prestazioni.

Architettura e progettazione

SmolVLA è stato addestrato esclusivamente su set di dati raccolti dalla comunità, tramite la piattaforma LeRobot ospitata su Hugging Face. Si basa su un'architettura modulare che comprende due componenti principali:
  • SmolVLM-2, un modello leggero e performante, ottimizzato per il trattamento multi-immagine e video. Articola due blocchi complementari: l'encoder visivo SigLIP e il decodificatore di linguaggio SmolLM2, che permettono al sistema di decifrare l'ambiente visivo del robot e di generarne una comprensione in linguaggio naturale;
  • Action Expert, un trasformatore di 100 milioni di parametri che prevede le azioni da intraprendere dal robot, basato sulle informazioni fornite dal VLM.
Scelte progettuali mirate contribuiscono all'efficienza del modello:
  •  la riduzione del numero di token visivi accelera l'inferenza senza compromettere la qualità; 
  • il layer skipping permette un'esecuzione più rapida evitando alcuni strati del modello;
  • l'attenzione intrecciata ottimizza la circolazione dell'informazione tra modalità; 
  • l'inferenza asincrona autorizza la previsione di un'azione durante l'esecuzione della precedente. 
Tanti leve che contribuiscono a migliorare le prestazioni mantenendo sotto controllo il carico computazionale. Mettendo in open source il modello, la sua base di codice, i set di dati di addestramento e l'hardware dei robot, fornendo al contempo istruzioni dettagliate per garantire una completa riproducibilità, Hugging Face intende democratizzare l'accesso ai modelli VLA e accelerare la ricerca sugli agenti robotici generalisti.