Hugging Face a introduit le 3 juin dernier SmolVLA, un modèle open-source de robotique Vision-Language-Action. Ce modèle compact qui ne compte que 450 millions de paramètres, peut fonctionner sur du matériel grand public, tel qu'un MacBook ou un GPU standard, tout en offrant des performances comparables à celles de modèles beaucoup plus volumineux.
L’IA appliquée à la robotique connaît un essor grâce aux progrès en vision par ordinateur, en traitement du langage naturel et en apprentissage par renforcement. Cette avancée s’est intensifiée avec les modèles VLA, capables d’analyser leur environnement, de comprendre des instructions humaines et d’agir de manière autonome dans des environnements complexes.

Mais cette promesse technique se heurte à plusieurs limites. D’une part, la majorité des modèles VLA existants sont extrêmement volumineux, souvent dotés de plusieurs milliards de paramètres, ce qui entraîne des coûts d’entraînement prohibitifs et limite leur adoption en conditions réelles.. D’autre part, les avancées récentes demeurent largement propriétaires : les poids sont parfois publiés, mais les détails d'entraînement et les composants méthodologiques essentiels restent, le plus souvent, hors de portée.
SmolVLA se positionne comme une réponse à ces contraintes : proposer une alternative légère, ouverte et reproductible, sans compromis sur la performance.

Architecture et conception

SmolVLA a été entraîné exclusivement sur des ensembles de données collectées par la communauté, via la plateforme LeRobot hébergée sur Hugging Face. Il repose sur une architecture modulaire comprenant deux composants principaux :
  • SmolVLM-2, un modèle léger et performant, optimisé pour le traitement multi-images et vidéo. Il articule deux briques complémentaires : l’encodeur visuel SigLIP et le décodeur de langage SmolLM2, permettant au système de décrypter l’environnement visuel du robot et d’en générer une compréhension en langage naturel ;
  • Action Expert, un transformeur de 100 millions de paramètres qui prédit les actions à entreprendre par le robot, basé sur les informations fournies par le VLM.

Des choix de conception ciblés contribuent à l'efficacité du modèle :

  • la réduction du nombre de tokens visuels accélère l’inférence sans compromis sur la qualité ;
  • le layer skipping permet une exécution plus rapide en évitant certaines couches du modèle ;
  • l’attention entrelacée optimise la circulation de l’information entre modalités ;
  • l’inférence asynchrone autorise la prédiction d’une action pendant l’exécution de la précédente.
Autant de leviers qui participent à améliorer les performances tout en maîtrisant la charge computationnelle. En mettant en open source le modèle, sa base de code, les ensembles de données d’entraînement et le matériel des robots, tout en fournissant des instructions détaillées pour garantir une reproductibilité complète, Hugging Face entend démocratiser l’accès aux modèles VLA et accélérer la recherche sur les agents robotiques généralistes.