TLDR : Hugging Face ha lanzado SmolVLA, un modelo de robótica VLA de código abierto, ligero y eficiente, accesible para la comunidad.
El pasado 3 de junio, Hugging Face introdujo SmolVLA, un modelo de código abierto de robótica Visión-Lenguaje-Acción. Este modelo compacto, que solo cuenta con 450 millones de parámetros, puede funcionar en hardware de consumo, como un MacBook o una GPU estándar, ofreciendo un rendimiento comparable al de modelos mucho más grandes.
La IA aplicada a la robótica está en auge gracias a los avances en visión por computadora, procesamiento del lenguaje natural y aprendizaje por refuerzo. Este progreso se ha intensificado con los modelos VLA, capaces de analizar su entorno, comprender instrucciones humanas y actuar de manera autónoma en entornos complejos.
Sin embargo, esta promesa técnica se enfrenta a varias limitaciones. Por un lado, la mayoría de los modelos VLA existentes son extremadamente voluminosos, a menudo con varios miles de millones de parámetros, lo que lleva a costos de entrenamiento prohibitivos y limita su adopción en condiciones reales. Por otro lado, los avances recientes siguen siendo en gran parte propietarios: a veces se publican los pesos, pero los detalles de entrenamiento y los componentes metodológicos esenciales quedan, en su mayoría, fuera de alcance.
SmolVLA se posiciona como una respuesta a estas restricciones : ofrecer una alternativa ligera, abierta y reproducible, sin comprometer el rendimiento.
Arquitectura y diseño
SmolVLA ha sido entrenado exclusivamente en conjuntos de datos recopilados por la comunidad, a través de la plataforma LeRobot alojada en Hugging Face. Se basa en una arquitectura modular que comprende dos componentes principales:
- SmolVLM-2, un modelo ligero y eficiente, optimizado para el procesamiento de múltiples imágenes y video. Articula dos bloques complementarios: el codificador visual SigLIP y el decodificador de lenguaje SmolLM2, permitiendo al sistema descifrar el entorno visual del robot y generar una comprensión en lenguaje natural;
- Action Expert, un transformador de 100 millones de parámetros que predice las acciones a realizar por el robot, basado en la información proporcionada por el VLM.
Las decisiones de diseño específicas contribuyen a la eficiencia del modelo:
- la reducción del número de tokens visuales acelera la inferencia sin comprometer la calidad;
- el layer skipping permite una ejecución más rápida al evitar ciertas capas del modelo;
- la atención entrelazada optimiza el flujo de información entre modalidades;
- la inferencia asíncrona permite la predicción de una acción mientras se ejecuta la anterior.
Tantos mecanismos que contribuyen a mejorar el rendimiento mientras se controla la carga computacional. Al poner en código abierto el modelo, su base de código, los conjuntos de datos de entrenamiento y el hardware de los robots, y al proporcionar instrucciones detalladas para garantizar una reproducibilidad completa, Hugging Face pretende democratizar el acceso a los modelos VLA y acelerar la investigación sobre agentes robóticos generalistas.