IA e robótica: com SmolVLA, Hugging Face abre os modelos Visão-Linguagem-Ação para a comunidade

IA e robótica: com SmolVLA, Hugging Face abre os modelos Visão-Linguagem-Ação para a comunidade

Em resumo : A Hugging Face lançou o SmolVLA, um modelo compacto e open-source para robótica VLA, que funciona em hardware comum e mantém alto desempenho.

A Hugging Face introduziu em 3 de junho passado SmolVLA, um modelo open-source de robótica Visão-Linguagem-Ação. Este modelo compacto, que possui apenas 450 milhões de parâmetros, pode funcionar em hardware de uso doméstico, como um MacBook ou uma GPU padrão, oferecendo desempenho comparável ao de modelos muito maiores.
 
A IA aplicada à robótica está em expansão graças aos avanços em visão computacional, processamento de linguagem natural e aprendizado por reforço. Este progresso intensificou-se com os modelos VLA, capazes de analisar seu ambiente, compreender instruções humanas e agir de forma autônoma em ambientes complexos.

Mas esta promessa técnica enfrenta várias limitações. Por um lado, a maioria dos modelos VLA existentes são extremamente volumosos, frequentemente com bilhões de parâmetros, o que resulta em custos de treinamento proibitivos e limita sua adoção em condições reais. Por outro lado, os avanços recentes ainda são amplamente proprietários: os pesos são às vezes publicados, mas os detalhes de treinamento e os componentes metodológicos essenciais permanecem, na maioria das vezes, fora de alcance.
SmolVLA se posiciona como uma resposta a essas restrições : oferecer uma alternativa leve, aberta e reprodutível, sem comprometer o desempenho.

Arquitetura e concepção

SmolVLA foi treinado exclusivamente em conjuntos de dados coletados pela comunidade, através da plataforma LeRobot hospedada no Hugging Face. Ele é baseado em uma arquitetura modular que compreende dois componentes principais:
  • SmolVLM-2, um modelo leve e eficiente, otimizado para o processamento de múltiplas imagens e vídeos. Ele articula dois blocos complementares: o codificador visual SigLIP e o decodificador de linguagem SmolLM2, permitindo que o sistema decripte o ambiente visual do robô e gere uma compreensão em linguagem natural;
  • Action Expert, um transformador de 100 milhões de parâmetros que prevê as ações a serem realizadas pelo robô, com base nas informações fornecidas pelo VLM.
Escolhas de design direcionadas contribuem para a eficiência do modelo:
  •  a redução do número de tokens visuais acelera a inferência sem comprometer a qualidade; 
  • o layer skipping permite uma execução mais rápida evitando algumas camadas do modelo;
  • a atenção entrelaçada otimiza a circulação da informação entre modalidades; 
  • a inferência assíncrona permite a previsão de uma ação durante a execução da anterior. 
Tantos fatores que participam para melhorar o desempenho enquanto controlam a carga computacional. Ao disponibilizar o modelo em open source, seu código base, os conjuntos de dados de treinamento e o hardware dos robôs, além de fornecer instruções detalhadas para garantir uma reprodutibilidade completa, a Hugging Face pretende democratizar o acesso aos modelos VLA e acelerar a pesquisa sobre agentes robóticos generalistas.