数据集 / 开放资源

人工智能与机器人:Hugging Face通过SmolVLA向社区开放视觉-语言-动作模型

Hugging Face引入了SmolVLA,这是一个开源的视觉-语言-动作模型,其紧凑性使其能够在大众硬件上运行,同时保持高性能。

MAMarie-Claude Benoit · ·1 min
人工智能与机器人:Hugging Face通过SmolVLA向社区开放视觉-语言-动作模型
目录
Hugging Face于6月3日引入了 SmolVLA,这是一款开源的视觉-语言-动作(VLA)机器人模型。这个紧凑的模型仅有4.5亿个参数,可以在大众硬件上运行,例如MacBook或标准GPU,同时提供与体积更大的模型相当的性能。
 
由于计算机视觉、自然语言处理和强化学习的进步,人工智能在机器人领域得到了迅猛发展。这一进步在VLA模型的推动下愈发显著,这些模型能够分析环境、理解人类指令,并在复杂环境中自主行动。

然而,这一技术承诺面临多重限制。一方面,大多数现有的VLA模型体积庞大,常常拥有数十亿个参数,导致训练成本高昂,限制了其在实际条件下的应用。另一方面,近期的进展仍然是专有的:虽然有时会发布权重,但训练细节和关键的技术组件通常难以获取。
SmolVLA旨在应对这些限制 :提供一种轻量、开放且可复制的替代方案,同时不妥协性能。

架构与设计

SmolVLA完全基于社区通过Hugging Face平台上的LeRobot收集的数据集进行训练。它基于一个模块化架构,由两个主要组件组成:
  • SmolVLM-2,一个轻量且高效的模型,优化用于多图像和视频处理。它结合了两个互补模块:视觉编码器SigLIP和语言解码器SmolLM2,使系统能解析机器人环境并生成自然语言理解;
  • Action Expert,一个拥有1亿个参数的变换器,根据VLM提供的信息预测机器人应采取的行动。
有针对性的设计选择提升了模型的效率:
  •  减少视觉标记数量,加速推理而不影响质量; 
  • 跳层机制 通过绕过某些模型层实现更快的执行;
  • 交织注意力优化了模态间的信息流动; 
  • 异步推理允许在执行前一个动作时预测下一个动作。
这些策略有助于在控制计算负担的同时提高性能。通过开源模型、代码库、训练数据集和机器人硬件,并提供详细的指导以确保完全可复制性,Hugging Face旨在普及VLA模型的使用并加速通用机器人代理的研究。
 
MA
Marie-Claude Benoit

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。