TLDR : Hugging Face推出了SmolVLA,一个紧凑且高效的开源VLA模型,旨在克服现有模型的体积和成本限制,推动机器人领域的普及与研究。
Hugging Face于6月3日引入了 SmolVLA,这是一款开源的视觉-语言-动作(VLA)机器人模型。这个紧凑的模型仅有4.5亿个参数,可以在大众硬件上运行,例如MacBook或标准GPU,同时提供与体积更大的模型相当的性能。
由于计算机视觉、自然语言处理和强化学习的进步,人工智能在机器人领域得到了迅猛发展。这一进步在VLA模型的推动下愈发显著,这些模型能够分析环境、理解人类指令,并在复杂环境中自主行动。
然而,这一技术承诺面临多重限制。一方面,大多数现有的VLA模型体积庞大,常常拥有数十亿个参数,导致训练成本高昂,限制了其在实际条件下的应用。另一方面,近期的进展仍然是专有的:虽然有时会发布权重,但训练细节和关键的技术组件通常难以获取。
SmolVLA旨在应对这些限制 :提供一种轻量、开放且可复制的替代方案,同时不妥协性能。
架构与设计
SmolVLA完全基于社区通过Hugging Face平台上的LeRobot收集的数据集进行训练。它基于一个模块化架构,由两个主要组件组成:
- SmolVLM-2,一个轻量且高效的模型,优化用于多图像和视频处理。它结合了两个互补模块:视觉编码器SigLIP和语言解码器SmolLM2,使系统能解析机器人环境并生成自然语言理解;
- Action Expert,一个拥有1亿个参数的变换器,根据VLM提供的信息预测机器人应采取的行动。
有针对性的设计选择提升了模型的效率:
- 减少视觉标记数量,加速推理而不影响质量;
- 跳层机制 通过绕过某些模型层实现更快的执行;
- 交织注意力优化了模态间的信息流动;
- 异步推理允许在执行前一个动作时预测下一个动作。
这些策略有助于在控制计算负担的同时提高性能。通过开源模型、代码库、训练数据集和机器人硬件,并提供详细的指导以确保完全可复制性,Hugging Face旨在普及VLA模型的使用并加速通用机器人代理的研究。