人工智能与机器人：Hugging Face通过SmolVLA向社区开放视觉-语言-动作模型

Hugging Face于6月3日引入了 SmolVLA，这是一款开源的视觉-语言-动作（VLA）机器人模型。这个紧凑的模型仅有4.5亿个参数，可以在大众硬件上运行，例如MacBook或标准GPU，同时提供与体积更大的模型相当的性能。

由于计算机视觉、自然语言处理和强化学习的进步，人工智能在机器人领域得到了迅猛发展。这一进步在VLA模型的推动下愈发显著，这些模型能够分析环境、理解人类指令，并在复杂环境中自主行动。

然而，这一技术承诺面临多重限制。一方面，大多数现有的VLA模型体积庞大，常常拥有数十亿个参数，导致训练成本高昂，限制了其在实际条件下的应用。另一方面，近期的进展仍然是专有的：虽然有时会发布权重，但训练细节和关键的技术组件通常难以获取。

SmolVLA旨在应对这些限制：提供一种轻量、开放且可复制的替代方案，同时不妥协性能。

架构与设计

SmolVLA完全基于社区通过Hugging Face平台上的LeRobot收集的数据集进行训练。它基于一个模块化架构，由两个主要组件组成：

SmolVLM-2，一个轻量且高效的模型，优化用于多图像和视频处理。它结合了两个互补模块：视觉编码器SigLIP和语言解码器SmolLM2，使系统能解析机器人环境并生成自然语言理解；
Action Expert，一个拥有1亿个参数的变换器，根据VLM提供的信息预测机器人应采取的行动。

有针对性的设计选择提升了模型的效率：

这些策略有助于在控制计算负担的同时提高性能。通过开源模型、代码库、训练数据集和机器人硬件，并提供详细的指导以确保完全可复制性，Hugging Face旨在普及VLA模型的使用并加速通用机器人代理的研究。

Marie-Claude Benoit

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。