图灵汇报道显示,Hugging Face 发布了一款名为 SmolVLA 的开源机器人模型,参数规模达 4.5 亿。这款模型注重通用性,能在普通设备如 MacBook Pro 上运行,有助于开发者减少开发投入。
当前,许多机器人模型采用“视觉-语言-行动”(Vision-Language-Action,简称 VLA)的设计思路,试图在一个框架内融合感知、语言理解和决策能力,从而实现复杂的自主任务。然而,这类模型的训练成本很高,多数仍是闭源状态,需要昂贵的硬件、大量的工程资源以及大规模的私人数据集。
针对这一问题,Hugging Face 推出了 SmolVLA,一个轻量级且开源的解决方案。它利用公开数据集进行训练,支持在普通硬件上运行,目的是降低机器人研究的门槛,推动相关领域的发展。
据介绍,SmolVLA 在设计上结合了 Transformer 架构和 flow-matching 解码器,并应用了四种关键技术优化。例如,跳过部分视觉层来加快推理速度并缩小模型大小;混合使用自注意力和交叉注意力模块以增强多模态信息处理效率;减少视觉 Token 数量以提高运算效率;选用更简洁的 SmolVLM2 作为视觉编码器以进一步减轻硬件负担。
从训练策略来看,SmolVLA 先通过常规操作数据完成初步学习,然后针对具体任务调整参数,从而增强适用性。尽管其训练数据量相对较少,只有不到三万条任务记录,但 Hugging Face 称其在虚拟环境和现实场景中的表现接近大型模型,并在某些任务上超过了竞争对手。
另外,Hugging Face 提到 SmolVLA 使用了“异步推理架构”,把感知过程(如视觉和语音识别)与实际动作分开处理,这样能让机器人更快应对动态变化的环境,提升实用性。
Hugging Face 强调,用户只需一台 MacBook Pro 或类似的消费级设备就能运行 SmolVLA-450M 模型,而不需要购买专门的 AI 训练设备。同时,用户还可以选择 Hugging Face 提供的经济型机器人平台(如 SO-100、SO-101 和 LeKiwi)来控制成本。
Hugging Face 还分享了几项内部测试结果,表明 SmolVLA 在 LIBERO 和 Meta-World 等模拟平台上优于 Octo 和 OpenVLA 等产品,在实际操作中,比如抓取、放置、堆叠和分类任务里也有出色的表现。
目前,SmolVLA 的基础版本已经上线 Hugging Face 平台,完整的训练资料也在 GitHub 上公开,图灵汇提供了访问链接(https://huggingface.co/lerobot/smolvla_base)。