专为机器人行业而设计!谷歌推出两款新型AI模型
作者头像
  • 南书院之花
  • 2025-03-13 08:15:29 228

谷歌近日推出了两款基于Gemini 2.0的人工智能模型,目标是打造更加灵活且能互动的机器人,这或将促进机器人在更多场景中的广泛应用。这两款新模型适用于不同形态的机器人,比如人形机器人以及工厂和仓库中常见的其他类型机器人。

其中一款名为Gemini Robotics,属于视觉-语言-行动模型,能够通过实际操作来实现指令。这意味着机器人不仅能听懂自然语言指令,还能完成复杂的任务。简而言之,它能让机器人理解人类的语言并执行对应的命令。

另一款名为Gemini Robotics-ER的模型,则侧重于空间推理,是一种视觉-语言模型。它可以帮助机器人更好地感知周围环境,并支持开发者利用其推理功能编写程序。

谷歌DeepMind的工程师Kanishka Rao指出,通过将Gemini模型应用到机器人领域,谷歌正推动机器人技术朝着更智能、更通用的方向迈进。“我们的世界充满复杂性、动态变化和多样性,因此我们认为通用型智能机器人必须具备应对这些挑战的能力。”

值得注意的是,Meta、特斯拉和OpenAI等知名企业都在加大对机器人技术的投资力度,同时一些初创公司如Figure AI和Skild AI也逐渐崭露头角,这些企业的估值均已达到数十亿美元级别。

在一段预先录制的展示视频中,谷歌的研究人员演示了搭载其技术的机器人如何响应基本指令。例如,有一台机器人面对一堆积木,当被指示拼出某个单词时,它成功拼出了“Ace”。

此外,在一个小型玩具篮球场上,另一台机器人按照要求完成了扣篮动作,把一个小塑料球投入篮筐内。Rao提到,当他们首次看到机器人完成这一动作时,整个团队都感到非常激动,因为机器人并未接触过任何与篮球相关的事物。它之所以能做到这一点,是因为Gemini模型帮助它理解了篮网的样子以及“扣篮”这个词汇的意义,并将两者结合起来,在现实中实现了该动作。

尽管如此,谷歌承认这项研究尚处于初步探索阶段。DeepMind的研究员Vikas Sindhwani补充道,Gemini模型的研发建立在对物理环境中“常识性安全”的深刻理解之上。

另外,谷歌计划分阶段部署这些机器人,初期会将其安置在远离人群的地方,随着安全性不断提高,再逐步增强它们的交互性和协作能力。

    本文来源:互联网
责任编辑: : 南书院之花
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
专为机器人模型新型推出行业设计谷歌
    下一篇