不止视觉,CMU研讨员让机器人学会了听音辨物
作者头像
  • 瓜姐讲堂
  • 2020-08-18 08:55:53 3

在机器人技术领域,尽管我们在视觉和触觉方面取得了显著进展,但对声音的研究一直相对滞后。最近,卡内基梅隆大学的研究团队首次对声音与机器人动作之间的相互作用进行了大规模研究。

研究团队开发了一款名为Tilt-Bot的机器人,它可以通过倾斜托盘来研究物体运动和声音之间的关系,准确率接近80%。研究成果以论文形式发布在《机器人学:科学与系统》杂志上。

Tilt-Bot本质上是一个托盘机器人,由多关节机械臂、托盘及固定装置组成,托盘四周设有挡板,并装有声波捕捉设备,用于记录物体撞击产生的声音。此外,托盘上方还固定有一个摄像头,用于捕捉物体的运动轨迹,以便后期将声音变化与物体运动相结合。

在实验中,研究人员会将不同的物体放置在托盘中,机械臂则通过前后左右倾斜托盘,使物体随之移动。若倾斜角度过大,物体便会撞击到挡板并产生声音,撞击强度越大,捕捉到的声音信号就越强。

这一设计使得经过训练的机器人只需分析物体滑动和撞击的声音记录,就能区分不同物体。此外,研究人员还发现,即使是同属金属材质的螺丝刀和扳手,也能被成功区分,总体识别准确率接近80%。

值得一提的是,研究人员在实验过程中还构建了一个包含60种物体、15,000多次交互(包括碰撞等)的声音-动作-视觉数据集。该数据集不仅涵盖了声音信号,还包括物体运动轨迹和图像信息,为后续研究提供了宝贵的资源。

在论文中,研究人员总结了三个重要观察结果: 1. 声音是实现细粒度物体识别的关键; 2. 声音可以作为动作的指示器; 3. 通过声音可以推断物体的物理属性。

这三个观察结果表明,仅凭物体发出的声音,一个AI学习模型便能以79.2%的准确率从60种物体中识别特定物体;同时,通过分析声音,AI模型还能预测外力对物体的作用;此外,声音还能揭示物体隐藏的物理特性。

为了探究声音与动作之间的关系,研究人员采用了几种不同的学习任务。首先,他们专注于细粒度分类任务,主要利用音频信号进行物体识别。为此,研究人员创建了一个包含80%数据的训练集和20%数据的测试集。通过训练一个简单的卷积神经网络(CNN),仅以音频信息作为输入,最终实现了76.1%的分类准确率。

然而,在实验过程中也发现了一些挑战,比如颜色信息难以通过声音辨别,以及当物体移动幅度较小、声音较小时,分类效果会受到影响。为了进一步了解声音提供的信息,研究人员还分析了模型的常见分类错误类型。

接下来,研究团队转向了逆向模型学习任务,旨在解决物体动作识别问题。在此过程中,研究人员探讨了声音是否包含了关于行为和动作因果关系的信息。为了验证这一点,他们设计了一个模型,该模型将物体交互前后的观测作为输入,包括交互前的图像和交互期间产生的声音,模型输出则是交互期间的动作。实验结果表明,该模型不仅能泛化到未曾见过的物体上,还能够有效地利用音频特征进行物体识别。

最后,在下游正向模型学习任务中,研究人员探讨了是否可以在物理交互之前,通过声音来提取物体的物理属性。这项工作的灵感来源于环境探测交互的研究,即在执行实际策略之前,需要通过探测交互来了解潜在因素。在卡内基梅隆大学的研究中,研究人员通过将探测交互产生的声音作为表示对象的潜在参数,进一步验证了这一假设。

总之,卡内基梅隆大学的研究团队在“听音辨物”的研究中做出了三项重要贡献: 1. 创建了迄今为止最大规模的声音-动作-视觉机器人数据集; 2. 证明了声音可以用于实现细粒度物体识别; 3. 确定了声音作为动作指示器的作用。

    本文来源:图灵汇
责任编辑: : 瓜姐讲堂
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器人研讨不止视觉学会CMU
    下一篇