老外研发语音识别人脸技术，只听6秒，就能知道长什么样

声音是我们辨别一个人的重要因素之一。例如，你的东北朋友和包邮区的朋友在背后喊你时，你肯定不会认错。这种声音所包含的信息使其成为一种身份识别的方式，但前提是已经有相关身份信息作为基础。

那么，如果我们只有声音信息，能否推断出这个人的外貌呢？这个问题看似荒诞，但麻省理工学院的一项研究表明，这是可行的。研究人员并不是心血来潮，而是基于科学依据进行研究的。嘴巴的形状、面部骨骼结构以及口音等都会影响声音，而这些因素反过来也能反映出一个人的外貌特征。

通过分析语音和相貌之间的关系，研究人员利用人工智能（AI）实现了“听声识脸”的功能。只需听取6秒钟的声音，就能大致还原出说话者的外貌。当然，时间越长，准确率越高。

为了实现这一功能，研究人员首先需要收集数百万个视频，用于训练神经网络模型Speech2Face。这一过程分为两个步骤：首先，语音编码器会对输入的声音进行分析，预测出面部的低维特征；其次，面部解码器会将这些低维特征整合起来，生成正常的人脸图像。

这项技术未来有可能应用于生成来电者的卡通头像。更重要的是，它还可以帮助警方识别恶作剧报警者，成为一种有效的侦查手段。甚至在未来，它还可能发展到听声识病的程度。

然而，这项技术并非完美无缺。有时它会出现错误，比如将一个人的身份误判为不同国籍、年龄变化等情况。因此，在网络环境中，依靠声音判断对方是“软萌妹子”还是“抠脚大汉”目前仍不太可靠。建议大家还是要多加小心。

责任编辑：：向婷婷

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

cwzl

2022-05-19

成年人残酷的社交潜规则：有点冷淡，有点绝情，有点距离