声音是我们辨别一个人的重要因素之一。例如,你的东北朋友和包邮区的朋友在背后喊你时,你肯定不会认错。这种声音所包含的信息使其成为一种身份识别的方式,但前提是已经有相关身份信息作为基础。
那么,如果我们只有声音信息,能否推断出这个人的外貌呢?这个问题看似荒诞,但麻省理工学院的一项研究表明,这是可行的。研究人员并不是心血来潮,而是基于科学依据进行研究的。嘴巴的形状、面部骨骼结构以及口音等都会影响声音,而这些因素反过来也能反映出一个人的外貌特征。
通过分析语音和相貌之间的关系,研究人员利用人工智能(AI)实现了“听声识脸”的功能。只需听取6秒钟的声音,就能大致还原出说话者的外貌。当然,时间越长,准确率越高。
为了实现这一功能,研究人员首先需要收集数百万个视频,用于训练神经网络模型Speech2Face。这一过程分为两个步骤:首先,语音编码器会对输入的声音进行分析,预测出面部的低维特征;其次,面部解码器会将这些低维特征整合起来,生成正常的人脸图像。
这项技术未来有可能应用于生成来电者的卡通头像。更重要的是,它还可以帮助警方识别恶作剧报警者,成为一种有效的侦查手段。甚至在未来,它还可能发展到听声识病的程度。
然而,这项技术并非完美无缺。有时它会出现错误,比如将一个人的身份误判为不同国籍、年龄变化等情况。因此,在网络环境中,依靠声音判断对方是“软萌妹子”还是“抠脚大汉”目前仍不太可靠。建议大家还是要多加小心。