嘈杂场景语音识别准确率怎么提?脸书:看嘴唇
作者头像
  • 立冬
  • 2022-01-22 13:46:03 4

借助读唇技术,人类能够更清晰地理解他人的话语,那么AI能否也具备这样的能力呢?

最近,Meta公司推出了一种名为AV-HuBERT的视听版本的BERT模型,不仅能够读唇,还显著提升了识别率,达到了75%的提升。这种模型可以处理视频,通过分析人物的口型和语音,输出其所说的内容。

与之前的方法相比,AV-HuBERT只需要十分之一的标注数据,就能在性能上超越过去的最佳视听语音识别系统。这种方法尤其适用于嘈杂环境下的语音识别。Meta的研究人员表示,这项技术未来有望应用于手机智能助手、AR眼镜等智能设备。

AV-HuBERT是一个多模态的自监督学习框架,它结合了音频和视频信息,模仿人类理解语言的方式。先前的研究表明,读唇能够显著提高语言识别的准确性,尤其是在嘈杂环境中,读唇甚至可以让准确率提升6倍。

该模型采用了一个ResNet-transformer框架,将音频和图像序列编码为视听特征,以预测离散的聚类任务序列。AV-HuBERT通过帧级同步的音频和视频流作为输入,以更好地捕捉和提取两种模态之间的关联。图像序列和音频特征通过轻量级的模态特定编码器生成中间特征,然后融合并反馈到共享的主干transformer编码器中,最终预测掩蔽聚类任务。

在经过30小时的TED演讲视频训练后,AV-HuBERT的单词错误率(WER)为32.5%,而此前的最佳方法的WER为33.6%。在433小时的TED演讲训练后,错误率进一步降低至26.9%。

AV-HuBERT与之前的方法最大的不同在于采用了自监督学习方法。这一方法在预训练中使用特征聚类和掩蔽预测两个步骤进行迭代训练,从而实现了自我学习和分类。因此,即使是在数据量较小的语言中,AV-HuBERT也能表现出色。在不到十分之一的标注数据下,该方法将识别错误率降低了75%。

值得注意的是,尽管AV-HuBERT在嘈杂环境中表现优异,但也有学者指出其潜在问题。例如,对于因唐氏综合征或中风导致面部瘫痪的患者来说,读唇技术可能并不适用。Meta的研究人员解释说,AV-HuBERT主要关注唇部动作,而不是整个面部,而且其性能与训练数据中不同人群的代表性样本数量有关。

总的来说,AV-HuBERT展示了在嘈杂环境中提高语音识别准确性的潜力,但同时也需要注意其应用范围和潜在局限性。Meta已经将相关代码开源,以便更多的研究者和开发者可以进一步探索和改进这项技术。

    本文来源:图灵汇
责任编辑: : 立冬
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
准确率嘈杂嘴唇语音识别场景怎么
    下一篇