喜马拉雅AI音频研究成果再获世界顶级学术会议ICASSP 2022认可
作者头像
  • 闫徐
  • 2022-02-16 00:00:00 3019

喜马拉雅智能语音实验室与中科大在国际音频顶会ICASSP再获佳绩

近期,国际音频顶级会议ICASSP(国际音频、语音与信号处理会议)携手阿里巴巴共同举办的ICASSP 2022多通道多方会议转录挑战赛(M2MeT)圆满结束。在此次竞赛中,喜马拉雅智能语音实验室与中国科学技术大学携手合作,成功在“说话人日志”赛道中荣获第三名的优异成绩。

不仅如此,相关研究成果已被ICASSP 2022正式收录,并将于今年5月在新加坡举行的线上/线下会议上进行展示。这一成就标志着喜马拉雅在研究技术领域取得的又一重大突破,也是喜马拉雅在ICASSP 2022年度认可的第二项技术成果。

在此之前,喜马拉雅自主研发的跨语言语音合成创新技术论文也已成功入选ICASSP 2022。ICASSP会议由IEEE主办,专注于信号处理及其应用领域,其国际影响力广泛。本次是ICASSP的第47届会议,以“以人为本的信号处理”为主题。

M2MeT挑战赛作为ICASSP 2022信号处理大挑战的一部分,涵盖了“说话人日志”和“多说话人语音识别”两大赛道,旨在推动该领域研究的深化。喜马拉雅与中科大的合作项目在“说话人日志”赛道中,以4.05%的日志错误率(DER)的优异成绩位列第三。而第一、第二名则分别被昆山杜克大学的李明教授团队(2.98%)和腾讯-香港中文大学团队(3.98%)摘得。

说话人日志技术,又称作说话人分段聚类,旨在记录多说话人在多通道音频数据上的语音事件,以解决“谁在何时发言”的问题,例如在语音聊天室场景中,能够明确告知参会者当前的发言人。此外,该技术在语音识别、语音分离、VAD(语音活动检测)等其他相关语音处理技术中发挥着至关重要的作用,提供关键的先验信息。

在会议场景中,处理多人同时发言的情况极具挑战性,这要求系统具备应对复杂声学环境的能力,如重叠语音、未知数量的说话人、大型会议室中的远场信号、噪音和回声等。M2MeT挑战赛则特别关注中文会议数据,对参赛队伍提出了高度的挑战。

喜马拉雅与中科大合作的系统通过一系列技术手段显著提高了日志的准确性。首先,使用麦克风阵列技术对信号进行降噪与降混响,使信号更为纯净。随后,通过基于深度学习的声纹模型与谱聚类方法,对多人远场数据进行初步处理。最后,运用多通道标签融合技术整合不同通道的结果,进一步提升了准确率。

面对多人同时发言比例高达30%至40%的会议场景,传统的聚类方法在此情况下极易产生漏判错误。为此,喜马拉雅创新地引入了target-speaker VAD(语音活动检测),将聚类问题转化为多标签问题进行处理,并通过神经网络进行建模和训练。在采用多种数据增强和后处理策略后,系统将日志错误率从基线的15.6%降至4.05%,基本达到了实用水平。

喜马拉雅智能语音实验室的长期贡献

喜马拉雅智能语音实验室作为喜马拉雅内部的核心部门,专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究与开发。这次的成功正是实验室多年潜心研究的成果体现。喜马拉雅已着手研发类似的多人同时会议转写项目,其中说话人日志技术解决了会议中“谁在何时发言”的问题,显著提升了会议转写的效率与质量。

未来,喜马拉雅的说话人日志技术有望应用于更多场景,如语音聊天室,帮助用户了解当前发言者;在AI文稿中,通过提供发言人的信息,将进一步提升AI文稿的准确度与用户体验。

跨语言语音合成与媒体合作

喜马拉雅的TTS(文本转语音)技术一直处于行业领先地位,并广泛应用于评书、新闻、小说等内容的制作中,为喜马拉雅的内容生态提供了技术支持。2021年,通过自主设计的韵律提取模块融入HiTTS技术框架,喜马拉雅实现了对单田芳声音的完美复现,上线了超过80张“单田芳声音重现”专辑,其中,《毛氏三兄弟》和历史类作品的播放率远超普通作品,为出版物的有声化提供了新的解决方案。

此外,多家主流媒体如新京报、环球时报、潇湘晨报、时代周报、海外网、刺猬公社等已入驻喜马拉雅,利用TTS技术加速制作新闻类音频节目,为听众提供更多渠道获取权威资讯。

展望未来,喜马拉雅将继续投入语音技术的研发,不断探索与突破,致力于通过技术创新赋能声音,让声音更好地服务于生活。

    本文来源:图灵汇
责任编辑: : 闫徐
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
喜马拉雅学术会议研究成果顶级认可音频ICASSP世界2022
    下一篇