36氪首发|将中文语音辨认率提升至96.29%, 依图科技跨范畴推出语音开放平台
作者头像
  • 2019-10-28 07:13:57 2

计算机视觉(CV)是人工智能领域的一个重要方向,催生了诸如商汤、云从、依图、旷视等知名公司。其中,依图科技不仅在计算机视觉领域取得了显著成就,还积极拓展至语音识别和自然语言处理(NLP)领域。

12月11日,依图科技发布了依图短语音听写API,并与微软Azure合作推出了依图语音开放平台,同时还与华为联合发布了“智能语音综合解决方案”。

早在2016年,当计算机视觉公司开始受到投资者关注时,语音识别就已经开始在实际应用中落地。如今,百度、腾讯、京东、小米等企业纷纷推出智能音箱,各类手机也引入了语音交互功能,智能翻译工具和智能客服等语音类产品层出不穷。

[b]那么,与其他产品相比,依图语音技术的优势和市场潜力在哪里?未来在产品化落地方面,依图有何规划?[/b][b]围绕这些问题,36氪独家采访了依图科技首席创新官,前谷歌研究科学家吕昊博士。[/b]

依图科技首席创新官吕昊博士指出,尽管目前进入语音行业面临诸多挑战,如市场竞争激烈和技术成熟度不足,但依图依然看到了机会。依图团队经过调研发现,现有语音识别技术在许多场景下仍存在不足,例如通话过程中的转写准确率较低、远距离声音采集效果不佳、语料积累不足等。因此,依图将从这些方面入手,优化模型算法,提升识别精度,降低字错率。

[b]在语音识别领域,15%的字错率是一个临界值,超过该数值几乎不具备可读性;而低于3%的字错率则被视为具有类人水平的语音识别能力。[/b]然而,在实际应用场景中,人的语速、语气、口音等因素都会影响识别准确性。另外,中文语言的复杂性也为语音识别带来了额外挑战。那么依图是如何应对这些挑战的呢?

吕昊表示,当前行业内缺乏统一的标准测试和测试集,这使得语音识别的准确率难以评估。为此,依图团队收集了大量真实对话数据以及专业和生活场景的语料库,建立了多维度、多场景的测试数据集,从而对模型算法进行训练和测试。

据了解,依图在基于全球最大中文开源数据库AISHELL-2的测试中,其短语音听写的字错率为3.71%,领先科大讯飞约20%。在多个近场、混响、噪声等公开测试集中,依图的平均字错率为6.39%,比科大讯飞低11%。即使在包括电话录音、口音、语音节目、远场演讲等内部测试集中(共计50小时、60万汉字),依图的平均字错率为8.27%,仍然比科大讯飞低11%左右。

[b]要实现真正的语音交互,除了语音识别外,更重要的是语义理解。[/b]如果将语音技术比作人的嘴巴和耳朵,用于表达和接收信息,那么语义理解就是人的大脑,负责信息处理和解析。在语义理解方面,依图同样进行了技术积累。

吕昊表示,尽管此次主要聚焦于语音识别,但团队一直在语音和语义两个方向上并行发展。2017年,依图曾将自然语言处理技术应用于AI+医疗解决方案,结合自建的临床中文知识图谱,对医学文本等多模态数据进行分析和信息提取。今年,依图的论文还入选了自然语言处理顶会EMNLP 2018,并针对计算机语言学的核心问题之一——指代消解提出了全新的数据集PreCo并对外开放。

此前,依图在安防、医疗、金融、零售等领域已经积累了丰富的视觉技术产品化经验。关于是否将语音技术应用于这些领域,吕昊回应说,现阶段仍以技术积累为主,依图通过开放平台提供了自有API和模型算法,旨在通过市场验证算法质量,并进一步了解不同行业和场景的需求。

依图与微软合作推出的语音开放平台基于Azure Cloud,将依图的语音识别技术能力开放给广大第三方开发者使用。依图与华为联合发布的“智能语音综合解决方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心侧的Atlas 300AI加速卡,形成了软硬件一体化解决方案。

未来,依图计划逐步开放长语音转写API、实时语音转写API等功能。正如吕昊所说,希望通过这些举措为第三方应用开发者提供更多语音技术选择。

笔者认为,凭借其在计算机视觉领域的深厚积累,依图可能在未来多模态情感识别和计算领域取得突破,融合视觉、语音等多种数据,全面提升机器的感知能力。在商业应用方面,尽管目前依图的语音技术开放平台仍以技术积累为主,但借助在计算机视觉领域积累的大量企业客户资源,为这些企业提供语音解决方案只是时间问题。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
语音升至辨认中文范畴首发推出开放96.29平台
    下一篇