近日,据VentureBeat报道,苹果公司在过去一周内发布了一系列关于语音识别技术的研究论文。这些研究主要集中在提升语音触发检测、说话人验证以及多语种语音识别技术方面。
苹果一直重视语音识别技术的研发,其虚拟助手Siri已经覆盖了全球超过5亿用户。最近的研究中,苹果详细介绍了其AI语音技术,旨在进一步提升语音助手的识别能力和多语种支持。
在《用于说话人验证和语音触发检测的多任务学习》这篇论文中,苹果的研究人员提出了一种能够同时执行自动语音识别和说话人识别任务的AI模型。
研究人员指出,语音助手接收到的命令通常以触发短语开头,例如“Hey, Siri”。检测这一触发短语需要两步操作:首先进行语音触发检测,判断输入音频中的语音是否与触发短语匹配;其次进行说话人验证,确认语音是否属于注册用户之一。
传统上,这两项任务通常被分开考虑,但研究人员发现,通过AI模型对说话人的理解可以帮助推断出语音内容,反之亦然。因此,他们设计了三个模型来学习语音和说话人信息。
研究人员使用一个包含超过16000小时带注释样本的音频数据集进行了训练。实验结果显示,即使在参数数量相同的情况下,这些模型在各项任务上的准确性至少与基准模型相当。其中一种模型在多重设置中的表现优于说话人验证基准,相比“与文本无关”的任务基准,准确率提高了7.6%。
苹果还研究了如何减少误触发的问题,即语音助手无意中响应非触发语句的情况。研究人员采用了一种基于图神经网络(GNN)的AI模型,该模型能够在没有先验知识的情况下预测节点的标签。
误触发往往由背景噪音或类似触发短语的声音引起。减少误触发对于构建隐私保护型智能助手至关重要。未来,苹果计划将基于GNN的方法应用于其他任务,如用户意图分类。
在《提高多语言使用者的语言识别能力》这篇论文中,苹果研究人员探讨了一种专门针对多语言使用者的说话人识别系统。
研究表明,现有的语言识别系统对大多数语言的准确性较高,但在多语言组合情况下表现不佳。例如,谷歌和亚马逊的智能音箱在理解美国本土口音时比非美国口音更准确。
为了应对这一问题,苹果研究人员将关于使用模式的知识整合到一个听写系统中,该系统可以处理来自60多个地区的语音。该系统的平均准确率达到87%,并且在最坏情况下,准确率也提高了60%以上。
此外,通过调整参数以优化计算量、准确度和延迟之间的平衡,该系统的平均延迟从2秒减少到1.2秒,对平均用户准确率(AUA)的影响不超过0.05%。
尽管语音识别技术已经在许多设备上广泛应用,但依然存在一些挑战,如误触发和多语种识别准确率低等问题。苹果作为该领域的领先者,其持续的研究工作推动了技术的进步。未来,随着技术的发展,语音助手有望成为我们日常生活和工作中不可或缺的一部分。