据Loup Ventures最近发布的一项2019年语音助手智商测试显示,通过对800个问题的回答,谷歌助手再次领先,其完全理解问题的比例达到100%,并正确回答了其中的92.9%,相比去年的85.5%有所提升。
相比之下,苹果的Siri也在理解和正确回答问题方面取得了进步,理解问题的比例从99%上升到了99.8%,而在正确回答问题的比例上,从78.5%提高到了83.1%。
尽管亚马逊的Alexa排名第三,但它在2019年的表现也有所提升,理解了99.9%的问题,并正确回答了79.8%的问题。据媒体报道,亚马逊通过人工智能技术将实时语音识别错误率降低了6.2%,这是一个显著的进步。
自动语音识别系统是将语音转化为文本的技术,比如Alexa的核心系统就包含一个预测下一个单词的模型。这些模型通常基于n-gram语言模型,这意味着它们可以根据先前的单词计算下一个单词出现的概率。
n-gram模型基于一个假设:第n个词的出现只与前n-1个词有关,而与其他词无关。整个句子的概率等于各词概率的乘积,这些概率可以通过语料库中的统计数据得出。
然而,像递归神经网络这样的复杂架构难以应用于实时系统,因为它们需要学习长期依赖关系,这在语音识别中很有用,但通常难以从多个语料库中获取数据。
这就是为什么亚马逊的研究人员致力于开发适合语音识别的人工智能模型的原因。在2019年于奥地利格拉茨举办的Interspeech会议上,研究人员发表了一篇题为《可扩展多语料库神经语言模型在ASR中的应用》的论文和博客,声称他们成功将单词识别错误率降低了6.2%。
神经语言模型(NLM)在自动语音识别(ASR)等任务中的表现优于传统的n-gram语言模型。然而,要在实际大规模的ASR系统中使用NLM,还需要克服一些挑战,包括处理异源语料库的训练、减少潜在延迟的影响以及解决个性化偏见问题。
研究人员通过构建领域内和领域外的数据集来解决数据稀缺的问题,这些数据集是线性组合的,并根据其与领域内数据的相关性为每个语料库分配一个评分,从而决定选择样本的可能性。
接下来,研究人员采用了迁移学习的方法,即将为任务A开发的模型作为起点,用于任务B的模型开发过程。迁移学习是指通过从相关任务中转移知识来改进新任务的学习。尽管大多数机器学习算法都是为了解决单一任务而设计的,但促进迁移学习的算法的开发一直是机器学习领域的研究重点。对于人类而言,迁移学习也很常见,例如学习识别苹果有助于识别梨,或者学习弹奏电子琴有助于学习钢琴。
随后,研究人员通过一个带有n-gram语言模型的语音识别器传递数据,利用人工智能模型来改进其预测。为了避免传统模型排斥人工智能模型的风险,研究人员使用人工智能模型生成合成数据,为模型提供额外的训练数据。
训练数据中的样本是一对词汇,而不是单独的词汇,这是噪声对比估计方案的一部分,其中一个词汇是目标词汇,另一个则是随机选择的。模型的任务是通过直接估计目标词汇的概率来学习区分。
最后,研究人员量化了人工智能模型的权重,以进一步提高其效率。量化考虑了特定变量可以接受的所有值范围,并将其划分为固定数量的区间,这样区间内的所有值都可以近似为一个数字。据研究人员透露,由于量化,人工智能模型在50%的情况下使语音处理时间增加了不超过65毫秒,在90%的情况下增加了不超过285毫秒。