在过去十年中,机器学习的进步推动了先进语音识别工具的发展。这些工具通过分析人类语音的音频文件,学会了识别不同的单词和短语,并将它们转化为机器可读的格式。
一些基于机器学习的语音模型在语音识别方面表现出色,但在某些语言中,由于发音相似的词汇较多,其性能可能会显著下降。
为了应对这一问题,印度圣雄甘地使命工程技术学院和Jaype信息技术研究所的研究人员开发了一种新的语音识别系统。这项研究发表在国际语音技术杂志上,采用了人工神经网络(ANN)和一种名为对抗性人工蜂群(OABC)的优化技术。
研究人员在论文中提到,他们使用Levenberg-Marquardt算法重新设计了人工神经网络的默认结构,以准确地获取最优预测率。同时,他们还利用OABC优化技术对隐藏层和隐藏层神经元进行了进一步优化。
该系统的一个独特之处在于它使用OABC优化算法来优化人工神经网络的层数和神经元数量。正如其名称所示,人工蜂群算法是通过模拟蜜蜂的行为来解决各种优化问题的。
研究人员在论文中指出,通常情况下,优化算法会在匹配域内随机初始化解决方案。然而,这种方法可能导致与最佳解决方案相同的解,从而增加计算成本。因此,他们提出了一种基于对抗性的初始化方法,即OABC。
研究人员开发的系统将不同人的单个单词作为输入语音信号,并从中提取特定的声音特征——调幅(AM)频谱图。随后,这些特征被用于训练人工神经网络,使其能够识别人类语音。
人工神经网络在大量音频文件数据库上进行训练后,能够预测新的人类语音样本中的孤立词。
研究人员在一系列人类语音音频片段上测试了他们的系统,并将其与传统语音识别技术进行了比较。结果显示,他们的技术在灵敏度、特异性和准确性方面均优于其他方法,具体数值分别为90.41%、99.66%和99.36%。
未来,语音识别系统有望在多种场景中实现更高效的人机交互。此外,研究人员所采用的方法可以激励其他团队开发类似的模型,结合人工神经网络和优化技术。