11月28日,百度大脑推出了一项创新的语音识别技术,该技术将语音增强和声学建模集成在一起,采用端到端的方式进行识别。这项技术不依赖于传统的数字信号处理或语音识别领域的假设前提,而是利用复数卷积神经网络(CNN)实现。复数CNN的内存占用低于200K,这使得它能够嵌入到百度鸿鹄芯片中。
这项技术可以通过现场采集的数据以及纯模拟数据来获取足够的远场训练数据,从而实现从原始多麦克风信号到文本识别的全程端到端训练。整个训练过程只需关注字错误率,以此作为唯一的优化目标。
百度语音首席架构师贾磊表示:“这项技术革新了数字信号处理和语音识别领域,通过单一的声学模型解决了跨领域的语音识别问题,而无需任何行业背景的支持。”
“相较于现有的百度智能音箱产品,我们的新技术将语音识别的错误率降低了超过30%,这意味着语音识别性能提升了30%。这是我们在国际上所见到的通过深度学习实现语音交互系统的最大提升。”