谷歌全神经元设备端语音辨认工具

aircraft观察
2019-05-21 06:35:34 0

+关注

语音识别系统的应用领域

语音识别技术可以在多个领域发挥作用：

智能语音拨号
智能语音翻译
语音输入
设备语音控制（如汽车、家用电器等）
工业和医疗领域
人机语音交互

谷歌推出新型语音识别工具

尽管智能语音系统已经广泛应用于各个领域，但其准确性与时延问题仍然存在。然而，谷歌AI团队在3月12日发布了一款全新的全神经设备端语音识别工具，目前仅限于美国英语，并且只能在Pixel手机上离线运行。这款工具具有极低的延迟，用户在讲话时几乎能实时看到文字输出，类似于实时打字的效果。

谷歌指出，当前的语音识别技术虽然准确度较高，但依然存在较大的延迟问题，影响用户体验。新的语音识别工具采用了RNN-T技术，主要基于循环神经网络（RNN），并结合了多年来的研究成果，如CTC、参数量化和混合内核等技术，有效降低了延迟。与传统的语音识别技术不同，这款工具逐字逐句地输入文字，而不是逐句显示。

为了提高该工具的实用性和便携性，谷歌对RNN-T模型进行了多次优化和压缩，使其能够在移动设备上离线运行。目前，该工具仅支持Pixel手机上的Gboard键盘，未来可能会增加更多语言和应用场景。