语音识别技术可以在多个领域发挥作用:
尽管智能语音系统已经广泛应用于各个领域,但其准确性与时延问题仍然存在。然而,谷歌AI团队在3月12日发布了一款全新的全神经设备端语音识别工具,目前仅限于美国英语,并且只能在Pixel手机上离线运行。这款工具具有极低的延迟,用户在讲话时几乎能实时看到文字输出,类似于实时打字的效果。
谷歌指出,当前的语音识别技术虽然准确度较高,但依然存在较大的延迟问题,影响用户体验。新的语音识别工具采用了RNN-T技术,主要基于循环神经网络(RNN),并结合了多年来的研究成果,如CTC、参数量化和混合内核等技术,有效降低了延迟。与传统的语音识别技术不同,这款工具逐字逐句地输入文字,而不是逐句显示。
为了提高该工具的实用性和便携性,谷歌对RNN-T模型进行了多次优化和压缩,使其能够在移动设备上离线运行。目前,该工具仅支持Pixel手机上的Gboard键盘,未来可能会增加更多语言和应用场景。
这项新技术有望推动许多停滞不前的领域取得突破性的进展,带来更大的提升。
如有更多关于科技资讯的需求,欢迎继续关注相关动态。