谷歌开源语音引擎：分享9大语音功能，为长篇对话提供字幕

在众多语音转录工具中，谷歌开源的Live Transcribe将为用户带来更加便捷和创新的语音体验。

今年二月，谷歌推出了Live Transcribe，这是一款利用机器学习技术将音频转化为实时字幕的工具。与谷歌即将推出的Live Caption功能不同，Live Transcribe是一种全屏体验，它依靠谷歌云Speech API，使用户能够通过智能手机或外接麦克风进行语音转录。

Live Transcribe不仅是一种交流工具，它能够用70多种语言和方言实时转录口语。此外，用户还可以通过输入文字进行转录。与Live Caption相比，Live Transcribe可以在大约18亿台安卓设备上运行，而Live Caption则只适用于部分Android Q设备。

目前，谷歌的Cloud Speech API不支持无限长的音频流，且由于依赖云服务，可能会面临网络连接不稳定、数据成本高和延迟等问题。为此，Live Transcribe在请求超时前会自动重启，并在长时间静音时重新启动会话。同时，它会缓存音频数据，在网络恢复时发送。

此外，谷歌评估了多种音频编解码器，如FLAC、AMR-WB和Opus，以降低带宽需求和成本。FLAC虽然保持了较高的转录准确性，但存在延迟问题；AMR-WB虽然节省数据，但在嘈杂环境中准确性不足；Opus则能在低数据速率下保持音频信号的关键细节，从而实现更低的延迟。

谷歌详细列出了Live Transcribe的九项功能，但不包括说话人识别：

谷歌为开发人员提供了APK文件，让他们无需编写代码即可试用这些功能。

Live Transcribe是谷歌与加拉德特大学合作开发的工具，旨在为失聪和听障用户提供更高效的沟通方式。对于普通用户而言，这款工具同样能帮助他们更快适应各种新的语言环境，提升沟通效率。

责任编辑：：王雅纯

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-12-19

从语音辨认角度看什么翻译机最好？科技达人强推讯飞翻译机