在众多语音转录工具中,谷歌开源的Live Transcribe将为用户带来更加便捷和创新的语音体验。
今年二月,谷歌推出了Live Transcribe,这是一款利用机器学习技术将音频转化为实时字幕的工具。与谷歌即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,它依靠谷歌云Speech API,使用户能够通过智能手机或外接麦克风进行语音转录。
Live Transcribe不仅是一种交流工具,它能够用70多种语言和方言实时转录口语。此外,用户还可以通过输入文字进行转录。与Live Caption相比,Live Transcribe可以在大约18亿台安卓设备上运行,而Live Caption则只适用于部分Android Q设备。
目前,谷歌的Cloud Speech API不支持无限长的音频流,且由于依赖云服务,可能会面临网络连接不稳定、数据成本高和延迟等问题。为此,Live Transcribe在请求超时前会自动重启,并在长时间静音时重新启动会话。同时,它会缓存音频数据,在网络恢复时发送。
此外,谷歌评估了多种音频编解码器,如FLAC、AMR-WB和Opus,以降低带宽需求和成本。FLAC虽然保持了较高的转录准确性,但存在延迟问题;AMR-WB虽然节省数据,但在嘈杂环境中准确性不足;Opus则能在低数据速率下保持音频信号的关键细节,从而实现更低的延迟。
谷歌详细列出了Live Transcribe的九项功能,但不包括说话人识别:
谷歌为开发人员提供了APK文件,让他们无需编写代码即可试用这些功能。
Live Transcribe是谷歌与加拉德特大学合作开发的工具,旨在为失聪和听障用户提供更高效的沟通方式。对于普通用户而言,这款工具同样能帮助他们更快适应各种新的语言环境,提升沟通效率。