谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕
作者头像
  • 王雅纯
  • 2019-12-19 13:10:10 2

智能语音转录工具:Live Transcribe

导语

在众多语音转录工具中,谷歌开源的Live Transcribe将为用户带来更加便捷和创新的语音体验。

一、多种转录方式,兼容所有安卓设备

今年二月,谷歌推出了Live Transcribe,这是一款利用机器学习技术将音频转化为实时字幕的工具。与谷歌即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,它依靠谷歌云Speech API,使用户能够通过智能手机或外接麦克风进行语音转录。

Live Transcribe不仅是一种交流工具,它能够用70多种语言和方言实时转录口语。此外,用户还可以通过输入文字进行转录。与Live Caption相比,Live Transcribe可以在大约18亿台安卓设备上运行,而Live Caption则只适用于部分Android Q设备。

二、解决云上工作的潜在问题

目前,谷歌的Cloud Speech API不支持无限长的音频流,且由于依赖云服务,可能会面临网络连接不稳定、数据成本高和延迟等问题。为此,Live Transcribe在请求超时前会自动重启,并在长时间静音时重新启动会话。同时,它会缓存音频数据,在网络恢复时发送。

此外,谷歌评估了多种音频编解码器,如FLAC、AMR-WB和Opus,以降低带宽需求和成本。FLAC虽然保持了较高的转录准确性,但存在延迟问题;AMR-WB虽然节省数据,但在嘈杂环境中准确性不足;Opus则能在低数据速率下保持音频信号的关键细节,从而实现更低的延迟。

三、Live Transcribe的九项功能

谷歌详细列出了Live Transcribe的九项功能,但不包括说话人识别:

  1. 支持有限流媒体传输;
  2. 能够支持70多种语言;
  3. 当用户在网络和Wi-Fi之间切换时,文字只会延迟,不会丢失;
  4. 对网络丢失具有鲁棒性,即使网络中断数小时,仍可重新连接;
  5. 支持Opus、AMR-WB和FLAC编码的启用和配置;
  6. 包含文本格式库,用于显示ASR置信度和发言人ID等信息;
  7. 支持离线模式;
  8. 内置语音检测器,用于在长时间静音时停止ASR,以节省数据和成本;
  9. 内置支持扬声器识别,用于标记或着色文本。

谷歌为开发人员提供了APK文件,让他们无需编写代码即可试用这些功能。

结语

Live Transcribe是谷歌与加拉德特大学合作开发的工具,旨在为失聪和听障用户提供更高效的沟通方式。对于普通用户而言,这款工具同样能帮助他们更快适应各种新的语言环境,提升沟通效率。

    本文来源:图灵汇
责任编辑: : 王雅纯
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
语音开源长篇字幕对话功能引擎提供分享谷歌
    下一篇