OpenAI 开源语音识别模型 Whisper
作者头像
  • 策测解金
  • 2022-10-17 09:12:54 1

近日,人工智能公司 OpenAI 发布了其自主研发的自动语音识别系统——Whisper。该系统在语音识别方面表现出色,已经达到了人类的水平。OpenAI 强调,Whisper 通过收集大量多语言(共98种语言)和多任务监督数据进行训练,从而具备强大的识别能力,尤其在处理口音、背景噪音和技术术语方面表现优异。

Whisper 不仅能够进行语音识别,还能实现多语言的转录,并支持将这些语言翻译成英语。为了促进技术的发展,OpenAI 将模型和推理代码开放给开发者,希望他们能够利用这一工具开发出更多实用的应用程序,进一步推动语音处理技术的研究。

Whisper 的工作流程大致如下:首先,输入的音频会被分割成30秒的小段,转换成log-Mel频谱图,然后传递给编码器。解码器会预测对应的文本描述,并结合特殊标记,完成诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等多种任务。

与市场上现有的其他语音识别方法相比,Whisper 使用了一个庞大且多样化的数据集进行训练,而非较小的、更紧密配对的“音频-文本”训练数据集或广泛但无监督的音频预训练集。尽管 Whisper 在某些特定的基准测试中未击败专门针对某项任务优化的模型,但它在多个不同数据集上的Zero-shot性能却更为稳定,错误率降低了大约50%。

目前,Whisper 提供了9种模型(包括纯英文和多语言版本),其中四种仅提供英文版本。开发者可以根据实际需要,在速度和准确性之间做出选择。以下是现有模型的大小、内存要求及相对速度:

OpenAI 相信,Whisper 凭借其高准确性和易用性,将有助于提升语音识别功能在各类应用中的普及,特别是在改善无障碍工具方面发挥重要作用。

    本文来源:图灵汇
责任编辑: : 策测解金
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
开源语音识别模型WhisperOpenAI
    下一篇