OpenAI 开源语音识别模型 Whisper

策测解金
2022-10-17 09:12:54 1

近日，人工智能公司 OpenAI 发布了其自主研发的自动语音识别系统——Whisper。该系统在语音识别方面表现出色，已经达到了人类的水平。OpenAI 强调，Whisper 通过收集大量多语言（共98种语言）和多任务监督数据进行训练，从而具备强大的识别能力，尤其在处理口音、背景噪音和技术术语方面表现优异。

Whisper 不仅能够进行语音识别，还能实现多语言的转录，并支持将这些语言翻译成英语。为了促进技术的发展，OpenAI 将模型和推理代码开放给开发者，希望他们能够利用这一工具开发出更多实用的应用程序，进一步推动语音处理技术的研究。

Whisper 的工作流程大致如下：首先，输入的音频会被分割成30秒的小段，转换成log-Mel频谱图，然后传递给编码器。解码器会预测对应的文本描述，并结合特殊标记，完成诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等多种任务。

与市场上现有的其他语音识别方法相比，Whisper 使用了一个庞大且多样化的数据集进行训练，而非较小的、更紧密配对的“音频-文本”训练数据集或广泛但无监督的音频预训练集。尽管 Whisper 在某些特定的基准测试中未击败专门针对某项任务优化的模型，但它在多个不同数据集上的Zero-shot性能却更为稳定，错误率降低了大约50%。

目前，Whisper 提供了9种模型（包括纯英文和多语言版本），其中四种仅提供英文版本。开发者可以根据实际需要，在速度和准确性之间做出选择。以下是现有模型的大小、内存要求及相对速度：

OpenAI 相信，Whisper 凭借其高准确性和易用性，将有助于提升语音识别功能在各类应用中的普及，特别是在改善无障碍工具方面发挥重要作用。

图灵汇

责任编辑：：策测解金

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

开源语音识别模型 Whisper OpenAI

秦靳锦

2022-10-17

代码实战OpenAI开源的能识别99种语言的语音识别系统——whisper