近日,人工智能公司 OpenAI 发布了其自主研发的自动语音识别系统——Whisper。该系统在语音识别方面表现出色,已经达到了人类的水平。OpenAI 强调,Whisper 通过收集大量多语言(共98种语言)和多任务监督数据进行训练,从而具备强大的识别能力,尤其在处理口音、背景噪音和技术术语方面表现优异。
Whisper 不仅能够进行语音识别,还能实现多语言的转录,并支持将这些语言翻译成英语。为了促进技术的发展,OpenAI 将模型和推理代码开放给开发者,希望他们能够利用这一工具开发出更多实用的应用程序,进一步推动语音处理技术的研究。
Whisper 的工作流程大致如下:首先,输入的音频会被分割成30秒的小段,转换成log-Mel频谱图,然后传递给编码器。解码器会预测对应的文本描述,并结合特殊标记,完成诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等多种任务。
与市场上现有的其他语音识别方法相比,Whisper 使用了一个庞大且多样化的数据集进行训练,而非较小的、更紧密配对的“音频-文本”训练数据集或广泛但无监督的音频预训练集。尽管 Whisper 在某些特定的基准测试中未击败专门针对某项任务优化的模型,但它在多个不同数据集上的Zero-shot性能却更为稳定,错误率降低了大约50%。
目前,Whisper 提供了9种模型(包括纯英文和多语言版本),其中四种仅提供英文版本。开发者可以根据实际需要,在速度和准确性之间做出选择。以下是现有模型的大小、内存要求及相对速度:
OpenAI 相信,Whisper 凭借其高准确性和易用性,将有助于提升语音识别功能在各类应用中的普及,特别是在改善无障碍工具方面发挥重要作用。