有这5款开源软件，语音转文字很简单

漫谈科技
2019-12-17 09:50:49 0

+关注

开源语音文字转换系统介绍

语音文字转换（STT）系统是一种将语音转化为文本的技术，应用范围广泛，例如微信中的语音转文字功能。

过去，语音转文本技术主要由专有软件和库掌控，而开源解决方案要么不存在，要么受到极大的限制。如今，这种情况已经发生了改变。现在有许多开源的语音转文本工具和库可供选择。以下是五个优秀的开源语音识别库。

DeepSpeech项目

DeepSpeech是由Mozilla开发的100%免费开源语音转文本库，它使用TensorFlow机器学习框架实现。用户可以根据需要自行构建训练模型，以提升语音到文本的转换效果。此外，还可以轻松地将其集成到TensorFlow上的其他机器学习项目中。遗憾的是，目前默认情况下，该系统仅支持英语。然而，它也支持多种语言，例如Python（3.6）。安装过程非常简单：

shell pip3 install deepspeech deepspeech --model 模型/output_graph.pbmm --alphabet 模型/alphabet.txt --lm 模型/lm.binary --trie 模型/trie --audio 我的音频文件.wav

此外，也可以通过npm安装：

shell npm install deepspeech

最近，DeepSpeech还登上了GitHub Trending周榜。

GitHub地址：https://github.com/mozilla/DeepSpeech

Kaldi

Kaldi是一个开源的语音识别软件，用C++编写，遵循Apache公共许可协议，支持Windows、macOS和Linux。自2009年以来，Kaldi一直是一个可扩展且模块化的语音识别工具。社区提供了大量第三方模块，并支持深度神经网络。其官方网站提供了完整的使用文档。尽管大部分代码是用C++编写的，但通过Bash和Python脚本实现了封装。因此，如果你只想实现基本的语音转文本功能，可以通过Python或Bash轻松完成。

项目主页：http://kaldi-asr.org/

Julius

Julius是迄今为止最古老的语音识别软件之一，由京都大学于1991年开发，并于2005年移交给一个独立的项目团队。其主要特点包括实时语音识别、低内存占用（20000单词少于64MB）、最优词N-best word和词图Word-graph的支持，以及可以作为服务器单元运行等。这款软件主要面向学术研究和开发。它用C语言编写，可以在Linux、Windows、macOS甚至Android上运行。

目前，它仅支持英语和日语。该软件可以很容易地安装在Linux发行版的仓库中，只需在软件包管理器中搜索julius包即可。

项目主页：https://github.com/julius-speech/julius

Wav2Letter++

Wav2Letter++是由Facebook的AI研究团队于今年发布的开源语音识别软件。该代码在BSD许可下发布。Facebook称其为“当前最快、最先进的语音识别系统”。默认情况下，该工具基于FlashLight构建，后者是Facebook最新推出的机器学习库。使用Wav2Letter++，你需要为自己想要的语言构建训练模型，以便训练算法。没有预训练模型可用，它只是一个由机器学习驱动的语音到文本转换工具，用C++编写。

项目主页：https://github.com/facebookresearch/wav2letter

DeepSpeech2

百度的研究人员也在开发自己的语音转文本引擎——DeepSpeech2。这是一个端到端的开源引擎，使用PaddlePaddle深度学习框架将英语和普通话的语音转换为文本。该项目在BSD许可下发布。该引擎可以针对任何模型和所需的语言进行训练。模型不会随代码一起发布，因此需要自行构建。DeepSpeech2的源代码是用Python编写的，因此如果你使用Python，应该能很快上手。

项目地址：https://github.com/PaddlePaddle/DeepSpeech

总的来说，尽管语音识别领域仍由Google和IBM等专有软件巨头主导，但开源替代方案的发展前景十分广阔。以上五个开源语音识别引擎可以帮助你构建自己的应用程序，不知道你是否用过其中的任何一个？

图灵汇

责任编辑：：漫谈科技

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。