有这5款开源软件,语音转文字很简单
作者头像
  • 漫谈科技
  • 2019-12-17 09:50:49 0

开源语音文字转换系统介绍

语音文字转换(STT)系统是一种将语音转化为文本的技术,应用范围广泛,例如微信中的语音转文字功能。

过去,语音转文本技术主要由专有软件和库掌控,而开源解决方案要么不存在,要么受到极大的限制。如今,这种情况已经发生了改变。现在有许多开源的语音转文本工具和库可供选择。以下是五个优秀的开源语音识别库。

DeepSpeech项目

DeepSpeech是由Mozilla开发的100%免费开源语音转文本库,它使用TensorFlow机器学习框架实现。用户可以根据需要自行构建训练模型,以提升语音到文本的转换效果。此外,还可以轻松地将其集成到TensorFlow上的其他机器学习项目中。遗憾的是,目前默认情况下,该系统仅支持英语。然而,它也支持多种语言,例如Python(3.6)。安装过程非常简单:

shell pip3 install deepspeech deepspeech --model 模型/output_graph.pbmm --alphabet 模型/alphabet.txt --lm 模型/lm.binary --trie 模型/trie --audio 我的音频文件.wav

此外,也可以通过npm安装:

shell npm install deepspeech

最近,DeepSpeech还登上了GitHub Trending周榜。

GitHub地址:https://github.com/mozilla/DeepSpeech

Kaldi

Kaldi是一个开源的语音识别软件,用C++编写,遵循Apache公共许可协议,支持Windows、macOS和Linux。自2009年以来,Kaldi一直是一个可扩展且模块化的语音识别工具。社区提供了大量第三方模块,并支持深度神经网络。其官方网站提供了完整的使用文档。尽管大部分代码是用C++编写的,但通过Bash和Python脚本实现了封装。因此,如果你只想实现基本的语音转文本功能,可以通过Python或Bash轻松完成。

项目主页:http://kaldi-asr.org/

Julius

Julius是迄今为止最古老的语音识别软件之一,由京都大学于1991年开发,并于2005年移交给一个独立的项目团队。其主要特点包括实时语音识别、低内存占用(20000单词少于64MB)、最优词N-best word和词图Word-graph的支持,以及可以作为服务器单元运行等。这款软件主要面向学术研究和开发。它用C语言编写,可以在Linux、Windows、macOS甚至Android上运行。

目前,它仅支持英语和日语。该软件可以很容易地安装在Linux发行版的仓库中,只需在软件包管理器中搜索julius包即可。

项目主页:https://github.com/julius-speech/julius

Wav2Letter++

Wav2Letter++是由Facebook的AI研究团队于今年发布的开源语音识别软件。该代码在BSD许可下发布。Facebook称其为“当前最快、最先进的语音识别系统”。默认情况下,该工具基于FlashLight构建,后者是Facebook最新推出的机器学习库。使用Wav2Letter++,你需要为自己想要的语言构建训练模型,以便训练算法。没有预训练模型可用,它只是一个由机器学习驱动的语音到文本转换工具,用C++编写。

项目主页:https://github.com/facebookresearch/wav2letter

DeepSpeech2

百度的研究人员也在开发自己的语音转文本引擎——DeepSpeech2。这是一个端到端的开源引擎,使用PaddlePaddle深度学习框架将英语和普通话的语音转换为文本。该项目在BSD许可下发布。该引擎可以针对任何模型和所需的语言进行训练。模型不会随代码一起发布,因此需要自行构建。DeepSpeech2的源代码是用Python编写的,因此如果你使用Python,应该能很快上手。

项目地址:https://github.com/PaddlePaddle/DeepSpeech

总的来说,尽管语音识别领域仍由Google和IBM等专有软件巨头主导,但开源替代方案的发展前景十分广阔。以上五个开源语音识别引擎可以帮助你构建自己的应用程序,不知道你是否用过其中的任何一个?

    本文来源:图灵汇
责任编辑: : 漫谈科技
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
开源语音文字简单软件
    下一篇