精华内容
下载资源
问答
  • Project DeepSpeech DeepSpeech is an open-source Speech-To-Text engine, using a model trained by machine learning techniques based on Baidu's Deep Speech research paper. Project DeepSpeech uses ...
  • DeepSpeech

    2020-05-19 18:10:29
    最近被老板安排搞语音识别,懵懵逼逼的网上查了半天资料,准备先从DeepSpeech入手。在这里开个坑先,具体写什么还没想好,后面有了积累就回来把这个坑填上。

    最近被老板安排搞语音识别,懵懵逼逼的网上查了半天资料,准备先从DeepSpeech入手。在这里开个坑先,具体写什么还没想好,后面有了积累就回来把这个坑填上。

    展开全文
  • DeepSpeech-pytorch 使用DeepSpeech模型的PyTorch中的端到端语音识别模型 怎么跑 首先,安装依赖项 # clone project git clone https://github.com/jiwidi/DeepSpeech-pytorch # install project cd DeepSpeech-...
  • DeepSpeech-示例:如何使用或集成DeepSpeech的示例
  • DeepSpeech剧本 使用DeepSpeech训练语音识别模型的速成班。 快速链接 从这里开始。 本部分将设定您对DeepSpeech手册可以实现的目标的期望,以及开始训练自己的语音识别模型所需的先决条件。 了解了DeepSpeech ...
  • deepspeech.pytorch Implementation of DeepSpeech2 for PyTorch using PyTorch Lightning. The repo supports training/testing and inference using the DeepSpeech2 model. Optionally a kenlm language model ...
  • DeepSpeech-API 项目是一个开放源代码的语音转文本引擎,它使用了经过机器学习技术训练的模型,该模型基于。 DeepSpeech项目使用Google的项目来简化实施过程。 该项目是使用户能够在Web浏览器上访问DeepSpeech。 ...
  • DeepSpeech演示 关于 这是一个简单的Web界面和节点服务器,它使用创建本地语音到文本服务。 我主要是为自己构建它,以便与DeepSpeech一起玩,但是它可以用作您自己实验的起点。 先决条件 该演示依赖于系统和PATH...
  • DeepSpeech前端 一个Flask应用程序,可通过HTTP POST转录提供给它的文件,并将用户重定向到我们能够从其音频中获取的文本。 安装 为Debian安装依赖项,如下所示: apt update && apt install python3-pip git ...
  • PaddleASR is an open-source implementation of end-to-end Automatic Speech Recognition (ASR) engine, with PaddlePaddle platform. Our vision is to empower both industrial application and academic ...
  • 从发行公告中下载名为deepspeech-{version}-models.tar.gz的预训练模型,然后将zip文件解压缩到某个位置。 将native_client库所在的目录添加到LD_LIBRARY_PATH和LIBRARY_PATH环境变量。 您现在可以通过以下方式...
  • deepSpeech.mxnet:丰富语音示例 此示例基于可帮助您使用以下方法大规模构建语音转文本(STT)模型 CNN,完全连接的网络,用于网络层的(Bi-)RNN,(Bi-)LSTM和(Bi-)GRU, 批量归一化和辍学以提高培训效率, ...
  • deepspeech论文

    2018-09-20 20:03:04
    deepspeech的论文。作者有强大的调参技巧,硬生生地将一个这么简单地网络调教地这么好。
  • 使用实现DeepSpeech2用于PyTorch。 该支持使用模型进行训练/测试和推断。 可选地,可以在推理时使用语言模型。 安装 需要安装几个库才能进行工作培训。 我将假定一切都已在Ubuntu的Anaconda安装中安装,并安装了...
  • GStreamer DeepSpeech插件 是创建的语音识别项目。 该项目提供了一个GStreamer元素,可以将其放置到音频管道中,然后它将通过总线消息报告任何已识别的语音。 它根据可配置的静音阈值自动分割音频,使其适合连续...
  • 代码地址https://github.com/SeanNaren/deepspeech.pytorch 中文语音数据库采用thchs30 (1)首先提取data文件下的trn翻译文本,生成包含空格在内的生字表并保存为json格式lexicon.json,是汉字字典,不是拼音,我...

    代码地址https://github.com/SeanNaren/deepspeech.pytorch

    中文语音数据库采用thchs30

    (1)首先提取data文件下的trn翻译文本,生成包含空格在内的生字表并保存为json格式lexicon.json,是汉字字典,不是拼音,我在这一步卡了很久,后来发现data_loader只能读取单个字符,所以中文识别的词汇表是翻译文本的汉字生字表

    (2)生成train.csv,dev.csv,test.csv路径文件,包含wav位置和对应的trn翻译文本位置

    (3)修改train.py中的这三个参数,分别是训练集,验证集和生字表

    '--train-manifest'
    
    '--val-manifest'
    '--labels-path'

    (4)data_loader.py读取翻译到的翻译文本是以空格对词进行区别,在实际训练中效果很差,loss值一直降不下来。参考deepspeech v1将翻译文本改为以字加空格的格式

    在165行读取翻译文本的时加入两行代码,得到单字+空格+单字.......格式翻译文本

    transcript=transcript.replace(' ','')
    transcript=''.join([f + ' ' for f in transcript])

    (5)进行训练,在30轮迭代后,验证集的wer降至5%左右,cer降至2.5%,在测试集的wer为50%,cer为25%

    对thchs30数据集进行分析,发现翻译文本只有1000句,其中训练集包含750句,测试集包含250句,验证集使用的句子与训练集重合,这也解释了为什么在验证集识别结果极好,在测试机集效果极差的原因。数据集样本不够多,训练时出现过拟合,这也是测试集结果不佳的原因。

    下面将改用aishell数据集对deepspeech v2进行进一步性能测试。

    thchs30生字表和路径生成文件代码

    链接:https://pan.baidu.com/s/1GUnsLbVweDrnZnmYdssMYg 
    提取码:y38d 

     

    展开全文
  • deepspeech.pytorch.zip

    2021-04-08 13:09:12
    deepspeech.pytorch.zip
  • DeepSpeech项目DeepSpeech是一个开源语音转文本引擎,使用了基于百度的Deep Speech研究论文的机器学习技术训练的模型。 DeepSpeech项目使用Google的TensorFlow制作Project DeepSpeech项目DeepSpeech是一个开源语音转...
  • DeepSpeechDeepSpeech是一种开源嵌入式(离线,设备上的)语音到文本引擎,可以在从Raspberry Pi 4到大功率GPU服务器的各种设备上实时运行
  • Deep Speech 百度框架

    2019-01-21 17:35:37
    Deep Speech 百度框架 端到端 语音识别 LSTM-CTC 中文和英文
  • Deep Speech笔记

    千次阅读 2017-02-03 18:20:07
    Deep Speech 1 Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,A., et al. (2014a).Deepspeech: Scaling up end-to-end speech recogn

    Deep Speech 1

    Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,A., et al. (2014a).Deepspeech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567.
    ###网络结构
    这里写图片描述
    网络输入是context特征,输出是char,训练准则是CTC,解码需要结合ngram语言模型。
    共五层,前三层是简单的DNN结构,第四层是双向RNN,第五层的输入是RNN的前向和后向单元,后面跟着softmax分类。

    数据集 网络结构
    300h switchboard 5隐层,2304节点
    2300h SWB+FSH 4个RNN,每个5隐层,2304节点
    100000h add noise 6个RNN,每个5隐层,2560节点

    训练数据

    训练数据进行加噪处理,使用多种短时噪音。
    录制语音的时候增加噪声的场景.

    训练优化

    • Data parallelism
      训练语料按照长度排序,然后多句并行
    • Model parallelism
      按照时间切分,前半段在GPU1上面计算,负责计算RNN的forward activation;后半段在GPU2上面计算,负责计算RNN的backward activation。在中间时间点交换角色。

    Deep Speech 2

    D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos et al., “Deep speech 2: End-to-end speech recognition in english and mandarin,” CoRR arXiv:1512.02595, 2015.

    相比于Deep Speech,使用HPC技术,将训练时间由几周缩短到几天,尝试了更为复杂的网络结构。

    网络结构

    这里写图片描述
    网络输入是context特征,输出是char(英文对应a/b/c,中文对应6000汉字),训练准则是CTC,解码需要结合ngram语言模型。

    Batch Normalization

    在网络层数更深的时候,效果更明显,收敛更快而且误差更小。
    有两种BatchNorm,在第一种上面没有收益
    第一种: htl=f(B(WlhTl−1+Ulht−1l))h_t^l=f(B(W^lh_T^{l-1}+U^lh_{t-1}^l))htl=f(B(WlhTl1+Ulht1l))
    第二种: htl=f(B(WlhTl−1)+Ulht−1l)h_t^l=f(B(W^lh_T^{l-1})+U^lh_{t-1}^l)htl=f(B(WlhTl1)+Ulht1l)

    SortaGrad

    CTC训练的早期不稳定,长句子容易出现梯度异常(有些概率near-zero)。
    在第一个epoch,将训练句子按照长度排序,首先使用断句训练,后面的epoch再按照随机顺序。

    GRU

    GRU相比于vanilla RNN可以取得更好的结果,同时比LSTM更容易训练。

    Convolution

    在网络的最底层使用3层的CNN结构。

    Lookahead Convolution

    使用双向RNN可以获得更好的准确性,但是对on-line服务来讲,延时问题比较明显,为了解决这个问题,在RNN上面增加了一层Lookahead Convolution。
    这里写图片描述

    adaptation

    传统的Hybrid系统在语言之间迁移相对困难,end-to-end系统相对简单,只需要更换最后的输出节点就可以。

    训练数据

    英文11940h,中文9400h

    训练优化

    high performance computing

    应用优化

    • batch dispatch将线上不同的语音请求组成一个batch计算
    • RNN计算使用16bit量化
    • ngram查询只查询概率比较高的一些character
    • 增加少量跟使用场景更匹配的语音或者文本,收益比较明显

    后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

    在这里插入图片描述

    展开全文
  • 霓虹灯中深度语音2的实现 该存储库包含霓虹灯中百度SVAIL的模型的实现。 大部分模型都可以在主线霓虹灯中轻松获得。 为了也支持CTC成本功能,我们为百度的了与氖气兼容的包装。 深度语音2模型的计算量很大,因此...
  • 在PaddlePaddle上的DeepSpeech PaddlePaddle上的DeepSpeech是使用平台的端到端自动语音识别(ASR)引擎的开源实现。 我们的愿景是通过易于使用,高效且可扩展的实施(包括培训,推理和测试模块以及演示部署),为...
  • deepspeech2

    千次阅读 2019-08-24 15:49:46
    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明...代码地址https://github.com/SeanNaren/deepspeech.pytorch 中文语音数据库采用thchs30 (1)首先提取data文件下的tr...

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
    本文链接:https://blog.csdn.net/hw200855/article/details/89639304

    代码地址https://github.com/SeanNaren/deepspeech.pytorch

    中文语音数据库采用thchs30

    (1)首先提取data文件下的trn翻译文本,生成包含空格在内的生字表并保存为json格式lexicon.json,是汉字字典,不是拼音,我在这一步卡了很久,后来发现data_loader只能读取单个字符,所以中文识别的词汇表是翻译文本的汉字生字表

    (2)生成train.csv,dev.csv,test.csv路径文件,包含wav位置和对应的trn翻译文本位置

    (3)修改train.py中的这三个参数,分别是训练集,验证集和生字表

    ‘–train-manifest’

    ‘–val-manifest’

    ‘–labels-path’

    (4)data_loader.py读取翻译到的翻译文本是以空格对词进行区别,在实际训练中效果很差,loss值一直降不下来。参考deepspeech v1将翻译文本改为以字加空格的格式

    在165行读取翻译文本的时加入两行代码,得到单字+空格+单字…格式翻译文本

    transcript=transcript.replace(' ','')
    transcript=''.join([f + ' ' for f in transcript])
    

    (5)进行训练,在30轮迭代后,验证集的wer降至5%左右,cer降至2.5%,在测试集的wer为50%,cer为25%

    对thchs30数据集进行分析,发现翻译文本只有1000句,其中训练集包含750句,测试集包含250句,验证集使用的句子与训练集重合,这也解释了为什么在验证集识别结果极好,在测试机集效果极差的原因。数据集样本不够多,训练时出现过拟合,这也是测试集结果不佳的原因。

    下面将改用aishell数据集对deepspeech v2进行进一步性能测试。

    thchs30生字表和路径生成文件代码

    链接:https://pan.baidu.com/s/1GUnsLbVweDrnZnmYdssMYg
    提取码:y38d
    ————————————————
    版权声明:本文为CSDN博主「hw200855」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/hw200855/article/details/89639304

    展开全文
  • <div><p>~/deepspeech-rs $ cargo run --verbose --release --example client /home/pi/Downloads/ /home/pi/Downloads/audio/2830-3980-0043.wavt Fresh hound v3.4.0 Fresh alac v0.3.3 Fresh sample v0.9.1 ...
  • Mozilla的DeepSpeech语音转文本库的Golang绑定。 到目前为止,astideepspeech仅与DeepSpeech的v0.6.0版本兼容。 安装安装DeepSpeech为Mozilla的DeepSpeech语音转文本库获取最新的native_client Golang绑定。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,885
精华内容 3,554
关键字:

deepspeech