精华内容
下载资源
问答
  • paddle deepspeech v2 转 pytorch
    2021-04-10 18:09:30

    net_test

    import torch
    import numpy as np
    
    from deepspeech.models.deepspeech2 import DeepSpeech2Model
    
    if __name__ == '__main__':
    
    
        batch_size = 2
        feat_dim = 161
        max_len = 100
        audio = np.random
    更多相关内容
  • DeepSpeech-pytorch 使用DeepSpeech模型的PyTorch中的端到端语音识别模型 怎么跑 首先,安装依赖项 # clone project git clone https://github.com/jiwidi/DeepSpeech-pytorch # install project cd DeepSpeech-...
  • 使用实现DeepSpeech2用于PyTorch。 该支持使用模型进行训练/测试和推断。 可选地,可以在推理时使用语言模型。 安装 需要安装几个库才能进行工作培训。 我将假定一切都已在Ubuntu的Anaconda安装中安装,并安装了...
  • 代码地址https://github.com/SeanNaren/deepspeech.pytorch 中文语音数据库采用thchs30 (1)首先提取data文件下的trn翻译文本,生成包含空格在内的生字表并保存为json格式lexicon.json,是汉字字典,不是拼音,我...

    代码地址https://github.com/SeanNaren/deepspeech.pytorch

    中文语音数据库采用thchs30

    (1)首先提取data文件下的trn翻译文本,生成包含空格在内的生字表并保存为json格式lexicon.json,是汉字字典,不是拼音,我在这一步卡了很久,后来发现data_loader只能读取单个字符,所以中文识别的词汇表是翻译文本的汉字生字表

    (2)生成train.csv,dev.csv,test.csv路径文件,包含wav位置和对应的trn翻译文本位置

    (3)修改train.py中的这三个参数,分别是训练集,验证集和生字表

    '--train-manifest'
    
    '--val-manifest'
    '--labels-path'

    (4)data_loader.py读取翻译到的翻译文本是以空格对词进行区别,在实际训练中效果很差,loss值一直降不下来。参考deepspeech v1将翻译文本改为以字加空格的格式

    在165行读取翻译文本的时加入两行代码,得到单字+空格+单字.......格式翻译文本

    transcript=transcript.replace(' ','')
    transcript=''.join([f + ' ' for f in transcript])

    (5)进行训练,在30轮迭代后,验证集的wer降至5%左右,cer降至2.5%,在测试集的wer为50%,cer为25%

    对thchs30数据集进行分析,发现翻译文本只有1000句,其中训练集包含750句,测试集包含250句,验证集使用的句子与训练集重合,这也解释了为什么在验证集识别结果极好,在测试机集效果极差的原因。数据集样本不够多,训练时出现过拟合,这也是测试集结果不佳的原因。

    下面将改用aishell数据集对deepspeech v2进行进一步性能测试。

    thchs30生字表和路径生成文件代码

    链接:https://pan.baidu.com/s/1GUnsLbVweDrnZnmYdssMYg 
    提取码:y38d 

     

    展开全文
  • deepspeech.pytorch中文语音识别笔记(2)

    千次阅读 2019-05-05 09:33:17
    使用AISHELL-ASR0009-OS1 开源中文语音数据库 ...翻译文本训练时发现不全,部分训练文件夹下的语音无翻译文本,生成deepspeech文本路径文件时需要注意。 deepspeech代码地址 https://github.com/SeanN...

    使用AISHELL-ASR0009-OS1 开源中文语音数据库

    地址http://www.aishelltech.com/kysjcp

    该语音库包含141000句短语,分为train、dev、test三类。翻译文本训练时发现不全,部分训练文件夹下的语音无翻译文本,生成deepspeech文本路径文件时需要注意。

    deepspeech代码地址

    https://github.com/SeanNaren/deepspeech.pytorch

    (1)根据翻译文本aishell_transcript_v0.8.txt生成生字表,生成deepspeech的训练,验证,测试的csv路径文件

    (2)读取翻译文本时可以采用字+空格的格式,如果采用原文本的词+空格格式,词错误率较高。

    验证集50轮迭代  字+空格 wer 11.990 cer 5.998  词+空格 wer 25.444 cer 6.035 

    不过中文与英文识别不同,中文以字为单位,英文以单词为单位,所以字符错误率cer更能准确反映识别效果,这样看来两者效果近似。

    (3)使用kenlm利用翻译文本训练语言模型,并将语言模型加入test过程中

    30轮训练的声学模型采用贪婪算法解码,测试集结果为wer14.958 cer 7.481 

    采用加入语言模型的BeamCTC解码,测试集结果为15.029.cer7.509。

    不同于英文语音识别加入语音模型wer大幅降低,中文识别语言模型加入后计算速度慢了几百倍,50s/it,结果近似,没有提升,没有找到原因。

    展开全文
  • deepspeech2 百度研究公司的Deep Speech 2模型于2015年发布,可将语音从文本的端到端从标准化的声谱图转换为字符序列。 它由在时间和频率上的几个卷积层组成,然后是门控循环单元(GRU)层(通过附加的批归一化进行...
  • deepspeech.pytorch.zip

    2021-04-08 13:09:12
    deepspeech.pytorch.zip
  • deep speech2

    2018-07-16 09:38:32
    百度二代语音识别,采用paddlepaddle平台,继续使用ctc(端到端)的语音识别
  • deepspeech.pytorch Implementation of DeepSpeech2 for PyTorch using PyTorch Lightning. The repo supports training/testing and inference using the DeepSpeech2 model. Optionally a kenlm language model ...
  • 目录介绍注意事项实验过程thchs30aishellPrimewords Chinese Corpus Set 1Free ST Chinese Mandarin CorpusAidatatang_200zhMAGICDATA ...因为对语音转文字比较感兴趣,所以测试了百度的deepspeech2项目。因为对padd...

    介绍

    因为对语音转文字比较感兴趣,所以测试了百度的deepspeech2项目。因为对paddle不太熟悉,又找到了pytorch版本的deepspeech.pytorch项目。github地址:https://github.com/SeanNaren/deepspeech.pytorch
    因为项目使用的是librispeech数据集,是英文的,所以又借鉴了这篇博客的中文数据集经验。

    注意事项

    1. 中文数据集的训练过程重要关注CER指标,也就是字错率。
    2. 需要将样本集中的英文、数字等非中文的样本去掉,不然错误率太高。中英文混合情况,还不知道怎么处理,有大神可以指导一下。

    实验过程

    以下以普通话数据集来逐个介绍(以下数据集全部可以在这个网站openslr下载到):

    thchs30

    数据集:万余条语音文件,大约40小时。内容以文章诗句为主,全部为女声。(清华大学语音与语言技术中心(CSLT)出版)
    最佳收敛结果:当时头一个测试,结果不好,没有保留。样本量太少,拟合的不好。

    aishell

    数据集:包含178小时的开源版数据。包含400个来自中国不同地区、具有不同的口音的人的声音。录音质量高,通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。
    最佳收敛结果:Validation Summary Epoch: [79] Average WER 15.411 Average CER 15.426

    Primewords Chinese Corpus Set 1

    数据集:包含了大约100小时的中文语音数据。语料库由296名母语为英语的智能手机录制。转录准确度大于98%,置信水平为95%。抄本和话语之间的映射以JSON格式给出。数据集未区分训练集测试集,需手动处理。建议随机拿出6k作为测试集。
    最佳收敛结果:Validation Summary Epoch: [10] Average WER 32.939 Average CER 32.946

    Free ST Chinese Mandarin Corpus

    数据集:10万余条语音文件,大约100余小时。内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。数据集未区分训练集测试集,需手动处理。建议随机拿出1w作为测试集。
    最佳收敛结果:Validation Summary Epoch: [18] Average WER 20.271 Average CER 20.275

    Aidatatang_200zh

    数据集:200小时(当前时长最长的中文开源语音数据集),由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。录音环境安静,录音者性别、年龄均匀分布。每个句子的手动转录准确率大于98%。
    最佳收敛结果:Validation Summary Epoch: [16] Average WER 18.323 Average CER 18.331

    MAGICDATA Mandarin Chinese Read Speech Corpus

    数据集:该语料库由Magic Data Technology Co.,Ltd.提供,收录了1080名中国大陆华语母语人士755小时的语料朗读语音数据。句子抄写准确率高于98%。数据库按51:1:2的比例分为训练集、验证集和测试集。
    样本量较大,折戟于RuntimeError: CUDA out of memory. batchsize已经调整为24了,感觉已经很小了,咋不行呢,我的配置是单卡:GeForce RTX 2080 Ti 显卡

    遗留问题

    1. 训练Magic Data的显存溢出问题。
    2. 使用该项目训练,当某一个batch出现以下情况后:
      WARNING: received a nan loss, setting loss value to 0
      Skipping grad update
      Epoch: [22][1/1930] Time 1.826 (0.977) Data 1.465 (0.009) Loss 0.0000 (10.8071)
      接下来的所有batch都会出现这个错误,并且对测试集的预测会出现Validation Summary Epoch: [21] Average WER 100.000 Average CER 100.000,导致无法继续训练下去。经查源码发现是每批次样本训练后会计算ctc的损失值,该值在进行梯度更新前会检查是否可计算,当出现这个问题时,就是因为ctc损失返回了一个nan值,具体为什么返回这个,还涉及到另一个项目warp-ctc,以及该项目引用的计算ctc的c代码部分(向作者提了issue,不过没有回复,(lll¬ω¬)),还没有解决该问题。

    另外有相关问题可以加入QQ群讨论,不设微信群
    QQ群:892438065

    展开全文
  • DeepSpeech2 详解

    万次阅读 2019-07-19 12:13:04
    论文题目: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin 论文地址: ...tensorflow版本: https://github.com/mozilla/DeepSpeech pytorch版本: http://www.github....
  • Deepvoice3_pytorch 基于卷积网络的文本到语音合成模型的PyTorch实现: :深度语音3:通过卷积序列学习将文本转换为语音。 :基于深度卷积网络并具有指导性注意力的高效可训练的文本语音转换系统。 音频示例可从...
  • Deep Learning:PyTorch 基于docker 容器的分布式训练实践 基于Docker的大规模人脸数据集分布式训练
  • deepspeech2

    千次阅读 2019-08-24 15:49:46
    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明...代码地址https://github.com/SeanNaren/deepspeech.pytorch 中文语音数据库采用thchs30 (1)首先提取data文件下的tr...
  • Pytorch实现的流式与非流式语音识别模型(数据集:AIShell),源码地址为:https://github.com/yeyupiaoling/MASR
  • 本项目是基于PaddlePaddle的[DeepSpeech](https://github.com/PaddlePaddle/DeepSpeech) 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端...
  • Reduce cost and horizontally scale deepspeech.pytorch using TorchElastic with Kubernetes. 使用TorchElastic和Kubernetes降低成本并水平扩展deepspeech.py​​torch。 使用Deepspeech.py​​torch进行端到端...
  • 利用docker配置指定的python+pytorch+cuda环境
  • 部分基于以下项目的的 PyTorch 实现: (音频预处理) (数据加载器采样器) 在线文字转语音演示 以下笔记本可在上执行: 对于音频样本和预训练模型,请访问上面的笔记本链接。 训练/合成英语文本到语音 英语 TTS...
  • deepvoice3基于pytorch

    2018-09-11 22:17:19
    基于pytorch的T2S工具源码,PyTorch implementation of convolutional networks-based text-to-speech synthesis models: arXiv:1710.07654: Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence ...
  • DeepSpeech2 语音识别 本项目是基于PaddlePaddle的DeepSpeech 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别(ASR)...
  • Deepvoice3_pytorch PyTorch implementation of convolutional networks-based text-to-speech synthesis models:arXiv:1710.07654: Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learnin...
  • 端到端语音识别模型 此存储库包含端到端自动语音识别模型。此存储库不包含训练或音频或文本预处理代码。 如果您想查看模型以外的代码,请参阅。 许多语音识别开源包含所有与训练相关的代码,很难只看到模型结构。...
  • Pytorch实现的流式与非流式语音识别模型(数据集:thchs30),源码地址为:https://github.com/yeyupiaoling/MASR
  • 最近开始学习语音识别 (Speech Recognition) 相关 发现了一个结构挺清晰的中文识别小模型 原项目有一些 bug 在此记录下 项目地址 https://github.com/yang123qwe/end2end_chinese_speech_recognition 问题一 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,288
精华内容 515
关键字:

deep speech pytorch

友情链接: C语言编程.rar