精华内容
下载资源
问答
  • PaddlePaddle实现的DeepSpeech2模型,训练thchs30数据集训练的模型,源码地址:https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech
  • kaldi中文语音识别thchs30模型训练

    千次阅读 2018-10-09 15:28:03
    1.准备thchs30中文数据集 今天开始做语言模型啦,数据集采用的是清华大学的中文数据集thchs30,下载地址在http://www.openslr.org/18/ ,由于是在服务器做训练,以下步骤均采用shell语句进行。 1.1 在服务器上...

    1.准备thchs30中文数据集

    今天开始做语言模型啦,数据集采用的是清华大学的中文数据集thchs30,下载地址在http://www.openslr.org/18/ ,由于是在服务器做训练,以下步骤均采用shell语句进行。

     

    1.1 在服务器上使用shell命令(wget -P 目录 网址)下载thchs30,并保存到指定文件(egs/thchs30/s5/thchs30-openslr)

    wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/data_thchs30.tgz

    wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/test-noise.tgz

    wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/test-noise.tgz

     

    1.2解压在thchs30-openslr下

    tar  -zxvf data_thchs30.tgz

    tar  -zxvf test-noise.tgz

    tar  -zxvf test-noise.tgz

    2.修改脚本

    2.1修改thchs30/s5文件夹下的cmd.sh:先找到s5 目录下的cmd.sh,右键编辑,将内容更改为:

    export train_cmd=run.pl

    export decode_cm="run.pl"

    export mkgraph_cmd="run.pl " 

    export cuda_cmd="run.pl"

     

     

    2.2修改thchs30/s5文件夹下的run.sh: 先找到s5 目录下的cmd.sh,右键编辑,将内容更改为:

    n=2      #parallel jobs(根据cpu的个数来定)

    thchs=***********/egs/thchs30/s5/thchs30-openslr (中文数据集的文件路径)

     

    3.开始语言模型训练

    Shell语句cd到s5,运行run.sh:

    cd  ***********/egs/thchs30/s5./

    ./run.sh

     

    4.总结

    以下主要针对run.sh脚本命令及结果进行解读,这个过程主要是:数据准备,特征提取,monophone单音素训练, tri1三因素训练, trib2进行lda_mllt特征变换,trib3进行sat自然语言适应,trib4做quick,后面就是dnn了。目前我只跑到了monophone单音素训练,因此只讲解到monophone单音素训练,后续过程以后再讲。

    4.1数据准备

    4.2特征提取

    梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),对于语音特征参数MFCC提取过程详解,有一位博主写的很详细,这里就不详述了,链接为:https://my.oschina.net/jamesju/blog/193343    

    4.3准备发音词典和训练语言模型

    4.4训练monophone模型和解码

    train_mono.sh用法和其中的参数设置,训练单音素的基础HMM模型,迭代40次,并按照realign_iters的次数对数据对齐。

    thchs-30_decode.sh测试单音素模型,实际使用mkgraph.sh建立完全的识别网络,并输出一个有限状态转换器,最后使用decode.sh以语言模型和测试数据为输入计算WER.

     

    展开全文
  • kaldi运行thchs30例子

    2019-09-23 10:21:57
    首先,thchs30有两种数据库,kaldi运行的数据库最好是 thchs30-openslr。 修改run.sh里面的语音库路径 thchs30=... 修改nj线程数 等于CPU的核心数 修改cmd.sh queue.pl 改为run.pl本地机器跑 运行出现错误: ...

     

    首先,thchs30有两种数据库,kaldi运行的数据库最好是 thchs30-openslr。

    修改run.sh里面的语音库路径  thchs30=...

    修改nj线程数 等于CPU的核心数

    修改cmd.sh  queue.pl 改为run.pl本地机器跑

    运行出现错误:

    lexicon.txt验证出错

    里面binary file  matches

    这是grep的问题,grep -v -a '<s>' | grep -v -a '</s>' | sort -u > data/dict/lexicon.txt || exit 1;

    ---------------------------------------------------------------------------------------------------------------------------

    在线识别部分:

    去egs下,打开voxforge,里面有个online_demo,直接考到thchs30下。在online_demo里面建2个文件夹online-data  work,在online-data下建两个文件夹audio和models,audio下放你要回放的wav,models建个文件夹tri1,把s5下的exp下的tri1下的final.mdl和35.mdl(final.mdl是快捷方式)考过去。把s5下的exp下的tri1下的graph_word里面的words.txt,和HCLG.fst,考到models的tri1下。

     类似处理,包括tri2b,tri3b,tri4b,不过后者需要添加转移矩阵,final.mat以及所指的mat文件。

    如下所示,例如 tri2b文件夹下,

     

    打开online_demo的run.sh

    a)将下面这段注释掉:(这段是voxforge例子中下载现网的测试语料和识别模型的。我们测试语料自己准备,模型就是tri1了)

    if [ ! -s ${data_file}.tar.bz2 ]; then
        echo "Downloading test models and data ..."
        wget -T 10 -t 3 $data_url;


        if [ ! -s ${data_file}.tar.bz2 ]; then
            echo "Download of $data_file has failed!"
            exit 1
        fi
    fi

    b) 然后再找到如下这句,将其路径改成tri1

     

     # Change this to "tri2a" if you like to test using a ML-trained model
    ac_model_type=tri2b
     

    if [ -s $ac_model/final.mat ]; then
    trans_matrix=$ac_model/final.mat
    echo "set matrix"
    fi

    online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
    --beam=12.0 --acoustic-scale=0.0769 --left-context=3 --right-context=3 $ac_model/final.mdl $ac_model/HCLG.fst \
    $ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

     

    识别效果很差

     

    转载于:https://www.cnblogs.com/welen/p/7543162.html

    展开全文
  • kaldi中跑thchs30

    千次阅读 2017-12-17 23:20:50
    按照github上的版本直接跑的过程中遇到两个问题: 在 make word graph的过程中字典正确的没有拷贝到... cat $thchs/resource/dict/lexicon.txt $thchs/data_thchs30/lm_word/lexicon.txt | grep -v '<s>' | grep -v '

    ———更新————————–
    尽量使用最新的版本,之需要改下面的第一个问题,就可以全部跑通,新的版本中beam size 是6, 就不会有问题了。


    按照github上的版本直接跑的过程中遇到两个问题:
    1. 在 make word graph的过程中字典正确的没有拷贝到本地:
    在 14.04 下面没有问题,在16.04 下面出现问题了。

      cat $thchs/resource/dict/lexicon.txt $thchs/data_thchs30/lm_word/lexicon.txt | grep -v '<s>' | grep -v '</s>' | sort -u > data/dict/lexicon.txt || exit 1;

    在16.04下面输出到文件里面是 (stand input),但是data/lang下面的文件都没有正确生成。
    但是在14.04 下面是没有问题的(亲测)。
    原因应该是 bash的版本不同导致的吧。
    解决方法就是:
    在grep 后面 加个 -a 就好了。

    1. 问题报如下错误:
      错误作者回答: https://groups.google.com/forum/#!topic/kaldi-help/S06_dri-Kcg
    WARNING (gmm-align-compiled:AlignUtteranceWrapper():decoder-wrappers.cc:466) Retrying utterance A02_000 with beam 40
    WARNING (gmm-align-compiled:AlignUtteranceWrapper():decoder-wrappers.cc:475) Did not successfully decode file A02_000, len = 979
    WARNING (gmm-align-compiled:AlignUtteranceWrapper():decoder-wrappers.cc:466) Retrying utterance A02_001 with beam 40

    具体原因:暂时不明,对对齐没有研究。

    解决方法是:
    将 train_mono.sh 中 gmm-align-compiled scaleoptsbeam= beam –retry-beam= [ <script type="math/tex" id="MathJax-Element-6">[</script>beam*4
    中的beam值设置的大点就好了,比如10, 50, 100 等。
    太大了对结果也会有影响。
    http://kaldi-asr.org/doc/faster-decoder_8h_source.html#l00033 中定义beam的时候有说明:
    46 opts->Register(“beam”, &beam, “Decoding beam. Larger->slower, more accurate.”);

    展开全文
  • thchs30中文在线识别

    2019-03-29 15:50:40
    在前面的笔记中,我们已经训练出thchs30模型。 这篇文章主要介绍如何用训练好的模型识别我们自己的语音。 一、安装portaudio 首先我们cd到tools下面,执行:./install_portaudio.sh 然后在cd到src下面,执行:...

    在前面的笔记中,我们已经训练出thchs30模型。

    这篇文章主要介绍如何用训练好的模型识别我们自己的语音。

    一、安装portaudio

    首先我们cd到tools下面,执行:./install_portaudio.sh

    然后在cd到src下面,执行:make ext

    二、创建相关文件

    从voxforge把online_demo拷贝到thchs30下,和s5同级,online_demo建online-data和work两个文件夹。online-data下建audio和models,audio放要识别的wav,models建tri1,讲s5下/exp/下的tri1下的final.mdl和35.mdl拷贝过去,把s5下的exp下的tri1下的graph_word里面的words.txt和HCLG.fst也拷过去。(使用tri1训练出来的模型)

    其中,final.mdl是训练出来的模型,words.txt是字典,和HCLG.fst是有限状态机。

    三、修改脚本

    打开online_demo的run.sh
    a)将下面这段注释掉:(这段是voxforge例子中下载现网的测试语料和识别模型的。我们测试语料自己准备,模型就是tri1了)


    if [ ! -s ${data_file}.tar.bz2 ]; then
    echo "Downloading test models and data ..."
    wget -T 10 -t 3 $data_url;


    if [ ! -s ${data_file}.tar.bz2 ]; then
    echo "Download of $data_file has failed!"
    exit 1
    fi
    fi


    b) 然后再找到如下这句,将其路径改成tri1


    # Change this to "tri2a" if you like to test using a ML-trained model
    ac_model_type=tri2b_mmi
    ac_model_type=tri1


    c)把识别麦克风语音的代码修改:


            online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
               --beam=12.0 --acoustic-scale=0.0769 $ac_model/final.mdl $ac_model/HCLG.fst \
               $ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

            #online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
               #--beam=12.0 --acoustic-scale=0.0769 $ac_model/model $ac_model/HCLG.fst \
               #$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

    d)把识别已经录好的语音代码修改:

            online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
                --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
                scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \
                $ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
                ark,t:$decode_dir/ali.txt $trans_matrix;;

            #online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
               # --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
                #scp:$decode_dir/input.scp $ac_model/model $ac_model/HCLG.fst \
                #$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
                #ark,t:$decode_dir/ali.txt $trans_matrix;;


    4. 在线识别

    我们把自己要识别的语音放到/online-data/audio里,cd到online_demo下面,执行./run.sh,就开始识别回放了。

    可以看到识别效果非常差。

    如果想要识别麦克风的语音,可以执行:./run.sh --test-mode live,也是同样的效果

    5. tri2,tri3,tri4在线识别

    运行tri2(tri3,tri4同理):把s5下的exp下的tri2b下的12.mat考到models的tri2下,把final.mat考过来(好像是转移矩阵),再拷贝其他相应的文件(同tri1),所以tri2目录下包括如下文件:

    在第4步的基础上修改如下内容:

    1. 修改ac_model_type

    ac_model_type=tri2

    2. 修改trans_matrix

    ac_model=${data_file}/models/$ac_model_type
    trans_matrix="$ac_model/12.mat"
    audio=${data_file}/audio

    3. 增加--left-context=3 --right-context=3

            online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
               --beam=12.0 --acoustic-scale=0.0769 --left-context=3 right-context=3 $ac_model/final.mdl $ac_model/HCLG.fst \
               $ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

            online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
                --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 --left-context=3 --right-context=3\
                scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \
                $ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
                ark,t:$decode_dir/ali.txt $trans_matrix;;

    最后执行./run.sh
    原文:https://blog.csdn.net/snowdroptulip/article/details/78950038 
     

    展开全文
  • kaldi和thchs30的使用

    2019-10-17 11:08:48
    ❤ 运行thchs30 参考[4] 1. 数据准备 清华大学30小时的数据集,可以在http://www.openslr.org/18/下载 data_thchs30.tgz [6.4G] ( speech data and transcripts ) test-noise.tgz [1.9G] ( standard 0db...
  • Kaldi运行thchs30中文语音识别教程

    千次阅读 2018-09-09 19:06:28
    转载自 https://www.jianshu.com/p/c48466d36162  这篇文章写的比较详细,适合新手入门观看,特地摘录下来以供分享和之后学习 ...使用thchs30训练最后的识别准确率约:64% 运行thchs30步骤 安...
  • thchs30的语料下载地址: http://www.openslr.org/18/ 首先,下载好语料
  • 基于kaldi的thchs30训练实践V1.5 6-24-2019_slip_v1.0 6-25-2019_slip_v1.1 6-26-2019_slip_v1.2 6-28-2019_slip_v1.3 7-1-2019_slip_v1.4 7-8-2019_slip_v1.5 首先在老师给的机器上看一下,到/voice_rec/kaldi/egs/...
  • thchs30学习的五个阶段

    2019-11-08 15:34:56
    第一阶段 第二阶段 第三阶段 第四阶段 第五阶段 ...第一个阶段: ./cmd.sh ./path.sh(设置执行路径以及命令脚本名字) ...执行 local/thchs30_data_prep.s 为了创建:wav.scp,utt2spk,scp,spk2utt.scp,text还有w...
  • thchs30流程

    千次阅读 2018-05-04 08:47:56
    ./path.sh(设置执行路径以及命令脚本名字)ps:decode 解码 train 训练第二阶段:data preparation(数据准备阶段)执行 local/ thchs-30_data_prep.sh为了创建: wav.scp, utt2spk.scp, spk2utt.scp, text 还有words.txt...
  • kaldi_thchs30_2 run.sh

    2021-01-11 16:48:08
    #echo "downloading THCHS30 at $thchs ..." #local/download_and_untar.sh $thchs http://www.openslr.org/resources/18 data_thchs30 || exit 1 #local/download_and_untar.sh $thchs ...
  • thchs30数据集是清华大学30...data_thchs30.tgz [6.4G] ( speech data and transcripts ) test-noise.tgz [1.9G] ( standard 0db noisy test data ) resource.tgz [24M] ( supplementary resources, incl. lexicon for
  • 863CSL+thchs30汉语普通话连续语音识别词典
  • kaldi中文语音识别_基于thchs30(1)

    千次阅读 2018-05-09 19:37:26
    首先,thchs30有两种数据库,kaldi运行的数据库最好是 thchs30-openslr, 将thchs30中的三个压缩包下载后放到kaldi/egs/thchs30 同级目录修改s5/run.sh里面的语音库路径 thchs30=......
  • 使用kaldi训练清华大学开源语料数据集thchs30 1.下载kaldi 命令: git clone https://github.com/kaldi-asr/kaldi.git 安装过程就不细表了。 2.下载thchs30数据集 下载地址:http://www.openslr.org/18/ thchs30是一...
  • thchs30数据集

    2019-08-08 20:46:46
    2 THCHS-30的特点 这部分我们介绍THCHS-30语音库。这个数据库是在2000-2001年记录的,第一个作者是Prof.Xiaoyan Zhu的一个研究生。这个语音库设计的目的是作为863数据库的补充,尽可能提高中文发音的涵盖率。这个新...
  • thchs30运行流程以及在线、离线识别

    千次阅读 2018-05-08 16:34:46
    (1)thchs30运行过程以及bug修复按照网上教程,训练thchs30首先需要将run脚本中的变量定位到你存储数据的位置,其次是修改cmd脚本中的queue为run.pl。但是不知道是我的主机原因还是系统的原因,总是不行,后来博主...
  • kaldi运行thchs30数据集lexicon.txt ERROR

    千次阅读 2018-12-12 18:33:58
    kaldi/egs/thchs30创建thchs30-openslr,将所有压缩包解压到这下面,文件目录如下 thchs30-openslr ├── data_thchs30 ├── resource └── test-noise  2.打开s5目录,编辑cmd.sh. 修改为本地运行, 如下 ...
  • 这一周在kaldi下跑thchs30例程,做了些笔记,记录以下(黑体字是要运行的命令,实际上是从run.sh分离出来的) 如果自行下载语料的话,推荐一个openslr的镜像网址,速度快很多 ... 因为服务器里有thchs30语料了,在/...
  • Thchs30数据最后处理

    2018-06-10 15:59:07
    关于最后再处理thchs30的标签,最后python输出的是科学计数表示,并不能作为我们神经网络的标签,为此我们需要将科学计数转换成整数形式。刚开始提取的是科学计数表示,如下图所示: 采用 awk '{print int($1)}' ...
  • kaldi上运行thchs30中文语音库的错误总结

    千次阅读 热门讨论 2017-05-14 15:26:06
    运行中文库thchs30时遇到的错误
  •  由于要做在线识别,网上大多数都是关于thchs30的在线识别,aishell缺少在线识别的教程,没办法,本人是小白,只能跟着大佬做,目前进行到训练脚本的部分。下面谈一下训练thchs30这个例子的过程,可能大多数人在...
  • 这个recipe是基于eesen代码改写的中文语音识别,语料库为清华语料库(data_thchs30)。 1 功能: 1)可以实现中文语音识别 2)可以加入其它的汉语语料库进行算法研究 3)也可以单独研究以wfst为架构的解码器,实现声学...
  • 清华大学中文语音识别数据 THCHS30

    千次阅读 2020-08-01 13:01:11
    目录简介作者联系人数据文件data_thchs30datatrain,dev,testlm_wordlm_phonetest-noiseresourceresource/dict/lexicon.txtresource/dict/lexiconp.txtresource/dict/extra_questions.txtresource/dict/nonsilence_...
  • kaldi训练thchs30详细步骤

    千次阅读 2017-10-26 16:42:22
    二、进入thchs30/s5文件夹,修改run.sh里面的数据路径,我才用了直接下载的方式,因为之前没有这方面的数据。 三、修改cmd.sh:  export train_cmd=run.pl export decode_cmd=run.pl export mkgraph_cmd=run...
  • 基于kaldi、thchs30 的离线中文识别

    千次阅读 2017-10-14 13:46:47
    具体操作细节可查看一下网址: ...第一步就是要跑通thchs30的例子,这是清华的中文语音识别例子 第二部做本地识别可查看上面网址,不过有两处不对 1、如下图所示地方要改成final.mat,上面网址的是12
  • 目录 aishell数据转换格式 aishell数据转化方法 aishell数据格式对于用神经网络处理数据的...而thchs30由于有拼音标注的优势被很多同学用来训练神经网络声学模型,因此想通过一些简单的处理,将aishell...
  • kaldi资料的准备:《Kaldi学习笔记(三)——运行thchs30(清华大学中文语料库)》 运行kaldi中的自带样例:《Kaldi学习笔记(四)——thchs30中文在线识别》 thchs30的主要搭建过程参照以上两篇博客,此处就不再...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 477
精华内容 190
关键字:

THCHS30