2016-11-21 16:04:53 sheshou199 阅读数 2238
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5926 人正在学习 去看看 杨波
最近在看kaldi,搜集了一些资料,列下来以供后续参考。
语音识别原理部分:
1、https://www.zhihu.com/question/20398418
知乎上比较火的原理解释。
2、http://blog.csdn.net/abcjennifer/article/details/27346787?utm_source=tuicool
GMM-HMM语音识别模型 原理篇

3、http://blog.csdn.net/wbgxx333/article/details/39006885

语音识别基本原理介绍--gmm-hmm中训练的完整版

关于kaldi部分的:

1、https://github.com/kaldi-asr/kaldi 一个开源的kaldi资料

2、http://blog.csdn.net/xiaoding133/article/details/8842945 上面是别人总结的语音识别方向比较全面的资料来源,非常全面

3、http://blog.csdn.net/lijin6249/article/details/51838936  基于kaldi的在线中文识别,online的操作介绍

4、http://blog.csdn.net/wbgxx333  一个研究语音的大神博客。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2015-10-21 09:56:26 RandyLeonard 阅读数 447
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5926 人正在学习 去看看 杨波

Speech and Natural Language Processing

https://github.com/edobashira/speech-language-processing/blob/master/README.rst

Parsing Beyond Context-Free Grammars

http://user.phil-fak.uni-duesseldorf.de/~kallmeyer/ParsingBeyondCFG/

2019-04-19 16:30:39 ZHUQIUSHI123 阅读数 283
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5926 人正在学习 去看看 杨波

目录

一.会议

1.1国际最顶尖会议

1.2其他

二. 期刊

2.1国内

2.2国外:

三.国际语音识别技术研究机构

四.国际语音识别技术评测

五. 语音识别技术工具包

六.主页和博客


转载自https://blog.csdn.net/tbl1234567/article/details/70173330

          https://blog.csdn.net/xiaoding133/article/details/8842945

一.会议

1.1国际最顶尖会议


ICASSP:International Conference on Acoustics, Speech and Signal Processing 每年一届,10月截稿,次年5月开会
ICSLP:International Conference on Semiconductor Laser and Photonics 偶数年举办,4月截稿,9月开会
EuroSpeech:European Conference on Speech Communication and Technology 奇数年举办,4月截稿,9月开会

1.2其他

ICSMC:Int l Conference on Systems, Man & Cybernetics 
NAECON:National Aerospace and Electronics Conference
ICTTA:International Conference on Telecommunication Technology and Applications 
ISSPA: Information Sciences, Signal Processing and their Applications 
ISPACS:International Symposium on Intelligent Signal Processing and Communications Systems 
SBEC:Southern Biomedical Engineering Conference 
ICAPR:International Conference on Advances in Pattern Recognition 
ICOSP: International Conference on Signal Processing Proceedings
ICSLP: International Conference on Spoken Language Processing 
ICICIC:International Conference on Innovative Computing, Information and Control 
IEMBS:Institute of Electrical and Electronics Engineers
NLPKE: Natural Language Processing and Knowledge Engineering 
IECON:Conference of the IEEE Industrial Electronics Society
ICCT:International Council on Clean Transportation
ASRU:Automatic Speech Recognition and Understanding 
ISCAS:International Symposium on Circuits and Systems 
ISPACS:International Symposium on Intelligent Signal Processing and Communications Systems 
ICDSP:International Conference on Digital Signal Processing 
SPAWC:signal processing advances in wireless communications
ICCSIT: International Conference on Computer Science and Information Technology
ICSE: International Conference on Software Engineering
ICIAS:International Conference on Intelligent and Advanced Systems 
TENCON:Technical Environmental Consulting
ICFCC:International Conference on Future Computer and Communication 
WCICA:World Congress on Intelligent Control and Automation 
MMSP:international workshop on multimedia signal processing
IROS: Intelligent Robots and Systems 
ICSDA: INTERNATIONAL COMBATIVES SELF DEFENSE ASSOCIATION 
ICCCE:International Conference on Computer and Communication Engineering
其他的会议还有:ISPA,ASPAA,INDICO,NetCom等

二. 期刊

2.1国内

  • 声学学报
  • 应用声学
  • 声学工程
  • 信号处理
  • 电子学报

2.2国外:

  • IEEE Signal Processing Magazine (IF:2.655),一年6期,是双月刊)
  • Computer Speech and Language (CSL)(IF:1.776)
  • Digital Signal Processing(IF: 0.889)
  • IEE Electronics Letters (IF:1.063)
  • IEEE Signal Processing Letters (SPL)---(IF: 0.722)
  • IEEE Transactions on Audio, Speech and Language Processing (IF:2.950)
  • IEEE Transactions on Circuits and Systems-II: Express Briefs (CAS-II)---(IF:0.922)
  • IEEE Transactions on Signal Processing (TSP)-- (IF:1.57)
  • IEEE Transactions on Circuits and Systems-I: Regular Papers (CAS-I)---(IF:1.139)
  • IET Signal Processing(IF:1.250)
  • Signal Processing (IF: 0.669)
  • Signal Processing: Image Communication (IF: 1.109)
  • Speech Communication(IF:1.585)其中IF为影响因子

三.国际语音识别技术研究机构

四.国际语音识别技术评测
 

NIST Spoken Language Technology Evaluations Benchmark Tests
(http://www.nist.gov/speech/tests/index.htm)

五. 语音识别技术工具包


 AT&T FSM Library
 CMU-Cambridge Statistical LM Toolkit
 CMU Sphinx
 CSLU toolkit
 CUED HTK
 Edinburgh Speech Tools Library
 KTH WaveSurfer
 MSState ASR Toolkit
 NIST Utility Software
 SPRACHcore software package
 SRI Language Modelling Toolkit
 SoX -- Sound eXchange
 Transcriber
 UCL Speech Filing System
 FBVIEW multi-channel audio file viewer

1.6语音识别网站及相关论坛

http://www.voxforge.org/home/forums/message-boards/acoustic-model-discussions
http://bbs.matwav.com
http://www.yuyinshibie.com/
http://www.ctiforum.com/voice.html
http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.html
http://www.phon.ucl.ac.uk/resource/scribe/

六.主页和博客

     1.bill  xia 的博客:http://ibillxia.github.io/blog/categories/assp/            这个大神的博客有深度学习的一些东西,有用。

      2.zouxy09的博客:http://blog.csdn.net/zouxy09/article/category/1218766   zouxy09大神对深度学习和机器学习都有研究,博客质量很高的

      3.台湾张智星教授的主页:http://mirlab.org/jang/    里面有一个语音课:音频信号处理和识别

      4.cmu大学的语音组:http://www.speech.cs.cmu.edu/   里面有很多链接

      5. dan ellis教授的主页:  http://www.ee.columbia.edu/~dpwe/    里面有很多工具箱

      6.dan povey大神的主页:http://www.danielpovey.com/index.html  kaldi的资料很多

      7.微软邓力老师的主页:http://research.microsoft.com/en-us/people/deng/  关于深度学习的语音识别资料

      8.王德江老师的主页:http://www.cse.ohio-state.edu/~dwang/pnl/software.html 关于语音识别 语音分离,音乐分离

      9.国外大神SnippyHolloW的github主页:https://github.com/SnippyHolloW

     10.自然语言处理的论坛:http://www.threedweb.cn/portal.php    非常多的资源

 

语音识别与合成
Speech at Carnegie Mellon University
鼎鼎大名的CMU语音组。著名的Sphinx系统的诞生地,李开复当年作研究的地方 
http://fife.speech.cs.cmu.edu/
The Center for Language and Speech Processing (CLSP) at The Johns Hopkins University
著名的Jelinek教授领导的语言与语音处理组 
http://www.clsp.jhu.edu/
Speech Research-----确是非常全的一个网站
国外比较全的一个语音技术研究的链接 
http://mambo.ucsc.edu/psl/speech.html
Signal Compression Lab, Department of Electrical and Computer Engineering
著名的Allen Gersho教授所在的实验室-University of California, Santa Babra。该实验室包括好几位杰出的教授,像K.Rose, V. Cuperman等等。该校非常令人尊敬的地方是从这里毕业的学生有很多后来都成为了学术科研上的佼佼者 
http://scl.ece.ucsb.edu/index.htm
The Speech Recognition Group
Rutgers大学CAPI中心下的语音识别组。论文集Modern Methods of Speech Processing中的R.P. Ramachandran就是该中心的教授 
http://www.caip.rutgers.edu/ARPA-SLT
Speech Processing Laboratory at at Michigan State University
著名的Deller教授所领导的语音处理研究组 
http://www.egr.msu.edu/~deller/speechlab_people.html
Purdue University Speech and Language Processing Research Group
Purdue大学语音处理研究组 
http://wavelet.ecn.purdue.edu/~speechg
还有一个比较有名的做语音的科研机构, 日本名古屋工业大学的Keiichi TOKUDA教授,
他们在基于参数的语音合成领域非常有名气的, 他们开发的HTS平台目前的应用也非常广泛.
对于研究语音合成和语音识别的人会有帮助.地址如下:
http://www.sp.nitech.ac.jp/
HTS的主页为:
http://hts.sp.nitech.ac.jp/

语音识别工具箱:

    1.kaldi:http://kaldi.sourceforge.net/

    2.htk:http://htk.eng.cam.ac.uk/

    3.RWTH:http://www-i6.informatik.rwth-aachen.de/rwth-asr/

    4.sphinx:http://cmusphinx.sourceforge.net/

    5.julius:http://julius.sourceforge.jp/en_index.php

说话人识别:

   1.微软的开源库MSR Identity Toolkit v1.0:http://research.microsoft.com/en-us/downloads/a6262fec-03a7-4060-a08c-0b0d037a3f5b/

   2.王德江老师的主页也有说话人识别的资料:http://www.cse.ohio-state.edu/~dwang/pnl/software.html 

2018-07-31 17:08:50 yibuerbusanbu 阅读数 3440
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5926 人正在学习 去看看 杨波

1.前言:
本科毕业之后,开始了北漂,一直想从事一些偏上层方面的工作,开始找工作期间各种碰壁。可能自己c语言的基础还可以的原因,被现在的单位的引擎组招了过来,起初只是被用来干一些引擎的支持和测试,慢慢的开始接触到了语音识别等引擎的开发,所以利用自己在工作中所了解得在这里班门弄斧地谈谈语音识别,也是想工作进行总结。也欢迎大家指出错误和不足。
1.语音识别简介:
语音识别技术即AutomaticSpeechRecognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。目前语音识别被广泛的应用于客服质检,导航,智能家居等领域。
2.语音识别过程:
在这里插入图片描述
语音识别大体上包含前端处理,特征提取,模型训练,解码四个模块。其中前端处理包括了,语音转码,高通滤波,端点检测等。
上图目前语音识别的基本流程,输入的语音数据流经过前端处理(语音格式转码,高通,端点检测),语音格式转码是将输入的语音数据转成pcm或者wav格式的语音,端点检测是检测出转码后语音中的有效语音,这样对解码速度和识别率上都会改善。经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取。最后解码模块对提取的特征数据进行解码,解码过程中利用发音字典,声学模型,语言模型等信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,便得到最优的识别结果。
在其他章节中会详细介绍以上四个模块。
3.语音识别的学习:
由于语音识别本事就是一个非常大并且繁琐的工程,设计到知识面很广,目前我也在想如何把这个学习过程更加系统化,简单化。希望这一块能得到前辈的指点。
目前我再看这些书籍:
1).数学之美,这本书对整个语音识别过程以及各个模块讲的很详细,也很通俗易懂,是一本不错的语音识别入门的书。
2).语音信号处理,这本书对前端处理模块的学习有很大的帮助,由于是一本教材书籍,自己在有些地方看起来也很晦涩,目前也想在网上找一些相关网课看看,这样更加深理解,找到的话也会第一时间分享。
3).关于特征提起模块,网上有很多帖子写的都很详细,后面我也会整理一下。
4).解码和模型训练…未完!!!

2018-05-28 15:49:15 mandagod 阅读数 4038
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    5926 人正在学习 去看看 杨波

0.概念:

语音信号处理/模式识别/统计分析,

1.算法:

常用的深度学习算法,包括
cnn/dnn/rnn/lstm;
GMM/SVM/CRF/MaxEnt/HMM;
对CTC 有经验;

2.框架:

熟悉至少一种深度学习框架,包括 kaldi, tensorflow, caffe, mxnet 等;
常用工具如 Caffe, CNTK, TensorFlow, Pytorch, Kaldi, CTC 技术
熟握 Kaldi, SRiLM, RNNLM, TensorFlow 等社区开源工具中的一种及以上

3.语言:

精通C/C++,Python,Shell编程语言,对数据结构和算法设计有深刻理解;
熟悉C/C++或Python等任意一种编程语言

4.paper:

在学术会议期刊发表过相关论文者优先,有算法优化经验者优先
在相关国际会议或主流期刊上发表论文者优先(ICASSP,Interspeech,ASRU)
在Interspeech,ICASSP等语音学术会议中有论文发表者优先。

4.领域:

计算机、信号处理、自动化


http://www.inf.ed.ac.uk/teaching/courses/asr/

视频:數位語音處理概論

http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/1

https://book.douban.com/review/8658211/#comments

语音识别概述

阅读数 11016

语音识别初识

阅读数 1007

语音识别

博文 来自: tangyuanjieDD
没有更多推荐了,返回首页