精华内容
下载资源
问答
  • 人工智能 语音识别技术
  • 人工智能 语音识别技术 1 2 什么是语音识别技术 ? 与机器进行语音交流让机器明白你说什么这是 人们长期以来梦寐以求的事情语音识别技术就是让 机器通过识别和理解过程把语音信号转变为相应的文 本或命令的高技术语音...
  • 人工智能语音识别技术在铁路系统应用.pdf
  • 铁路私有云应用人工智能语音识别技术研究.pdf
  • 一前沿 语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一它是一门交叉学科正逐步成为信息技术中人机接口的关键技术语音识别 技术与语音合成技术结合使人们能够甩掉键盘通过语音命令进行操作...
  • 人工智能 语音识别技术;什么是语音识别技术;两款语音机器人;语音识别的实现1;语音识别的实现2;语音识别的实现3;语音识别的实现4;语音识别的实现5;语音识别的实现6;语音识别的实现7;语音识别的实现8;12;声学模型;传统...
  • 人工智能语音识别技术

    千次阅读 2019-04-22 11:36:22
    了解关于语音识别技术的内容:人工智能智能语音交互技术与应用 (课程主要讲解人工智能 智能语音相关技术,包括语音识别、人机交互、语音合成等) 语音识别技术,也被称为自动语音识别Automatic Speech ...

    了解关于语音识别技术的内容:
    人工智能智能语音交互技术与应用

    (课程主要讲解人工智能 智能语音相关技术,包括语音识别、人机交互、语音合成等)

    语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

    简介:

    语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

    语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

    历史:

    早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。

    1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warp技术。

    语音识别技术的最重大突破是隐马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。
    尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。

    原理:

    语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。

    其工作原理:

    动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。
    从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。
    平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果。
    想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的,所以语音识别系统会结合个人身份号码识别或芯片卡。
    语音识别系统得益于廉价的硬件设备,大多数的计算机都有声卡和麦克风,也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化,所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率,因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说,系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

    更多精品课程:

    阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场

    展开全文
  • 1. 语音识别技术的重要性 各种终端设备的智能化和集成化程度越来越高,传统的信息检索和菜单操作方式已经越来越无法满足需求。迫切需要一种更加便捷的信息检索和命令方式来替代传统的按键操作。 语音识别技术的基本...

    1. 语音识别技术的重要性

    各种终端设备的智能化和集成化程度越来越高,传统的信息检索和菜单操作方式已经越来越无法满足需求。迫切需要一种更加便捷的信息检索和命令方式来替代传统的按键操作。

    语音识别技术的基本内容包括以下内容:

    • 语音识别基本单元
    • 语音识别流程
    • 语音识别技术应用

    2 语音识别基本单元

    语音识别系统组成
    语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。
    在这里插入图片描述

    语音识别研究领域分类
    在语音识别系统中,可以根据不同的方式对语音识别的研究进行分类。
    在这里插入图片描述

    3 语音识别流程

    基于HMM的语音识别过程

    • 在开始语音识别之前,通常需要把首尾段的静音切除,降低对后续步骤的干扰。这个静音切除的操作一般称为VAD。
      在这里插入图片描述

    • 分帧,也就是把声音切开成多个小段,每小段称为一帧。
      在这里插入图片描述

    • 波形变换:常用的一种方法是MFCC特征,通过12维度的向量来描述一帧的波形,12维向量是根据耳朵的生理特征提取的,这一过程称为声学特征提取。
      在这里插入图片描述

    • 矩阵变成文本

      1. 把帧识别成状态;
      2. 把状态组合成音素;
      3. 把音素组合成单词。
        在这里插入图片描述
    • 语音识别过程总结
      在这里插入图片描述

    4 语音识别最新进展

    最新进展

    • 目前,国外的应用一直以苹果的Siri,谷歌的Google Now为代表。
    • 国内国内方面,科大讯飞、云知声,百度语音等系统都采用了最新的语音识别技术,市面上其他的相关产品也直接或间接潜入了类似的技术。
      在这里插入图片描述
    展开全文
  • 对于智能机器人这类嵌入式应用而言,语音可以提供直接可靠的交互方式,语音识别技术的应用价值也就不言而喻。  1 语音识别概述  语音识别技术早可以追溯到20世纪50年代,是试图使机器能“听懂”人类语音的技术。...
  • 原标题:人工智能语音识别技术【科普】语言是人与人之间最重要的交流方式、能与机器进行自然的人机交流,是人类一直期待的事情。随着人工智能快速发展。语音识别技术作为人机交流接口的关键技术、发展迅速。在AI...

    原标题:人工智能之语音识别技术【科普】

    语言是人与人之间最重要的交流方式、能与机器进行自然的人机交流,是人类一直期待的事情。随着人工智能快速发展。语音识别技术作为人机交流接口的关键技术、发展迅速。在AI领域也是经常被提及。作为人工智能领域的从业者认识语音识别也是必须的。接下来就让我们科普科普。话不多说,直接上菜!

    语音识别概述

    语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。

    语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等,是一门涵盖多个学科领域的交叉科学技术。

    语音识别的技术原理是模式识别,其一般过程可以总结为:

    预处理---特征提取---基于语音模型库下的模式匹配---基于语言模型库下的语言处理---完成识别

    9a1e8ae923164615b432f7ad28bf89d3.jpeg

    预处理

    声音的实质是波。语音识别所使用的音频文件格式必须是未经压缩处理的文件,如人类正常的语音输入等

    语音输入所面对的环境是复杂的主要存在以下问题

    对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。

    语音信息量大,语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

    语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。

    单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。

    环境噪声和干扰对语音识别有严重影响,致使识别率低。

    所以预处理环节需要做到两个方面 静音切除、噪音处理和语音增强

    01静音切除

    又称语音边界检测或者说是端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点然后从连续的语音流中检测出有效的语音段。它包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。

    在语音应用中进行语音的端点检测是很必要的,首先很简单的一点,就是在存储或传输语音的场景下,从连续的语音流中分离出有效语音,可以降低存储或传输的数据量。其次是在有些应用场景中,使用端点检测可以简化人机交互,比如在录音的场景中,语音后端点检测可以省略结束录音的操作。有些产品已经使用循环神经网络( RNN)技术来进行语音的端点检测。

    02噪音处理:

    实际采集到的音频通常会有一定强度的背景音,这些背景音一般是背景噪音,当背景噪音强度较大时,会对语音应用的效果产生明显的影响,比如语音识别率降低,端点检测灵敏度下降等,因此在语音的前端处理中,进行噪声抑制是很有必要的。噪声抑制的一般流程:稳定背景噪音频谱特征,在某一或几个频谱处幅度非常稳定,假设开始一小段背景是背景噪音,从起始背景噪音开始进行分组、Fourier变换,对这些分组求平均得到噪声的频谱。降噪过程是将含噪语音反向补偿之后得到降噪后的语音。

    03语音增强

    主要任务就是消除环境噪声对语音的影响。目前,比较常见的语音增强方法分类很多。其中基于短时谱估计增强算法中的谱减法及其改进形式是最为常用的,这是因为它的运算量较小,容易实时实现,而且增强效果也较好。此外,人们也在尝试将人工智能、隐马尔科夫模型、神经网络和粒子滤波器等理论用于语音增强,但目前尚未取得实质性进展。

    声学特征提取

    人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号,对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息,为后续的进一步识别做准备

    本文主要介绍使用最多的MFCC声学特征。

    01MFCC简介

    MFCC是Mel-Frequency Cepstral Coefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析

    Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征

    02MFCC提取流程

    MFCC参数的提取包括以下几个步骤:

    预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。

    A/D变换:8kHz的采样频率,12bit的线性量化精度。

    预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

    分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。

    加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。

    快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。

    三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。

    求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。

    离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。

    谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。

    倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响。

    差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数和二阶差分参数。

    短时能量:语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。

    MFCC提取一般流程

    084aaae5154448f08b47e63aec54bcea.jpeg

    模式匹配 和语言处理

    1a4f56be3cb444f6bf535ebe4d38f3b5.jpeg

    通过语音特征分析以后接下来就是模式匹配和语言处理

    声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

    语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:

    小词汇量语音识别系统。通常包括几十个词的语音识别系统。

    中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。

    大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限

    制也确定了语音识别系统的困难度。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术”或者采用“基于统计模型方式的语音识别技术”。前者主要是指“动态时间规整(DTW法”,后者主要是指“隐马尔可夫(HMM)法”。

    隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

    动态时间归整)算法:在孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。

    小结:语音识别在移动终端上的应用最为火热,语音对话机器人、智能音箱、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。语音识别技术也将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。尤其是在智能家居系统中语音识别将成为人工智能在家庭重要的入口,同时,未来随着手持设备的小型化,智能穿戴化也将成为语音识别技术的重要应用领域。

    更所资讯请关注我们!一个有维度的人工智能平台!dmindAI 精彩等你来

    责任编辑:

    展开全文
  • 人工智能中远场语音识别技术的研究.pdf
  • AI语音识别和人脸识别技术在电视台媒体资产管理中的应用.pdf
  • 在其迅猛发展的背景下,也遇到了亟待解决的技术问题,主要是因为计算机还未能实现全智能化的技术控制,这为人工智能领域识别技术的创新和发展造成了一定制约。在人工智能领域发展识别技术,要想真正实现全智能化操作...
  • HarmonyOS之AI能力·语音识别技术

    万次阅读 2021-06-29 18:21:09
    语音识别技术,也称为自动语音识别(Automatic Speech Recognition, ASR),可以基于机器识别和理解,将语音信号转变为文本或命令。 语音识别支持的输入文件格式有 wav 或 pcm。 语音识别当前仅支持对普通话的识

    一、基本概念

    • 语音识别功能提供面向移动终端的语音识别能力。它基于华为智慧引擎(HUAWEI HiAI Engine)中的语音识别引擎,向开发者提供人工智能应用层 API。该技术可以将语音文件、实时语音数据流转换为汉字序列,准确率达到 90% 以上(本地识别 95%)。
    • 语音识别技术,也称为自动语音识别(Automatic Speech Recognition, ASR),可以基于机器识别和理解,将语音信号转变为文本或命令。
    • 语音识别支持的输入文件格式有 wav 或 pcm。
    • 语音识别当前仅支持对普通话的识别。
    • 语音识别输入时长不能超过 20s。
    • 语音识别采样要求:采样率 16000Hz,单声道。
    • 语音识别引擎的使用必须初始化和释放处理,且调用必须在 UI 的主线程中进行。
    • 多线程调用:HUAWEI HiAI Engine 不支持同一应用使用多线程调用同一接口,这样会使某一线程调用 release 方法后,卸载模型,导致正在运行的另一些线程出错。故多线程执行同一功能达不到并行的效果。但是引擎支持使用多线程调用不同接口,如开启两个线程同时使用文档矫正和 ASR 接口。

    二、应用场景

    • 支持开发具有语音识别需求的第三方应用,如语音输入法、语音搜索、实时字幕、游戏娱乐、社交聊天、人机交互(如驾驶模式)等场景。
    • 语音输入法:将需要输入的文字,直接用语音的方式输入。即用户说话的时候语音识别引擎返回识别的汉字序列,让输入更加便捷,解放双手。
    • 语音搜索:搜索内容直接以语音的方式输入,可以用于客服系统的关键词搜索,同时转录成文本,让搜索更加高效。
    • 实时字幕:将直播、视频、现场演讲等音频进行实时的字幕转换、降低理解成本,提升用户体验。
    • 驾驶模式:在开车过程中,手握方向盘,无法分神去操作手机来选择音乐、拨打电话。使用语音识别,只要向手机说出命令,例如:听音乐的时候说上一首/下一首进行切歌或调节音量等,即可被手机识别并执行相应操作。

    三、API 说明

    ① 主要接口
    接口功能接口原型接口描述
    实例化ASR客户端对象Optional createAsrClient(Context context)实例化一个ASR客户端对象,该对象用于调用ASR引擎能力
    初始化ASR服务void init(AsrIntent intent, AsrListener asrListener)初始化ASR服务。传入回调,用于等待ASR功能接口的调用过程和结果;以及传入初始化参数,初始化ASR引擎
    开始听取和识别语音void startListening(AsrIntent asrIntent)开始听取和识别语音。如果识别的是音频文件,则读取文件识别。
    如果识别PCM语音数据流,则结合writePcm(byte[], int)来识别。在调用此方法前,需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务
    停止识别语音void stopListening()调用此方法,已经获取到的语音会完成识别,未获取到的语音将不再识别。
    一般在默认场景下,无需调用此方法去停止识别,因为语音识别会自动地决策语音是否已经完成,然后自动地停止识别。然而,也可以调用此方法来直接在某刻手动地停止识别。
    调用此方法前,需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务。
    写入PCM数据流,进行语音识别void writePcm(byte[] bytes, int length)调用此方法,写入PCM语音数据流,并对PCM进行语音识别。
    调用此方法前,需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务。
    在调用startListening(AsrIntent)}之后,将获取的PCM数据通过此方法来下发给ASR引擎处理。
    PCM数据流长度存在限制:PCM数据流大小不能超过800KB,另外PCM数据流对应的音频长度不能超过20s。length代表有效长度,当前只支持1280或者640字节
    取消语音识别void cancel()取消语音识别,已经获取到的语音也不再识别。调用此方法前,需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务
    销毁ASR服务void destroy()取消所有ASR任务,销毁ASR引擎服务。调用此方法后,无法再使用ASR服务。如果需要重新使用ASR服务,需要重新调用createAsrClient(Context)来创建 AsrClient实例
    • AsrListener 接口说明:
    包名类名接口原型功能描述
    ohos.ai.asrAsrListenervoid onInit(PacMap params)ASR引擎初始化结束后,ASR的服务端会调用此回调接口处理初始化结果数据
    void onBeginningOfSpeech()ASR引擎检测到用户开始说话时,ASR服务端调用此回调接口
    void onRmsChanged (float rms)ASR引擎检测到音频输入的语音能量变化时,ASR服务端调用此回调接口处理语音能量
    void onEndOfSpeech()ASR引擎检测到用户说话停止时,调用此回调接口
    void onIntermediateResults(PacMap intermediateResults)ASR引擎语音识别过程中,当部分识别结果可以获取到时,调用此回调处理中间过程的识别结果
    void onError(int error)ASR语音识别过程中出现错误时,调用此回调接口
    void onResults(PacMap results)ASR引擎完成语音识别,调用此回调返回和处理完整的识别结果
    void onBufferReceived(byte[] buffer)ASR引擎每次接收到新输入的音频流时,会调用此回调接口处理接收到的语音流数据
    void onEvent(int eventType, PacMap params)ASR引擎检测到某些事件时,调用此接口上报事件给调用者
    void onEnd()ASR引擎识别结束时,调用此回调接口。但如果识别音频过程中被AsrClient类中的stopListening()或者cancel()方法打断,则不会调用此回调接口
    void onAudioStart()在音频开始时,ASR引擎服务端调用此回调接口
    void onAudioEnd()在音频结束时,ASR引擎服务端调用此回调接口
    ② 接口返回值说明
    • AsrListener 中的 onResults(PacMap results) 方法返回结果,结果封装在 json 格式中,需要解析得到。结果说明:
    返回结果结果类型结果说明
    {“result”:[{“confidence”:0,“ori_word”:"你 好 ",“pinyin”:"NI3 HAO3 ",“word”:“你好。”}]}Json识别结果
    {“confidence”:xxx}Double识别结果的置信度
    { “word”:“xxx”}String识别结果的文本内容
    • 示例结果(Json):
    	{
    	    "engine_type":"local_engine",
    	    "result":[{"confidence":0,"ori_word":"你 好 ","pinyin":"NI3 HAO3 ","word":"你好。"}],
    	    "result_type":"lvcsr",
    	    "scenario_type":5
    	}
    
    ③ 语音识别结果码说明
    • AsrError 说明:
    常量名取值错误码含义
    SUCCESS0表示在某个接口被调用成功时,在回调中会返回这个结果码
    ERROR_AUDIO3表示接口调用时,发生因音频读取导致的错误时,在回调中会返回的结果码
    ERROR_SERVER4表示接口调用时,ASR引擎服务端发生错误时,在回调中会返回的结果码
    ERROR_CLIENT5表示接口调用时,调用ASR的客户端发生错误时,在回调中会返回的结果码
    ERROR_SPEECH_TIMEOUT6表示ASR接口调用时,在设定的时间内没有语音输入时,在回调中会返回的结果码
    ERROR_NO_MATCH7表示ASR接口调用时,发生ASR的识别结果不匹配定义的json格式时,在回调中会返回的结果码
    ERROR_RECOGNIZER_BUSY8表示ASR接口调用时,ASR引擎正忙时,在回调中会返回的结果码
    ERROR_INVALID_PARAMS10表示ASR接口调用时,发生参数输入错误时,在回调中会返回的结果码
    ERROR_UNKNOWN11表示ASR接口调用时,发生未知错误时,在回调中会返回的结果码
    ERROR_GET_MODEL_PATH13表示ASR接口调用时,ASR模型路径获取失败时,在回调中会返回的结果码
    ERROR_RESULT_UNSUPPORTED15表示ASR接口调用时,设备上当前版本的ASR引擎不支持正在被调用的接口时,在回调中会返回的结果码
    ERROR_MODEL_NOT_MATCH16表示ASR接口调用时,当前设备中预置的ASR引擎应用和ASR模型不匹配时,在回调中会返回的结果码
    ERROR_INIT_FAIL23表示ASR接口调用时,发生ASR引擎初始化失败的错误时,在回调中会返回的结果码
    ERROR_NO_ASR30表示当前设备上没有ASR引擎,不支持ASR能力的调用时,在回调中会返回的结果码

    四、开发流程

    ① 在使用语音识别API时,将实现ASR的相关的类添加至工程
    	// 提供ASR引擎执行时所需要传入的参数类
    	import ohos.ai.asr.AsrIntent;
    	// 错误码的定义类
    	import ohos.ai.asr.util.AsrError;
    	// 加载语音识别Listener
    	import ohos.ai.asr.AsrListener;
    	// 提供调用ASR引擎服务接口的类
    	import ohos.ai.asr.AsrClient;
    	// ASR回调结果中的关键字封装类
    	import ohos.ai.asr.util.AsrResultKey;
    
    ② 调用 API 接口
    • 创建一个 AsrClient 对象:context 为应用上下文信息,应为 ohos.aafwk.ability.Ability 或 ohos.aafwk.ability.AbilitySlice 的实例或子类实例:
    	AsrClient asrClient = AsrClient.createAsrClient(context).orElse(null);
    
    • 设置引擎参数:如果希望识别文件,音频文件需满足约束与限制,并设置音频类型为“ASR_SRC_TYPE_FILE”;如果希望识别音频流,则设置音频类型为“ASR_SRC_TYPE_PCM”:
    	AsrIntent initIntent = new AsrIntent();
    	initIntent.setAudioSourceType(AsrIntent.AsrAudioSrcType.ASR_SRC_TYPE_PCM);
    
    • 初始化ASR服务:其中,mMyAsrListener 为实现了 AsrListener 接口的实例对象:
    	asrClient.init(initIntent, mMyAsrListener);
    
    • 开始识别:用户可以不设置参数,使用默认参数:
    	AsrIntent asrIntent = new AsrIntent();
    	// 设置后置的端点检测(VAD)时间
    	asrIntent.setVadEndWaitMs(2000);
    	// 设置前置的端点检测(VAD)时间
    	asrIntent.setVadFrontWaitMs(4800);
    	// 设置语音识别的超时时间
    	asrIntent.setTimeoutThresholdMs(20000);
    	asrClient.startListening(asrIntent);
    	// buffer需要替换为真实的音频数据
    	byte[] buffer = new byte[]{0, 1, 0, 10, 1};
    	// 对于长度大于1280的音频,需要多次调用writePcm分段传输
    	asrClient.writePcm(buffer, 1280);
    
    • 需要注意的是,startListening 或 writePcm 方法建议放在 mMyAsrListener 中 onInit() 方法内调用,保证初始化引擎成功之后再调用识别接口。如果希望识别音频文件,则不需要调用 writePcm 接口:
    	AsrIntent asrIntent = new AsrIntent();
    	// 将FilePath修改为正确的地址,且文件路径需要给com.huawei.hiai进程授予可访问权限。
    	asrIntent.setFilePath("FilePath");
    	asrClient.startListening(asrIntent);
    
    • 取消或停止识别:
    	asrClient.stopListening(); // 停止识别
    	asrClient.cancel(); // 取消识别
    
    • 释放引擎:
    	asrClient.destroy();
    
    展开全文
  • 人工智能语音识别技术(三)

    千次阅读 2020-10-16 11:48:15
    1. 语音识别系统框架 1.1 语音识别系统的基本内容 语音特征特区 声学模型 语言模型 语音识别系统的框架如图所示,首先语音信号经过特征提取转换成数字语音信号,然后结合声学模型和语言模型对数字信号进行解码,...
  • 人工智能语音识别经典.ppt
  • 人工智能语音识别发展报告 Report of ArtificialIntelligence Development 目录 1. 语音识别 3 1.1. 语音识别概念 3 1.2. 语音识别发展历史 4 1.3. 人才概况 6 1.4. 论文解读 8 1.5. 语音识别进展 173 语音识别 1....
  • 人工智能语音识别技术(四)

    千次阅读 2020-10-26 15:23:53
    它和认知科学、心理学、语音学、计算机科学、模式识别人工智能等学科有着紧密的联系。 语音信号处理的目的是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工...
  • 商业银行智能语音识别技术-笔记

    千次阅读 2018-06-19 19:44:30
    商业银行智能语音识别技术 原文链接 语音识别技术概述 基础概念 自动语音识别ASR 语音到文本STT 精准识别和翻译语音信息 1、语音识别技术发展 基于深度神经网络模型进行建模 2、语音识别的分类 ...
  • AI语音识别和人脸识别技术在电视台媒体资产管理中的应用 (1).pdf
  • 对于智能机器人这类嵌入式应用而言,语音可以提供直接可靠的交互方式,语音识别技术的应用价值也就不言而喻。  1 语音识别概述  语音识别技术最早可以追溯到20世纪50年代,是试图使机器能“听懂”人类语音的技术...
  • 语音识别与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。... 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
  • 单片机芯片实现人工智能语音识别.pdf
  • 广告关闭2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品。未来,我们一起乘风破浪,创造无限可能... (3)较长录音文件识别(4)文本转普通话语音...asr语音识别、ai语音识别技术、ai语音...
  • 人工智能语音识别训练好的模型.rar
  • 人工智能语音识别训练好的模型.zip
  • 人工智能语音识别英语口语评估路径探讨.pdf
  • 基于人工智能语音识别客服稽查应用前景.pdf
  • 四级 人工智能语音识别方向 模拟卷) (本试卷考试时间 150 分钟) 一、单选题 ( 本大题 15 道小题 ,每小题 1 分,共 15 分),从下面题目给出的A、B、C、D四个可供选择的答案中选择一个正确答案。 1.在回归模型...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 66,846
精华内容 26,738
关键字:

人工智能语音识别技术