2017-09-08 22:00:11 qq_37572875 阅读数 16587
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6114 人正在学习 去看看 杨波

0 语音识别概述 1
1 语音识别的算法 2
1.1.1 DNN-HMM 2
1.1.2 RNN-CTC 3
1.1.4FSMN 3
1.1.5 LSTM-DNN电话交谈语音识别 3
1.1.6Android科大讯飞语音识别源码及API下载 3
2. 语音识别的应用场景 4
2.1语音识别的智能家居框架 4
2.2移动端的使用 5
2.3内容监管上的运用 6
2.3.1 语音识别技术应用之音频切分和分类技术 6
2.3.2 语音识别技术应用之音频模板匹配技术 6
2.3.3 语音识别技术应用之节目的自动发现技术 7
2.4 语音导航系统 7
2.4.1 语音导航系统构架 7
2.5 医疗领域 9
2.6 在社交方面的运用 9
3 语音识别数据集 11
4 语音识别行业分析 12
4.1 智能语音技术取得重大突破,商业化落地成为可能 12
4.2 智能车载、智能家居及可穿戴设备风潮的兴起加速语音技术落地 13
4.3科技巨头,初创公司纷纷从不同维度布局相关产业链 14
4.4 面向物联网的智能语音产业链的形成将引起商业模式的变化 16

0 语音识别概述

研究进程:
http://pan.baidu.com/s/1jHI22DS
算法演替:
https://www.leiphone.com/news/201608/4HJoePG2oQfGpoj2.html
基于深度学习的语音识别应用研究:
http://pan.baidu.com/s/1mhFG7xu
CNN在语音识别上的应用:
http://www.52cs.org/?p=1870
百度CNN语音识别:
https://www.jiqizhixin.com/articles/2016-11-04-4

1 语音识别的算法

1.1.1 DNN-HMM
这里写图片描述
DNN-HMM模型
介绍:
http://blog.csdn.net/xmdxcsj/article/details/52760080
程序:
https://github.com/wenjiegroup/DNN-HMM/tree/master/Codes_packaging

1.1.2 RNN-CTC
http://weibo.com/1402400261/Cz5lomszF?type=comment#_rnd1504833793294

1.1.4FSMN
Python代码:
https://github.com/katsugeneration/tensor-fsmn/blob/master/ptb.py

1.1.5 LSTM-DNN电话交谈语音识别
http://pan.baidu.com/s/1eRC4ZdC
LSTM介绍以及程序实现:https://zybuluo.com/hanbingtao/note/581764

1.1.6Android科大讯飞语音识别源码及API下载
https://www.google.co.in/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&uact=8&ved=0ahUKEwj38KDZj5TWAhWCv1QKHZBvB2QQFgg3MAM&url=http%3A%2F%2Fdditblog.com%2Fitshare_359.html&usg=AFQjCNG5tTtXuKWhNIxoqWUPxaJCKK1O9A

2.语音识别的应用场景

2.1语音识别的智能家居框架

本系统由软件和硬件两部分组成, 如图 2所示.软件部分又分为云端和嵌入式客户端. 云端和客户端各自集成了几个主要模块, 分别实现不同的功能
这里写图片描述

图2 系统架构模型
云端软件运行在 Linux 上, 它包含声学模型、语音模型、语料库、CMU Sphinx 工具包、Java 虚拟机. 云端主要功能是接受客户端发送的语音文件转化成文本文件返回, 应用程序模块全部使用 Java 开发, 调用
CMU Sphinx 提供的类库. 主要功能包含语音识别算法和语义转换模块, 它被部署在 Java 虚拟机上. 语音识别算法的主要过程有: 语音输入、预处理、特征提取、模型匹配、输出结果. 首先必须使用 CMU Sphinx的训练工具以特定声学模型为基础对语料库获取匹配的 MFCC 特征数据, 然后使用 MAP 和 MLLR 自适应技术来改进原来的声学模型。

2.2移动端的使用

随着移动互联网技术的不断发展,尤其是移动终端的小型化、多样化变化趋势,语音识别作为区别于键盘、触屏的人机交互手段之一,在需要解放双手的环境下、对于双手或视觉残障人士、对于无法通过触觉控制的微型设备都具有独特的优势。随着语音识别算法模型、自适应性的加强,相信在未来很长一段时间内,语音识别系统的应用将更加广泛与深入,更多丰富的移动终端语音识别产品将步入人们的日常生活。
就算对于正常人来说,例如寒冷的冬天,有无数次需要用手机却死活不想伸手。打电话,发微信,查路线,叫车,这些如果都可以用一个可穿戴设备通过语音控制实现,那该多好啊。目前出门问问团队以做出搭载 Moto 360 的智能手表操作系统Ticwear,可以实现直接语音控制滴滴打车。
早在一年前,Intel 就开发出可穿戴设备原型 Jarvis,可戴在耳朵上之后连入手机,以此实现听懂主人发出的指令、给予语音反馈的功能,充当类似 Siri 的个人语音助手角色

2.3内容监管上的运用

2.3.1 语音识别技术应用之音频切分和分类技术
音频切分和分类技术的应用范围非常广,以语音识别和关键词处理广播电视音频信息为例,首先要做的就是要打点切分音频打点切分的时候可以利用静音检测方法进行,静音检测法在定位方面确性更高,可以为之后的音频分类奠定基础。在音频打点切分完成后,将切分得到的各音频片段加以分类,使之后的音频处理有据可循。

2.3.2 语音识别技术应用之音频模板匹配技术
知道节目的片头曲或者片尾曲,则可以利用音频模板匹配技术对节目(片段)进行自动打点和分割。在压缩及信号传输的影响下,音频流与固定模板之间会产生巨大差别,而解决鲁棒性是其核心所在,通过基于多频带能量相对比率的特征提取方法,利用各时刻所对应的各个频带的能量分布趋势相对稳定这一特性,解决因为音频扭曲造成不稳定的问题。

2.3.3 语音识别技术应用之节目的自动发现技术
为了更好地进行本次研究,下面笔者将以广告识别作为样本,利用音频重复性检测获取新广告片段,具体内容概括如下:首先,因为针对的是自动发现未知新节目和广告而设计的,所以在实际过程中需要将待处理数据从已知模板中去除掉,以便能够减小计算量;其次,在进行重复候选位置的定位时,通过基于音频向量空间模型的快速音频搜索算法进行定位,但在具体过程中,因为会召回一些错误片段,所以有必要进行过滤处理;再有,利用基于音频指纹的搜索确认,用音频向量空间模型检测出来的重复片段,这样检测出的结果准确性更高,进行重复候选确认,进而检测出误报片段。
通过上述几个步骤的操作,余下的片段均是重复片段,既有广告内容的重复部分,也有新闻或者电视节目中的重复部分,然后利用图像帧变化率这一特征进行区分,将广告重复部分之外的内容去除。

2.4 语音导航系统

2.4.1 语音导航系统构架
这里写图片描述

1)客户通过手机或者固话,利用排队机接入呼叫中心系统,在 CTI 和 IVR 的控制下,当用户需要语音导航业务时,通过呼叫平台实现话务接入,平台记录下的原始语音文本,并进行播报用户确认无误后,将该文件作为语音识别引擎的输入;
2)原始的语音文件信息经过语音识别模块,分别经过特征提取、端点检测、去燥处理等语音识别预处理技术,经过处理过的较为干净的语音文件在经过离线解码、在线解码、置信度等处理,转出成自然语言文本信息,并将原始文件信息、原始语音信息、语音特征信息存入文本 / 语音语库中。
3)将自然语言文本信息经过自然语言处理,分别经过模式匹配、语法分析、语义解析、语义搜索、上下文管理、预测等技术处理,将自然语言文本信息转换成计算机能识别的语音信息作为输出物。
4)并进行业务需求的分析,为自然语言处理引擎提供关键数据输入。

2.5 医疗领域

不仅是简单的通过智能手表追踪运动情况和心率,还有直接根据人的身体状况匹配相应的服务如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外还需要考虑到更多场景,诸如紧急语音求助,医患对话存档,呼叫中心的对话听写等。
由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。国内已有的应用如病历夹与珍立拍,为医生提供一个安全存储病历资料的云空间,方便查找病例,支持语音搜索功能。

2.6 在社交方面的运用

A、熟人通讯方面,我们应该都见过这样的场景,出租车上司机们通过对讲平台互相勾兑、插科打诨。路上匆忙的低头族,很多都在回微信,而如果通过声控交互构建一个对讲平台,这个体验就完全不一样了,你不需要用眼和手也可以随时给某某捎去一段话,别人给你发来语音、声控交互会提示你是否接听,而如果这个交互可以通过耳麦自动识别微小的语音(并根据接听者情况适度放大),那么以后走在路上就可以轻松而不违和地与人通话了,这个事情的意义在于将从另一个角度接管用户的关系链,形成大网优势。
B、陌生人社交方面,当下社交产品最大的痛点就是社交质量差、低效社交多、效率远远赶不上用户预期,一个突出表现就是搭讪无人理睬、理睬也在若干小时之后(所以人们为何喜欢直播,因为美女主播至少会说谢谢反馈下),但是语音沟通是一个更加强调即时性和真实性的场景,又不像视频那么需要“化妆和端着”,所以反而可能成为新的突破口。至于当下的语音社交平台为何多数做的不好,因为太像色情声讯台了!
C、兴趣推荐。如果选择值得一听的声音节目成本如此之高,那么一个比较好的办法就是基于兴趣的推荐来降低选择难度。比如喜马拉雅已经推出了“猜你喜欢”系统,可以通过深度学习、进行类似今日头条那样的个性化推荐。那么再进一步,如果以后这个推荐可以不需要通过眼睛完成呢,直接传来一个声音:“小喜根据你的爱好搜到了几个节目,下面念下标题,你感兴趣就喊要这个……”
D、时空触发。这个意思是,应该给更多的信息赋予时空属性,比如在某一时刻放出,或者在某一位置放出。举一个例子,你今天刚到一家商场,连上wifi,耳麦里立刻提醒你有最新的优惠活动信息、要不要听。你像即刻那样设置一些关注节点,比如某股又跌了,当这个消息到来,耳麦里立刻提醒你要不要听。你到达某个景点,耳边响起景点的典故。你晚上睡不着了,耳边响起周围人的声音,像不像《her》?
E、做强参与。同为视频,直播爆火的劲头远远强于当年的视频平台和短视频,这也释放了一个信号,用户并不满足于成为单向的内容接受者,他们也希望成为内容的参与者甚至再创作者,他们也希望得到更多的互动和回馈,来满足参与感、存在感和归属感,所以类似电台的互动直播很重要。

3 语音识别数据集

一2000 HUB5 English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
二:LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。
地址:http://www.openslr.org/12/
三:VoxForge:带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。
地址:http://www.voxforge.org/
四:TIMIT:英文语音识别数据集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
五:CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
六:TED-LIUM:TED Talk 的音频数据集,包含1495个TED演讲的录音及全文的文字稿。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
七:ai_challenger_interpretation_train
地址:http://pan.baidu.com/s/1skIUjiH

4 语音识别行业分析

4.1 智能语音技术取得重大突破,商业化落地成为可能

◈智能语音技术是人工智能产业链上的关键一环
人工智能产业链主要分为三个层次。
底层是基础设施,包括芯片、模组、传感器,以及以大数据平台、云计算服务和网络运营商。这部分参与者以芯片厂商、科技巨头、运营商为主。
中间层主要是一些基础技术研究和服务提供商。包括深度学习/机器学习、计算机视觉、语音技术和自然语言处理以及机器人等领域。这一模块需要有海量的数据,强大的算法,以及高性能运算平台支撑。代表性企业主要有BAT、科大讯飞、微软、亚马逊、苹果、facebook等互联网巨头和国内一些具有较强科技实力的人工智能初创公司。
最上层是行业应用。大致分为2B和2C两个方向。2B的代表领域包括安防、金融、医疗、教育、呼叫中心等。2C的代表领域包括智能家居、可穿戴设备、无人驾驶、虚拟助理、家庭机器人等。相关代表性企业既包括互联网科技巨头,也包括一些初创厂商。
◈ 中国人工智能市场规模持续增长,智能语音将居于重要地位
◈ 智能语音技术成熟,商业化应用成为可能
深度学习、高性能运算平台和大数据是人工智能技术取得突破的核心助推力。深度学习端到端解决了特征表示与序列影射的问题,使得人工智能的性能得到了快速提升;而互联网时代海量的数据又不断为算法模型提供了训练材料,同时,云计算的兴起和高性能的运算平台为智能化提供了强大的运算能力和服务能力。
在语音识别率方面,百度、谷歌,科大讯飞等主流平台识别准确率均在96%以上,稳定的识别能力为语音技术的落地提供了可能。
◈ 商业场景落地的重要环节语音交互有了重大突破
与此同时,语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力,从远场识别,到语音分析和语义理解有了重大突破,呈现一种整体的交互方案。

4.2 智能车载、智能家居及可穿戴设备风潮的兴起加速语音技术落地

◈ 智能语音市场整体处于启动期,智能车载,智能家居,智能可穿戴等垂直领域处于爆发前夜
◈ 智能车载市场前景广阔,预计五年内车联网渗透率超过50%,语音将成为车载系统标配
◈ 智能家电渗透率提高,智能家居市场蕴涵千亿市场规模,语音作为家居交互入口将大有所为

4.3科技巨头,初创公司纷纷从不同维度布局相关产业链

◈ 国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,在既有的产品和业务中实现AI first,扩展以AI为核心的生态系统
在技术层,科技巨头多推出算法平台吸引开发者,实现产品快速迭代,打造开发者生态链,形成行业标准。例如,谷歌通过一系列并购、开放平台的建立,软件硬件一体化来打造这个生态系统。
苹果在自身生态系统中相继推出面向可穿戴、家居、车载等领域的产品。亚马逊则基于自身电商生态业务,推出智能音箱,成功敲开了智能家居的大门。
◈ 谷歌:延续既有开放模式,打造开发者生态链,推出Google Home,试图建立物联网时代安卓系统
在谷歌的AI first战略中,一方面,推出人工智能学习系统平台TensorFlow,以吸引开发者,实现产品快速迭代,打造开发者生态链,形成行业标准;另一方面,推出谷歌家庭,试图建立物联网时代安卓系统。同时,将AI技术应用于其原有的产品中,比如Google输入法、Google 翻译、Google Now等,不断提升产品性能,优化用户体验。
◈ 苹果:基于智能硬件定标准、做平台、获数据 ,重视物联网时代生态控制权
与谷歌的开放生态不同,苹果依旧延续了其既有的封闭系统,瞄准物联网时代的生态控制权。同时,以硬件擅长的苹果这次仍从布局硬件起步,打造软硬件生态系统,依靠其广泛的OS系统用户,再基于已推广的OS系统拓展至物联网产业链。
◈ 国内互联网巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链
在中国,以BAT等为代表的众多互联网巨头也纷纷开发智能语音市场。在语音生态系统方面,百度宣布语音识别技术及能力全面开放。腾讯、搜狗语音开放平台相继上线。
◈ 百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AI First
◈ 国内智能语音公司:依托原有优势,从单一智能语音技术商转型全方位人工智能技术服务商
◈ 科大讯飞:传统优势明显,未来将更注重通用人工智能技术和平台级业务的拓展
科大讯飞长期在教育领域拥有绝对优势。除教育外,政府便民工程、呼叫中心和客服也是讯飞长期深耕的领域。
近两年讯飞的重点关注的领域开始向移动互联网和物联网转移。从业务布局层面看,先后发布讯飞云平台和人工智能交互平台AIUI,利用通用的人工智能技术和平台级业务,将语音识别、自然语言处理能力授权给第三方,或者与其他公司进行合作,并且开始向垂直领域拓展。
◈ 初创厂商:以垂直领域和细分场景为突破口,重点布局家居,车载和可穿戴设备
◈ 图灵机器人:定位于语义和认知计算的平台服务提供商,提供聊天机器人平台和机器人操作系统

4.4 面向物联网的智能语音产业链的形成将引起商业模式的变化

◈ 未来趋势:以语音为入口,建立以物联网为基础的商业模式
◈ 智能家居:以合适的入口级应用为载体,基于万物互联的标准,将技术与硬件结合,实现内容和服务的拓展
◈ 智能车载:车联网向纵深方向发展,硬件基础功能免费,基于用户数据的挖掘和增值服务将成为未来主要赢利点

转载自:
《新型工业化》开放式获取期刊:www.chinaxxgyh.com
语音识别技术在内容监管中的应用 郭莉亚 田书云 国家新闻出版广电总局 282 台
语音识别自适应算法在智能家居中的应用 蒋 泰, 张林军(桂林电子科技大学 计算机与信息安全学院, 桂林 541004
作者:辩手李慕阳
链接:https://www.zhihu.com/question/20128179/answer/109598639
来源:知乎
智能家居中语音识别系统的算法研究 郭莉莉,王 迪,魏惠芳 (沈阳城市建设学院,110167

2018-10-31 16:05:06 smith24122412 阅读数 385
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6114 人正在学习 去看看 杨波

语音合成
 app实时播报
 合成特定人的声音
验证码内容语音合成
客服/外呼
各场景的语音提示:导航软件,大厅,售货机
语音早教机 语言发音学习
便携式穿戴设备,播报每日的健康指数


语音识别
各个产品语音输入
客服通话的语音转写
类似讯飞听见的会议转写
即时通讯产品语音输入和转写
语音医疗记录
电影字幕自动生成
电视机等智能家居的 调音 等命令识别操作


声纹
声纹密码:身份认证,登陆,授权,打卡
文本无关:公安身份特征存储
内容相关:语音唤醒

语种
大语种,方言的识别


命令词
语音命令词控制:语音助手,智能家居,车载,穿戴设备

语音评测
普通话评测,其他语种评测
Ktv评分系统,唱功比拼(音高,音色,音调,流畅度)

机器翻译
基于语音到语音的机器翻译

2019-07-15 16:00:00 vn9PLgZvnPs1522s82g 阅读数 346
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6114 人正在学习 去看看 杨波

640?wx_fmt=png

过去九年,从学校到工业界,李先刚一直专注在语音和声学领域。他说,一方面企业越来越重视AI的应用,随着研究的深入,在复杂场景下的语音识别性能将显著提升。


文 / 李先刚

策划 / LiveVideoStack


LiveVideoStack:李先刚你好,非常荣幸代表LiveVideoStack采访你。能否向LiveVideoStack的读者介绍下自己,以及目前关注的领域。


李先刚:我目前任职于滴滴出行AI Labs首席算法工程师,负责滴滴语音相关的技术和应用,关注的领域包括语音相关前沿算法(包括语音识别、说话人识别和自然语言处理等)和他们的产业应用(尤其是在出行场景中的应用)。


LiveVideoStack:大家对滴滴的了解可能还限于“一家出行服务公司”,作为一名工程师,你看到的滴滴是什么样的?与国内外其他科技公司相比有什么不同?


李先刚:滴滴作为移动互联网巨头,一直以来都致力于“让出行更美好”。平台连接了大量的司机和乘客,在这个过程中,怎么样通过技术手段来为用户提供更好的服务,并赋能平台上的司机,提升其服务、运营效率和收入,一直以来都是滴滴技术团队在努力的方向。


从技术层面上来看,与大多数互联网公司不同,滴滴的业务也是一个线上线下结合的公司。滴滴出行业务线下场景的复杂性,以及线下数据的丰富性,给技术带来了非常大的挑战,也给AI技术落地带来了非常大的空间。例如,当司乘有纠纷投诉的时候,行程中录音会被用于责任判定的数据;而如何利用AI技术帮助客服人员提效,便是一个极富挑战性的课题。


LiveVideoStack:我注意到你在北大读博时就在研究语音识别和声学建模,在学校做研究与在企业中做研发和产品,最大的不同是什么?


李先刚:在学校做研究和在企业中做研发,不太的地方还是蛮多的。首先是在研发驱动力方面,学校的研究更多来自于推动技术边界,而企业的研发更多来自于基于技术手段解决企业所面临的业务问题。例如,在企业,项目立项时会需要论证项目的业务价值,或许是提升用户体验,或许是提升企业的运营效率。有了立项,才有对应的研发资源去验证。其次,在学校和企业中,推动研究工作时的优势也会有所不一样,企业往往会有明显的数据和服务器优势。一方面,一般情况下,在企业中,尤其是大量的AI算法的应用中,通过增加数据规模得到性能收益往往相对确定;另外一方面,在企业中也会更加关注基于海量数据的算法性能的体现。


LiveVideoStack:过去九年,你一直专注在语音识别和声学建模领域,有没有考虑过更换方向?或者更大胆的去创业呢?


李先刚:语音相关的技术方向一致以来都是我专注的主要方向。一方面,深度学习技术已经使得语音的各个技术方向的性能都得到了显著的提升,另外一方面,企业界也越来越重视语音相关的AI应用。从而,我也一直专注在语音相关的应用场景中的技术,例如:语音识别,说话人识别,语音合成,情绪识别,口语对话处理等。


语音这些年来也引来了其应用落地的黄金期,在方方面面都在产生其价值。以滴滴为例,语音技术就至少在三个方面起到了非常大的应用:语音智能客服,车载语音交互以及遇到纠纷投诉时基于行程中录音数据更好地判责,赋能业务管控。这些应用也对语音技术提出了越来越高的要求,这也是我过去几年一直在努力推动的方向。


LiveVideoStack:您可介绍下,AI技术对于语音识别、声学建模带来了哪些变化?最新的研究趋势是怎样的?


李先刚:AI技术使得语音识别等任务的基础性能都得到显著的提升。在企业中,在一些场景下,甚至会有这样的预期,只要能够构建起数据回流的正向循环,其系统的性能就会不断地提升。这也是深度学习的强大之处,只要有足够多的数据,企业的研发人员并不用担心深度学习模型最终学到的模型性能。


而从研究角度,语音声学建模中的AI技术过去几年也一直在不断突破着,包括最初在HMM结构下研究采用不同的神经网络结构,而后开始从HMM到CTC再到Attention,深度学习技术也给语音技术架了一座桥,拉进了语音任务和图像还有NLP等任务的距离,使得研究者们能够有机会更多地借鉴相关领域的研究突破。


LiveVideoStack:语音识别、声学建模还存在哪些瓶颈或难点待突破?


李先刚:目前,得益于深度学习的强大,当数据足够充分的情况下,很多语音识别任务的性能都能达到一个还比较不错的水准。但在一些特殊场景下,依然还需要突破。例如code-switch的场景,一个典型的例子,上海地区会发现这样的情况,一段话中,上海话,普通话,英语,随时切换。例如在复杂的会场场景,尤其是面对所谓类似的鸡尾酒会场景时。随着语音技术的迭代,研究者们也逐渐将研究精力越来越多地投入到了这些更复杂的场景中。


LiveVideoStack:我在工作中使用过国内一些主流的语音转文字服务,在环境音嘈杂或远场情况下,识别的效果就大打折扣。如何改进这一状况?


李先刚:这里所提到的语音转文字服务,其实也可以从两个方面来看。首先是从企业角度,流量和需求大的应用往往能够得到更多的企业资源来打磨更好的服务。由于语音识别性能是需要依托于特定场景来谈的。可以看到,例如语音输入法,语音搜索,智能音箱,这些设备的语音识别效果都已经很不错了。这些场景都带有大量的用户需求和用户价值,各大公司也很快积累了大量的针对性的语音训练数据。而其他场景,由于其训练数据的积累相对慢,其性能也相对差。


其次,从技术角度,如果需要做好一款针对记者的转文字服务,也得考虑下该服务需要面临的挑战,会涉及到相对口语化的说话风格,以及是否需要使用特殊硬件设备实现嘈杂或远场情况下的拾音,等等。


LiveVideoStack:能否展望未来几年语音识别、声学建模的发展成果,对于滴滴用户而言,会有哪些体验提升?


李先刚:随着研究者们的努力,可以相信,未来几年,语音识别在更多复杂场景下的语音识别性能也将取得显著的提升。滴滴的语音应用,可以作为出行场景与语音技术结合的典型案例。具体地,在司乘遇到纠纷投诉时,通过语音技术实现对司乘纠纷责任识别,更好地赋能业务管控;在客服场景,通过语音交互技术实现智能辅助以及客服质检的自动化;在车载智能交互场景,通过打造针对司机运营相关的车载语音助手提升体验。随着语音技术的性能提升,可以预期,平台运营效率的提升将使得平台体验显得更规范,客服效率的提升也会使得滴滴对司乘的服务更到位,车载语音助手则会能够真正逐渐成为司机们工作时的助手。


LiveVideoStack:在获取用户(语音)数据的同时,如何保护好用户的隐私,以及保证用户数据不被滥用,您看到了哪些技术手段或规则?


李先刚:用户数据的隐私问题一直以来都是一个需要重点关注的问题。据我所看到的,大公司针对用户的数据安全都是非常重视的,其实国家相关法律也都是有明确规定的。例如在滴滴,行程中录音需要乘客授权,首先如无行程纠纷,七天后会自动删除,其次也只有在有纠纷投诉并获得用户授权的情况下,相关工作人员才会调取,内部也有严密的流程和规范。


LiveVideoStack:分享最近看的一本书或一部电影吧。


李先刚:推荐一本书《原则》



640?wx_fmt=jpeg

更多精彩内容:人物专访(行业趋势解读)、LiveVideoStackCon 大会演讲内容回顾及线上分享内容回顾(+线上分享PPT资料下载),=>>点击【阅读原文

2020-03-09 22:48:58 weixin_44532659 阅读数 91
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6114 人正在学习 去看看 杨波

语音识别技术(Automatic Speech Recognition, ASR)是计算机听觉领域中重要的研究方向之一。其目标是就是让机器把语音信号转变为相应的文本,进而达到机器自动识别和理解语音内容。语音识别作为一种基础层感知类技术,既可以作为核心技术直接应用于终端产品,也可以仅作为一种感知类辅助技术集成于语音助手、车载系统、智慧医疗、智慧法院等场景的产品中。
在这里插入图片描述—语音识别系统原理—

目前语音识别的技术成熟度已经有了较大的提升,但还无法达到100%的准确度。其主要瓶颈在于语音交互受背景噪音、语速等多重因素影响,不同场景识别率差别较大;语音识别缺乏通过上下文来纠正文字的能力;语义不全等。尽管现在顶级的语音识别系统正确率普遍超过95%,即每20个字错一个字。但是这些错字有可能是关键字错误,比如说少了一个“不”字。这类错误会导致语义产生严重变化。此外,还有如何解决方言口音和语音系统快速迁移等都是语音识别工程中需要考虑的问题。

目前现有的语音系统对于这些问题缺少很好的解决手段,解决这个问题既需要改善算法本身,也需要大量的有效的数据进行算法训练,从而使算法达到一定的成熟度。
在这里插入图片描述

朗读类语音数据

普通话
1505小时普通话手机采集语音数据
849小时普通话家居交互手机语音数据
662小时中文重口音手机采集语音数据
132小时中文重口音手机采集语音数据
1026小时中文重口音手机采集语音数据
203人噪音环境口音普通话手机采集语音数据_朗读

方言:
1044小时闽南语手机采集语音数据
1652小时粤语手机采集语音数据
1032小时上海方言手机采集语音数据
250人苏州方言手机语音采集数据
400人杭州方言手机语音采集数据
1000小时长沙方言手机采集语音数据
794小时四川方言手机采集语音数据
1000小时武汉方言手机采集语音数据
1000小时昆明方言手机采集语音数据
312人东北方言手机采集语音数据
463人河南方言手机采集语音数据
738小时维语手机采集语音数据
1000小时藏语手机采集语音数据
204人台湾普通话手机采集语音数据_朗读

英语:
201小时北美英语手机采集语音数据
215小时美式英语手机采集语音数据_朗读
800小时美式英语手机采集语音数据_交互场景
199小时英式英语手机采集语音数据_朗读
800小时英式英语手机采集语音数据
1000小时印度英语手机采集语音数据
593小时中国人说英语手机采集语音数据
500小时中国人说英语手机采集语音数据
500小时西班牙人说英语手机采集语音数据
520小时法国人说英语手机采集语音数据
535小时德国人说英语手机采集语音数据
200小时意大利人说英语手机采集语音数据
200小时葡萄牙人说英语手机采集语音数据
200小时拉丁美洲人说英语手机采集语音数据
500小时日本人说英语手机采集语音数据
500小时韩国人说英语手机采集语音数据
500小时俄罗斯人说英语手机采集语音数据
200小时巴西人说英语手机采集语音数据
500小时澳大利亚英语手机采集语音数据
500小时加拿大英语手机采集语音数据
300小时新加坡英语手机采集语音数据
200小时马来西亚英语手机采集语音数据

欧洲语系:
211小时德语手机采集数据_朗读
1800小时德语手机采集语音数据
215小时意大利语手机采集语音数据_朗读
347小时意大利语手机采集语音数据
1440小时意大利语手机采集语音数据
232小时法语手机采集语音数据_朗读
768小时法语手机采集语音数据
227小时西班牙语手机采集语音数据_朗读
338小时西班牙语手机采集语音数据
435小时西班牙西班牙语手机采集语音数据
780小时墨西哥哥伦比亚西班牙语手机采集语音
1000小时欧洲葡萄牙语手机采集语音数据
800小时俄语手机采集语音数据

亚洲语系:
241小时印地语手机采集语音数据_朗读
824小时印地语手机采集语音数据
235小时日语手机采集语音数据
265小时日语手机采集语音数据
514小时日语手机采集语音数据
197小时韩语手机采集语音数据_朗读
357小时韩语手机采集语音数据
500小时韩语手机采集语音数据
292小时泰语手机采集数据_朗读
360小时印尼语手机采集语音数据_朗读
640小时印尼语手机采集语音数据
156人马来西亚语手机采集数据_朗读
365小时马来语手机采集语音数据
500小时越南语手机采集语音数据

美洲语系:
1000小时巴西葡萄牙语手机采集语音数据

2018-07-26 23:45:49 PaddlePaddle 阅读数 108
  • C++语音识别开篇

    本篇mark老师将教大家使用第三方库的调用来简单的实现语音识别。随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放。 语音识别一个伟大的时代已在我们身边悄悄走来。

    6114 人正在学习 去看看 杨波

近年来AI技术发展速度迅猛,深入到生活中的方方面面,从手机APP到车载语音系统。今天小PP和大家一起仔细了解,AI技术中的语音技术在各场景的应用,并奉上对应模型~


语音识别技术


语音识别其实是一种感知智能,核心功能是将物理世界的信息转化成可供计算机处理的信息,为后续的认知智能提供基础

实际上,语音识别早已经应用于我们日常生活中的方方面面。现在非常多的手机APP支持语音识别,解放双手提升效率。像社交类APP微信的语音转文字、翻译APP有道词典即可通过识别语音进行外语翻译、记录类APP以及可以语音输入的输入法APP等等。


640?wx_fmt=png


除了APP中应用,目前车载也是语音技术落地的重要场景。通过语音识别,驾驶者可直接与车辆进行互动,比如要求车辆打开窗户、关闭天窗、开灯等等。智能控制车辆等技术已经开始批量进入生产,百度、科大讯飞等公司都有对应的合作车型,进行智能车机落地。


640?wx_fmt=jpeg640?wx_fmt=jpeg 


除上述应用方向,语音识别技术落地场景多种多样。语音技术也是深度学习算法工程师从业的重要方向之一,那么哪些框架里能找到语音识别模型呢?

目前主流深度学习框架都有各自的语音识别模型。比如Tensorflow有TF Speech, Pytorch通过ASR实现语音到文本端的模型,PaddlePaddle有DeepASR模型。小伙伴们可以按自己的需求选择模型并尝试。目前PaddlePaddle的语音识别模型使用的是汉语数据集,配合中文教材,小伙伴们可以快速上手训练语音识别模型~


详细链接:

https://github.com/PaddlePaddle/models/tree/develop/fluid/DeepASR

 

语音合成技术


语音合成是通过大量数据训练模型,使得机器能够模仿真人的声音进行发声,将文字输入后,机器通过模型将文字转变为声音。根据训练数据的不同,还可以生成每个人个性化的声音。

当前在手机APP、导航和音响类产品中,语音合成承担着重要作用。如果说语音识别是解放双手,那么语音合成就是“解放双眼”。

目前,地图类产品是语音合成技术的重点落地场景。驾车时,手眼都会被驾驶行为占据,唯一可以进行交互的就是语言和听力。语音合成应用于导航,不仅仅是通过“志玲姐姐语音包”给大家带来声音的享受,更重要的是,它让用户使用听觉接受信息,解放了用户驾驶中的视觉,大大降低了低头看手机引发交通危险的可能性。


640?wx_fmt=png



除此以外,目前大火的智能音箱,比如天猫精灵、小米音箱和小度在家,它们的回答声音也源自语音合成。当然,现在语音合成的声音还可以定制,比如小度音箱便借用蔡康永老师的声音与使用者对话。


640?wx_fmt=png


目前语音合成技术的效果已经非常纯熟,但是模型训练需要的数据量级,仍然过于庞大。面对这种情况,如何能够在最短时间内合成仿真程度高的声音,也将会是未来一段时间内需要攻克的技术难点。想要尝试破解难题的小伙伴们,同样需要选择深度学习框架而后训练模型,逐步努力落地这个想法。目前主流深度学习框架中,Pytorch和TensroFlow都有开源的合成模型,感兴趣的小伙伴可以尝试。


这次小伙伴们已经了解语音技术的应用和模型,后续也将呈现NLP、目标检测、人脸识别和图像方向的相关内容,欢迎大家持续关注~

 

640?wx_fmt=png

没有更多推荐了,返回首页