2019-09-24 17:25:30 weixin_42193239 阅读数 467
  • 海思平台上USB WIFI的移植与局域网无线调试和视频流...

    本季课程在开发板上移植USB WIFI模块(套装附带的MT7601模块),工作在ap模式下,并且用电脑通过WIFI去连接开发板实现主机和开发板的无线网络局域网通信,这样就可以用WIFI网络取代板载ethernet有线网络方式来进行调试和局域网视频预览。现在很多的视频摄像头产品都要求支持无线网络连接功能,本季课程主要是针对这方面开发技术讲解的。 随着通信行业发展,网速越来越快,网络也从文本时代发展越过语音时代到了现在视频时代,“优酷、爱奇艺”、“微视频”、“直播”等的出现也是视频逐步成为主流媒体的证据和表现。航拍、视频监控、刷脸过关检测、汽车ADAS系统等应用也是视频在主流行业中的应用,因此视频的采集、编解码、传输、识别等技术变得越来越有价值,涌现出了“海康威视”、“大华股份”、“深圳英飞拓”等一批明星企业,名扬海内外,动辄市值几百亿。同时在芯片级,国产华为海思HI35XX系列视频编解码方案也逐步取代进口芯片(如TI、安霸)成为主流方案。 视频行业技术含量高、难度大、学习周期长、发展变化快而资料少,因此行业比较缺人、工资较高。如海康威视,普通高校硕士研究生应届进入年薪普遍高于15-20万,在嵌入式linux领域也算高工资技术方向了。 本项目是朱老师及其团队推出的一个嵌入式linux领域重量级企业级实战项目,选用华为海思HI3518E方案,结合OV9712/AR0130 Sensor实现图像采集和H.264编码压缩,并通过ethernet和WIFI,以socket实时流和RTSP等方式,实现720P/960P高清视频传输。本项目共分11季,从海思SDK开发环境搭建,到sample程序讲解、SDK中API函数解析,到H.264编解码、RTSP流媒体传输、MP4文件打包,到图像IQ调试、图像识别等视频领域高阶内容,可以说从零基础入手,对图像采集、编解码、网络传输、图像存储和识别做了全方位的详细讲解和代码分析,是目前市面上**一套系统讲解图像和视频技术的视频课程。

    700 人正在学习 去看看 朱有鹏

 

最近想做一个智能硬件(实现单片机使用W600连接上位机或直接实现语音识别)

查看了华为云的语音交互服务SIS,有两种:录音文件识别以及一句话语音识别

名称 功能
录音文件识别

可以实现5小时以内的音频到文字的转换。支持垂直领域定制,对应领域转换效果更佳。

一句话识别 可以实现语音到文字的转换。支持垂直领域定制,对应领域转换效果更佳。

 

在看了这两种模式后,选择了一句话识别,方便在下位机方面进行开发(前些时间已经实现STM32对语音文件实现8K采样率16bit的PCM格式WAV文件生成)

跳转到一句话识别的API介绍(https://support.huaweicloud.com/api-sis/api-sis.pdf),发现使用时需要先获取该用户的token(呃 通过拨打华为云的客服电话解决了这个问题)

获取用户Token采用POST方式,地址格式为: 

 

 针对不同的服务端点选择Endpoint,后缀是相同的/v3/auth/tokens

此时使用华为云推荐的软件(Postman)来实现这个过程

使用这个地址, 进行提交

          此时会反馈你的Token(只能使用24小时),如果打算长期使用请选择SDK (https://support.huaweicloud.com/sdkreference-sis/sis_05_0004.html),目前只有JAVA格式的,本文主要介绍API方式

得到Token就可以进行语音识别啦!!这里还是使用POST的方式,此时地址会发送改变,一句话语音识别的两个服务端点为:

区域名称 终端节点(Endpoint)
华北-北京一 sis-ext.cnnorth-1.myhuaweicloud.com
华北-北京四 sis-ext.cnnorth-4.myhuaweicloud.com

 

因为我的是华北-北京四,这里选择sis-ext.cnnorth-4.myhuaweicloud.com,继续查看该API手册,发现对于提交语音数据的包格式定义如下:

此时POST地址为: https://sis-ext.cn-north-4.myhuaweicloud.com/v1/{projectid}/asr/short-audio

获取Projectid的方式:将光标放在用户名下面选择我的凭证:

得到projectid后开始发包:

 

我采用的是WAV自识别模式,使用的WAV文件为AU生成的录音文件,利用BASE64编码转换后进行发送:

 

 data数据为转码后的base64格式,因为太长就不放上来了。此时点击SEND

测试成功,本篇结束。 

2019-12-07 21:29:45 qq_43157190 阅读数 173
  • 海思平台上USB WIFI的移植与局域网无线调试和视频流...

    本季课程在开发板上移植USB WIFI模块(套装附带的MT7601模块),工作在ap模式下,并且用电脑通过WIFI去连接开发板实现主机和开发板的无线网络局域网通信,这样就可以用WIFI网络取代板载ethernet有线网络方式来进行调试和局域网视频预览。现在很多的视频摄像头产品都要求支持无线网络连接功能,本季课程主要是针对这方面开发技术讲解的。 随着通信行业发展,网速越来越快,网络也从文本时代发展越过语音时代到了现在视频时代,“优酷、爱奇艺”、“微视频”、“直播”等的出现也是视频逐步成为主流媒体的证据和表现。航拍、视频监控、刷脸过关检测、汽车ADAS系统等应用也是视频在主流行业中的应用,因此视频的采集、编解码、传输、识别等技术变得越来越有价值,涌现出了“海康威视”、“大华股份”、“深圳英飞拓”等一批明星企业,名扬海内外,动辄市值几百亿。同时在芯片级,国产华为海思HI35XX系列视频编解码方案也逐步取代进口芯片(如TI、安霸)成为主流方案。 视频行业技术含量高、难度大、学习周期长、发展变化快而资料少,因此行业比较缺人、工资较高。如海康威视,普通高校硕士研究生应届进入年薪普遍高于15-20万,在嵌入式linux领域也算高工资技术方向了。 本项目是朱老师及其团队推出的一个嵌入式linux领域重量级企业级实战项目,选用华为海思HI3518E方案,结合OV9712/AR0130 Sensor实现图像采集和H.264编码压缩,并通过ethernet和WIFI,以socket实时流和RTSP等方式,实现720P/960P高清视频传输。本项目共分11季,从海思SDK开发环境搭建,到sample程序讲解、SDK中API函数解析,到H.264编解码、RTSP流媒体传输、MP4文件打包,到图像IQ调试、图像识别等视频领域高阶内容,可以说从零基础入手,对图像采集、编解码、网络传输、图像存储和识别做了全方位的详细讲解和代码分析,是目前市面上**一套系统讲解图像和视频技术的视频课程。

    700 人正在学习 去看看 朱有鹏

本文介绍了如何使用matlab调用百度语音识别的API接口,实现语音识别。

  • 首先进入百度云的官网注册登录百度云官网
  • 登陆之后进入管理控制台,如下图所示
    在这里插入图片描述
  • 接着创建一个语音识别的应用,就选默认的就好了
    在这里插入图片描述

官方技术文档可以参考

  • 接着我们来看使用方法,整个流程和我们之前的人脸识别大致相同,在调用api之前我们需要获得acess_token,这个可以通过我们的api key和secret key获得,这个可以在应用管理里面看到,如下图:
    在这里插入图片描述
    在这里插入图片描述
  • 用代码总结起来就是
api_key = '你的 api key';
secret_key = '你的secret key';
url_token = ['https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=',api_key,'&client_secret=',secret_key];
token = webread(url_token);
token = token.access_token; % 至此,获得了token

效果如下,但是要注意token的有效期是1个月,就是这个token在一个月内是不会变的,这段时间不用重复请求,直接用就好在这里插入图片描述


  • 接下来处理音频,准备上传
    • 注意音频我这里以 .wav文件为例,官方支持pcm 或者 wav 或者 amr,但是采样率必须为16000,单声道。同时要将音频转换成字符串,进行一个编码,这里需要用到一个常用的,但是matlab自身没有的函数base64file,可以在matlab官方下载,我这里直接贴出来。
    • 这个函数真的非常有用,很多地方需要用到这种编码。
function [base64string,base64string_len] = base64file(file)
fid = fopen(file,'rb');
bytes = fread(fid);
fclose(fid);
base64string_len = size(bytes,1);
encoder = org.apache.commons.codec.binary.Base64;
base64string = char(encoder.encode(bytes))';
end
  • 我们再来看官方给出的请求参数
    在这里插入图片描述
    speech和len是音频编码之后得到的数据,rate和channel有指定值而且不可省略dev_pid这个是调用的接口函数,一般取默认值就好,按需求更改。
    在这里插入图片描述

  • 要点都说完了,下面看代码就很好理解了
[base64string,base64string_len] = base64file(path);
data = struct('format','wav','token',token,'len',base64string_len,...
    'speech',base64string,'cuid','Sirius','rate',16000,'channel',1);
result = webwrite(url,data);
result = result.result{:};

在这里插入图片描述


  • 最后以一个完整的例子为例,直接运行对着麦克风说话即可
a = audiorecorder(16000,16,1);
record(a);
pause(5);
stop(a);
a = getaudiodata(a);
audiowrite('test.wav',a,16000);
txt = Totext('test.wav');
delete('test.wav');

function result = Totext(path)
api_key = '你的';
secret_key = '你的';
url_token = ['https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=',api_key,'&client_secret=',secret_key];
token = webread(url_token);
token = token.access_token % 至此,获得了token
url = 'http://vop.baidu.com/server_api';
[base64string,base64string_len] = base64file(path);
data = struct('format','wav','token',token,'len',base64string_len,...
    'speech',base64string,'cuid','Sirius','rate',16000,'channel',1);
result = webwrite(url,data);
result = result.result{:};
end

function [base64string,base64string_len] = base64file(file)
fid = fopen(file,'rb');
bytes = fread(fid);
fclose(fid);
base64string_len = size(bytes,1);
encoder = org.apache.commons.codec.binary.Base64;
base64string = char(encoder.encode(bytes))';
end

下面是相关的文章,有兴趣可以看看,有关我如何提取曲线数据和其他API的使用
链接: 百度云人脸识别.
链接: 有道翻译
链接: 百度地图经纬度.
链接: 百度云文字识别
链接: MATLAB 发送邮件 sendmail的使用.
链接: MATLAB 曲线数据提取工具 GUI
嘿嘿,如果觉得有用,请点赞支持,谢谢

2017-07-28 18:12:07 qq_35037977 阅读数 8295
  • 海思平台上USB WIFI的移植与局域网无线调试和视频流...

    本季课程在开发板上移植USB WIFI模块(套装附带的MT7601模块),工作在ap模式下,并且用电脑通过WIFI去连接开发板实现主机和开发板的无线网络局域网通信,这样就可以用WIFI网络取代板载ethernet有线网络方式来进行调试和局域网视频预览。现在很多的视频摄像头产品都要求支持无线网络连接功能,本季课程主要是针对这方面开发技术讲解的。 随着通信行业发展,网速越来越快,网络也从文本时代发展越过语音时代到了现在视频时代,“优酷、爱奇艺”、“微视频”、“直播”等的出现也是视频逐步成为主流媒体的证据和表现。航拍、视频监控、刷脸过关检测、汽车ADAS系统等应用也是视频在主流行业中的应用,因此视频的采集、编解码、传输、识别等技术变得越来越有价值,涌现出了“海康威视”、“大华股份”、“深圳英飞拓”等一批明星企业,名扬海内外,动辄市值几百亿。同时在芯片级,国产华为海思HI35XX系列视频编解码方案也逐步取代进口芯片(如TI、安霸)成为主流方案。 视频行业技术含量高、难度大、学习周期长、发展变化快而资料少,因此行业比较缺人、工资较高。如海康威视,普通高校硕士研究生应届进入年薪普遍高于15-20万,在嵌入式linux领域也算高工资技术方向了。 本项目是朱老师及其团队推出的一个嵌入式linux领域重量级企业级实战项目,选用华为海思HI3518E方案,结合OV9712/AR0130 Sensor实现图像采集和H.264编码压缩,并通过ethernet和WIFI,以socket实时流和RTSP等方式,实现720P/960P高清视频传输。本项目共分11季,从海思SDK开发环境搭建,到sample程序讲解、SDK中API函数解析,到H.264编解码、RTSP流媒体传输、MP4文件打包,到图像IQ调试、图像识别等视频领域高阶内容,可以说从零基础入手,对图像采集、编解码、网络传输、图像存储和识别做了全方位的详细讲解和代码分析,是目前市面上**一套系统讲解图像和视频技术的视频课程。

    700 人正在学习 去看看 朱有鹏

详细百度语音识别api文档

先下载python用SDK,可以用python setup.py install安装

# 引入Speech SDK
from aip import AipSpeech

# 定义常量
APP_ID = '你的 App ID'
API_KEY = '你的 API Key'
SECRET_KEY = '你的 Secret Key'

# 初始化AipSpeech对象
aipSpeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

在上面代码中,常量APP_ID在百度云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。

开始识别

注意:
请求说明:
1. 原始语音的录音格式目前只支持评测 8k/16k 采样率 16bit 位深的单声道语音
2. 压缩格式支持:pcm(不压缩)、wav、amr
3. 系统支持语言种类:中文(zh)、粤语(ct)、英文(en)。

# 读取文件
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 识别本地文件
aipSpeech.asr(get_file_content('audio.pcm'), 'pcm', 16000, {
    'lan': 'zh',
})

# 从URL获取文件识别
aipSpeech.asr('', 'pcm', 16000, {
    'url': 'http://121.40.195.233/res/16k_test.pcm',
    'callback': 'http://xxx.com/receive',
})

返回结果:

// 成功返回
{
    "err_no": 0,
    "err_msg": "success.",
    "corpus_no": "15984125203285346378",
    "sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",
    "result": ["北京天气"]
}

// 失败返回
{
    "err_no": 2000,
    "err_msg": "data empty.",
    "sn": null
}
2016-01-13 17:32:18 maoqingyu 阅读数 1792
  • 海思平台上USB WIFI的移植与局域网无线调试和视频流...

    本季课程在开发板上移植USB WIFI模块(套装附带的MT7601模块),工作在ap模式下,并且用电脑通过WIFI去连接开发板实现主机和开发板的无线网络局域网通信,这样就可以用WIFI网络取代板载ethernet有线网络方式来进行调试和局域网视频预览。现在很多的视频摄像头产品都要求支持无线网络连接功能,本季课程主要是针对这方面开发技术讲解的。 随着通信行业发展,网速越来越快,网络也从文本时代发展越过语音时代到了现在视频时代,“优酷、爱奇艺”、“微视频”、“直播”等的出现也是视频逐步成为主流媒体的证据和表现。航拍、视频监控、刷脸过关检测、汽车ADAS系统等应用也是视频在主流行业中的应用,因此视频的采集、编解码、传输、识别等技术变得越来越有价值,涌现出了“海康威视”、“大华股份”、“深圳英飞拓”等一批明星企业,名扬海内外,动辄市值几百亿。同时在芯片级,国产华为海思HI35XX系列视频编解码方案也逐步取代进口芯片(如TI、安霸)成为主流方案。 视频行业技术含量高、难度大、学习周期长、发展变化快而资料少,因此行业比较缺人、工资较高。如海康威视,普通高校硕士研究生应届进入年薪普遍高于15-20万,在嵌入式linux领域也算高工资技术方向了。 本项目是朱老师及其团队推出的一个嵌入式linux领域重量级企业级实战项目,选用华为海思HI3518E方案,结合OV9712/AR0130 Sensor实现图像采集和H.264编码压缩,并通过ethernet和WIFI,以socket实时流和RTSP等方式,实现720P/960P高清视频传输。本项目共分11季,从海思SDK开发环境搭建,到sample程序讲解、SDK中API函数解析,到H.264编解码、RTSP流媒体传输、MP4文件打包,到图像IQ调试、图像识别等视频领域高阶内容,可以说从零基础入手,对图像采集、编解码、网络传输、图像存储和识别做了全方位的详细讲解和代码分析,是目前市面上**一套系统讲解图像和视频技术的视频课程。

    700 人正在学习 去看看 朱有鹏

语音识别api主要功能是将声音转换为文字显示;声音文件大小不超过1M,长度不超过10min;支持声音文件采样率16000或者8000,采样精度16bit;单声的pcm或者wav格式的音频。

接口名称:语音识别api

接口地址:聚合数据

口地址:http://japi.juhe.cn/voice_words/getWords

支持格式:json

请求方式:post

请求示例:http://japi.juhe.cn/voice_words/getWords

请求参数说明:

名称

类型

必填

说明

key

String

APP Key

file

File

上传的音频文件(采样率16k或者8k(rate),采样精度16bit(bit),单声道的pcm或者wav格式的音频)

rate

String

采样率(16000或者8000)

pname

String

包名

device_id

String

标记请求来源的标识,如用户所设备序列号 (SN)IMEIMAC地址等

返回参数说明:

名称

类型

说明

JSON返回示例

-

-

语音识别api调用JSON返回示例:

{
    "reason": "success!!",
    "error_code": 0,
    "result": "云知声专注于智能语音识别及语言处理技术,拥有完全自主知识产权的世界顶尖的智能语音识别技术。"/*识别结果*/
}


Python 实时语音识别

阅读数 1583

没有更多推荐了,返回首页