精华内容
下载资源
问答
  • 腾讯游戏多媒体解决方案

    千次阅读 2018-07-10 13:27:05
    欢迎大家前往腾讯+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算小编 发表于云+社区专栏 《QQ 炫舞手游》是腾讯游戏推出的音舞类游戏。据App Annie 数据显示, 发布以来《QQ 炫舞手游》一直保持...

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~

    本文由云计算小编 发表于云+社区专栏

    《QQ 炫舞手游》是腾讯游戏推出的音舞类游戏。据App Annie 数据显示, 自发布以来《QQ 炫舞手游》一直保持音舞类游戏排名第1,深受广大玩家欢迎。《QQ 炫舞手游》的一大特色玩法就是游戏内的K 歌功能, 玩家可以通过休闲大厅创建K 歌房, 选择伴奏进行K 歌。游戏多媒体引擎GME 的高音质、低延时及强网络抗性,为《QQ 炫舞手游》的音乐听感和K 歌效果提供了良好的支持。 GME 可以保证玩家在房间内播放背景音乐的同时, 实时语音沟通依然清晰流畅;当有玩家在房间内实时K 歌时, 听众听到的K歌效果也能保持极高的音质和极低的延时, 提供了良好的线上K 歌体验。那么,《QQ 炫舞手游》背后的音视频到底是什么呢?今天这篇文章将揭开音视频的神秘面纱。

    腾讯音视频实验室

    说到音频,就不得不说腾讯音视频实验室了,腾讯音视频实验室,成立于2010年,八年间专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化、音视频编解码前沿算法研究、计算机视觉图像处理、基于AI的音频语音增强、声音美化及音视频质量评测等。在服务于腾讯社交体系下的海量用户同时,在实时音视频通信、图像处理和音视频处理等技术领域积累了十几年的研究经验,拥有行业领先的技术水平。目前已为行业数百个产品提供了音视频技术支持与服务,如QQ电话、腾讯云、企业微信、QQ空间、全民K歌、快手、斗鱼、虎牙、蘑菇街等。

    img

    游戏实时语音解决方案 GME

    游戏多媒体引擎(Game Multimedia Engine,简称:GME)是一个专门针对游戏场景定制的游戏多媒体引擎 SDK,支持休闲社交类、竞技游戏类(包括 MMORPG、MOBA、FPS 等类型)、大型国战等多种游戏类型,提供了包括多人实时语音、实时视频、语音消息、语音转文本等功能。

    img

    功能介绍

    实时语音

    麦序模式

    用户轮流语音上麦,音质高流畅性好,适用于语音狼人杀等场景。

    自由通话模式

    支持多人同时讲话,超低延迟,适用于多人组队开黑等竞技游戏场景。

    指挥模式

    针对一对多指挥作战、主播语音陪玩等场景,适合大型国战类游戏。

    语音消息和语音识别

    支持录制语音消息发送到游戏各频道并实时转换为文本消息这功能,音质清晰,语音识别准确率高。

    产品优势

    我们的优势 为什么选择腾讯云游戏多媒体引擎
    游戏场景定制 针对游戏场景对音视频编解码器进行深度优化,使其在码率、延时、系统资源消耗等关键技术指标达到业界领先
    顶级基础设施 自建万兆云机房,配备 20 线 BGP 顶级网络,800+ 节点让玩家畅享稳定而极速的体验
    专业网络接入 复用 QQ 接入部署和调度策略,有效解决弱网络环境下的连通问题,连通率高达 99.995%
    超强服务承载 承载 QQ 服务支撑能力,支持亿级用户在线,亿级群数规模;实时监控,异地容灾,智能调度,保证服务安全可靠
    超低接入门槛 通用游戏框架全覆盖,四行代码极速接入
    功能完善全面 提供游戏场景常用功能:多人语音、实时视频、语音消息、语音转文本等多种功能

    GME 超低接入门槛

    为方便开发者接入腾讯云游戏多媒体引擎产品,这里向您介绍适用于游戏多媒体引擎 SDK 的接入指引。

    使用 GME 有以下五个步骤:

    1. 在腾讯云后台新建 GME 服务;
    2. 下载对应版本的客户端 SDK;
    3. 参照接入 API 文档, 将 SDK 移植到工程;
    4. 查看日常运营后台统计;
    5. 接入过程中特殊问题自主排除与反馈;

    接入 SDK

    接入 SDK 需要使用腾讯云提供的 appid 及相关权限密钥。即应用管理列表中的 AppID 及 应用设置中的鉴权信息模块。

    • 接入实时语音时候会使用鉴权信息模块中的权限密钥。
    • 接入离线语音时候会使用鉴权信息模块中的下载的公私钥。

    更多平台相关配置请参考各平台工程配置文档。

    img

    GME 应用场景

    电子竞技

    在电子竞技类游戏中,争斗局势瞬息万变,相同阵营的玩家之间,需要根据战局实时沟通对敌策略。通过腾讯云实现的超低时延、流畅优先的实时游戏语音自由对讲,可以帮助玩家间更好的进行沟通,体会对战游戏的乐趣。

    国战游戏

    国战游戏中的典型代表为 MMORPG,此类游戏中涉及团队副本、组队、帮派、国战指挥等多种玩法,对语音的时延要求也较高,腾讯云游戏多媒体引擎针对此类场景,实现实时自动上下麦及超低时延语音通话,高度适配超多人在线的国战类游戏玩家语音通话需求。

    img

    休闲游戏

    在棋牌、K 歌、音乐等休闲类的游戏中,语音消息与语音对讲也是必不可少的需求,同时,部分休闲类游戏中,会有美女主播为玩家播放歌曲,或者通过歌曲伴奏进行 K 歌游戏。腾讯云提供的实时音视频能力保证了好友之间实时聊天沟通,同时提供包括耳返、变声的趣味化能力,保证最佳的休闲游戏体验。

    狼人杀

    目前,桌游类游戏狼人杀已经从传统的饭局延伸到了互联网,在狼人杀游戏中,玩家在开始前热场寒暄,在进行中按顺序发言,在结束后,盘点和回顾,这些环节,都离不开实时语音乃至视频的交互。腾讯云游戏多媒体引擎产品提供画面清晰度与音质优先的实时音视频服务,针对狼人杀场景特别定制,满足玩家所有音视频交互需求。

    img

    基于语音的游戏内创新娱乐玩法

    GME 支持基于位置的3D实时语音

    2017年一款游戏《绝地求生:大逃杀》,通过创新的百人大逃杀、胜者吃鸡玩法,短时间获得了全球玩家的青睐和追捧。除了游戏玩法本身的创意之外,游戏对于实时语音玩法也进行了颠覆式创新。游戏过程中玩家可以设置【全体模式】向附近的玩家喊话、挑衅、搭讪,这种语音模式可以与陌生人进行很有趣的沟通和互动。社交媒体上已经有很多用户基于这种语音模式,创作了很多趣味视频。

    而引入3D位置语音之后,玩家在喊话过程中会暴露自己的方位和位置信息,玩家的声音也会根据位置变化而实时改变。可以说,3D音效让《大逃杀》这种玩家间的沟通和战斗体验更真实,感受更加沉浸式、更加身临其境的吃鸡玩法。

    我们的3D音效技术,就是利用“头部关联传输函数”(HRTF 算法),对双耳之间的时间差异和频谱差异进行建模,形成有声源方位感的声音。同时我们还通过采样混响填补HRIR缺失的环境反射声,从而构建完整的声场模型。比如在一个小房间里,不仅可以听到两个人之间的对话,还可以听到声音从墙壁中反射的效果,增加沉浸感。

    img

    GME 支持游戏内K歌体验,提供变声趣味玩法

    《QQ炫舞》手游由端游原班人马打造,产品的核心体验与端游版本一致。此外,《QQ炫舞》手游还推出了弹珠模式、游戏内实时K歌房等多种独创玩法。然而在创新的同时也带来了一些音频技术上的难题:比如K歌时人声、伴奏与歌词的对齐,K歌场景下多人同时语音时,如何做到声音清晰且避免回音等。

    游戏语音多应用在实时语音、多人会话、发送语音消息等场景,而《QQ炫舞》手游的实时K歌玩法在音频处理上的复杂度上远远超出了正常范畴。正常情况下,玩家在K歌过程中,是听到伴奏之后再演唱,声音由麦克风收录后再输出。但由于游戏场景中系统采集播放模块存在延时,尤其是Android系统机型多、采集播放延时大等因素的影响,如果仅按照正常模式来进行合成,会出现明显的人声、伴奏和歌词不对齐的情况。一旦出现这种情况,再美妙的天籁歌声也会变成“车祸现场”,给玩家带来非常糟糕的游戏体验。

    这些技术难题对于《QQ炫舞》手游来说,无疑是一项重量级挑战。腾讯音视频实验室提供的游戏多媒体引擎GME(Game Multimedia Engine)作为游戏内K歌玩法和多人实时语音的解决方案,使得《QQ炫舞》手游呈现出的效果超乎预期:

    img

    凭借语音效果好、接入门槛低的方案特点,GME覆盖了休闲社交类、MOBA类、MMORPG等多种游戏类型,提供实时语音、语音消息、语音转文本等功能。如今,通过针对游戏类型、游戏场景的深度优化,GME积累了深厚的技术底蕴,同时通过覆盖超过400+游戏产品的技术支持,不断积累技术经验,为玩家打造畅爽的游戏语音体验,展示了领先业内的技术实力。

    游戏多媒体引擎 GME产品概述:https://cloud.tencent.com/document/product/607/10835

    游戏多媒体引擎 GME接入指引:https://cloud.tencent.com/document/product/607/10782

    游戏多媒体引擎 GME SDK文档:https://cloud.tencent.com/document/product/607/15232

    问答

    腾讯云服务器?

    相关阅读

    游戏人工智能 读书笔记(十一)游戏内容生成

    游戏人工智能 读书笔记(八)游戏与强化学习

    游戏人工智能 读书笔记 (七) 游戏与监督学习

    此文已由作者授权腾讯云+社区发布,原文链接:https://cloud.tencent.com/developer/article/1157948?fromSource=waitui

    欢迎大家前往腾讯云+社区或关注云加社区微信公众号(QcloudCommunity),第一时间获取更多海量技术实践干货哦~

    海量技术实践经验,尽在云加社区! https://cloud.tencent.com/developer?fromSource=waitui

    展开全文
  • 多媒体AI(MultiMedia AI)是一款基于文本分析、图像理解...同时底层数据库提供海量的物体和人物库,支持上万级的基础标签识别和灵活的注册能力,轻松应对业务多变性。多媒体AI产品实例(以下简称 媒体AI实例)是对应...

    多媒体AI(MultiMedia AI)是一款基于文本分析、图像理解、语音识别的视频AI通用技术平台产品,利用多模态的视频理解能力提取视频中包含的结构化信息,生成符合大众审美的精彩集锦,适用于电商、传媒、泛娱乐等场景下的视频的检索和推荐;同时底层数据库提供海量的物体和人物库,支持上万级的基础标签识别和灵活的自注册能力,轻松应对业务多变性。

    多媒体AI产品实例(以下简称 媒体AI实例)是对应AI服务以及一个能匹配推荐性能的环境,包含 CPU、内存等最基础的计算组件,是媒体AI支撑给每个用户提供服务的实际操作实体。媒体AI实例是以提供的能力服务为核心,以云服务器为基础的概念。其他的资源,比如磁盘、IP、镜像、快照等,只有与计算资源(ECS等服务资源)结合后才能使用。

    多媒体AI由底层算法服务层、中间逻辑神经层和上层应用处理层组成。

    底层算法服务层:整合封装人脸识别、语音识别、通用标签、视频分类、logo识别(台标)等多项视觉理解算法,同时进行服务化集成,形成统一分析服务层,用于对输入内容进行结构化分析。

    中间逻辑神经层:通过上层输入的素材(clib、shot、sequence等)进行解析,同时将解析后的素材,调度转发对应底层算法服务,获取输出结果,同时将多个分析结果进行merge整合、交叉验证,完成后将merge后的结果数据向上输出。

    上层应用处理层:作为外部视频素材的统一输入通道,以API方式提供视频上传服务,同时约定上传格式以及大小等输入条件,提供视频分解服务,将上传的视频进行合理分解,供后端逻辑层进行调度分析。此外,上层应用层还提供了人脸库创建等工具型接口的透传,供用户实现应用配置。

    基本概念

    应用:一个进行任务分析的算法分析事务,其中包含关联调用的算法服务、算法指标参数、配置模板、人脸库等应用数据,用户可以设置不同的人脸数据、置信度阈值和调用算法清单。其中最大的并发视频路数为5路。应用创建后可以变更和删除。

    人脸库:在一个用户下创建的业务数据单元,一个用户可以创建多个数据库,人脸库在实例内的命名唯一,人脸总数10w张。

    任务:视频分析的最小单元,对视频状态、视频分析结果进行说明。

    限制说明

    并发5路:指用户能够提交同时进行分析的最大视频文件数量,超过此数量则提交的视频分析任务默认进入队列等待。

    视频分析时长:指视频提交完成后,开始分析时计算,结束时间以任务分析完成时的回执通知消息时间为准。

    倍速:单个处理倍速=视频实际时长/最差任务运行时长(不算入下载时长)。

    产品流程示意图

    37898e3244549d62e0c13a87517712c3.png

    产品功能

    多媒体AI由视频内容结构化、视频静态封面、视频动态GIF封面三大能力组成。

    视频内容结构化:通过对视频,文本,图像等内容的理解对多媒体进行分类,以及关键信息提取,可广泛应用于多媒体内容管理,搜索和推荐。

    视频静态封面:通过理解视频主题含义,结合清晰度,丰富度,对比度,精彩度以及与主题的契合程度5个方面分析,输出符合大众审美的视频封面图,适用于电商,泛娱乐中短视频场景下的视频流量推荐。

    视频动态GIF封面:通过理解视频主题含义、结合时序、故事情节、清晰度三方面分析结果,输出能够代表视频大意的GIF图片,适用于泛娱乐场景下直播精彩画面生产,提升直播内容的点击率和用户停留时长。

    模板管理:通过模板配置,实现不同行业不同业务场景的定向适配,目前主要用于视频内容分析服务中,涉及分析类型主要涵盖了人物识别,视频分类,自定义人物库,以及语音文本关键词库等功能。

    产品优势

    与拥有独立图像算法服务的其他产品相比,多媒体AI的优势包括:

    多模态:利用多模态技术进行视频内容理解,有效提升标签精准度和素材丰富度,同时产生多项丰富的中间态结果,供多业务场景选择。

    多场景:应用于传媒、电商、广告行业下的搜索、推荐、植入等多场景的内容识别。

    丰富的标签体系:横向拥有万级的基础标签内容支撑业务广度;纵向拥有多级分类支撑业务深度。

    高效框架:支持多线程多并发的视频处理,显著提升视频处理效率。

    数据安全性:使用非对称加密策略,对单个客户在云上存储的业务数据进行加密,同时结合用户权限限制数据访问。

    易用性:简洁的接口输入参数,简单的接口调用方式;支持自定义人脸、自定义模板等灵活配置,同时支持批量上传等功能,便于云上业务方使用。

    灵活性:引入模板管理功能,可通过模板参数配置实现不同行业的定向适配,使得产品的应用场景更加灵活。

    API 接口:使用多媒体AI云上API,通过APPID进行应用访问设置,通过APPID关联至应用服务,使开发使用更加方便。

    展开全文
  • 原标题:打造上自动生产线,七牛云智能多媒体平台 上线大量并发处理的需求如何搞定?多步骤的计算处理需求如何满足?上传到存储空间的文件,怎样自动触发处理?如何实现更高级的自定义处理需求?有了支持「工作流...

    原标题:打造云上自动生产线,七牛云智能多媒体平台 上线

    大量并发处理的需求如何搞定?

    多步骤的计算处理需求如何满足?

    上传到存储空间的文件,怎样自动触发处理?

    如何实现更高级的自定义处理需求?

    有了支持「工作流」的七牛云智能多媒体平台 ,以上问题全部迎刃而解!七牛云智能多媒体平台 作为弹性、易用、低成本、灵活支持处理逻辑的多媒体处理系统,仅需通过控制台的几个简单步骤,就能将计算处理服务和逻辑条件进行灵活配置,按需搭建云端多媒体文件处理任务,有效提升处理效率。

    同时,全新发布的七牛云智能多媒体平台 借助云计算服务的弹性伸缩特性,可以按需提供处理能力,从而最大限度的满足业务处理需求、避免资源浪费。而工作流更是提供了多种推荐配置方案,降低了使用难度。

    更好的多媒体处理服务体验,就在七牛云智能多媒体平台 。

    整体流程

    在七牛云智能多媒体平台 的使用流程中,不论是任务处理还是配置工作流,都简明方便。

    2512b133ff8d73765ea1c454e8192b47.png

    任务处理对象的输入有两种方式:可以选择「指定文件」和「自动触发」。指定文件即自主选择文件,发起任务处理请求。自动触发可创建任务触发器(如上传到指定 Bucket 的文件),会自动触发工作流,并发起任务处理请求。

    处理成功后会将处理结果文件上传到指定的 Bucket,在控制台的任务列表中即可查询进度和结果,还可以通过配置回调 url ,及时得知任务处理结果。

    什么是工作流?

    在七牛云智能多媒体平台 中,全面升级了「工作流」能力。通过工作流,用户可以将大部分多媒体处理功能流程化、实例化。只需在控制台提前编排任务处理流程,就能对多媒体文件按照特定工作流进行处理,以产出符合业务需求的输出。避免重复、繁琐的调用接口,提供一站式的多媒体处理服务。

    优势

    支持大量的并发处理。

    提供丰富的计算处理服务,如转码、拼接、截图、水印,后期将接入内容审核、智能标签等AI 能力,满足更多业务场景。

    条件判断机制的引入,可自定义下一节点处理的触发条件,便于灵活组建场景化处理流程。

    子节点可以对父节点的输出做再加工计算处理,通过多个步骤的计算处理,从而将源文件转化成符合业务需求的输出。

    工作流配置可视化,可增强进度可观测性。

    模板可固化工作流,减少重复工作,统一业务处理流程标准。

    适用哪些场景?

    如果您有以下多媒体处理需求时,或者您期望实现一个 弹性、易用、低成本、灵活支持处理逻辑 的多媒体处理系统,那么工作流则是您期待的最佳解决方案。

    您有大量并发处理需求,需要同时对一批多媒体文件做多种处理。

    比如转码成不同规格的视频,适配不同终端设备播放。

    您有更高级的自定义处理需求。

    比如仅对>=1080p的视频做转码,需要通过执行条件来判断对哪些视频做处理,从而减少不必要的处理。

    您需要经过多个步骤的计算处理,得到一个想要的结果。

    比如先锐智转码、加水印,再对转码后的文件添加固定的片头/片尾。

    您需要对上传到 kodo 空间的文件,自动触发工作流,发起任务处理请求。

    您不太清楚如何根据自己的业务场景进行配置,工作流提供了多种推荐配置方案,降低了使用难度。

    工作流的使用示例

    1、如何创建多个并发处理的工作流?

    示例:多路转码

    cc41ecb91bb9efb92e46460e4a6ae37d.png

    此流程表示:同时对源文件转码成不同规格的视频,适配 PC、TV 以及移动终端等多平台播放。

    2、如何创建多个原子服务串联处理的工作流?

    示例:锐智转码 -> 视频拼接 -> 输出

    237536f9c5dec0c6c93b1ff1288b08b5.png

    此流程表示:先对源文件进行锐智转码和加水印处理,然后对锐智转码后的结果进行视频拼接,即加片头/片尾。

    3、如何创建有条件判断的工作流 ?

    音视频元信息 -> 执行条件 -> 普通转码 -> 输出

    095e76bbede147a355d7ba6ea73c02a5.png

    此流程表示:先对源文件获取音视频元信息,判断原视频分辨率范围,在范围内的视频,进行普通转码处理;不在范围内的视频,不再流转到下一步处理。

    输入源说明:

    音视频元信息节点的输入源: 源文件

    执行条件节点: 取值音视频元信息处理后的分辨率

    普通转码节点的输入源 :源文件

    处理流程

    工作流的处理流程如下:

    b64f6c6a3e0d681c086d2363e1bbd085.png

    用户在智能多媒体平台,配置工作流。

    用户上传多媒体文件。

    任务发起方式

    指定文件,选择工作流。

    创建任务触发器,上传完成后自动触发工作流。

    工作流引擎根据工作流配置,自动发起多媒体处理请求。

    全新发布的七牛云智能多媒体平台 现已正式上线,欢迎体验!

    展开全文
  • 腾讯大学是腾讯旗下面向生态用户的一站式学习成长平台, 提供最实用、最热门前沿、最干货的视频教程,请让我们听到你的需要,感谢您的时间!点击填写 问卷   腾讯大学是腾讯旗下,面向广大开发者...

    点击观看大咖分享

    在网络游戏中,无论是大逃杀、棋牌类、电子竞技类还是娱乐休闲类小游戏,玩家和玩家之间的互动和语音聊天都是一个必不可少的环节。作为一个通用的技术需求,如果由游戏厂商自己从零开始研发相应的音频技术,既不经济也不具备技术优势,因此市面上有一些厂商提供第三方的游戏音频SDK,让游戏开发商免于重复造轮子的同时,能把更多时间花在提升核心竞争力上。

    GME游戏多媒体引擎由腾讯多媒体实验室(即原音视频实验室)提供基础技术方案。腾讯多媒体实验室前身是QQ音视频团队,依托QQ的海量用户平台,在音视频网络通信、音视频直播、图像处理和音视频处理等技术领域积累了十几年的技术和实战经验。「腾讯云大学」邀请腾讯云GME专家工程师 王文涛老师 分享关于“腾讯云GME技术方案介绍”课程的内容。

    GME游戏多媒体引擎,主要由实时语音,离线语音与语音分析三大功能模块组成。

    1. 实时语音主要解决游戏中两位或多位玩家能够在游戏内通过语音进行沟通的问题。GME的实时语音功能针对不同的游戏类型或者游戏场景有不同的优化:对于时效性要求比较高的游戏比如FPS类游戏,GME提供低延迟的普通音质;对于K歌类游戏,则支持高保真的语音音质;此外对于类似国战等游戏场景则提供十万人超大语音房间满足游戏的语音沟通需求。
    2. 离线语音实现类似微信的语音消息功能,为游戏玩家提供了异步化的消息沟通方式。同时,还支持语音转文字功能,并支持多达120种语言。
    3. 语音分析功能,主要为游戏开发者和游戏运营方提供各种不良信息的筛选和过滤,维护游戏内生态良性发展。

    此外GME还提供一些特色功能,包括:趣味变声、K歌伴奏和3D方位语音。

    GME 实时语音提供超低时延、流畅优先的实时语音对讲,适合MOBA中游戏的语音开黑。GME提供的高清音质实时语音,则很适合语音直播类App;此外,GME提供的混音伴奏功能,为线上卡拉OK功能提供了很好的支持;3D语音特效也支持棋牌类游戏,狼人杀以及大逃杀类游戏中听音辨位的能力。

     

    接下来我们将详细介绍一下游戏实时语音引擎。在介绍游戏实时音频引擎之前,先简单介绍一下数字信号是如何传输的。

    如图中的数字传输系统模型所示:信源,对我们来说即麦克风采集到声源数据,一般这里会转换为数字信号,接下来经过编码,再经过调制解调通过网络传输到对端,再通过解码后,投递到信宿,就通过扬声器或者耳机等设备将声音渲染出来。几乎所有的音频传输系统都是基于这个模型进行,包括我们将要介绍的游戏实时音频传输引擎。

    这其中有个非常重要的编码环节。编码的目的在于减少传输码率和存储量,以提高传输和存储的效率,同时可以在进行编码的同时结合一些音频处理的能力。我们举个例子:1分钟,采样频率为44100Hz,采样深度为16bits,双声音Wav文件大小:60*44100*2*2约10M的数据,经过Mp3 128kbps压缩后:128*60/8=约0.94M,压缩后只有原来10分之一不到。

    这里又区分为信源编码和信道编码。信源编码,主要解决有效性问题,通过对信源的压缩、扰动和加密等一系列处理,力求用最少的码率传递最大的信息量,使得信号更易传输和存储。

    信道编码,主要解决可靠性问题,即尽量使得处理过的音频信号在传输过程中不出错或者少出错,甚至能对出错进行检测和纠正。

    在信源编码中又可以细分为语音或者人声编码,以及音频或者音乐编码。两者针对的分别是人类的两个声音器官即嘴和耳朵,分别对应发音模型与听觉模型进行编码设计。语音编码包括Speex、ISAC以及Silk编码,而音频编码常见的有Celt和AAC等。

    信道编码也比较多:比如线性分组码,卷积码,Turbo码,LDPC码以及RS编码等。而且信道编码不只是应用到音频数据传输,其他类型的数据传输也是可以应用到。

     

    实时音频引擎就是在数字传输系统的模型基础上,使用之前提到的音频编码以及音频的特别处理过程构建起来的。实时语音引擎的主要目的是采集发送端用户的音频输入,经过处理和编码后通过网络传递到接送端,并对音频数据进行还原,最终通过扬声器等设备播放出来。

    所以一般的语音引擎的一般架构如图所示:通过麦克风等音频采集设备,将声音等模拟信号采集成数字信号;同时,在游戏或者k歌中,我们可能还需要将本地的一些媒体文件与上述用户声音进行混音后进行网络传输,为了能将音频数据传输到对端,需要进行音频编码;端接收到数据之后将对数据进行还原,并通过外放设备进行播放,就完成了整个语音引擎的处理流程。

     

    游戏实时音频需要解决实际应用场景以下几个问题。

    在游戏实时语音过程中,手机麦克风不仅采集到近端玩家说话的声音,同时也采集到手机扬声器播放出来的组队玩家的声音,以及游戏自身播放的背景音乐和音效。麦克采集到扬声器播放的声音统称为回声。实时语音通话时,需要消除回声保留纯净的近端讲话人语音然后传送到对端。

    保证语音清晰流畅的通信技术回声消除技术在整个环节非常重要,因此在业界被公认为“最难啃的硬骨头”。试想一下,对一个至少混合了两个声音的语音流,要把它们分开,然后去掉其中一个,难度何其之大。就像一瓶蓝墨水和一瓶红墨水倒在一起,然后需要把红墨水提取出来,所以回声消除被认为是神秘和难以理解的技术也就不足为奇了。

    噪声问题也是游戏语音引擎需要解决的一大难题。一般传统社交语音通话场景中,通话者一般选择安静的场所,说话也相对比较正式。而游戏开黑时,商场、大街和地铁等各种嘈杂的环境都有;玩家在玩游戏时说话聊天声音比较随意;双手操作游戏过程中,也容易堵住手机上下端的拾音孔,游戏过程中游戏本身也伴随背景音效,各种原因导致手机麦克采集到的语音信干比(近端采集信号和干扰之比)会很低。因为要保证游戏语音通话清晰流畅度,游戏场景中的实时语音通话,比一般常规网络社交软件语音通话对于语音引擎具有更高的要求。

    还有就是啸叫问题:我们一般都会对采集到的、比较小的声音做增益处理。如果声音播放端与采集端比较接近,播放出的声音又被采集进音频信道一并做放大,就形成正反馈效应,会听到声音越变越大、越变越尖锐。

    此外,为了能更好的对用户的声音进行增益处理以及编码,减少不必要的数据传输,我们只对讲话时进行采集,这就需要检测人声,进而引入人声检测功能。

     

    以上是游戏实时前端的情况,接下来介绍一下后台。

    游戏实时音频引擎的后台需要能支持鉴权,转包,流控,转码以及统计等功能。针对大规模音频服务的后台,还需要能支持高并发,低延迟,以及服务的健壮性,弹性可伸缩安全性等。同时为了满足国内外客户的需求,需要能有全球链路保证所有用户都能就近接入。

     

    对于一个游戏实时音频来说,评判其好坏的质量指标包括:音质、延时、码率、频谱、性能和网络抗性。音质一般分为主管评测和客观评测,客观评测可以使用音质测试的专业设备测试端到端音质,并进行打分。使用音质测试设备测试端到端延时,延时越小越好。

     

    GME的整体结构和应用如图所示。GME作为一个整体,由客户端的SDK以及对应的语音后台,存储后台以及识别后台等构成。

     

    GME实施游戏音频引擎的流程

    1. 采集播放:声音信号从麦克风采集、模拟放大、ADC变换得到数字信号进入语音前处理环节。

    2. 音频处理:其中包含了回声消除、噪声抑制、音量自动调节、啸叫抑制等等,混音模块混入伴奏 。

    3. 进行音频编码以及信道编码,包括包头和FEC编码,主要解决网络抗抖动抗丢包处理。

    4. 通过网络接口发送数据。

    5. 接收端从网络层收到数据包,按用户id分流为多路不同的数据流,每条数据流都有解码链来处理(包含FEC解码、包头解码、Jitter缓存区中缓存)。

    6. 外放设备播放解码后的PCM

    7. 同时,会有一路解码数据从到回声抑制模块,为回声抑制模块提供参考信号。

    从上述介绍中我们可以看到,针对回声消除算法模块需要获得音频渲染端的一个参考信号作为基准。而在实际处理工作有很多工程类问题需要解决:比如在回声消除算法在处理语音信号过程中,面对现网中各种各样手机机型,良莠不齐的手机质量,有些手机硬件采集语音非线性失真大,且硬件处理效果不佳。即使是硬件采集好的手机,在网络不稳定或本身系统CPU资源被其它线程占用时,采集和播放之间会产生相对延时变化等情况。这些都会造成AEC线性自适应滤波器的发散,线性滤波后背景音回声残余依旧很大。

    而GME中的AEC模块通过大量验证数据,自适应地解决回声消除非线性处理部分,改进了残余回声估计,同时对延时跟踪,双端检测,近端语音存在概率方面做了重新精心打磨。在游戏背景音回声大、手机采集非线性失真严重、延时抖动等常见的恶劣场景,缓解了传统方法无法有效消除回声残余的问题,且保持良好的近端语音通话质量。其他诸如人声检测,啸叫抑制,噪声抑制等方面,GME提供了基于传统的和基于场景的深度学习算法来解决上述问题。

    在网络传输阶段,主要需要解决抗抖动,抗丢包等问题。抗丢包,主要是自适应重传策略,或者冗余编码等方式解决。控制播放延时,通过拉升、加速算法来趋近于目标网络抖动延时,处理过程中不丢弃数据包,减少语音卡顿(整个过程要尽量确保有数据播放),解决抗抖动问题。这需要大量的测试获得对应的算法参数,而GME也利用了网络实验室的损伤仪,网络模拟器等硬件设备,针对不同场景获得算法参数,并在诸如QQ等腾讯系产品上进行大规模验证。

     

    GME的实时音视频后台大体上分为三个模块:接入层,控制层和数据层。

    接入层主要负责对接不同的类型的客户端设备,并对接入客户连接做负载均衡,以及作为安全门户等作用。控制层则主要提供控制信令,包括转包,策略,配置以及统计计费等。而数据层则主要对音频数据进行处理,包括传输或者代理用户的音频数据,并做转码,扫描等。

    特别说明一下,这里有H5的接入,因为浏览器的一些能力限制,能支持的RTC功能相对能力较弱,为了能浏览器接入实时语音,同时又不对既有的后台架构做重大调整和适配,所以我们将部分功能移到后台来实现,相当于后台有一个浏览器的代理,接入GME的实时音频后台,进而完成对h5浏览器的实时语音支持。

     

    之前提到了实时语音对延迟要求很高,而腾讯云基础网络设置也很好的支持GME的能力,包括基础设施、网络接入和服务承载方面。

     

    为了保证服务质量,GME后台也支持实时用户数据监控,保证对突发问题能及时预警或者对资源进行自动扩容。

     

    GME构建了一整套质量测试平台,进而对音频质量以及稳定性做出持续的监控。使用思博伦POLQA音质测试设备测试端到端音质。使用全频带音乐样本作为数据,和Adobe Audition查看输出频谱。使用思博伦POLQA音质测试设备测试端到端延时。ios和PC使用wireshark,android连接root手机使用tcpdump命令抓包。以语音样本作为输入,通过损伤仪增加网络损伤。

    GME在不同场景下提供不同的音质体验和不同的抗网络损伤技术,实时语音音质在网络无损的场景下的平均MOS分达到4.38(满分5分),平均延时低于200ms;通过先进的丢包恢复技术、丢包补偿算法以及优秀的网络抗性,即使在50%以上丢包、1000ms的网络抖动下,也能保持顺畅的沟通和很好的音质。例如MOBA类游戏中,在保证正常的语音沟通和良好的性能前提下,移动网络模式每分钟流量消耗低于500KB,CPU占用率平均在10%以下等。

     

    在fps类游戏中,枪声、脚步声音效的方位一向是高端玩家非常重要的辅助信息,但当玩家打开游戏内置实时语音功能时,这些为了沉浸体验专门制作的游戏音效会丢失或减弱,整个游戏音质进入到“打电话”级别。原因是一般手机都分为媒体音量和通话音量,媒体音量是为了听音乐等使用的,采样率较高,音质效果较好,但没有音频处理比如回声消除等;通话音量主要为了打电话用,采样率比较低,只保证能听清楚人生,且为了解决回升消除问题,系统提供了回升消除算法。

     

    在我们的场景中,游戏为了高质量音质,使用了媒体音量,但开通实时音频后如果继续用媒体音量,虽然保留了较好的游戏音质,则会有明显的回声,高噪声等问题;所以一般游戏开了实时音频后都会切换到通话音量,利用系统的3A处理来解决回升噪声等问题,但负面效应就是游戏音质下降。所以GME与Wwise提出了联合解决方案,在保证媒体音量的前提下,在实时语音中增加3A算法保证实时语音效果。

     


    问卷

    腾讯云大学是腾讯云旗下面向云生态用户的一站式学习成长平台,提供最实用、最热门前沿、最干货的视频教程,请让我们听到你的需要,感谢您的时间!点击填写 问卷

     

    腾讯云大学是腾讯云旗下,面向广大开发者的云技术学习平台。腾讯云大学大咖分享每周邀请内部技术大咖,为你提供免费、专业、行业最新技术动态分享。

    展开全文
  • 技术联合多媒体技术的教学模式分析 21世纪以来我国经济迅速发展科学技术日新月异计算机 技术和信息技术的广泛运用使人们的生活和工作方式都发生了 翻天覆地的变化近年来技术这一新兴的技术受到社会各 界的广泛...
  • 大量并发处理的需求如何搞定?多步骤的计算处理需求如何满足?上传到 Kodo 空间的文件,怎样自动触发处理?如何实现更高级的自定义处理需求?有了支持「工作流」的七牛云智能多媒体平台 2.0 ,以上问题全部迎刃而解...
  • 从带来更高编码效率、更好的用户体验的京享高清,到...本文是对在LiveVideoStackCon 2019北京的京东技术专场的内容回顾。文 /LiveVideoStackAI和5G分别正在和即将改变着多媒体技术生态,当然这会给用户带来更好...
  • 为了研究媒体和官的传播新闻《武汉快递小哥汪勇的先进事迹》的及时性和传播力度,对比两种传播途径的差异,并给出新闻传播随时间的基本规律。本文通过爬取微博针对某一问题进行数据爬取,进行数据分析对比。 2....
  • 用户从主机(业务系统)请求上传链接,这个上传链接对应存储链接,用户直接通过客户端上传数据到对象存储服务,再通过异步处理机制触发业务逻辑(如转码、鉴黄),处理完成后上传到对象存储服务通过异步处理机制...
  • 为了研究媒体和官的传播新闻《武汉快递小哥汪勇的先进事迹》的及时性和传播力度,对比两种传播途径的差异,并给出新闻传播随时间的基本规律。本文通过爬取微博针对某一问题进行数据爬取,进行数据分析对比。 2....
  • 编者按:从带来更高编码效率、更好的用户...本文是对在LiveVideoStackCon 2019北京的京东技术专场的内容回顾。 AI和5G分别正在和即将改变着多媒体技术生态,当然这会给用户带来更好的甚至是全新的体验。8月23日,...
  • 《QQ 炫舞手游》是腾讯游戏推出的音舞类游戏。据App Annie 数据显示, 发布以来《QQ 炫舞手游》一直保持音舞类游戏排名第1,深受广大玩家欢迎。《QQ 炫舞手游》的一大特色玩法...
  • 在使用阿里百川多媒体云服务的时候遇到了两个错误。本不该出现的错误浪费了...这个错误产生的原因:多媒体需要安全图片,如果引入外部jar的话,就只需要在外部jar里面有安全图片就可以了,而我多此一举的把自己的项目

空空如也

空空如也

1 2 3 4 5 ... 13
收藏数 247
精华内容 98
热门标签
关键字:

云自媒