精华内容
下载资源
问答
  • 多媒体AI(MultiMedia AI)是一款基于文本分析、图像理解、语音识别的视频AI通用技术平台产品,利用多模态的视频理解能力提取视频中包含的结构化信息,生成符合大众审美的精彩集锦,适用于电商、传媒、泛娱乐等场景下...

    多媒体AI(MultiMedia AI)是一款基于文本分析、图像理解、语音识别的视频AI通用技术平台产品,利用多模态的视频理解能力提取视频中包含的结构化信息,生成符合大众审美的精彩集锦,适用于电商、传媒、泛娱乐等场景下的视频的检索和推荐;同时底层数据库提供海量的物体和人物库,支持上万级的基础标签识别和灵活的自注册能力,轻松应对业务多变性。

    多媒体AI产品实例(以下简称 媒体AI实例)是对应AI服务以及一个能匹配推荐性能的环境,包含 CPU、内存等最基础的计算组件,是媒体AI支撑给每个用户提供服务的实际操作实体。媒体AI实例是以提供的能力服务为核心,以云服务器为基础的概念。其他的资源,比如磁盘、IP、镜像、快照等,只有与计算资源(ECS等服务资源)结合后才能使用。

    多媒体AI由底层算法服务层、中间逻辑神经层和上层应用处理层组成。

    底层算法服务层:整合封装人脸识别、语音识别、通用标签、视频分类、logo识别(台标)等多项视觉理解算法,同时进行服务化集成,形成统一分析服务层,用于对输入内容进行结构化分析。

    中间逻辑神经层:通过上层输入的素材(clib、shot、sequence等)进行解析,同时将解析后的素材,调度转发对应底层算法服务,获取输出结果,同时将多个分析结果进行merge整合、交叉验证,完成后将merge后的结果数据向上输出。

    上层应用处理层:作为外部视频素材的统一输入通道,以API方式提供视频上传服务,同时约定上传格式以及大小等输入条件,提供视频分解服务,将上传的视频进行合理分解,供后端逻辑层进行调度分析。此外,上层应用层还提供了人脸库创建等工具型接口的透传,供用户实现应用配置。

    基本概念

    应用:一个进行任务分析的算法分析事务,其中包含关联调用的算法服务、算法指标参数、配置模板、人脸库等应用数据,用户可以设置不同的人脸数据、置信度阈值和调用算法清单。其中最大的并发视频路数为5路。应用创建后可以变更和删除。

    人脸库:在一个用户下创建的业务数据单元,一个用户可以创建多个数据库,人脸库在实例内的命名唯一,人脸总数10w张。

    任务:视频分析的最小单元,对视频状态、视频分析结果进行说明。

    限制说明

    并发5路:指用户能够提交同时进行分析的最大视频文件数量,超过此数量则提交的视频分析任务默认进入队列等待。

    视频分析时长:指视频提交完成后,开始分析时计算,结束时间以任务分析完成时的回执通知消息时间为准。

    倍速:单个处理倍速=视频实际时长/最差任务运行时长(不算入下载时长)。

    产品流程示意图

    37898e3244549d62e0c13a87517712c3.png

    产品功能

    多媒体AI由视频内容结构化、视频静态封面、视频动态GIF封面三大能力组成。

    视频内容结构化:通过对视频,文本,图像等内容的理解对多媒体进行分类,以及关键信息提取,可广泛应用于多媒体内容管理,搜索和推荐。

    视频静态封面:通过理解视频主题含义,结合清晰度,丰富度,对比度,精彩度以及与主题的契合程度5个方面分析,输出符合大众审美的视频封面图,适用于电商,泛娱乐中短视频场景下的视频流量推荐。

    视频动态GIF封面:通过理解视频主题含义、结合时序、故事情节、清晰度三方面分析结果,输出能够代表视频大意的GIF图片,适用于泛娱乐场景下直播精彩画面生产,提升直播内容的点击率和用户停留时长。

    模板管理:通过模板配置,实现不同行业不同业务场景的定向适配,目前主要用于视频内容分析服务中,涉及分析类型主要涵盖了人物识别,视频分类,自定义人物库,以及语音文本关键词库等功能。

    产品优势

    与拥有独立图像算法服务的其他产品相比,多媒体AI的优势包括:

    多模态:利用多模态技术进行视频内容理解,有效提升标签精准度和素材丰富度,同时产生多项丰富的中间态结果,供多业务场景选择。

    多场景:应用于传媒、电商、广告行业下的搜索、推荐、植入等多场景的内容识别。

    丰富的标签体系:横向拥有万级的基础标签内容支撑业务广度;纵向拥有多级分类支撑业务深度。

    高效框架:支持多线程多并发的视频处理,显著提升视频处理效率。

    数据安全性:使用非对称加密策略,对单个客户在云上存储的业务数据进行加密,同时结合用户权限限制数据访问。

    易用性:简洁的接口输入参数,简单的接口调用方式;支持自定义人脸、自定义模板等灵活配置,同时支持批量上传等功能,便于云上业务方使用。

    灵活性:引入模板管理功能,可通过模板参数配置实现不同行业的定向适配,使得产品的应用场景更加灵活。

    API 接口:使用多媒体AI云上API,通过APPID进行应用访问设置,通过APPID关联至应用服务,使开发使用更加方便。

    展开全文
  • 阿里云视频云总经理朱照远先生在主论坛上表示,阿里云多媒体AI基于区块链推出可信数字内容版权服务平台,为版权行业及内容平台客户提供一体化的版权内容保护解决方案。 可信数字内容版权服务,通过多媒体DNA技术对...

    12月12日,“第八届云计算标准和应用大会”在北京召开。阿里云视频云总经理朱照远先生在主论坛上表示,阿里云多媒体AI基于区块链推出可信数字内容版权服务平台,为版权行业及内容平台客户提供一体化的版权内容保护解决方案。
    image

    可信数字内容版权服务,通过多媒体DNA技术对多种媒体(图文、视频、音频等)进行唯一标记,依托区块链将DNA等关键信息上链,进而构建拥有版权存证、侵权追溯和版权交易等能力的平台。区块链技术与人工智能相结合,解决跟踪与内容识别过程等复杂问题。

    平台服务解决行业的三个关键问题:

    基于多媒体DNA将作品特征值提取后,提供不可篡改、去中心化的版权存证体系
    多媒体DNA独有的特征值分析比对算法,带有抗攻击能力。系统会对侵权行为进行在线取证并记录至区块链中,便于版权/侵权信息全生命周期的追溯
    基于区块链建设去中心化版权业务联盟,可纳入数字内容的所有方及使用方,提供多渠道的分发能力以及价值变现能力。通过智能合约实现多方共识的收益分配,自动追踪履约情况。
    image

    据行业分析报告研究表明,全球网络盗版造成的损失,从2010年67亿美元飙升至去年的近318亿美元,2022年将达到520亿美元,其中,中美两国是网络盗版损失最大国。在“产权”和“知识产权”问题上存在的纠纷,除了法律体系的完善,阿里云通过技术创新完善配套服务,为版权服务生态建立互信关系。

    随着版权问题的凸显和社会版权意识的增强,阿里云也在思考如何更快更有效地,将版权保护链路中的必要参与方整合在一起,建立具有足够公信力的联盟,去加快版权生态的发展。会上阿里云正式对外发布可信数字内容版权服务,将区块链技术与人工智能技术(视频DNA,音频DNA,图片DNA,文本DNA等)相结合,将版权保护的流程从线下转移到线上,依托区块链使存证更具公信力,通过AI技术使每一个原创内容拥有唯一的DNA,这个方案在一定程度上将会帮助社会净化和维护网络内容的生态。

    免费申请开通:可信数字内容版权服务
    http://tb.cn/BbI6EJw?spm=a2c4e.11153940.blogcont677684.10.7aab1989BZK3qq
    原文链接 https://yq.aliyun.com/articles/677684

    展开全文
  • 无障碍AI

    2018-05-02 16:51:22
    在互联网上,确实有这类公司在研究这个小程序“多媒体AI平台”上线“无障碍AI”入口.一、图片转语音将图片中的内容有逻辑地组织成语言展示给调用者,能够帮助障碍用户阅读图片二、语音合成定制化地将一段文字以特定...

    周末,偶然了解到AI鼠标。AI技术无处不在。对于残障人士来说,无障碍AI的开放,残障人士将成为受益者。在互联网上,确实有这类公司在研究这个小程序“多媒体AI平台”上线“无障碍AI”入口.


    一、图片转语音

    将图片中的内容有逻辑地组织成语言展示给调用者,能够帮助障碍用户阅读图片

    二、语音合成

    定制化地将一段文字以特定角色诵读出来,并支持情绪调节便于用户更加无障碍地体验文字转语音场景服务

    三、OCR识别

    用户在生活的各个场景中,对说明书、指示牌等文本检测领域信息获取更为便捷,并支持海量图片的文字搜索功能

    四、语音翻译

    AI鼠标,按住语音键,说出自己想要说的话,完成搜索,完成文字记录,完成电脑控制。

    500

    释放双手,双脚。让无障碍成为残障认知互联网的可能,更高效


    我们所说的信息无障碍主要给视障者、读写障碍者、听障者、老年人等特殊人群带来价值,更好的用户体验

    附上原版视频

    无障碍理念宣传片《拒绝失联》



    展开全文
  • 3月28日,“2018科技无障碍发展大会”在北京举行,大会...同时,腾讯也在现场宣布,将推动多项无障碍AI技术对外开放,通过在小程序“多媒体AI平台”上线“无障碍AI”入口,将一些可用于无障碍领域的人工智能技术进行...

    3月28日,“2018科技无障碍发展大会”在北京举行,大会由信息无障碍产品联盟主办、信息无障碍研究会承办。腾讯社交平台部副总经理许华彬受邀出席尖峰对话环节,共同探讨信息无障碍的发展现状和未来趋势。

    这里写图片描述

    腾讯社交平台部副总经理许华彬受邀出席活动

    同时,腾讯也在现场宣布,将推动多项无障碍AI技术对外开放,通过在小程序“多媒体AI平台”上线“无障碍AI”入口,将一些可用于无障碍领域的人工智能技术进行聚合,并对外开放接口。中国残疾人联合会副主席、中国盲人协会名誉主席李志军,中国盲人协会常务副主席李庆忠,中国互联网协会信息无障碍工作委员会秘书长赵耀等领导,共同参与启动环节。

    受益于人工智能在各个场景的深入应用,无障碍领域的科技创新也得到了越来越多行业和企业的重视。此次QQ空间将启动的“无障碍AI技术”对外开放项目,依靠的是腾讯多个产品和研发团队,共同在无障碍应用上不断探索、相互协作。更多企业、开发者自由接入并使用这些开放的AI技术,可降低互联网产品在无障碍应用研发时使用新技术的门槛,让科技助力更多无障碍场景服务,创造社会价值。目前该项目已经上线可用于无障碍场景的三大AI技术,即语音合成、OCR文字识别、语音识图片。

    这里写图片描述

    小程序“多媒体AI平台”已开放可用于无障碍场景的三大AI技术

    1.语音合成

    通过机器学习训练,将文字以特定角色的声音朗读出来,让语音合成能够加入情绪调节,优化用户的无障碍场景体验。

    2.OCR识别技术

    它可以识别图片上的文字,比如身份证、指示牌、说明书等图片文本,帮助用户在日常生活中更便捷的获取文本信息,结合语音技术也让许多障碍人群获取信息的效率,有了较大提升。

    3.语音识图片

    它通过多层深度神经网络识别图片,可以将图片中的内容有逻辑地组织成语言,并通过语音展示给调用者,能够帮助障碍用户阅读图片。

    腾讯自2009年开始启动无障碍产品的改造,并不断通过与深圳信息无障碍研究会等合作伙伴交流,持续打磨产品体验,未来,期望有更多的科技力量加入到公益项目中,多维度改善障碍群体的沟通现状,也让更多用户通过科技享受便利。

    展开全文
  • 在NVIDIA-Jetson平台上构建智能多媒体服务器 Building a Multi-Camera Media Server for AI Processing on the NVIDIA Jetson Platform 媒体服务器提供多媒体一体功能,例如视频捕获、处理、流式处理、录制,在某些...
  • 计算所对应的硬件平台有:CPU、GPU、FPGA、ASIC。 我们先来举个例子:假如您是一个天才,天文、地理、文学、美术、数学等都很好很优秀,我们把你的大脑比作“CPU”,你能一个人做好各种工作,这就好比“CPU兼容性好...
  • 海思多媒体处理平台(MPP)分为:视频输入(VI),视频处理(VPSS),视频编码(VENC),视频解码(VDEC),视频输出(VO)、视频侦测分析(VDA),音频输入(AI),音频输出(AO),音频编码(AENC),音频解码(ADEC),区域管理(REGION)等模块....
  • 3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯AI Lab还宣布...
  • 生活中我们会经常用到微信,但是你们知道微信除了用来聊天,里面的小程序功能也是十分强大的,今天推荐的这款小程序的名字叫做多媒体AI平台。里面提供了多种智能AI能力,不仅能学习还能解决很多生活中的小问题。 ...
  • 海思多媒体处理平台(MPP)分为:视频输入(VI),视频处理(VPSS),视频编码(VENC),视频解码(VDEC),视频输出(VO)、视频侦测分析(VDA),音频输入(AI),音频输出(AO),音频编码(AENC),音频解码(ADEC),区域管理(REGION)等模块....
  • 海思多媒体处理平台(MPP)分为:视频输入(VI),视频处理(VPSS),视频编码(VENC),视频解码(VDEC),视频输出(VO)、视频侦测分析(VDA),音频输入(AI),音频输出(AO),音频编码(AENC),音频解码(ADEC),区域管理(REGION)等模块....
  • 海思多媒体处理平台(MPP)分为:视频输入(VI),视频处理(VPSS),视频编码(VENC),视频解码(VDEC),视频输出(VO)、视频侦测分析(VDA),音频输入(AI),音频输出(AO),音频编码(AENC),音频解码(ADEC),区域管理(REGION)等模块....
  • 计算机视觉和多媒体领域的杰出科学家梅涛博士日前正式加入京东,出任京东集团AI平台与研究部AI研究院副院长,并担任计算机视觉与多媒体实验室主任。他将负责创建计算机视觉与多媒体实验室,以及京东AI平台与研究部在...
  • 海思多媒体处理平台(MPP)分为:视频输入(VI),视频处理(VPSS),视频编码(VENC),视频解码(VDEC),视频输出(VO)、视频侦测分析(VDA),音频输入(AI),音频输出(AO),音频编码(AENC),音频解码(ADEC),区域管理(REGION)等模块....
  • AI发展报告2019.pdf

    2020-03-22 12:28:48
    报告遴选13个人工智能的重点领域进行重点介绍,包括:机器学习、知识工程、计算机视觉、自然语言处理、语音识别、计算机图形学、多媒体技术、人机交互、机器人、数据库技术、可视化、数据挖掘、信息检索与推荐等。...
  • 作者 | Rachel、Just出品 | AI科技大本营(ID:rgznai100)移动互联网时代催生了大量的多媒体数据,每天在社交平台、长短视频、直播平台、新闻资讯等内...
  • 纽约--(美国商业资讯)--全球领先的企业AI和机器学习平台之一Dataiku宣布发布Dataiku 7,进一步与包括Microsoft Teams、SharePoint和OneDrive的Microsoft 365服务集成,让使用Teams的客户可以直接跟踪和共享对其AI...
  • 1.多媒体AI平台这款小程序含有的功能主要有:内容识别,智能裁剪,区域检测,通用OCR,语音识图片,照片大师,语音合成,智能聊天,情感分析等。2.美老师证件照这款小程序能帮你一分钟生成你的一寸照。用于报名一些...
  • 背景:3月15-16日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯觅影...
  • 3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯AI Lab还宣布...
  • 海思多媒体处理平台(MPP)分为:视频输入(VI),视频处理(VPSS),视频编码(VENC),视频解码(VDEC),视频输出(VO)、视频侦测分析(VDA),音频输入(AI),音频输出(AO),音频编码(AENC),音频解码(ADEC),区域管理(REGION)等模块....
  • 来源:腾讯AI实验室腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯AI ...
  • 纽约--(美国商业资讯)--领先的企业人工智能(AI)和机器学习平台Dataiku今日宣布推出Dataiku 7,该版本将为技术数据专业人员带来更深层次的整合,可用于机器学习项目开发和白盒(white-box) AI的行级可解释性。...
  • 经过5年多的发展,容联·云通讯已经从通讯PaaS服务,演变成为融合通信运营商与互联网音视频能力的通讯云平台。未来,容联·云通讯还要在5G、AI和物联网方面突破。日前,LiveVideoStack对容联·云通讯CPO熊谢刚进行了...
  • 5月19日,LiveVideoStack携手网易云易盾,共同打造了“娱乐多媒体开发应用实践”专题,帮助开发者和泛娱乐平台运营人员,提升技术能力,突破难点,拓展思路与视野。 在专题论坛中,网易云易盾CTO朱浩齐分享了《AI...

空空如也

空空如也

1 2 3 4 5
收藏数 81
精华内容 32
关键字:

多媒体ai平台