精华内容
下载资源
问答
  • 视频算法
    千次阅读
    2021-12-11 15:45:58

    当下作为视频工作者,如果不是专门的算法研究人员,可以不必懂太多的视频算法,但结合我之前长期的音视频sdk入端工作经历,视频工作者必备的算法我认为有:

    • 磨皮算法
    • 流行特效算法(漫画脸)

    磨皮是作为所有秀场直播最倚重、使用最广的一种算法,很多直播app的大主播都对其美颜算法相当依赖,其重要性不言而喻,可以不一定要求能手写优化什么的,但原理一定要懂。

    漫画脸是很早就有很多人在做这块的一些效果,但今年开始我觉得这个算法显得尤为重要起来,因为元宇宙概念的兴起,包括facebook改名为Meta、马化腾提出的全真互联等等,都给人一种很强烈的感觉就是,现实世界的虚拟化技术可能会是接下来的风口,作为基层开发人员我们可能没法成为站上风口上的那个人,但是我们可以为自己先行储备一些知识,等一波顺风而行。

    磨皮算法

    磨皮的本质就是一种滤波,把相邻像素间的色差拉小,以实现去瑕疵光滑皮肤的效果。但是因为简单的均值滤波是没法达到既磨皮,又保留细节,所以就需要一些非线性滤波方式。双边滤波因为有大量成熟的加速算法出现,能够满足移动设备端的快速实现而被大众采纳。

    双边滤波主要是有两个权重值,S域代表空间、R域代表像素范围,在图像的平坦位置,像素值变化较小,S域权重较高,效果类似高斯模糊。在图像的一些边缘区域,像素值变化很大,R域起主要作用,从而保留边缘信息。

    漫画脸

    更多相关内容
  • 字节视频算法岗日常实习面经

    千次阅读 2022-04-15 20:00:39
    个人背景:之前的研究方向是基础的因果推断,毫无视频算法基础,只了解经典机器学习算法,这次实习是直系学姐内推的。自己也很想在算法上有所提升,所以斗胆试了试。 一面 流程总述 先是让我讲讲因果这一块的发展 ...

    个人背景:之前的研究方向是基础的因果推断,毫无视频算法基础,只了解经典机器学习算法,这次实习是直系学姐内推的。自己也很想在算法上有所提升,所以斗胆试了试。

    一面

    流程总述

    • 先是让我讲讲因果这一块的发展
    • 然后问了我梯度下降的原理,并且简单实现了一下
    • 接着让我实现挑一个自己了解的机器学习算法实现一下
    • 最后,问我是否了解图像的平移、旋转、放缩,让我实现了一下图片放缩
    • 总的来说,就是考察了三道代码,接着分别阐述每一部分的细节

    梯度下降

    面试官问我梯度下降是怎么实现的,我就以感知机为力,推导了一下梯度下降的过程。然后,面试官说,让我代码实现一下,便给我出了道代码题:给定y=3x^4+x^2-5x,初始化x0=10,让我找到y的局部最小。

    接着我就写了代码,但是,面试官发现我的学习率lr是个定值,然后就给我讲了一下实际上lr也是个需要调整的参数(调整的原理我没记住叫啥名儿),当时也发现了自己的代码里有个bug,所以没有专注地听讲,大概意思是,以指数倍缩放,找到能使得下降速度最快的学习率【后续补一补这方面原理】

    补充:
    经过学习发现,现在有很多自动调整学习率的方法,详细介绍可参看👉学习率(learning rate)的理解与分类

    机器学习算法

    我就挑了最简单的感知机去写的,写的过程中,发现和自己之前实现的那一版不太一样,原理细节还是有所遗忘,得再重温一下。

    图像缩放

    我对图像这块的知识并不了解,面试官就给我讲了一下图像缩放实现的两大方法,一个是双线行缩放,一个是【忘记了,后续补一下】,然后告诉了我双线行缩放是怎样进行的,然后让我实现。我最开始的实现方法和面试官讲的方法不一样,然后被指出来说按他的方法写,后来倒也写出来了。

    二面

    流程总述

    二面主要考察知识广度,所以问的问题跨度比较大:

    • 开放性思维考察:给定场景,回答解决方式
    • 操作系统
    • 图像处理这块的QoS指标
    • python知识
    • 概率论
    • 两道代码题

    开放性思维考察

    前辈就我的以往背景(点播场景QoE提升)展开,问我“RTC场景下如何设计资源配置以达到QoE提升”,RTC=Real Time Communication,实时通信,例如,视频会议。

    前辈提示了点播场景下的资源分配是对服务端而言,而RTC场景下需要考虑的是客户端。而我能想到的只有联邦学习能够比较好的处理这种分布式问题?再想了一阵也没想出什么结果来…菜🪝就是我

    操作系统

    问了下我聊不了解操作系统,然后问了我缺页中断。很显然,我没有回答上来orz【后续补充一下这方面知识】

    图像处理QoS指标

    面试官问我常用的QoS指标有哪些。我回答了首评、卡顿。后来面试官补充了MOS评分和【&*%】,后者是由分值信噪比转换而来【后续需要Google一下】

    python

    没有想到问到的是python高级用法:装饰器 和 全局解释器锁。

    前者回答得不是很清晰,后者完全不了解…【要没了我】

    补充:装饰器是一个参数为函数的函数,目的是拓展原函数的功能,可参考👉博客

    概率论

    概率论问了三个问题:

    • 先验概率和后验概率分别是指什么
    • 几句话概括一下贝叶斯公式的作用
    • 讲一下假设检验/检验统计的方法原理

    两道代码题

    • 根号计算:给定n,求解sqrt(n),精确到小数点后两位。
    • 大数乘法:模拟两个大数(字符串)相乘。

    总结

    自我感觉不是很好,很多题都没答上来,知识广度这块太痛了,希望能逐渐积累吧。

    能从面试官身上学到的优点:迅速捕获提炼关键信息的能力。面试官能够高度准确且精炼地提取并表达出关键信息,值得学习。

    三面

    流程总述

    • 自我介绍
    • 部门介绍,整个大部门就是RTC,所有组的目标都是提升RTC过程中的用户体验,服务于RTC
    • 询问项目,围绕因果推断,面试官聊了很多,似乎对因果产生了兴趣
    • 两道逻辑题

    项目询问

    面试官是RTC大部门的leader,对因果其实并不算了解,但是对我的项目里的因果蛮感兴趣,而我也说了一些我对因果的看法,引起了面试官的兴趣,聊得还蛮轻松

    逻辑题

    第一题

    给定两个鸡蛋,这个鸡蛋的特性是,从第n楼掉下去会碎掉,但从低于第n楼的楼层掉落并不会碎,如果鸡蛋没有碎,则可以继续使用。假设给定100层楼,请问如何以最少的试验次数确定n的取值?注意,一共有两个鸡蛋可以使用。

    答案:
    第一颗鸡蛋用于限制起始范围,即,假设100层楼梯被均分为k段,第一颗鸡蛋每一段的端点掉落,判断会在哪一段破碎。例如,当楼层被分为4段时,先从25层往下扔鸡蛋,如果没碎,则从50层往下扔,如果碎了,则说明n属于(25, 50)这个区间,第二颗鸡蛋只需从第26层开始找;
    而第二颗鸡蛋用于确定n的精确值,从第一颗鸡蛋确认的范围开始逐层向上尝试。
    这个问题最终转换为:k+100/k的最小值,k表示第一颗鸡蛋所需尝试的最大次数,而100/k表示第二颗鸡蛋所需尝试的最大次数。

    第二题

    估计一下2的22次方的大小。最开始以为和第一题一样很难,但其实思路就是最直接的想法:2的10次方是1024,所以2的20次方大概是1e6,所以2
    的22次方大概就是4e6。

    HR面

    常规询问,包括学习方法、目前已有的offer等

    HR面一周多后收到了offer

    总结

    字节的整个流程和效率是很符合我的预期的——高效。所有面试官给我的感觉也都很好,技术能力很强、态度和蔼。希望以后正式工作之后也能遇到这样的团队。

    展开全文
  • 第三届“马栏山杯”国际音视频算法大赛如期而至!本次大赛分为邀请赛、正式赛及现场颁奖交流分享三个阶段,通过汇集国内一线音视频项目的真实痛点,鼓励行业顶尖技术人才参与竞技,助力产出 Top 级的音视频算法方案...

    比赛简介

    第三届“马栏山杯”国际音视频算法大赛如期而至!本次大赛分为邀请赛、正式赛及现场颁奖交流分享三个阶段,通过汇集国内一线音视频项目的真实痛点,鼓励行业顶尖技术人才参与竞技,助力产出 Top 级的音视频算法方案,促进AI音视频行业多方共赢。
    本次大赛共设6道赛题,邀请赛设置音频、推荐、NLP三大赛道,正式赛则聚焦元宇宙下图像、推荐、三维视觉三个方向,继续面向全社会及高等院校、科研单位、互联网企业等,为全球的算法精英们提供大量真实、高价值的脱敏数据,为他们提供彼此竞争、相互激发的场景,提供了一个展示、交流、切磋、学习的平台。

    邀请赛

    奖项设置
    冠军一组:人民币40,000元
    亚军一组:人民币10,000元
    季军一组:人民币5,000元
    排名第4至10名:人民币2,000元
    赛程安排
    邀请赛报名:2022年4月20日-2022年6月7日
    邀请赛作品提交:2022年4月20日-2022年6月10日
    获奖公布:2022年6月15日

    说明:
    1.本次大赛不设答辩环节,最终成绩以线上评分为准;
    2.本次大赛所设奖项奖金所涉税费、手续费等(如有)均由选手自行承担。

    赛道1 语音情感识别

    比赛链接:https://challenge.ai.mgtv.com/contest/detail/11

    赛题介绍

    人的情感是一种极其复杂的心理状态,通过语音对情感进行精准检测是一项具有挑战的任务,对于社交机器人、医疗、教育质量评估和一些其他的人机交互系统都有着重要意义。
    本赛题提供芒果TV媒资的语音数据,打造了一个语音情感识别问题,希望选手可以设计出一套准确高效的语音情感识别模型,提升用户的观看体验。

    赛题任务

    参赛者需以大赛组织方提供的语音数据,进行模型训练,对语音中包含的情感进行识别。
    参考Baseline地址:https://github.com/Renovamen/Speech-Emotion-Recognition

    评估指标

    1.初赛和复赛通过评估选手提交的结果来评分,本次比赛采用F1-Score作为评估标准。对于上传的csv文件计算分类的F1值,作为最终得分。可使用sklearn中的metrics.f1_score计算。
    在这里插入图片描述

    2.算力要求:
    1).内存使用不超过16G,显存使用不超过10G
    未满足以上算力限制的参赛队伍,大赛官方有权将最终总成绩判定无效,排名由后一名依次递补。

    赛道2 商品意图识别

    比赛链接:https://challenge.ai.mgtv.com/contest/detail/12

    赛题介绍

    电商搜索通常需要对用户query进行意图识别,将商品准确的推送给目标客户,而如何通过算法对海量商品的购买意图进行精准识别则是一种挑战。
    本赛题以小芒电商真实电商搜索业务场景为原型,打造了一个复杂场景的商品意图识别问题。主办方提供了商品名称和用户query数据供选手进行模型训练,希望选手能够设计出一套高效、精准的商品意图识别模型,以帮助提升电商搜索的效果,改善顾客的购买体

    赛题任务

    选手需要利用主办方提供的数据训练模型,对用户query的商品购买意图进行预测。部分预测样例如下(text是用户query,label是商品购买意图):
    id text label
    1 我要买草莓味的冰淇淋 5
    2 美的空调有吗 3
    3 ipad pro 6
    4 爱马仕的包包 7
    Baseline:https://github.com/rayvzn/MGTV_PIR

    评估指标

    选手需将模型预测结果提交到评分系统,评估指标将采用Macro-f1:将n分类的评价拆成n个二分类的评价,计算每个二分类的F1 score,n个F1 score的平均值即为Macro F1。(可直接采用sklearn包中的f1_score来计算)

    赛道3 节目播放量预测

    比赛链接:https://challenge.ai.mgtv.com/contest/detail/13

    赛题介绍

    节目的播放量预测能帮助平台多项业务开展,比如提前进行服务资源准备以应对流量变化情况、辅助在线广告库存预估等。本赛题是基于芒果TV视频平台预测未上线节目分天播放量(Video Visit),从而提前准备CDN等资源的应用场景。
    本赛题通过利用真实的节目播放数据,脱敏处理后,尽可能还原节目播放量预测的问题原型,从而探索真实业务场景的有效解决方案。
    问题具体如下:基于前T天的节目播放数据、节目属性和时间上下文,预测未来一段时间节目的播放量。

    赛题任务

    给定每个节目的前T天的每日VV,预测未来7天的每日VV。每个合集共7个预测值,一共需要提交7*N个预测结果,其中N为待预测的节目个数。
    Baseline: https://github.com/jmvvyc/vv_ts_prediction_baseline

    评估指标

    1、N个节目/合集的测试集mMAPE指标平均值
    Score=mMAPE=frac{sum_{i=1}^N frac{sum_{t=1}^J left| frac{hat y- y_t}{y_t} ight| }{J}}{N}

    展开全文
  • 需要对人的感知视频和音频质量进行分析。有两种方法可以做到: 1.对有问题/困难的流进行深入分析,判断感知到的视频或音频质量 2.进行长时间测试,在数小时、数天甚至数周的测试运行中搜索质量下降/恶化的原因。 ...

    需要对人的感知视频和音频质量进行分析。有两种方法可以做到:

    1.对有问题/困难的流进行深入分析,判断感知到的视频或音频质量
    2.进行长时间测试,在数小时、数天甚至数周的测试运行中搜索质量下降/恶化的原因。

          视频质量分析是一个主观的概念。最精确的质量测量方法是收集人类观察者并要求他们对质量进行判断。这是一个很有意义的和潜在的不一致的方法,因为需要对人类观察者进行判断,以确保他们的视力是好的,身体状况良好,没有色盲等等。最后,为每项测试计算一个平均得分值(mos)。有关设置主观测试的详细信息,请参阅建议ITU-R BT.500-13-电视图像质量主观评估方法,根据TU-R BT500.13或TU-T 913建议,已经开发了许多算法,通过与正确生成的主观数据相关,以精确的方式估计人类感知的视频质量。

    算法分为三类:
    1.全参考算法:比较处理序列和参考序列。
    2.无参考算法:仅分析处理过的视频序列。
    3.简化参考算法:从参考视频中提取特定信息,并在分析处理后的视频时使用。

    Clear View全参考评分方法:
    1.\triangleEITP:提供一个目标评估,以确定给定程序的两个版本之间是否可以看到两种颜色之间的差异。
    2.VMAF:Video Multime Assessment Fusion是为流式视频服务的质量评估量身定制的。
    3.MS-SSIM/DMOS:MS-SSIM和DMOS两种尺度上的多尺度结构相似性图像质量评估,其中DMOS是参考视频和处理视
    频的平均意见得分之间的差异。
    4.JND:将人类观察者聚集在一起并直到至少有一个人认为经过处理的视频至少与参考视频一样好为止(只是明显的差异)
    5.PSNR:峰值信噪比,信号最大可能功率与影响其表示保真度的畸变噪声功率之比。
    6.aFREQ:相对于每个参考音频通道,用于查找严重错误的音频性能指标。aFreq包括音频-视频偏移测量或唇音同步值或程序中选定的通道。

    Clear View无参考评分方法:
    1.NIQE:自然图像质量评价,全盲,无失真,无参考,图像质量评价指标
    2..aPEAK:根据ITU-R BS.1770-3,每个通道的真实峰值音频测量
    3.LKFS:根据ITU-R BS.1770-3,每个项目的音频响度测量
    4.Spatial:计算视频帧的活动强度,数值越大表示帧中的变化越多。
    5.Temporal:计算连续视频帧之间的变化,零表示冻结帧。

    视频算法介绍

    PSNR(峰值信噪比)是应用最广泛的指标之一。它测量输入和输出之间的平均误差,用db表示.PSNR中峰值信号用比率表示,虽然不执行人类感知视频质量预测,但作为所有ClearView系统中包含的目标指标之一,它确实发挥了重要作用。PSNR提供两个信号之间的绝对差异,对于需要通过/失败指示器的设备性能或网络路径测试非常重要。
    NIQE自然图像质量评价是一个完全盲、无失真、无参考、图像质量评价指标。该质量评估师由德克萨斯大学LIVE实验室是一个基于自然场景统计(NSS)的建模框架的意见不知道(OU)和失真不知道(DU)没有参考(NR)图像质量评估(IQA)。结果是第一种NSS驱动的OU-DU IQA模型,它不需要预先暴露在扭曲的图像中, 也不需要任何关于人类观点分数的培训。新的NR OU-DU IQA质量指数优于峰值信噪比(PSNR)和非多尺度结构相似性(SSIM)指数,与表现最佳的NR OA-DA IQA方法具有同等的性能。
    VMAF: 这个完全参考指标是由Netilix设计的,并根据最新发布的VMAF版本在ClearView中以其本机规模实现。VMAF非常
    接近人类对视频质量的感知,无论是自然视频还是动画内容,它都在不同的内容类型中保持一致。通过将各种源内容特性
    考虑在内,并将重点放在压缩和图片缩放伪影上,作为流式内容交付版本中的主要降级组件,VM进行了特别调整,以评估
    视频流的质量。
    MS-SSIM, SSIM and DMOS在多尺度结构相似性图像度量(MS-SSIM)中,以各种分辨率评估图像,结果是这些校准步骤的平均值。 即使SSIM正确地校准到环境和数据集,MS-SSIM也能胜过简单的SSIM.Clearview包括由德克萨斯大学开发的MS-SSIM和SSIM,并在其原生尺度上提供MS-SSIM也映射到线性DMOS(差分平均意见得分)。 可以对亮度执行测量,并且为颜色通道提供组合分数。
     \triangleEITP根据ITU的建议BT.2124,\triangleEITP有助于评估HDR电视图像和信号中颜色差异的潜在可视性。该指标返回一个刚刚显著的差异(JND)评分,该评分提供了对信号处理技术与摄像机原始内容引入的差异的评估。

    Sarnoff JND:作为ClearView的视图选项,Saroff-JND视觉模型是视频感知质量的一个非常精确的预测因子。它包括图像质量比(PQR)算法,并以JND(只是显著的差异)为单位进行量化。

     

    音频性能测量
    aFREQ 音频频率度量-提供处理音频与参考音频的比较,以发现严重的音频错误,并提供源音频通道与处理
    过的音频通道的一般性能比较。
    音频/视频校准(唇音同步)是aFREQ中包含的毫秒精确测量。
    aPEAK 音频峰值度量和响度测量-测量真实峰值振幅,为每个帧提供一个值,为每个通道提供一个单独的
    值。在aPEAK测量中,相对于满标度,LKFS响度有一个选择。LKFS提供了一种测量方法,可以在给定程序中的
    所有音频通道上用一秒钟的时间测量峰值响度,并在该时间段内用一个值进行响应。重新计算的值以对数刻度
    为基础,0是最大值,-60接近静音。LKFS测量符合ITU-R BS.1770-3建议。

    RTM和RTM 4K全参考音频/视频质量监视器,实时测量音频

    输入源“参考”和下游“处理”A/V,通过HDSDI至4K或IP至1080p
    在实时源上实时测量音频和视频质量通过PSNR或MS-SSIM/DMOS算法
    实时测量音频和视频延迟(唇音同步)至毫秒
    根据ITU-R BS.1770-3测量音频响度。
    测量每一行的数据线完整性,每一行可单独选择
    持续向文本日志和RTM管理器报告最小、最大和平均A/V质量和A/V偏移量
    如果上述任何一项低于用户设置的降级阈值,则通过音频蜂鸣音记录A/V序列的故障部分和警报。
    RTM可以在同一个系统中与ClearView结合使用,以提供两个测试应用程序。

     

    展开全文
  • 转,大数据经典算法视频,PageRank,K-Means算法,.CART:分类与回归树,C4.5,最大期望(EM)算法
  • 从技术角度来说,RTC并不是一个新兴技术,从智能手机流行以来,RTC就已经出现在一对一的音视频通话场景中,最初的技术方案也比较直观,当设备通过服务端建立通话连接后,两个设备以点对点的方式直接通信,具体实现...
  • 视频加密相关机制及算法源码 视频加密相关机制及算法源码
  • 202103遗传算法GA求解车间调度问题Matlab优化算法视频配套资料.pdf
  • 算法导论配套视频

    2019-01-31 18:19:34
    算法导论的配套视频,作者录制的视频算法导论这本书的含金量不需要多说。看书费劲可以一边看视频一边看书
  • 资源名称:数据结构与算法视频课程(59集)资源目录:【】mysql视频教程第41讲存储过程【】数据结构与算法_1.10算法的评价【】数据结构与算法_1.1编程的灵魂:数据结构 算法【】数据结构与算法_1.2算法的作用:猜...
  • 9月8日下午,首届“马栏山杯”国际音视频算法优化大赛颁奖盛典暨高峰论坛在马栏山举行。该活动是2020互联网岳麓峰会的重要组成部分。前沿课题源自业界需求 马栏山视频文创产业...
  • 关注算法行业公司招聘情况——工业领域
  • 最近发现一个特别强的视频超分算法————BasicVSR,在真实世界数据集中,实现了前所未有的视觉重建效果,最近它还拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022。 > 视频超分,假设低分辨率...
  • 算法导论视频

    2018-12-05 08:58:58
    算法导论视频
  • 看短视频上瘾的背后-推荐算法

    千次阅读 2021-05-25 20:41:45
    目前短视频作为一种全新的内容形式,比图文、声音和长视频更加具备可传播性,属于“看后既走”的特质,而且背后基于大数据的推荐算法,用户越刷越能看到自己想要的内容,从而将更多的时间消耗到短视频上无法自拔。...
  • 基于聚类算法视频推荐系统的算法研究.pdf
  • 视频开发---音视频同步算法

    千次阅读 多人点赞 2019-07-31 19:29:08
    本文是对音视频同步算法的总结,以阅读ffplay.c源码为基础,结合各位博主的分析,逐渐深入理解同步算法原理, 并根据自身理解, 编写一套简易的视频播放器,用于验证音视频同步算法。 ffplay简介 ffplay是FFmpeg...
  • 算法视频,下载别人的重复资源
  • 数据挖掘与算法视频(系统架构,NLP-文本相似度,数据挖掘-中文分词,隐马+推荐算法,分类算法,聚类算法)等
  • 视频分类算法

    千次阅读 2019-09-21 17:20:27
    一、传统视频分类方法 深度学习兴起前,大多数视频分类都是基于手工设计的特征和典型的机器学习方法。 比如:基于局部时空域的运动信息和表现信息,利用词袋模型等方式审核才能视频编码,然后利用视频编码来训练...
  • 视频遮挡检测算法

    2018-12-03 21:32:21
    一种新型的摄像头遮挡检测算法,亲测误报低,并且具有实时性。
  • 大数据课程作业视频推荐算法及其展示源码。导入大数据展示代码可运行展示界面大数据课程作业视频推荐算法及其展示源码。导入大数据展示代码可运行展示界面大数据课程作业视频推荐算法及其展示源码。导入大数据展示...
  • opencv将图像合成视频算法

    千次阅读 2018-08-24 11:25:00
    利用opencv可以很简单的将图像合并为视频. import cv2 img = cv2.imread('image1.jpg') imgInfo = img.shape size = (imgInfo[1], imgInfo[0]) print(size) videoWrite = cv2.VideoWriter( '2.mp4', -...
  • 省时查报告-专业、及时、全面的行研报告库省时查方案-专业、及时、全面的营销策划方案库【免费下载】2022年2月份热门报告盘点2021-2022元宇宙报告.pdf某短视频APP推荐算法及策略...
  • 大数据-算法-视频镜头边界检测与体育视频分类算法研究.pdf
  • 其实这是有一定的规律的,快手的运营核心是算法驱动模式,快手会根据用户喜好向其推荐短视频,因此,我们只要掌握了其中的规律,想要实现粉丝量增长就不是难事了。 一、快手短视频流量算法解析 快手的流量算法主要为...
  • 大数据-算法-视频抠图算法的研究.pdf
  • 屈婉玲算法设计与分析视频课程及课件,分章节,PPT分开
  • 给出了人脸检测、人脸矫正、人脸多模态识别算法视频关键场景确定算法,人物情感数据分析算法,并使用opencv和caffe实现算法并验证其可行性。基于以上的算法处理后,可以完成自动对短视频的情感分类,分类结果如...
  • 视频频学习资料;本资料仅用于学习,请查看后24小时之内删除。算法的示例和代码实现(Python)、算法的参数调试、机器学习算法的应用场景

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 386,794
精华内容 154,717
关键字:

视频算法