精华内容
下载资源
问答
  • 深度学习的多个loss如何平衡?
    2022-01-10 01:24:20

    点击上方“小白学视觉”,选择加"星标"或“置顶

    重磅干货,第一时间送达

    来自 | 知乎    编辑 | 深度学习这件小事

    链接 | https://www.zhihu.com/question/375794498

    本文仅供交流,如有侵权,请联系删除

     问题

    在一个端到端训练的网络中,如果最终的loss = a*loss1+b*loss2+c*loss3...,对于a,b,c这些超参的选择,有没有什么方法?

      高质量回答

    Evan

    字节跳动研究员

    https://www.zhihu.com/question/375794498/answer/1052779937

    其实这是目前深度学习领域被某种程度上忽视了的一个重要问题,在近几年大火的multi-task learning,generative adversarial networks, 等等很多机器学习任务和方法里面都会遇到,很多paper的做法都是暴力调参结果玄学……这里偷偷跟大家分享两个很有趣的研究视角:

    1. 从预测不确定性的角度引入Bayesian框架,根据各个loss分量当前的大小自动设定其权重。有代表性的工作参见Alex Kendall等人的CVPR2018文章 Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics,https://arxiv.org/abs/1705.07115。文章的二作Yarin Gal是Zoubin Ghahramani的高徒,近几年结合Bayesian思想和深度学习做了很多solid的工作。

    2. 构建所有loss的Pareto,以一次训练的超低代价得到多种超参组合对应的结果。有代表性的工作参见Intel在2018年NeurIPS(对,就是那个刚改了名字的机器学习顶会)发表的Multi-Task Learning as Multi-Objective Optimization,http://papers.nips.cc/paper/7334-multi-task-learning-as-multi-objective-optimization。因为跟文章的作者都是老熟人,这里就不尬吹了,大家有兴趣的可以仔细读一读,干货满满。

    杨奎元

    深动科技联合创始人

    https://www.zhihu.com/question/375794498/answer/1050963528

    1. 一般都是多个loss之间平衡,即使是单任务,也会有weight decay项。比较简单的组合一般通过调超参就可以。

    2. 对于比较复杂的多任务loss之间平衡,这里推荐一篇通过网络直接预测loss权重的方法[1]。以两个loss为例,  和  由网络输出,由于整体loss要求最小,所以前两项希望  越大越好,为防止退化,最后第三项则希望越小越好。当两个loss中某个比较大时,其对应的也会取较大值,使得整体loss最小化,也就自然处理量纲不一致或某个loss方差较大问题。

    6f8c20a1f9b3046751917c737f399e1c.png

    该方法后来被拓展到了物体检测领域[2],用于考虑每个2D框标注可能存在的不确定性问题。

    75e4f3c07a0c2edf88acb4be08acf1d5.png

    [1] Alex Kendall, Yarin Gal, Roberto Cipolla. Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. CVPR, 2018.

    [2] Yihui He, Chenchen Zhu, Jianren Wang, Marios Savvides, Xiangyu Zhang. Bounding Box Regression with Uncertainty for Accurate Object Detection. CVPR, 2019.

    郑泽嘉

    自动驾驶程序员

    https://www.zhihu.com/question/375794498/answer/1056695768

    本文来自知乎问答,回答已获作者授权,禁止二次转载。

    Focal loss 会根据每个task的表现帮你自动调整这些参数的。

    我们的做法一般是先分几个stage 训练。stage 0 : task 0, stage 1: task 0 and 1. 以此类推。在stage 1以后都用的是focal loss。

    是这样的。

    首先对于每个 Task,你有个 Loss Function,以及一个映射到 [0, 1] 的 KPI (key performance indicator) 。比如对于分类任务, Loss function 可以是 cross entropy loss,KPI 可以是 Accuracy 或者 Average Precision。对于 regression 来说需要将 IOU 之类的归一化到 [0, 1] 之间。KPI 越高表示这个任务表现越好。

    对于每个进来的 batch,每个Task_i 有个 loss_i。每个Task i 还有个不同的 KPI: k_i。那根据 Focal loss 的定义,FL(k_i, gamma_i) = -((1 - k_i)^gamma_i) * log(k_i)。一般来说我们gamma 取 2。

    于是对于这个 batch 来说,整个 loss = sum(FL(k_i, gamma_i) * loss_i) 

    在直观上说,这个 FL,当一个任务的 KPI 接近 0 的时候会趋于无限大,使得你的 loss 完全被那个表现不好的 task 给 dominate。这样你的back prop 就会让所有的权重根据那个kpi 不好的任务调整。当一个任务表现特别好 KPI 接近 1 的时候,FL 就会是0,在整个 loss 里的比重也会变得很小。

    当然根据学习的速率不同有可能一开始学的不好的task后面反超其他task。http://svl.stanford.edu/assets/papers/guo2018focus.pdf 这篇文章里讲了如何像momentum 一样的逐渐更新 KPI。

    由于整个 loss 里现在也要对 KPI 求导,所以文章里还有一些对于 KPI 求导的推导。

    当然我们也说了,KPI 接近 0 时,Loss 会变得很大,所以一开始训练的时候不要用focal loss,要确保网络的权重更新到一定时候再加入 focal loss。 

    希望大家训练愉快。

    下载1:OpenCV-Contrib扩展模块中文版教程

    在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

    下载2:Python视觉实战项目52讲

    在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

    下载3:OpenCV实战项目20讲

    在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

    交流群

    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

    6a4ee06714d2116cdec610518bc30d6e.png

    4903ae7767d6bca9343d8c3a4b850c10.png

    更多相关内容
  • 联邦学习这件小事

    2021-03-26 14:30:29
    计算机学院的学生小A意图使用大数据及人工智能的相关技术完成自己的一个课题《大学生男生生活费消费行为的偏好分析》,然而苦于数据量不够,便寄希望于身边的朋友以及学校的广大男性同学,原本以为是一轻而易举的...

    背 景
    计算机学院的学生小A意图使用大数据及人工智能的相关技术完成自己的一个课题《大学生男生生活费消费行为的偏好分析》,然而苦于数据量不够,便寄希望于身边的朋友以及学校的广大男性同学,原本以为是一件轻而易举的事,然而…
    在这里插入图片描述

    由于个人隐私易泄露,数据交易难定价,合作者激励制度不健全,以及恶意提供无用或者虚假数据等问题,收集真实且有价值的的数据远比想象中难。

    而近两年来,“联邦学习”被学术界和工业界经常提及,联邦学习究竟是什么,为何能解决以上问题,我们从它的前世今生开始慢慢揭开面纱。

    ▲ 人工智能(AI)是什么

    人工智能是人为制造出来的智能,可以让机器“智能”地完成一些通常认为只能由人来完成的简单工作。其研究目的是促使智能机器会“听”(语音识别、机器翻译等)、会“看”(图像识别、文字识别等)、会“说”(语音合成、人机对话等)、会“思考”(人机对弈、定理证明等)、会“学习”(机器学习、知识表示等)、会“行动”(机器人、自动驾驶汽车等)。

    自1956年人工智能的概念被提出至今,有了飞速的发展。从早期的电子游戏AI(娱乐)等,到现阶段的智能家居(室内生活)、围棋新星阿尔法狗(竞技运动)等,到未来的无人驾驶工具(交通运输)以及毁天灭地的终结者(战争)都是人工智能应用的产物。

    人工智能已经改变了我们的生活,从遥不可及的实验室科技转变成为我们身边随处可见的工具,甚至改变世界的重要伙伴。人工智能中的“学习”能力是人工智能发展的核心,方法也层出不穷,机器学习、深度学习、强化学习……可以统称为机器学习。发展至今,我们也逐渐发现了制约机器学习和人工智能进一步发展的瓶颈。

    ▲ 机器学习的瓶颈

    1. 算法瓶颈

    目前的机器学习存在着鲁棒性较差以及算法的不可解释性两大问题。

    虽然人工智能领域依靠深度学习在图像识别上取得了巨大的突破,然而在加入“噪声”后将图片内容完全识别错误的“人工智障”行为依旧屡见不鲜;其次,在引入神经网络的机器学习中,“黑盒子”状态的算法虽然提升了算法的效果,但因缺乏严格的数学理论证明以及算法的解释性,从而一直为学业界的人士所诟病。

    1. 数据瓶颈

    2.1 数据需求量大

    计算能力和计算成本是首当其冲需解决的问题,而一个好的机器学习算法背后,是大量数据多轮次的重复性计算的结果,需要大量算力成本。

    2.2 数据供给稀缺

    云计算、AI技术发展至今,我们发现制约AI应用落地的是没有足够的数据支撑算法的训练和验证。巧妇难为无米之炊,缺少数据的机器学习算法犹如空油的F1赛车,无法施展它最强的性能。

    联邦学习的前世今生

    ▲ 数据隐私问题

    数据是机器学习的原油,伴随机器学习的兴起和大数据的浪潮,数据的收集成为业内的产业之一。因为产业的暴利和法制的不健全,用户的信息被大肆的爬取、收集、贩卖,导致很长一段时间我们的生活不堪其扰。

    APP上的信息爬取,电话与身份信息泄露让我们总是能接收到各种广告推销电话。更有甚者,“裸贷”风波和Facebook用户信息泄露,让大众在信息化时代对于个人信息安全更加谨慎小心。2018年的欧洲隐私和数据保护法案GDPR的出台虽然一定程度上保障信息隐私安全并规范了数据收集方式,但无形中加剧了优质数据整合的难度,对机器学习与人工智能领域都是一次重大的挑战。

    ▲ 联邦学习的前世
    伴随着以上涉及到的问题,Google公司早在2016年提出联邦学习的概念,这一概念原本用于解决安卓手机终端用户在本地更新模型的问题,具体如下:

    在这里插入图片描述

    Step1. 手机下载现有模型;

    Step2. 用手机的本地数据来训练模型;

    Step3. 训练好后,迭代更新,并将更新的额内容加密上传到云端;

    Step4. 与其它用户的更新进行整合,作为对共享模型的改进;

    Step5. 该过程不断重复,改进后的共享模型也会不断地被下载到本地。

    值得注意的是,在执行的过程中有两个特别的点:

    每个设备端在更新己方模型时都是依赖于自己数据的个性化更新;

    该场景中的共享模型可能不是完整的机器学习模型/神经网络模型,可能是经过压缩的模型。

    ▲ 联邦学习的今生

    联邦学习的正式诞生是在2017年,Google的AI blog中提出的一种分布式机器学习框架,目标是在保证数据隐私安全及合法合规的基础上,实现多方共同建模,并提升AI模型的效果。当完成训练后,根据联邦学习特有的激励机制,会给予所有的参与方一定的激励作为共同参与训练的奖励。随后以杨强教授为首的团队进一步推进联邦学习框架,直至我们现在所看的样子。

    联邦学习的分类

    ▲ 联邦学习的精髓

    国际人工智能联合会主席杨强教授曾经举过一个联邦学习的例子:

    我们每个人的大脑里都有数据,当两个人在一起做作业或者一起写书的时候,我们并没有把两个脑袋物理性合在一起,而是两个人用语言交流。所以我们写书的时候,一个人写一部分,通过语言的交流最后把合作的文章或者书写出来。

    我们交流的是参数,在交流参数的过程中有没有办法保护我们大脑里的隐私呢?是有办法的,这个办法是让不同的机构互相之间传递加密后的参数,以建立共享的模型,数据可以不出本地。

    故而,在本地数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方对共享模型的机器学习训练,便是联邦学习的精髓所在。

    ▲ 横向联邦学习

    在这里插入图片描述

    横向联邦学习是指,在不同数据集之间数据特征重叠较多而用户重叠较少的情况下,按照用户维度对数据集进行切分,并取出双方数据特征相同而用户不完全相同的那部分数据进行训练。

    横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多、用户重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同)。

    ▲ 纵向联邦学习

    在这里插入图片描述

    纵向联邦学习是指,在不同数据集之间用户重叠较多而数据特征重叠较少的情况下, 按照数据特征维度对数据集进行切分,并取出双方针对相同用户而数据特征不完全相同的那部分数据进行训练。

    纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。

    ▲ 迁移联邦学习

    在这里插入图片描述

    联邦迁移学习是指,在多个数据集的用户与数据特征重叠都较少的情况下,不对数据进行切分,而是利用迁移学习来克服数据或标签不足的情况。

    当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和商场间的联合。主要适用于以深度神经网络为基模型的场景

    小结

    本次带大家走进“联邦学习的大门”,简要介绍了联邦学习的「前世今生」及「不同分类」,下一篇将会详细讲解「不同分类下的联邦学习」,敬请期待!

    关于联邦学习的技术,有什么不知道想了解的、了解了但不理解的,请多多关注本系列文章,随时后台留言或添加小助手桔子(微信:18458407117)备注“联邦学习”加入技术交流群,带你入门到升级,一一攻破!

    作者简介

    严杨

    来自数据网格实验室BitXMesh团队
    PirvAIの修道者

    展开全文
  • 深度学习这件小事 机器学习,深度学习,自然语言处理,计算机视觉……这些小事情,只要你主动,我们就有可能|?ω?`) 按上图,弹出“识别二维码”后关注 Datawhale 是一个专注于AI领域的开源组织,2019年被评为
  • 点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 来自 | 知乎 作者 | 蒋路 链接 | https://www.zhihu.com/people/roadjiang/posts 编辑 | 深度学习这件小事公众号 本文仅作学术交流,如有侵权,请联系后台...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    来自 | 知乎   作者 | 蒋路

    链接 | https://www.zhihu.com/people/roadjiang/posts

    编辑 | 深度学习这件小事公众号

    本文仅作学术交流,如有侵权,请联系后台删除。

    孔子云:“性能不够,数据来凑”。可是如果数据中有噪声标签(Noisy Labels)怎么办?本文借鉴Google AI的最新工作[1]来回答这个问题。

    以下我们尽量避免使用专业术语,希望对非专业的读者也会有所帮助。

    深度神经网络的成功依赖于高质量标记的训练数据。训练数据中存在标记错误(标记噪声,即Noisy Labels)会大大降低[2]模型在干净测试数据上的准确性[3]。不幸的是,大型数据集几乎总是包含带有不正确或不准确的标签。这导致了一个悖论:一方面,大型数据集对于深度网络的训练是非常必要的,而另一方面,深度网络往往会记住训练标签噪声,从而在实践中导致较差的模型性能。

    学界已经意识到这个问题的重要性,一直在试图理解理解标签噪声,和发明新的鲁棒学习方法来克服它们。在这个过程中,受控实验[4]扮演着至关重要的角色。好比研发一种新的药物,我们需要受控实验来对影响实验结果的无关因素加以控制。在本问题里,最重要的是研究不同的噪声水平(即数据集中带有错误标签的样本的百分比)对模型性能的影响。但是,当前的受控实验仅局限在人工合成噪声,而不是真实的噪声。与实际经验相比,人工合成噪音会导致研究结果大相径庭。来看一个例子:“神经网络是否对于人工噪音数据敏感?”,前人给出了截然相反的答案:

    ”Deep neural networks easily fit random labels” (Zhang et al. 2017)

    VS

    “Deep learning is robust to massive label noise” (Rolnick et al. 2017)


    更重要的是,我们发现:在人工噪声上表现良好的方法,在现实世界的噪声数据集上效果可能并不理想。

    在ICML 2020上发布的“Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels”中,我们做出了三点贡献。首先,我们建立了第一个受控的噪声数据集,一个来自真实世界的标签噪声(即Web标签噪声)[2]。其次,我们提出了一种简单而有效的方法来克服真实和人工行合成的噪声标签。最后,我们进行了迄今为止最大的实验,比较了人工和真实噪声在各种训练环境下的区别。

       人工合成标签噪声与真实标签噪声的区别:

    人工噪声与真实标签噪声的分布之间存在许多差异,以图像举例:

    1. 首先,带有真实标签噪声的图像在视觉或语义上与干净的正样本更加一致。

    2. 其次,人工标签噪声处于类级别(即同一类中的所有样本均同样嘈杂),而现实世界中的标签噪声处于实例级(与相关类无关,某些图片会比其他图片更有可能被错误标注)。例如,“本田思域”和“本田雅阁”的侧面图片会比正面拍摄的图片更容易混淆。

    3. 第三,带有真实标签噪声的图像来自开放的词汇,这些词汇可能不会与特定数据集的类词汇重叠。例如,“ ladybug”的噪声图像包括诸如“ fly”之类的图片,然而”fly"很可能是一个background class,也就是并不是我们训练集合定义的class的一部分。

    基于以上原因,一个受控标签噪声的数据集将有助于更好地定量研究人工合成和实际标签噪声之间的差异。

    人工合成标签噪音和Web标签噪音的比较。从左到右的列是Mini-ImageNet或Stanford Cars数据集中的真实睁眼本,带有人工合噪声的图像,以及带有错误Web标签的图像(在本文中收集)。

    为了区分,我们用红色噪声来指代Web标签噪声,而用蓝色噪声来指代人工合成标签噪声 (见黑客帝国中的红色和蓝色药丸)

       Web上受控标签噪声

    “如果选择蓝色药丸– 故事就此结束,你在自己床上醒来,继续相信你愿意相信的一切。如果你吃下红色药丸– 你将留在奇境,我会让你看看兔子洞究竟有多深。” (黑客帝国 1999)

    我们提出的Web噪声数据集合建立在两个公共数据集上:Mini-ImageNet(用于粗粒度图像分类)和Stanford Cars(用于细粒度图像分类)。遵循人工合成数据集的构建方法,我们逐渐将这些数据集中的干净图像替换为从网络上收集的标签错误的图像。

    为此,我们使用类名(例如“ ladybug”)作为关键字从网络上收集图像,这是一种自动方法来收集Web上带有噪声标签的图像,完全无需人工注释。然后,我们使用Google Cloud Labeling Service的标注人员检查每个检索到的图像,这些标注人员将识别给定的Web标签是否正确。我们使用带有错误标签的Web图像来替换原始Mini-ImageNet和Stanford Cars数据集中的一定比例的干净训练图像。我们创建了10个不同的数据集,它们的标签噪声逐渐升高(从0%的完全干净数据,到80%的带有错误标签的数据)。数据集已在我们的“ 受控噪声网络标签”网站上开源。

       MentorMix:一种简单的鲁棒学习方法

    给定一个含有未知噪声的数据集,我们的目标是训练一个鲁棒的模型,该模型可以很好地推广到干净的测试数据上。我们介绍了一种简单有效的方法来处理噪声标签,称为MentorMix,该方法是在本文提出的数据集上开发得到的。

    MentorMix是一种基于MentorNet和Mixup两种现有技术的迭代方法,包括四个步骤:加权,抽样,混合和再加权。第一步,通过MentorNet网络在mini-batch中为每个样本计算权重,并将权重normalize为分布。在此处的示例中,MentorNet使用StudentNet训练loss来确定分布中的权重。

    MentorMix方法的四个步骤的图示:加权,采样,混合和再加权。

    接下来,对于每个样本,我们使用重要性采样根据分布在同一个mini-batch中选择另一个样本。由于权重较高的样本往往带有正确的标签,因此在采样过程中会受到青睐。然后,我们使用Mixup混合原始样本和采样得到的样本,以便模型在两者之间进行插值,并避免过度拟合噪声。最后,我们可以为混合的样本计算一个新的权重,来计算最终的example loss。对于高噪声水平,上述二次加权的影响变得更加明显。

    上面的动画演示了MentorMix中的四个关键步骤,其中StudentNet是要在噪声标签数据上进行训练的模型。正如Jiang等人所述,我们采用了非常简单的MentorNet版本,以计算每个样本的权重。

       模型性能

    我们在五个数据集上验证了MentorMix的有效性。其中WebVision 1.0是一个包含有现实噪声标签的220万张图像的大型数据集。MentorMix在WebVision数据集上获得最佳的结果,就ImageNet ILSVRC12验证集的top-1分类准确性而言,将以前的最佳方法提高了约3%。

       Web噪声标签的新发现

    这项工作代表了迄今为止最大的研究,目的是了解在噪声标签上训练的深度神经网络。我们提出了三个有关Web标签噪声的新发现:

    • 深度神经网络可以更好地泛化在Web标签噪声

    • 在神经网络标签噪声上,深度神经网络可能不会率先学习模式 (Learning the early patterns first)

    • 当神经网络在噪声数据上微调时,更先进的ImageNet架构会在带有噪声的训练数据集上表现的更好。

    基于我们的发现,我们有以下针对在噪声数据上训练深度神经网络的实用建议:

    1. 处理噪声标签的一种简单方法是fine-tune在干净的数据集(如ImageNet)上预训练的模型。预训练的模型越好,则可以更好地推广到下游含有噪声的训练任务上。

    2. 提前停止 (Early Stopping)可能对网络上的实际的标签噪音无效。

    3. 在人工噪声上表现良好的方法,在现实世界的噪声数据集上效果可能并不理想

    4. Web标签噪声似乎危害较小,但是对于我们当前的robust Learning的学习方法而言,解决起来却更加困难。这个发现鼓励更多的未来研究。

    5. 建议的MentorMix可以更好地克服人工合成和现实噪音标签。

    MentorMix的代码可在GitHub上获得,数据集在我们的数据集网站上,链接如下:

    GitHub:https://github.com/google-research/google-research/tree/master/mentormix

    数据集:https://google.github.io/controlled-noisy-web-labels/index.html

    更多资源:http://www.lujiang.info/cnlw.html

    参考

    ^这两种观点或许都是对的。不同的结论来自于不同的人工噪声设置。

    ^以下我们以来自网络的噪声标签来举例说明真实标签噪声。虽然真实噪声不仅包含网络标签,然而网络标签是最常见的一种真实噪声。

    本文仅做学术分享,如有侵权,请联系删文。

    下载1

    在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

    下载2

    在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

    下载3

    在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

    一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 来自|知乎 整理|深度学习技术前沿 深度学习这件小事【导读】本文结合总结梳理了知乎上“引用次数在15000次以上的都是什么论文?”一问题的经典回答,希望能帮助到各位进一步了解领域内的...

    来自|知乎  整理|深度学习技术前沿  深度学习这件小事

    【导读】本文结合总结梳理了知乎上“引用次数在15000次以上的都是什么论文?”这一问题的经典回答,希望能帮助到各位进一步了解领域内的相关进展。并且通过阅读这些经典论文或许也会给您带来不少启发。

    作者:小牧牧

    https://www.zhihu.com/question/433702668/answer/1617092684

    1. 机器学习领域

    我来列举一些机器学习(Machine Learning)领域的高被引文章。

    机器学习领域泰斗级学者Geoffrey Hinton的文章引用:

    引用次数超过15000次文章有6篇。

    1. ImageNet Classification with Deep Convolutional Neural Networks,引用75231次(AlexNet,点燃了深度学习的热潮,因此2012年被认为是深度学习元年,当然要十分感谢ImageNet和GPU的加持);

    2. Learning internal representations by error-propagation & Learning representations by back-propagating errors,引用50716次(BP算法,殿堂级别的成果,几乎所有关于神经网络的文章都会用到BP算法);

    3. Deep learning,引用33222次(“三巨头”关于深度学习的综述文章);

    4. Dropout: a simple way to prevent neural networks from overfitting,引用24452次(Dropout是一种防止深度学习模型过拟合的正则化方法,目前已被Google申请专利,面对封锁,华为诺亚实验室开源了Disout算法,直接对标Google的Dropout);

    5. Visualizing data using t-SNE,引用16957次(t-SNE是一种流形学习方法,用于数据降维和可视化)。

    Geoffrey Hinton谷歌学术引用次数


    在机器学习领域还有一个泰斗级的人物Jürgen Schmidhuber,他的一篇文章Long short-term memory目前的引用量是40934次,是深度学习-循环神经网络(Recurrent Neural Network, RNN)中的重要成果。但是LeCun Y,Bengio Y和Hinton G在2015年发表在Nature上的文章Deep learning作者中没有Jürgen Schmidhuber,不过Schmidhuber在2015也发表了一篇关于深度学习的综述文章Deep learning in neural networks: An overview,目前的引用量是10917。后来,“三巨头“获得了2018年的“图灵奖”,Schmidhuber和“三巨头“在网络上因为“成果引用”和“成果认定”发生了大量的口水战,这些都是后话了。


    机器学习领域还有一些重要的成果,对应的文章也有不俗的引用量。比如:

    • 一直被对比,从未被超越的Adam,目前的引用量是60604次;

    • 使神经网络训练更快、更稳定的Batch normalization,目前的引用量是22986次;

    • 避免深层网络训练时梯度消失或梯度爆炸的激活函数—线性整流函数ReLU(Rectified linear units improve restricted boltzmann machines),目前的引用量是11548次。

    • Zisserman在2014年发表的关于VGGNet的文章Very deep convolutional networks for large-scale image recognition,目前的引用量是48691次。Google在2015年发表的关于GoogLeNet的文章Going deeper with convolutions,目前的引用量是26353次。何凯明2016年的文章Deep residual learning for image recognition,提出的多达152层ResNet,目前的引用量是63253次。2016年提出的用于目标检测的Faster R-CNN,目前的引用量是24215次。

    女神李飞飞构建的ImageNet是计算机视觉(Computer vision)领域非常著名的大型数据集,关于ImageNet的论文ImageNet: A large-scale hierarchical image database发表时间是2009年,目前的引用量是23395次,AlexNet就是在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上一举成名,自此点燃了深度学习的热潮,可见大规模数据对于深度学习的重要性。

    经常被调侃“Money(GPU) Is All You Need”的文章Attention Is All You Need目前的引用量是15410次,这篇文章提出的Transformer是自然语言处理(NLP)领域的重要成果,它的出现迅速取代了LSTM在NLP领域的霸主地位,像BERT、GPT这样的SOTA模型均采用Transformer。NLP领域的另一个重量级成果是word2vec,作者是来自Google的Tomas Mikolov,关于word2vec的两篇文章Distributed representations of words and phrases and their compositionalityEfficient estimation of word representations in vector space目前的引用量分别是24323次和19220次(感谢@ccking的提醒),其实我一直觉得NLP比图像处理问题复杂的多,最让人头疼的莫过于如何将语言数字化,我对此的了解仅限于One-hot encoding,实在是太难了。

    谷歌大神Ian Goodfellow的关于GAN的文章Generative adversarial nets目前的引用量是25592次,关于GAN究竟是谁提出来的我就不得而知了,但是Schmidhuber在这个问题上肯定有很多话要说,至于Schmidhuber究竟说了些啥,参见:郑华滨:从PM到GAN——LSTM之父Schmidhuber横跨22年的怨念(文字版)。

    Hinton老爷子在2006年提出的深度置信网络(DBN)被普遍认为是深度学习的前夕,关于DBN的两篇文章A fast learning algorithm for deep belief netsReducing the dimensionality of data with neural networks的引用量分别是14370次和13659次,DBN是Hinton老爷子最引以为傲的成果,它是一种由多个限制玻尔兹曼机(RBM)堆栈而成的概率生成模型,是最初训练深度网络的一种方法,尽管目前深度学习模型不再需要这种预训练,但它的思想仍然影响着当前的研究工作。

    2. 计算机视觉领域

    这里重点盘点一下AI领域,特别是CV方向的论文。

    值得说一下,自从2012年,特别是2014年后,AI领域再度火爆,延续至今,很多优秀论文(特别是基于深度学习)也是发表在这个期间,引用量也迅速爆炸。

    • 注:下面会边介绍作者,边介绍论文,侧重点有点不同。


    计算机视觉领域引用量1.5万+的论文

    Andrew Zisserman(传闻欧洲计算机视觉第一人)

    第一篇引用量近5万的是:深度学习时代的经典backbone模型VGG:Very deep convolutional networks for large-scale image recognition

    第二篇引用量近3万,这其实是一本书《Multiple view geometry in computer vision》,可称为深度学习时代前的CV必读之作(现在其实也强推,但不少新入坑CV的人,直接跳过这些基础知识,去玩CNN了)

    Jitendra Malik

    加州大学伯克利分校的电子工程与计算机科学系(EECS)教授 Jitendra Malik获颁 2019 年 IEEE 计算机先驱奖。

    第一篇引用量近4万,算是12年之前人工智能最经典的书籍,内容覆盖范围相当之广。不过Jitendra Malik并非一二作,所以搜索该书的时候,不容易看到他的名字。

    第二篇引用量近1.7万,基于传统方法的图像分割代表作!

    下面说说深度学习三巨头(Hinton、Bengio和LeCun)

    Geoffrey Hinton

    Hinton老爷子的代表作太多了,1.5万+引用量的论文见下图(6篇)。比如

    第一篇引用量7.5万+,发表于2012年的AlexNet!永远滴神!

    第二篇引用量3.3万+,是为了纪念人工智能60周年,深度学习三巨头合作在Nature上发表深度学习的综述性文章:Deep Learning

    还有4篇破1.5万引用量的论文,这里不赘述,膜拜即可!

    Yoshua Bengio

    Bengio教授的代表作也太多了,1.5万+引用量的论文见下图(5篇)。比如:

    第一篇上面说过了,是深度学习三巨头合著的。

    第二篇引用量3万+,这是和LeCun提出了当时风靡一时的字符识别器(当时就是典型落地应用)

    第三篇引用量2.5万+,这是和Goodfellow提出了鼎鼎大名的GAN!

    第四篇引用量2万+,这是和Goodfellow发布了深度学习时代的"圣经"书籍:Deep Learning,国内不少人又称为花书。

    Yann LeCun

    LeCun大佬的两篇破1.5万的工作,上面已经介绍了。

    Luc Van Gool

    Luc Van Gool 苏黎世联邦理工学院教授,据了解,有若干中国学生曾师从于他。

    这篇近3万引用量就是非常著名的SURF算法

    上面提到SURF算法,就不得不提SIFT算法。

    David Lowe

    SIFT算法引用量近6万!其是手工特征时代的最具代表性工作!SURF、ORB在它面前都是弟弟,截止目前SIFT仍被广泛应用,相当能打!

    Trevor Darrell

    第一篇引用量近2万,鼎鼎大名的基于FCN的语义分割网络!

    第二篇引用量1.5万+,鼎鼎大名的R-CNN目标检测网络。

    李飞飞(Li Fei-Fei)

    李飞飞女神,创建了ImageNet数据集和相关赛事~ 影响力巨大

    上述主要是AI、CV领域的大前辈(年龄基本40+),这里重点介绍几位"新秀":

    何恺明(Kaiming He)

    做CV的应该都听过何恺明,有鼎鼎大名的ResNet、Faster R-CNN、Mask R-CNN、Focal Loss、FPN和近期的MoCo等工作。

    第一篇是目前CV主流使用的backbone:ResNet,永远滴神!

    第二篇是目标检测领域代表性网络:Faster R-CNN

    估计17年发表的Mask R-CNN 也快破1.5万引用量了

    Ross Girshick

    他与何恺明算是合作搭档,都在FAIR工作,有不少合作的工作。

    有鼎鼎大名的R-CNN系列工作,合作的有Caffe、Mask R-CNN、Focal Loss、FPN和YOLO等工作。

    Ian Goodfellow

    GAN 之父!下面三个工作都是目前顶级活跃的,比如GAN、Deep Learning书籍和TensorFlow框架

    任少卿(Shaoqing Ren)

    Faster R-CNN一作!貌似现在不做研究了,主要在企业(目前在蔚来)担任技术主管/副总裁。

    其实CV领域还有很多超1.5万的论文,限于篇幅这里就不一一盘点:

    作者:BeyondSelf

    https://www.zhihu.com/question/433702668/answer/1624083551

    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    我梳理一下通信和图像处理方面,读过的一些经典的,超过15000引用的论文.

    1. A Mathematical theory of communication

    引用次数:78680

    评价:开创了信息论,直接奠定了通信的发展,大名鼎鼎的香农三定理和熵的概念就是在这篇文章中提出的。没有它,就没有WiFi和5G,也没有我们刷着知乎听着歌

    2. A combined coerner and edge detector

    引用次数:18167

    评价:提出了角点特征,能够检测图片中的角点、边缘和图片。是图像特征提取的代表作,是图像分割、匹配等的基础。

    3. Distinctive image features from scale-invariant keypoints

    引用次数:59561

    评价:大名鼎鼎的SIFT特征,具有尺度、方向、仿射不变性,和上一篇论文的Haris特征一起,成为图像特征提取的两个最重要技术。

    4. Object recognition from local scale-invariant features

    引用次数:20100

    评价:David Lowe的另一篇文章,说的是利用尺度不变特征来进行目标识别

    5. Compressed Sensing

    引用次数:27557

    评价:压缩感知的代表作之一,将采样和压缩过程结合起来同时进行,直接对信号的稀疏性进行感知。

    6. Robust Uncertainty Principles: Exact Signal Reconstruction From Highly Incomplete Frequency Information

    引用次数:16700

    评价:压缩感知的另一篇代表作

    7.  A new approach to linear filtering and prediction problems

    引用次数:35070

    评价:提出了著名的卡尔曼滤波。如果你没听说过卡尔曼滤波不要仅,但你一定点过外卖,打过滴滴,甚至美国阿波罗号上天也用过它,根据测量值和状态方程修正真实值,就是它干的事情,

    8. A computational approach to edge detection

    引用次数:35942

    评价:边缘检测的另一篇代表作

    9. Gradient-based learning applied to document recognition

    引用次数:32192

    评价:LeCun的经典论文,做过机器学习的都知道,没做过机器学习的也一般听说过MNIST数据集

    作者:远处群山

    https://www.zhihu.com/question/433702668/answer/1622573162

    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    引用一万五千次以上的论文相当罕见,基本上都属于开山之作,开创了某个中等或者大领域的作品。也可以说是养活了很多人的作品...

    现在深度学习的论文里15000次引用的挺多的,看到也有其他答主总结了,我就重点说下信号处理和图像处理的经典论文,

    压缩感知的两篇开山之作:

    • Donoho D L. Compressed sensing[J]. IEEE Transactions on information theory, 2006, 52(4): 1289-1306. 27000次引用

    • Candès E J, Romberg J, Tao T. Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information[J]. IEEE Transactions on information theory, 2006, 52(2): 489-509. 16000次引用

    统计学习里大名鼎鼎的LASSO:

    • Tibshirani R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58(1): 267-288. 引用35000次

    统计学习的圣典:

    • Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.

    图像分割的开山之作normalized cut:

    • Shi J, Malik J. Normalized cuts and image segmentation[J]. IEEE Transactions on pattern analysis and machine intelligence, 2000, 22(8): 888-905. 引用16000次

    同样来自Malik老师的图像去噪神作——扩散滤波,威名赫赫的Perona-Malik模型,多少PDE-based image processing methods就是源自这里:

    • Perona P, Malik J. Scale-space and edge detection using anisotropic diffusion[J]. IEEE Transactions on pattern analysis and machine intelligence, 1990, 12(7): 629-639. 引用15000次

    图像去噪的又一神作,超级经典的全变差模型:

    • Rudin L I, Osher S, Fatemi E. Nonlinear total variation based noise removal algorithms[J]. Physica D: nonlinear phenomena, 1992, 60(1-4): 259-268. 引用15000次

    无比经典的SIFT图像特征检测以及方向梯度直方图(HOG)模型,做图像处理的应该没有不知道这两个的:

    • Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110. 58000次引用

    • Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05). IEEE, 2005, 1: 886-893. 32000次引用

    做图像恢复的人肯定都知道SSIM这个指标,出自这篇文章:

    • Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE transactions on image processing, 2004, 13(4): 600-612. 引用27000

    大家还知道哪些引用率超高的重量级文章呢?欢迎在留言区讨论!

    往期精彩回顾
    
    
    
    适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
    AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
    本站qq群851320808,加入微信群请扫码:
    
    
    展开全文
  • 来源:深度学习这件小事 本文约2500字,建议阅读5分钟本文介绍使图像分割的方法,包括传统方法和深度学习方法,以及应用场景。 基于人工智能和深度学习方法的现代计算机视觉技术在过去10...
  • 深度学习并非万能:你需要避免三个坑   https://mp.weixin.qq.com/s/ocehuXIh4w_6R545gCJOdA   作者:George Seif   编译:专知,小事 整理:Mandy, Sanglei, Simy   【导读】本文是人工智能专家...
  • 编辑 | 深度学习这件小事公众号 本文仅作学术交流,如有侵权,请联系后台删除 引言 ========= === 近年以来,随着深度学习在图像识别领域取得巨大突破(以AI之父Geoffry Hinton在2012年提出的高精度AlexNet图像识别...
  • 深度学习相关

    2021-12-20 15:46:18
    深度学习的发生,到底需要如何做到,不深度学习的发生,又会如何产生。 带着这些问题,我们来审视一下深度学习。 所谓深度学习,关键是深度学习需要如何写。 生活中,若深度学习出现了,我们就不得不考虑它出现了的...
  • 30、训练神经网络 深度学习一方面需要激活函数实现神经网络去线性化,另一方面需要更多个隐层使得神经网络更深,以解决复杂问题。使用指数衰减学习率和正则化来避免过拟合,使用滑动平均模型使最终模型更健壮。 ...
  • 芯片内存比移动设备小3个数量级,比云GPU小5-6个数量级,使得深度学习部署极其困难。 如表1所示,最先进的ARM Cortex-M7 MCU只有320kB SRAM和1MB闪存,不可能运行现成的深度学习模型:ResNet-50[21]超出存储限制...
  • 点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自:深度学习这件小事第零阶段:看分割看不懂个阶段典型表现是,对于梯度下降,交叉熵损失,激...
  • 望赐教 4、增加训练样本 有的时候参数过多,训练样本不够,这样就会导致待测参数的不准确,使得性能不够 5、利用2片GPU进行加速 三、AlexNet的效果 四、AlexNet中的参数 参数个数可参考:《机器学习——深度学习之...
  • 基于深度学习的计算机视觉 - 垃圾分类(附源码)

    万次阅读 多人点赞 2019-11-03 18:28:59
    基于深度学习的计算机视觉 - 垃圾分类(附源码) 1. 实验介绍 1.1 实验背景 自今年 7 月 1 日起,上海市将正式实施 《上海市生活垃圾管理条例》。 垃圾分类,看似是微不足道的“小事”,实则关系到13亿多人生活环境...
  • 小赵讲堂系列1-特征工程这件小事

    千次阅读 热门讨论 2020-11-06 10:09:07
    我们做算法的,一定不能成为调包侠,我们每做一个操作,每写一段代码都要知道为什么要写段代码,最终要使模型的预测效果可解释,故有此篇。刷了三遍百面机器学习的总结和日常见到的一些小问题,加入了自己的理解,...
  • 很多有关深度学习的微信公众号也会推送很多干货,比如AI有道,磐创AI,深度学习与NLP,深度学习这件小事,CVer,深度学习自然语言处理等等。 对于想做研究的人来说,阅读与深度学习有关的经典论文也是必要的,...
  • 基于深度学习的计算机视觉 - 垃圾分类(附源码) 1. 实验介绍 1.1 实验背景 自今年 7 月 1 日起,上海市将正式实施 《上海市生活垃圾管理条例》。 垃圾分类,看似是微不足道的“小事”,实则关系到13亿多人生活环境...
  • 编辑 | 深度学习这件小事公众号 本文仅作学术交流,如有侵权,请联系后台删除。 两天发现了一篇宝藏paper,2019年CVPR中的一篇Bag of Tricks for Image Classification with Convolutional Neural Networks。篇...
  • 随着AI应用程序和深度学习算法的成熟,许多组织正在制定计划,以弄清楚它们将如何从数据中提取差异化竞争优势。 事实上,在过去的5-10年里,许多公司都在收集数据,因为他们知道有一天他们可能需要这些数据,但却...
  • 点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自:机器学习算法那些小事最近在做笔记查阅内容,觉得个总结太美观了,真是棒!吴恩达在推特上展...
  • 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事'获取更多AI方向机器学习资源干货 我们的学习笔记(涉及算法,机器学习,深度学习,NLP等方向) 一,算法方向 1,算法与人生 为你学习机器学习开头指引明
  • 阅读大概需要8分钟 跟随小博主,每天进步一丢丢 来自 | 知乎 作者 | 糯米稻谷 地址 | https://zhuanlan.zhihu.com/p/100252944 编辑 | 深度学习这件小事公众号 本文仅作学术分享,如有侵权,请联系后台删除 临近...
  • csdn: ... github: ... 1.视频资源 ...网易云课堂可以搜到、course上也可以,不过需要收费,1个月50刀左右 ...不带答案版:关注微信公众号“计算机视觉这件小事”,也可扫描下方二维码...吴恩达深度学习作业 即可获得。
  • 谈谈实习这件小事

    2019-10-17 12:00:00
    ...深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书 备注:加入本站微信群或者qq群,请回复“ 加群 ” 加入知识星球(4100+用户,ID: 92416895),请回复 “ 知识星球 ”
  • 最近想玩一玩深度学习,需要训练一些 yolo 之类的网络进行对象检测,苦于我的本子没有独显又没有实验室的机器给用,想起之前看到的 google 提供免费 GPU 用来学习的消息,就尝试一下。 利用Jupyter Notebook测试...
  • 阅读大概需要17分钟 跟随小博主,每天进步一丢丢 来自 | 知乎 作者 | 小锋子Shawn 地址 | https://zhuanlan.zhihu.com/p/93287223 编辑 | 深度学习这件小事公众号 本文仅作学术分享,如有侵权,请联系后台删除 ...
  • 谈谈坚持这件小事

    2019-08-07 14:31:00
     我回想了下除了坚持呼吸坚持吃饭这种事以外,上次坚持做一事这么久还是在博客园坚持周更一篇深度学习的原创技术文章,还起了一个标题「三个月入门深度学习」    当时之所以要更新个系列,也是因为在...
  • 不做旁观者,不拒绝身边的任何小事。 欢迎加微信:lp9628。 因为相信所以遇见,有时候你我相遇不一定是巧合。 01 - 01 - 02 - 03 - 该部分包含基础的语法和代码,可以快读上手,并且可根据自己的需求自行查看需要...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,318
精华内容 1,327
热门标签
关键字:

深度学习这件小事