精华内容
下载资源
问答
  • 深度学习autocode论文整理深度学习autocode论文整理深度学习autocode论文整理
  • 深度学习重要论文

    2018-04-21 13:26:01
    该包包含了alextnet,googlelenet, resnet等重要深度学习框架的论文以及涉及深度学习中解决梯度、优化等问题的经典论文
  • 本套文档是深度学习入门的一些论文整合,非常适合刚刚接触到深度学习的同学。
  • 深度学习论文:按任务,日期排序的深度学习论文。 标记了当前最新的论文
  • 深度学习博士论文

    2019-03-02 23:48:53
    资源为国外 深度学习 方向的博士论文,是供深度学习,机器学习等专业人士的良好借鉴。
  • 词向量论文深度学习论文fasttext词向量论文深度学习论文fasttext词向量论文深度学习论文fasttext词向量论文深度学习论文fasttext
  • 深度学习相关论文

    2018-12-07 20:07:31
    本资源内容是关于人工智能中深度学习方面的论文,对于有志于向人工智能方向发展的人提供一些前沿的论文,对于大家深入了解学习深度学习有很大帮助。
  • 深度学习应用论文

    2019-05-19 17:32:25
    深度学习应用实例,在隧道灾害中的识别应用。2019-Sewer damage detection from imbalanced CCTV inspection data using deep convolutional neural networks with hierarchical classification
  • google_AlphaGo深度学习算法论文
  • 深度学习经典论文与开源项目实战

    千人学习 2020-03-25 14:12:50
    购买课程后,添加小助手微信(微信号:csdnxy68)回复【唐宇迪】 进入学习群,获取唐宇迪老师答疑 深度学习经典论文解读与项目实战课程旨在帮助同学们掌握当下深度学习领域最核心论文思想及其源码实现。所选论文均是...
  • 深度学习论文笔记

    2018-02-18 11:49:16
    一篇关于深度学习论文的自我理解,包括摘要的摘抄以及论文方法
  • 深度学习论文集百篇

    2018-05-15 16:47:43
    一百篇深度学习论文,一百篇深度学习论文,一百篇深度学习论文
  • 深度学习学科前沿论文报告,深度学习学科前沿论文报告,深度学习学科前沿论文报告
  • 深度学习IEEE最新论文,供大家学习参考。
  • 有2012年的两篇论文Building High-level Features Using Large Scale Unsupervised Learning和Large Scale Distributed Deep Networks,其中后篇较好,其中第一次提到GPU对深度学习计算进行提速,其描述的情形大致是...
  • 深度学习论文综述

    千次阅读 2017-07-24 15:02:32
    深度学习论文 论文译文: AlexNet ZFNet VGG GoogLeNet ResNet Faster R-CNN GAN 目标检测 RCNN系列简介 深度学习RCNN系列详解 RCNN论文笔记 Faster RCNN详解
    展开全文
  • 深度学习经典论文7篇

    2018-10-31 14:20:27
    LeNet ImageNet VGG Resnet Gan等论文原作。适合人工智能初学者阅读。
  • 100篇+深度学习论文合集100篇+深度学习论文合集100篇+深度学习论文合集100篇+深度学习论文合集
  • 深度学习硕博毕业论文打包.rar: 一共17篇 ,都是前沿技术。涉及到语音识别,图像识别,生物信息,智能翻译
  • 深度学习】R-CNN 论文解读及个人理解

    万次阅读 多人点赞 2018-08-24 10:04:15
    本篇论文的题目是 《Rich feature hierarchies for accurate oject detection and semantic segmentation》,翻译过来就是针对高准确度的目标检测与语义分割的多特征层级,通俗地来讲就是一个用来做目标检测和语义...

    背景

    本篇论文的题目是 《Rich feature hierarchies for accurate oject detection and semantic segmentation》,翻译过来就是针对高准确度的目标检测与语义分割的多特征层级,通俗地来讲就是一个用来做目标检测和语义分割的神经网络。

    本文作者:Ross Girshick,JeffDonahue,TrevorDarrell,Jitendra Malik。

    这篇论文发布时间是 2014 年,它具有很多比较重要的意义。

    1. 在 Pascal VOC 2012 的数据集上,能够将目标检测的验证指标 mAP 提升到 53.3%,这相对于之前最好的结果提升了整整 30%.
    2. 这篇论文证明了可以讲神经网络应用在自底向上的候选区域,这样就可以进行目标分类和目标定位。
    3. 这篇论文也带来了一个观点,那就是当你缺乏大量的标注数据时,比较好的可行的手段是,进行神经网络的迁移学习,采用在其他大型数据集训练过后的神经网络,然后在小规模特定的数据集中进行 fine-tune 微调。

    什么是目标检测

    给定一张图片可以识别出类别就是,对象识别

    在这里插入图片描述
    比如,上面的图像就需要预测物体类别为 cat。

    目标检测除了要识别类别外,还要找到他们的位置。
    在这里插入图片描述

    显然,目标检测比对象识别更难。

    R-CNN 在前人的肩膀上前行

    在过去的十多年时间里,传统的机器视觉领域,通常采用特征描述子来应对目标识别任务,这些特征描述子最常见的就是 SIFT 和 HOG.而 OpenCV 有现成的 API 可供大家实现相关的操作。

    SIFT 和 HOG 的王者地位最近被卷积神经网络撼动。

    2012 年 Krizhevsky 等人在 ImageNet 举办的 ILSVRC 目标识别挑战大赛中一战成名,豪夺当年的第一名,Top5 错误率 15%,而他们团队提出来的网络结构以他们的导师名字命名,它就是 AlexNet。

    在这里插入图片描述

    它有 5 层卷积层,2 层全连接层。

    因为 AlexNet 的出现,世人的目光重回神经网络领域,以此为契机,不断涌出各种各样的网络比如 VGG、GoogleNet、ResNet 等等。

    受 AlexNet 启发,论文作者尝试将 AlexNet 在 ImageNet 目标识别的能力泛化到 PASCAL VOC 目标检测上面来。

    但一切开始之前,需要解决两个主要的问题。

    1. 如何利用深度的神经网络去做目标的定位?
    2. 如何在一个小规模的数据集上训练能力强劲的网络模型?

    论文作者给出了思路。

    利用候选区域与 CNN 结合做目标定位

    借鉴了滑动窗口思想,R-CNN 采用对区域进行识别的方案。

    具体是:

    1. 给定一张输入图片,从图片中提取 2000 个类别独立的候选区域。
    2. 对于每个区域利用 CNN 抽取一个固定长度的特征向量。
    3. 再对每个区域利用 SVM 进行目标分类。

    下面的图像来自论文本身。

    在这里插入图片描述

    利用预训练与微调解决标注数据缺乏的问题

    采用在 ImageNet 上已经训练好的模型,然后在 PASCAL VOC 数据集上进行 fine-tune。

    因为 ImageNet 的图像高达几百万张,利用卷积神经网络充分学习浅层的特征,然后在小规模数据集做规模化训练,从而可以达到好的效果。

    现在,我们称之为迁移学习,是必不可少的一种技能。

    R-CNN 的目标识别之路

    前面内容提到过,R-CNN 系统分为 3 个阶段,反应到架构上由 3 个模块完成。

    1. 生产类别独立的候选区域,这些候选区域其中包含了 R-CNN 最终定位的结果。
    2. 神经网络去针对每个候选区域提取固定长度的特征向量。
    3. 一系列的 SVM 分类器。

    候选区域

    能够生成候选区域的方法很多,比如:

    • objectness
    • selective search
    • category-independen object proposals
    • constrained parametric min-cuts(CPMC)
    • multi-scale combinatorial grouping
    • Ciresan

    R-CNN 采用的是 Selective Search 算法。

    特征抽取

    R-CNN 抽取了一个 4096 维的特征向量,采用的是 Alexnet,基于 Caffe 进行代码开发。

    需要注意的是 Alextnet 的输入图像大小是 227x227。

    而通过 Selective Search 产生的候选区域大小不一,为了与 Alexnet 兼容,R-CNN 采用了非常暴力的手段,那就是无视候选区域的大小和形状,统一变换到 227*227 的尺寸。

    有一个细节,在对 Region 进行变换的时候,首先对这些区域进行膨胀处理,在其 box 周围附加了 p 个像素,也就是人为添加了边框,在这里 p=16。

    测试阶段的目标检测

    在测试阶段,R-CNN 在每张图片上抽取近 2000 个候选区域。

    然后将每个候选区域进行尺寸的修整变换,送进神经网络以读取特征,然后用 SVM 进行类别的识别,并产生分数。

    候选区域有 2000 个,所以很多会进行重叠。

    针对每个类,通过计算 IoU 指标,采取非极大性抑制,以最高分的区域为基础,剔除掉那些重叠位置的区域。

    运行时分析

    两个因素可以让目标识别变得高效。

    1. CNN 的参数是所有类别共享的。
    2. R-CNN 生成的特征向量维度较少。论文拿应用在 UVA 采用的空间金字塔技术相比,它们生成的特征维度是 360k,而 R-cnn 就 4K 多。

    也就是运行过程中,参数变少了,所以比传统的高效。

    体现在提取特征的时间,如果用 GPU ,13s/张,CPU 53s/张。

    R-cnn 能够处理 100k 种类别,在一个多核的 CPU 上只要花费 10 多秒。

    与 UVA 相比,如果处理 100k 个预测,需要 134GB 内存空间,而 R-CNN 只要 1.5GB。

    训练

    前面已经提到过 R-CNN 采取迁移学习。

    提取在 ILSVRC 2012 的模型和权重,然后在 VOC 上进行 fine-tune。

    需要注意的是,这里在 ImageNet 上训练的是模型识别物体类型的能力,而不是预测 bbox 位置的能力。

    ImageNet 的训练当中需要预测 1000 个类别,而 R-CNN 在 VOC 上进行迁移学习时,神经网络只需要识别 21 个类别。这是 VOC 规定的 20 个类别加上背景这个类别。

    R-CNN 将候选区域与 GroundTrue 中的 box 标签相比较,如果 IoU > 0.5,说明两个对象重叠的位置比较多,于是就可以认为这个候选区域是 Positive,否则就是 Negetive.

    训练策略是:采用 SGD 训练,初始学习率为 0.001,mini-batch 大小为 128.

    对象识别相关

    通常对待一个二值化的分类器,它的结果只要 2 中,Positive 和 Negetive。

    比如,有一个汽车分类器,它可以轻松地确认,一个方框里面包含了一辆汽车,那么它肯定就是 Positive。

    也可以很清楚地确认,如果一个背景方框中没有包含汽车,那么它就是 Negetive。

    但是,比较难确认的是,如果一个方框,只有一部分与汽车重叠,那么如何标注这个方框呢?

    R-CNN 采用的是 IoU 的阈值,这个 threshold 取 0.3,如果一个区域与 Ground tureth 的 IoU 值低于设定的阈值,那么可以讲它看成是 Negetive.

    IoU 的 threshold 它不是作者胡乱取值的,而是来自 {0,0.1,0.2,0.3,0.4,0.5} 的数值组合的。

    而且,这个数值至关重要,如果 threshold 取值为 0.5,mAP 指标直接下降 5 个点,如果取值为 0,mAP 下降 4 个点。

    一旦特征抽取成功,R-CNN 会用 SVM 去识别每个区域的类别,但这需要优化。

    因为训练的数据太大,不可能一下子填充到电脑内存当中,R-CNN 作者采取了一种叫做 Hard negetive mining 的手段。

    R-CNN 的在 PASCAL-VOC 2010-12 的表现

    R-CNN 是在 PASCAL VOC 2012 进行最终的 fine-tune,也是在 VOC 2012 的训练集上优化 SVM.

    然后,还与当时 4 个强劲的对手,也就是 4 个不同的目标检测算法进行了比较。

    在这里插入图片描述

    值得关注的是,上面表格中 UVA 检测系统也采取了相同的候选区域算法,但 R-CNN 的表现要好于它。

    可视化、框架精简和错误检测

    我们都知道,在卷积神经网络中,第一层可以直接用来显示,而且肉眼可视,通常他们是为了捕捉物体边缘,及突出的颜色信息,但越往后的卷积层越抽象,这个时候进行可视化就是一个挑战了。

    Zeiler 和 Fergus 提出了一种基于反卷积手段的可视化研究,但 R-CNN 的作者直接提供了一个没有参数的方法,简单直接。

    思路是挑选一个特征出来,把它直接当成一个物体分类器,然后计算它们处理不同的候选区域时,activation 的值,这个值代表了特征对这块区域的响应情况,然后将 activation 作为分数排名,取前几位,然后显示这些候选区域,自然也可以清楚明白,这个 feature 大概是什么。

    R-CNN 作者将 pool5 作为可视化对象,它的 feature map 是 6x6x255 的规格,可以理解为有 256 个小方块,每个方块对应一个特征。

    下面的图表中显示了这以可视化的效果,这里只显示了 256 个特征中的 6 个,每个特征取 activation 值最高的 16 个区域。

    在这里插入图片描述

    上图应该很明白了,对于同一类特征,activation 相差不大,这也是卷积神经网络能够准确识别物体的直观体现。

    框架精简

    AlexNet 有 7 层,那么那些层是关键指标呢?哪些层可有可无呢?

    在这里插入图片描述

    pool5 在上一小节已经讨论过了,那么 fc6 和 f7 就成了研究的对象。

    fc6 与 pool5 构成全连接,为了计算 feature 它会乘以一个 4096x9216 的权重矩阵,然后在与一组 bias 相加,所以它有 3700 多万的参数。

    fc7 是最后一层,它的权重矩阵是 4096x409,它的参数有 1678 万多的参数。

    但经过作者在 PASCAL 上不做 fine-tune 处理,直接测试,可以发现 fc7 的意义没有 fc6 大,甚至移除它之后,对于 mAP 结果指标没有影响。

    移除 fc7 就表示可以减少将近 1800 万个参数。

    更惊喜的事情是,同时移除 fc6 和 fc7 并没有多大的损失,甚至结果还要好一点点。

    所以,神经网络最神奇的力量来自卷积层,而不是全连接层。

    上面说的是没有 fine-tune 的情况,那么在 fine-tune 的情况是什么呢?

    结果证明,fine-tune 后 fc6 与 fc7 提升的效果明显。

    所以结论就是,pool5 从 ImageNet 训练集中学习了物体的泛化能力,而能力的提升则是通过特定领域的 fine-tune。

    举个例子,神经网络在 ImageNet 数据集中学习到了 100 种猫的特征,而我自己的数据集只有两种猫,经过 fine-tune 训练后,这个神经网络可以更准确识别这两种猫了。

    R-CNN 还与其他的特征方法进行了能力比较,作者选取了两种基于 DPM 的方法,DPM ST 和 DPM HSC,结果都证明,R-CNN 要好于它们。

    目标检测错误分析

    R-CNN 作者采用了 Hoiem 提出的目标检测分析工具,能够直观地揭露错误的模型,作者通过这个工具针对性地进行 fine-tune。

    bbox 回归

    bbox 的值其实就是物体方框的位置,预测它就是回归问题,而不是分类问题。

    受 DPM 的启发,作者训练了一个线性的回归模型,这个模型能够针对候选区域的 pool5 数据预测一个新的 box 位置。具体细节,作者放在补充材料当中。

    语义分割

    什么是语义分割?

    在这里插入图片描述

    区域分类技术是语义分割的标准做法,所以 R-CNN 也可以做语义分割,并且作者拿它跟 O2P 来比较。

    R-CNN 进行语义分割分为 3 个阶段。

    1. 利用 CPMC 生成候选区域,然后将这些区域调整大小为 227x227,送到神经网络当中,这是 full 阶段,区域中有背景也有前景。
    2. 这个阶段只处理候选区域的前景,将背景用输入的平均值代替,然后背景就变成了 0 ,这个阶段称为 fg。
    3. full + fg 阶段,将背景和前景简单拼接。

    回顾

    • R-CNN 采用 AlexNet
    • R-CNN 采用 Selective Search 技术生成 Region Proposal.
    • R-CNN 在 ImageNet 上先进行预训练,然后利用成熟的权重参数在 PASCAL VOC 数据集上进行 fine-tune
    • R-CNN 用 CNN 抽取特征,然后用一系列的的 SVM 做类别预测。
    • R-CNN 的 bbox 位置回归基于 DPM 的灵感,自己训练了一个线性回归模型。
    • R-CNN 的语义分割采用 CPMC 生成 Region

    R-CNN 灵活地运用了现有比较先进的工具和技术,并充分吸收,根据自己的逻辑改造,最终取得了很大的进步。

    到 2018 年,R-CNN 已经不是最先进的目标检测模型,也不是最先进的语义分割模型,但这篇论文最大意义在于展示了作者在资源匮乏的情况下如何整合现有的先进技术去解决自己问题的手段。

    除了R-CNN 外,还有一些很优秀的目标检测算法,我个人钟爱 YOLO,有兴趣的同学可以看看这篇。
    《死磕YOLO系列,YOLOv1 的大脑、躯干和手脚》

    展开全文
  • 6 深度学习顶级算法详解06 关键点定位论文算法整体框架分析 总结Faster-Rcnn算法优势和应用场景以及和其他算法相比的强势之处 7 深度学习顶级算法详解07 关键点定位论文细节实现解读 Faster-Rcnn之RPN层原理以及...
  • 深度学习论文

    千次阅读 多人点赞 2019-02-24 19:13:52
    以下五篇论文深度学习的破冰著作,见证了卷积神经网络越来越深,效果越来越好,其中ResNet更是在原始网络结构上有了新的突破~~ [Nature15] Deep Learning:摘自Yann LeCun和Youshua Bengio以及GeoffreyHinton三人...

    一、ImageNet Evolution

    以下五篇论文是深度学习的破冰著作,见证了卷积神经网络越来越深,效果越来越好,其中ResNet更是在原始网络结构上有了新的突破~~

    [Nature15] Deep Learning:摘自Yann LeCun和Youshua Bengio以及Geoffrey Hinton三人合著发表在nature2015的论文

    [NeurIPS12] ImageNet Classification with Deep Convolutional Neural NetworksAlexNet 多伦多大学Alex Krizhevskyh和Geoffrey Hinton在ILSVRC12取得冠军后发表的论文

    [ICLR15] Very deep convolutional networks for large-scale image recognition

    VGGNet Oxford的Karen Simonyan教授在ImageNet比赛上取得冠军后发表的论文

    [CVPR15] Going deeper with convolutionsGoogLeNet Google的科研人员在ILSVRC14比赛上取得冠军后发表的论文

    [CVPR15] Deep residual learning for image recognitionResNet MSRA的何凯明在ILSVRC15比赛上取得冠军后发表的论文

     

    二、Speech Recognition Evolution (语音识别,RNN, DRNN)

    [IEEESignal12] Deep neural networks for acoustic modeling in speech recognition:Geoffrey对于12年以来语音模型识别的总结

    [IEEEAcoustic13] SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS:Geoffrey和Alex Graves发表关于End-to-End Deep RNN在Speech Recognition方向上的论文

    [ICML14] Towards End-to-End Speech Recognition with Recurrent Neural Networks:Alex Gravesz在End-to-End Deep RNN在Speech Recognition方向上的论文续作

    [CS15] Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition:Google的Has¸im Sak使用RNN用在Acoustic Models for Speech Recognition方向上的论文

     

    三、Model(模型及方法,Dropout, BatchNorm)

    [JMLR14] Dropout: A Simple Way to Prevent Neural Networks from Overfitting:Geoffrey Hinton和Alex Krizhevsky使用一种新的regularization方法Dropout

    [ICML15] Batch Norm: Accelerating Deep Network Training by Reducing Internal Covariate Shift:Google的Ioffe和Szegedy使用一种新的regularization方法或者说是新的initialization的方法Batch Normalization

    [arXiv16] Layer Normalization:Geoffrey针对RNN等模型研究了对于Batch Norm的变种Layer Normalization

    [ICLR16] Net2Net: ACCELERATING LEARNING VIA KNOWLEDGE TRANSFER:UW的陈天奇和Goodfellow合著针对知识迁移的加速学习Net2Net

    [ICLR16] Network Morphism:Buffalo大学和MSRA合作研究一个新型的网络,能从父网络中继承知识并且短时间训练成一个更强的网络,称为network morphism

     

    四、Optimization(优化方法, 动量,DeePhi)

    [ICML13] Momentum: On the importance of initialization and momentum in deep learning:多伦多大学和Google的Ilya Sutskever合作研究一种在梯度下降过程中优化下降迭代速度的方式,属于AdaptiveLearning的一种。

    [ICLR15] ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION:多伦多大学Jimmy Lei Ba和OpenAI的Ilya Diederik P. Kingma合作研究一种在梯度下降过程中优化下降迭代速度的方式,结合AdaGradRMSProp,和属于AdaptiveLearning的一种。

    [ICML12] Building High-level Features Using Large Scale Unsupervised Learning:Andrew Y. Ng和Jeff Dean合作研究使用大量数据模型的无监督学习方式

    [25] Han, Song, Huizi Mao, and William J. Dally. "Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding." CoRR, abs/1510.00149 2 (2015). [pdf] (ICLR best paper, new direction to make NN running fast,DeePhi Tech Startup) ⭐️⭐️⭐️⭐️⭐️

    [26] Iandola, Forrest N., et al. "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 1MB model size." arXiv preprint arXiv:1602.07360 (2016). [pdf] (Also a new direction to optimize NN,DeePhi Tech Startup) ⭐️⭐️⭐️⭐️

    五、Unsupervised Learning / Deep Generative Model(无监督学习,GAN, DCGAN, VAE, PixelRNN, PixelCNN)

    [27] Le, Quoc V. "Building high-level features using large scale unsupervised learning." 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013. [pdf] (Milestone, Andrew Ng, Google Brain Project, Cat) ⭐️⭐️⭐️⭐️

    [28] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [pdf](VAE) ⭐️⭐️⭐️⭐️

    [NIPS14]Generative adversarial nets

    [arXiv15]Unsupervised representation learning with deep convolutional generative adversarial networks. DCGAN

    [31] Gregor, Karol, et al. "DRAW: A recurrent neural network for image generation." arXiv preprint arXiv:1502.04623 (2015). [pdf] (VAE with attention, outstanding work) ⭐️⭐️⭐️⭐️⭐️

    [ICML16] PixelRNN:Pixel Recurrent Neural Networks:DeepMind研究一种新的生成模型。

    [NIPS16] PixelCNN:Conditional Image Generation with PixelCNN Decoders:DeepMind的Alex Graves等领导研究一种新的生成Image模型。

     

    六、 RNN / Sequence-to-Sequence Model(LSTM, S2S)

    [CS13] LSTM Generating:Generating Sequences With Recurrent Neural Networks:UT的Alex Graves等领导研究通过LSTM来生成不同风格的文本和手写体handwriting。

    [arXiv15] GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT:蒙特利尔大学的Yoshua Bengio领导的第一篇使用S2S架构并应用在Statistical Machine Translation的论文。

    [NIPS14] Sequence to Sequence Learning with Neural Networks:Google的Ilya Sutskever领导研究一种S2S的end to end学习方法。

    [ICLR15] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE:蒙特利尔大学的KyungHyun Cho和Yoshua Bengio领导研究的新的机器翻译的方法JOINTLY LEARNING TO ALIGN AND TRANSLATE。

    [ICML15] A Neural Conversational Model:Google的Oriol及Quoc V.Le领导研究的chatbox S2S。

     

    七、NLP(Natural Language Processing)(自然语言理解)

    [AISTATS15] Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing:蒙特利尔大学的Bengio领导关于Joint Learning用于Open-Text研究语义分析及意义表示的论文。

    [NIPs13] Distributed Representations of Words and Phrases and their Compositionality:Google的Jeffrey Dean、Greg Corrado、Tomas Mikolov及Ilya Sutskeve发表的word2vec论文,引用高达12000次,同时也是CS224nLecture1的推荐readings。

    [3] Sutskever, et al. "Sequence to sequence learning with neural networks." ANIPS(2014) [pdf] ⭐️⭐️⭐️

    [ICLR13] Efficient Estimation of Word Representations in Vector Space:Google的Jeffrey Dean、Greg Corrado、Tomas Mikolov发表的第一排word2vec论文,引用高达10000次,同时也是CS224nLecture1的推荐readings。[github]

    [JMLR16] Ask Me Anything: Dynamic Memory Networks for Natural Language Processing:CA的Richard Socher发表的人机问答的论文。

    [AAAI16] Character-Aware Neural Language Models:Harvard的Yoon Kim发表的character级别的语言模型。[github]

    [ICLR16] TOWARDS AI-COMPLETE QUESTION ANSWERING: A SET OF PREREQUISITE TOY TASKS:FAIR的Tomas Mikolov领导发表的人机问答的论文。

    [NIPS15] Teaching Machines to Read and Comprehend:DeepMind的Karl Moritz Hermann等发表的人机问答的论文。

    [arXiv17] Very Deep Convolutional Networks for Text Classification:Yann Le Cun等发表的文本分类的论文。

    [EACL] Bag of Tricks for Efficient Text Classification:FAIR的Tomas Mikolov等发表的在文本分类的Bag技巧的论文。FastText [github]

     

    八、Object Detection(目标识别,RCNN, FastRNN, YOLO,R-FCN, MaskRNN)

    [NIPS13] Deep Neural Networks for Object Detection:计划完成深度学习入门的126篇论文第三十七篇,Google的Christian Szegedy等发表的在文本分类的Bag技巧的论文。

    [CVPR14] R-CNN: Rich feature hierarchies for accurate object detection and semantic segmentation:计划完成深度学习入门的126篇论文第三十八篇,Berkeley的Ross Girshick等发表的层级特征feature hierarchies用于object detection和semantic segmentation方向的论文。[github]

    [ECCV14] SPPNet: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition:计划完成深度学习入门的126篇论文第三十九篇,Kaiming he以及孙剑等完成的对VIsual Recognition中Spatial Pyramid Pooling的研究。[github]

    [ICCV15] Fast R-CNN:计划完成深度学习入门的126篇论文第四十篇,微软的Ross Girshick研究的Obeject Detection的模型。[github]

    [NIPS15] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks:计划完成深度学习入门的126篇论文第四十一篇,MSRA的Kaiming He及Ross Girshick, 和Jian Sun等完成的对前作Fast R-CNN的改进。[github]

    [CVPR16] YOLO(You Only Look Once): Unified, Real-Time Object Detection:计划完成深度学习入门的126篇论文第四十三篇,微软的Ross Girshick及UW的学者研究Obeject Detection的模型。(本篇算是YOLO v1,截止目前出到了v3版本)[官网]

    [ECCV16] SSD: Single Shot MultiBox Detector:计划完成深度学习入门的126篇论文第四十四篇,Google的Christian Szegedy及Umich,UNC等学者研究的一种新的目标检测方法,可以看做是和YOLO single-shot思想相似的方法。[github]

    [NIPS16] R-FCN: Object Detection via Region-based Fully Convolutional Networks:计划完成深度学习入门的126篇论文第四十五篇,MSRA的Jian Sun和Kaiming He研究的一种新的目标检测方法。[github

    [ICCV17] Mask R-CNN:计划完成深度学习入门的126篇论文第四十二篇,微软的Ross Girshick研究的Obeject Detection的模型。[github]

     

    Task

    2.7 Deep Transfer Learning / Lifelong Learning / especially for RL(深度迁移学习)

    [53] Bengio, Yoshua. "Deep Learning of Representations for Unsupervised and Transfer Learning." ICML Unsupervised and Transfer Learning 27 (2012): 17-36. [pdf] (A Tutorial) ⭐️⭐️⭐️

    [54] Silver, Daniel L., Qiang Yang, and Lianghao Li. "Lifelong Machine Learning Systems: Beyond Learning Algorithms." AAAI Spring Symposium: Lifelong Machine Learning. 2013. [pdf] (A brief discussion about lifelong learning) ⭐️⭐️⭐️

    [55] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015). [pdf] (Godfather's Work) ⭐️⭐️⭐️⭐️

    [56] Rusu, Andrei A., et al. "Policy distillation." arXiv preprint arXiv:1511.06295 (2015). [pdf] (RL domain) ⭐️⭐️⭐️

    [57] Parisotto, Emilio, Jimmy Lei Ba, and Ruslan Salakhutdinov. "Actor-mimic: Deep multitask and transfer reinforcement learning." arXiv preprint arXiv:1511.06342 (2015). [pdf] (RL domain) ⭐️⭐️⭐️

    [58] Rusu, Andrei A., et al. "Progressive neural networks." arXiv preprint arXiv:1606.04671 (2016). [pdf] (Outstanding Work, A novel idea) ⭐️⭐️⭐️⭐️⭐️

     

    4/9 更新 未完待续

     

    2.5 Neural Turing Machine(强化学习)

    [39] Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural turing machines." arXiv preprint arXiv:1410.5401 (2014). [pdf] (Basic Prototype of Future Computer) ⭐️⭐️⭐️⭐️⭐️

    [40] Zaremba, Wojciech, and Ilya Sutskever. "Reinforcement learning neural Turing machines." arXiv preprint arXiv:1505.00521 362 (2015). [pdf] ⭐️⭐️⭐️

    [41] Weston, Jason, Sumit Chopra, and Antoine Bordes. "Memory networks." arXiv preprint arXiv:1410.3916 (2014). [pdf]⭐️⭐️⭐️

    [42] Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in neural information processing systems. 2015. [pdf] ⭐️⭐️⭐️⭐️

    [43] Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." Advances in Neural Information Processing Systems. 2015. [pdf] ⭐️⭐️⭐️⭐️

    [44] Graves, Alex, et al. "Hybrid computing using a neural network with dynamic external memory." Nature (2016). [pdf](Milestone,combine above papers' ideas) ⭐️⭐️⭐️⭐️⭐️

    2.6 Deep Reinforcement Learning(深度强化学习)

    [45] Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv preprint arXiv:1312.5602 (2013). [pdf](First Paper named deep reinforcement learning) ⭐️⭐️⭐️⭐️

    [46] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533. [pdf] (Milestone) ⭐️⭐️⭐️⭐️⭐️

    [47] Wang, Ziyu, Nando de Freitas, and Marc Lanctot. "Dueling network architectures for deep reinforcement learning." arXiv preprint arXiv:1511.06581 (2015). [pdf] (ICLR best paper,great idea) ⭐️⭐️⭐️⭐️

    [48] Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." arXiv preprint arXiv:1602.01783 (2016). [pdf] (State-of-the-art method) ⭐️⭐️⭐️⭐️⭐️

    [49] Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971 (2015). [pdf] (DDPG) ⭐️⭐️⭐️⭐️

    [50] Gu, Shixiang, et al. "Continuous Deep Q-Learning with Model-based Acceleration." arXiv preprint arXiv:1603.00748 (2016). [pdf] (NAF) ⭐️⭐️⭐️⭐️

    [51] Schulman, John, et al. "Trust region policy optimization." CoRR, abs/1502.05477 (2015). [pdf] (TRPO) ⭐️⭐️⭐️⭐️

    [52] Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489. [pdf] (AlphaGo) ⭐️⭐️⭐️⭐️⭐️

     

    2.8 One Shot Deep Learning

    [59] Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. "Human-level concept learning through probabilistic program induction." Science 350.6266 (2015): 1332-1338. [pdf] (No Deep Learning,but worth reading) ⭐️⭐️⭐️⭐️⭐️

    [60] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "Siamese Neural Networks for One-shot Image Recognition."(2015) [pdf] ⭐️⭐️⭐️

    [61] Santoro, Adam, et al. "One-shot Learning with Memory-Augmented Neural Networks." arXiv preprint arXiv:1605.06065 (2016). [pdf] (A basic step to one shot learning) ⭐️⭐️⭐️⭐️

    [62] Vinyals, Oriol, et al. "Matching Networks for One Shot Learning." arXiv preprint arXiv:1606.04080 (2016). [pdf] ⭐️⭐️⭐️

    [63] Hariharan, Bharath, and Ross Girshick. "Low-shot visual object recognition." arXiv preprint arXiv:1606.02819 (2016). [pdf](A step to large data) ⭐️⭐️⭐️⭐️

    3 Applications

    3.3 Visual Tracking

    [1] Wang, Naiyan, and Dit-Yan Yeung. "Learning a deep compact image representation for visual tracking." Advances in neural information processing systems. 2013. [pdf] (First Paper to do visual tracking using Deep Learning,DLT Tracker) ⭐️⭐️⭐️

    [2] Wang, Naiyan, et al. "Transferring rich feature hierarchies for robust visual tracking." arXiv preprint arXiv:1501.04587 (2015). [pdf] (SO-DLT) ⭐️⭐️⭐️⭐️

    [3] Wang, Lijun, et al. "Visual tracking with fully convolutional networks." Proceedings of the IEEE International Conference on Computer Vision. 2015. [pdf] (FCNT) ⭐️⭐️⭐️⭐️

    [4] Held, David, Sebastian Thrun, and Silvio Savarese. "Learning to Track at 100 FPS with Deep Regression Networks." arXiv preprint arXiv:1604.01802 (2016). [pdf] (GOTURN,Really fast as a deep learning method,but still far behind un-deep-learning methods) ⭐️⭐️⭐️⭐️

    [5] Bertinetto, Luca, et al. "Fully-Convolutional Siamese Networks for Object Tracking." arXiv preprint arXiv:1606.09549 (2016). [pdf] (SiameseFC,New state-of-the-art for real-time object tracking) ⭐️⭐️⭐️⭐️

    [6] Martin Danelljan, Andreas Robinson, Fahad Khan, Michael Felsberg. "Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking." ECCV (2016) [pdf] (C-COT) ⭐️⭐️⭐️⭐️

    [7] Nam, Hyeonseob, Mooyeol Baek, and Bohyung Han. "Modeling and Propagating CNNs in a Tree Structure for Visual Tracking." arXiv preprint arXiv:1608.07242 (2016). [pdf] (VOT2016 Winner,TCNN) ⭐️⭐️⭐️⭐️

    3.4 Image Caption(图像抓取)

    [1] Farhadi,Ali,etal. "Every picture tells a story: Generating sentences from images". In Computer VisionECCV 2010. Springer Berlin Heidelberg:15-29, 2010. [pdf] ⭐️⭐️⭐️

    [2] Kulkarni, Girish, et al. "Baby talk: Understanding and generating image descriptions". In Proceedings of the 24th CVPR, 2011. [pdf]⭐️⭐️⭐️⭐️

    [3] Vinyals, Oriol, et al. "Show and tell: A neural image caption generator". In arXiv preprint arXiv:1411.4555, 2014. [pdf]⭐️⭐️⭐️

    [4] Donahue, Jeff, et al. "Long-term recurrent convolutional networks for visual recognition and description". In arXiv preprint arXiv:1411.4389 ,2014. [pdf]

    [5] Karpathy, Andrej, and Li Fei-Fei. "Deep visual-semantic alignments for generating image descriptions". In arXiv preprint arXiv:1412.2306, 2014. [pdf]⭐️⭐️⭐️⭐️⭐️

    [6] Karpathy, Andrej, Armand Joulin, and Fei Fei F. Li. "Deep fragment embeddings for bidirectional image sentence mapping". In Advances in neural information processing systems, 2014. [pdf]⭐️⭐️⭐️⭐️

    [7] Fang, Hao, et al. "From captions to visual concepts and back". In arXiv preprint arXiv:1411.4952, 2014. [pdf]⭐️⭐️⭐️⭐️⭐️

    [8] Chen, Xinlei, and C. Lawrence Zitnick. "Learning a recurrent visual representation for image caption generation". In arXiv preprint arXiv:1411.5654, 2014. [pdf]⭐️⭐️⭐️⭐️

    [9] Mao, Junhua, et al. "Deep captioning with multimodal recurrent neural networks (m-rnn)". In arXiv preprint arXiv:1412.6632, 2014. [pdf]⭐️⭐️⭐️

    [10] Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention". In arXiv preprint arXiv:1502.03044, 2015. [pdf]⭐️⭐️⭐️⭐️⭐️

    3.5 Machine Translation

    Some milestone papers are listed in RNN / Seq-to-Seq topic.

    [1] Luong, Minh-Thang, et al. "Addressing the rare word problem in neural machine translation." arXiv preprint arXiv:1410.8206 (2014). [pdf] ⭐️⭐️⭐️⭐️

    [2] Sennrich, et al. "Neural Machine Translation of Rare Words with Subword Units". In arXiv preprint arXiv:1508.07909, 2015. [pdf]⭐️⭐️⭐️

    [3] Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. "Effective approaches to attention-based neural machine translation." arXiv preprint arXiv:1508.04025 (2015). [pdf] ⭐️⭐️⭐️⭐️

    [4] Chung, et al. "A Character-Level Decoder without Explicit Segmentation for Neural Machine Translation". In arXiv preprint arXiv:1603.06147, 2016. [pdf]⭐️⭐️

    [5] Lee, et al. "Fully Character-Level Neural Machine Translation without Explicit Segmentation". In arXiv preprint arXiv:1610.03017, 2016. [pdf]⭐️⭐️⭐️⭐️⭐️

    [6] Wu, Schuster, Chen, Le, et al. "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation". In arXiv preprint arXiv:1609.08144v2, 2016. [pdf] (Milestone) ⭐️⭐️⭐️⭐️

    3.6 Robotics

    [1] Koutník, Jan, et al. "Evolving large-scale neural networks for vision-based reinforcement learning." Proceedings of the 15th annual conference on Genetic and evolutionary computation. ACM, 2013. [pdf] ⭐️⭐️⭐️

    [2] Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." Journal of Machine Learning Research 17.39 (2016): 1-40. [pdf] ⭐️⭐️⭐️⭐️⭐️

    [3] Pinto, Lerrel, and Abhinav Gupta. "Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours." arXiv preprint arXiv:1509.06825 (2015). [pdf] ⭐️⭐️⭐️

    [4] Levine, Sergey, et al. "Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection." arXiv preprint arXiv:1603.02199 (2016). [pdf] ⭐️⭐️⭐️⭐️

    [5] Zhu, Yuke, et al. "Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning." arXiv preprint arXiv:1609.05143 (2016). [pdf] ⭐️⭐️⭐️⭐️

    [6] Yahya, Ali, et al. "Collective Robot Reinforcement Learning with Distributed Asynchronous Guided Policy Search." arXiv preprint arXiv:1610.00673 (2016). [pdf] ⭐️⭐️⭐️⭐️

    [7] Gu, Shixiang, et al. "Deep Reinforcement Learning for Robotic Manipulation." arXiv preprint arXiv:1610.00633 (2016). [pdf]⭐️⭐️⭐️⭐️

    [8] A Rusu, M Vecerik, Thomas Rothörl, N Heess, R Pascanu, R Hadsell."Sim-to-Real Robot Learning from Pixels with Progressive Nets." arXiv preprint arXiv:1610.04286 (2016). [pdf] ⭐️⭐️⭐️⭐️

    [9] Mirowski, Piotr, et al. "Learning to navigate in complex environments." arXiv preprint arXiv:1611.03673 (2016). [pdf]⭐️⭐️⭐️⭐️

    3.7 Art(艺术项目,深度梦境,风格迁移)

    [1] Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). "Inceptionism: Going Deeper into Neural Networks". Google Research. [html] (Deep Dream) ⭐️⭐️⭐️⭐️

    [2] Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. "A neural algorithm of artistic style." arXiv preprint arXiv:1508.06576 (2015). [pdf] (Outstanding Work, most successful method currently) ⭐️⭐️⭐️⭐️⭐️

    [3] Zhu, Jun-Yan, et al. "Generative Visual Manipulation on the Natural Image Manifold." European Conference on Computer Vision. Springer International Publishing, 2016. [pdf] (iGAN) ⭐️⭐️⭐️⭐️

    [4] Champandard, Alex J. "Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks." arXiv preprint arXiv:1603.01768 (2016). [pdf] (Neural Doodle) ⭐️⭐️⭐️⭐️

    [5] Zhang, Richard, Phillip Isola, and Alexei A. Efros. "Colorful Image Colorization." arXiv preprint arXiv:1603.08511 (2016). [pdf]⭐️⭐️⭐️⭐️

    [6] Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. "Perceptual losses for real-time style transfer and super-resolution." arXiv preprint arXiv:1603.08155 (2016). [pdf] ⭐️⭐️⭐️⭐️

    [7] Vincent Dumoulin, Jonathon Shlens and Manjunath Kudlur. "A learned representation for artistic style." arXiv preprint arXiv:1610.07629 (2016). [pdf] ⭐️⭐️⭐️⭐️

    [8] Gatys, Leon and Ecker, et al."Controlling Perceptual Factors in Neural Style Transfer." arXiv preprint arXiv:1611.07865 (2016). [pdf] (control style transfer over spatial location,colour information and across spatial scale)⭐️⭐️⭐️⭐️

    [9] Ulyanov, Dmitry and Lebedev, Vadim, et al. "Texture Networks: Feed-forward Synthesis of Textures and Stylized Images." arXiv preprint arXiv:1603.03417(2016). [pdf] (texture generation and style transfer) ⭐️⭐️⭐️⭐️

    3.8 Object Segmentation

    [1] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation.” in CVPR, 2015. [pdf]⭐️⭐️⭐️⭐️⭐️

    [2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. "Semantic image segmentation with deep convolutional nets and fully connected crfs." In ICLR, 2015. [pdf] ⭐️⭐️⭐️⭐️⭐️

    [3] Pinheiro, P.O., Collobert, R., Dollar, P. "Learning to segment object candidates." In: NIPS. 2015. [pdf] ⭐️⭐️⭐️⭐️

    [4] Dai, J., He, K., Sun, J. "Instance-aware semantic segmentation via multi-task network cascades." in CVPR. 2016 [pdf]⭐️⭐️⭐️

    [5] Dai, J., He, K., Sun, J. "Instance-sensitive Fully Convolutional Networks." arXiv preprint arXiv:1603.08678 (2016). [pdf]⭐️⭐️⭐️

     

    展开全文
  • 深度学习LDPC(论文

    2018-07-04 16:53:06
    深度学习来LDPC译码,(用深度学习来LDPC译码算法研究论文
  • 想入门深度学习,导师让阅读论文,不知从何下手,推荐阅读路线 2 Deep Learning Method ...第一部分:深度学习论文阅读路线之一 第二部分:深度学习论文阅读路线之二 第三部分:深度学习论文阅读路线之三
  • 深度学习论文集-2020.08.17 深度学习论文集-2020.08.17 深度学习论文集-2020.08.17 深度学习论文集-2020.08.17 深度学习论文集-2020.08.17
  • 基于卷积神经网络的深度学习算法与应用研究.nh 基于深度学习的视频人脸识别方法2.nh 基于深度学习的视频人脸识别方法.nh 基于深度学习的图像检索研究.nh 基于深度学习的语音识别.nh 基于深度学习与条件随机场的多...
  • 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。以上是部分深度学习引文论文合集
  • 论文清单 基于ODE的深度学习分析 论文清单 计算机视觉论文(图像处理) 物理深度学习 论文清单

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 144,985
精华内容 57,994
关键字:

深度学习最新论文