• Scalers 点评: 两个月前,成长会的Ramon(S290)收到了计算机视觉顶级会议CVPR论文录取的通知,而且是口头报告。CVPR在计算机视觉领域属于三大顶级会议之一,具有较高的影响力,对于一名在校博士生,能在这个会议上...

    本文转自:https://blog.csdn.net/zhuquan945/article/details/53414550/

    Scalers 点评: 两个月前,成长会的Ramon(S290)收到了计算机视觉顶级会议CVPR论文录取的通知,而且是口头报告。CVPR在计算机视觉领域属于三大顶级会议之一,具有较高的影响力,对于一名在校博士生,能在这个会议上能发表论文,是很不错的一件事情。于是我请Ramon特意撰文,分享了这篇论文从想法到获得成果的一路历程。这篇文章比较长,但是却让我感慨良多。一方面让我想到自己在读研究生期间的经历,科研的生活仿佛历历在目;另外一方面,里面那段关于熬夜赶论文,不到截止不停工的精神,自己也是感同身受。正是因为在科研领域许许多多研究人员夜以继日的持续投入,才能有我们信息领域的科技发展。

    另外还要说的一点是,Ramon也是成长会机器学习小组组长。我们机器学习小组最近完成了Stanford的在线机器学习课程,下一步即将启动深度学习的任务,如果你对这一领域有兴趣,欢迎来参加。详细情况参见

    ScalersTalk 成长会深度学习研习计划招募启动

    以往机器学习小组日志参见

    ScalersTalk 成长会机器学习小组第10~11周学习笔记

    ScalersTalk成长会机器学习小组第9周学习笔记

    首先做一个自我介绍,我是Ramon(公众号RamonsVoice),中山大学在读博士生(直博第五年),2013年到2014年间在香港理工大学计算学系交流访问。主要的研究方向为计算机视觉、智能多媒体以及机器学习。

    我在2015年的时候,通过朋友圈的文章分享知道了ScalersTalk的公众号,当时觉得S君能够把很多简单的问题写出深度,确实难能可贵,所以也就持续关注了下去。2016年是我的毕业年,决心进一步改变自己,于是加入了成长会。我现在是成长会机器学习小组的组长,和一群热爱机器学习、有点学术情结的小伙伴在深度学习的路上不断践行。

    今天主要来说说我在去年完成CVPR论文的一些感受与认识(CVPR是国际计算机视觉与模式识别会议的简写,会议的主要内容是计算机视觉与模式识别技术。CVPR是计算机视觉领域三大国际顶会之一,另外两个是ICCV和ECCV),也算是一次复盘了吧。

    有很多朋友觉得完成CVPR论文并获得口头报告是件很牛的事情。我也承认,在非学术圈的人看来,取得这样的论文成绩,已经算是牛人了。但是放眼全球计算机科学的发展,一篇顶会的文章,一次会议的口头报告,甚至是一次学术大奖,真的不值得拿出来炫耀。因此说,我在学术圈里就是一个平凡的不能再平凡的博士研究生。

    说回今天的分享,虽然我以前也在一些顶级会议和期刊的论文发表过论文,但是这篇论文还是对我影响很大,于是决定把整个文章发表前后的感悟写下来,算是一种总结,也算是对我来发展的一种鞭策.

    介绍下整个CVPR论文的完成过程

    整个论文的idea要追溯到2015年的3月。当时我刚刚完成了IEEE Trans. on Image Processing论文的写作。这个期刊不错,算是图像处理领域顶级期刊了(当然现在这篇论文已经正式发表了,而且短时间内的引用率也还算可以)。由于当时深度学习已经在多个信息研究领域取得了巨大的成功,所以相关领域之间的融合现象也越发明显。

    比如当时斯坦福大学LiFeifei教授的团队就发表了多篇有关自然语言与图像内容匹配的文章,并将相关的技术用于图像内容描述的自动生成任务上,取得了较为成功的结果。由于我的研究方向本来就比较偏向场景图像的内容理解,因而导师还是希望我在类似的问题上有所突破。

    于是长达2个月的调研与实验工作就这样开始了。我们本想利用以前研究的模型在新的问题上进行一下尝试,如果效果不错,就进一步改进完善。这样做的主要原因有三个(1)我们认为以前研究的模型比较适合这个新问题,稍加改进就可以迁移过来(2)我们以前的模型和斯坦福大学团队的模型完全是两个路子,在学术新颖性上是可行的(3)我们在原有模型的参数调节等方面积累了很多经验,可以帮我们快速进入新的问题。

    但是就是这样的心态让我们陷入了新问题的泥潭。在自然语言处理方面我们明显是菜鸟,太多的不可知和不可控汹涌的冲向了我和另一个师弟,最终我们以失败结束了这个新课题的尝试。

    接下来的一段时间参与了一个车辆检索的项目,时间不知不觉就到了暑假。感觉问题一直这样拖着也不是事。于是和导师约谈了几次,导师对我们的进度也不是很满意。不过他还是给出了很中肯的建议:既然自然语言理解的不够深入,就还是回归到计算机视觉的传统问题上来,比如说层次化的场景解析任务。

    但是我们要思考下能不能从Li Feifei团队的研究中“偷”一些有用的思想回来。其实Feifei 团队论文的核心思想很显著,就是局部上的精准匹配。例如自然语言中的一个单词和图像中的一种视觉内容的有效匹配。这样回到传统的视觉任务---层次化的场景解析,传统对整个任务的研究集中在推理场景中的各个部件的关系,进而构建起层次化的表达模型,如图1所示。

    那么Feifei组的工作解决了图片中的物体与自然语言中的单词的匹配。那我们能不能实现场景的层次关系和语言的结构关系进行匹配呢?带着这样的问题,我们开始了与以前课题相关却又完全不同的研究。这里需要解释下语言中的结构,比如说主谓宾就是一种结构,两个名词和他们的关系形成的一种结构。我们还可以把主语和宾语替换成从句,每个从句又有他们自己的结构。这种结构的不断累加就形成了最终句子的层次结构。


    图1, 基于传统概率模型的场景层次化结构解析

    我们很快发现了Recursive Neural Network(RNN)这种神经网络结构,前两年的工作已经用它做过自然语言的结构化解析,也用它做过图片的语义标注。很适合我们的问题,于是我们在原有RNN的基础上进行了改进,添加了基于结构节点的关系预测,也就是说当我们发现图像中的两个物体可能存在一种交互关系时,模型就会分给他们较大的结构组合分数,要求这两个物体组合成一个整体。同时会在这个整体的基础上对两个物体之间的交互关系进行预测。

    模型很快设计完成了,经过和老师的几次讨论细节也逐渐打磨清楚了。同时导师还让另一个实践能力很强的师弟也加入我们,共同完成这个项目。当然我们这个模型还有一些其他的贡献,比如它是一个弱监督的问题等等。由于过于细节就在这里不一一讨论了。

    很快我们有了一些初步的结果,于是开始写论文。这里还有个小插曲,我一开始认为我们的模型有一些推理在里面,因而写成了概率表达。结果被导师批得一无是处:不懂就不要乱写。我承认概率模型是我的痛点,现在也正在恶补。最终我们还是换回了普通损失函数的表达。

    其实我们的工作也不是就这样一帆风顺下去了,中间实验有很多卡壳的地方,比如说我们的问题很多经典的数据集上是做不了的,于是筛选和处理数据集花了不少功夫。还有自然语言表述的多义性问题,也给我们带来了很多困扰。以至于到交稿前3天,我们还在补实验结果。当遇到实验问题时的那种艰辛与无助,可能只有经历过的人才能够真正理解吧。值得庆幸的是,当时我虽然没有加入成长会,但是已经在关注S君的文章了。在出活问题上,已经算是摆正了态度的。心态的转变,在一定程度上也提升了我的抗压能力。

    最后一晚当然是通宵。因为很多国际会议还是跟着美国或者英国的时间走的,他们晚上12点交稿,也就意味着我们要早上8点多。没办法,谁让人家是现代科学的发源地,谁让人家是当代尖端技术的聚集地呢。依稀记得那天晚上快5点的时候上演了惊心动魄的一幕。一个和我们合作的哈工大老师在帮我校订论文,突然他说有个地方应该是写错了,可能要大改。凌晨5点了,别看还有3个多小时才deadline,对于大改问题来说,这简直是噩梦!我看了那个老师提的意见,应该是对我们工作理解有偏差。于是我把优化部分的内容又给他讲了一遍,总算通过了,通过了,过了.... 

    这个词我在心中重复的次数绝对大于3遍。清晨,从实验室出来,看着本科的孩子们匆匆走向课室,我丝毫没有3年前熬夜赶论文后的轻松与愉悦。因为这样的过程已经成为了生活的一部分。调整一天后,我来到实验室,打开Arxiv去了解最近的研究进展,这预示着新一轮的战斗又要打响了。

    四个月后,我们接到了论文的最终接收通知。由于我们论文的评审成绩比较好,一个accept,两个weakly accept。同时,实验结果和论文撰写也受到了评审们的肯定。因此论文被评为了大会口头报告论文。这一点倒是超出了我们的心意预期,所以在接到结果的那一瞬,还是兴奋感十足的。

    通过这次论文的发表,我对有些问题的认识又加深了一步,同时也有了一些新的思考。接下来,我将从科研方法、科研心理两个方面说说我的感悟。

    科研方法上的感悟:

    1. 问题要前沿、落脚要踏实

    曾经看过斯坦福大学Li Feifei 老师有关优秀研究的介绍。在文章的开篇Feifei就摆出了计算机视觉领域的一个残酷事实:

    每年有超过1000+的计算机视觉论文被发表,只有5到10篇值得阅读并被记住

    因此说每一项研究的开展、每一份论文的创作都应该有一个超凡的目标:真正地推动计算机视觉领域的发展。所以当你构思和开展你的工作时,你需要以最严苛的方式不断地问自己:

    在将来,我的工作会定义或者重塑某一问题、领域、技术吗?

    通过Feifei老师的话我们不难看出,一个好的课题应该是真正能够推动学科发展的;是跳出研究本身,站在学术发展的长河中,去引领学科进步的。所以说,问题的前瞻性在整个学术研究活动中就显得尤为重要。但并不是说前瞻性的问题就一定要利用一个很高大上的新理论去解决,而是应该从问题本身出发,去探求改进、连接、完善现有技术的途径,从而脚踏实地的把问题解决。

    我想,这一点对于计算机视觉这样的应用型领域还是很重要的。其实现阶段智能学科的研究本来就更加侧重于技术层面的创新。 从技术的起源来看,它植根于人类生存和进化的需要 (这里补充一下,科学源于对自然奥秘的兴趣和精神追求。科学与技术的融合与相互促进是第二次工业革命之后的事情了)。因此挖掘和定义领域内的问题,并利用一系列行使有效的手段去解决这些问题,从而促进人们的生产生活,这才应该是智能学科的出发点与立足点。

    就拿我们这次CVPR的论文来说,我们主要利用神经网络实现了图片的结构化表达。这一过程是图像内容智能分析的一个重要环节。说到结构化表达,早期的很多工作是在做语言的结构化表达,例如区分出语言中的名词、动词等,那么两个名词以及他们之间的动词就构成了一种关系结构。结构化表达的研究对于图像还是很有意义的,因为图像中所包含的信息很多,但是这些信息又很难简单的进行结构化处理。传统的方法都是构建一定的规则,然后通过统计的方法对图像内容的结构进行推断。但这些方法中,构建规则的过程较为复杂,可以应用的场景也极为有限。我们则使用了在各种智能问题上有突出效果的神经网络解决了这一问题。我想这也是这篇论文能够获得口头报告的原因之一吧。

    2. 团队合作很重要

    很多时候科学研究是存在竞争性的,如果我们团队不率先完整这项工作,很有可能就被国外的团队占了先机。但是我们也需要看到,智能领域的研究现在逐渐出现了融合的态势:自然语言处理、音频处理、视觉处理在通过一种相互交融,相互促进的态势发展。因而为了完成一个较为复杂的课题,往往需要有不同背景知识和能力的人相互配合。

    这个时候团队合作的好坏就显得尤为重要了。如果配合的好,大家不仅可以相互讨论问题的解决方法,同时在遇到困难的时候还可以相互鼓励,彼此成为心灵上的支撑。如果配合的不好,那么往往是每个人只看到自己的任务,对于其他的、责任界定模糊的问题,则抱着一种“事不关己、高高挂起”的态度。团队成员之间的沟通成本也会大大提升,最终影响整个项目的进度。

    我觉得确立好的团队合作有两个层次的问题需要解决,第一是团队成员的筛选,第二是个人的心态调整。

    (1)针对第一点,如果在不考虑每个人的能力前提下, 尽量和那些解决问题为导向的人合作,而不是那些以赚取个人利益为导向的人合作 。这一点说的有点功利,但是也是我们不得不去面对的问题。如果一个人仅仅是侧重事后的利益分成,那么对整个课题的投入必定大打折扣。当然这并不是说不去提利益,毕竟每个人的工作都应该有其对应的价值体现。尤其像一些科研课题,每个人负责一块,可能任何一个人的缺失,都会对最终论文的发表造成影响。但是也绝对不可能所有都是第一作者。有效的合作应该是在大家彼此信任的基础上,冲着共同的目标去前进,至于利益的划分还是往后放放吧。因为有时候,通过一个成功的课题所学习到的东西,往往比作者的排名顺序要重要的多。

    (2)针对第二点,我想说的是,一旦合作开始,就要调整好自己的心态。以最大的参与度投身到整个课题的研究过程中。不要对产生的问题进行责任设限,就如同这个课题都需要被你一个人解决一样。这样做的好处主要有两点:首先,你可以通过和其他成员的合作了解更多的知识,学习他们知道的,你却不明白的内容;再者,你的不断向前是可以感染和影响周围人的工作态度的,一旦组员相互之间的带动力产生了,协作的效率将变得很高。

    3. 不要放弃每个细节

    不要放弃每个细节,说的就是做科研,尤其是应用学科中的科研,需要一种工匠精神(工匠精神,是指工匠对自己的产品精雕细琢,精益求精的精神理念)。这里我重点说一个例子,记得当时还剩3天的时候,我们的实验和论文写作基本已经收尾了。但是经过和另一个师弟的讨论后,我们觉得有一个小点没有在实验部分得到有效的验证。这时候,这个实验做不做成为了一个问题。做会很紧张,很辛苦,同时还要顶住导师push的压力。不做似乎也并不影响我们论文的完整性,因为此时最核心观点已经得到了实验的有效验证。同时我们还可以一起愉快地把论文改了。最终我们决定还是要做,至少保证在确定的能力下、有限的时间内,把实验做到最充分。其实还原到当时的情境下,要做到这一点真的挺难的,精神压力真的很大,应付交差的心理会随时涌现。

    写到这里,我不禁想起了Scalers最近的一篇文章: 从学生到职场的最大障碍是“学生气” 。这里所谓的“学生气”就是说做事出活缺乏必要的专业性与职业气质,面对压力,不能控制自己的情绪,最终直接影响了工作的开展。其实我也做过一些还不错的会议和期刊的评审,当你站在评审的角度去审视别人的论文时,真的会不自觉的对小的瑕疵敏感起来,你会不自觉地去设想一些可能的模块的组合,并且急切的想知道这样组合下的结果。如果说当时我们不去完善那些实验,我想我们不会获得一个accept,两个weakly accept的成绩,更不会获得口头报告的资格。

    我们再跳出具体的课题,来说说一个研究方向上那些对细节的不离不弃。很多时候这种不离不弃被人们称作刷performance。也就是说稍微改进一些细节,提高一到两个百分点的准确率就发一篇论文。有些人习惯于做这样的工作,并且乐此不疲;有些人则对类似的工作嗤之以鼻,认为是雕虫小技。我不是很鼓励这样去刷论文(其实是我弱爆了,刷不出效果),但是这样的工作确实有它的现实意义的。很多应用问题的研究讲求的是研究上的加速度,尤其是对那些技术上快要成熟的问题(比如人脸识别),只有performance尽可能快地被刷出来,才能有效地催生出相应的应用产品。所以从这个角度看,做一些细节上的打磨工作,也没什么不对。

    4. 每个工作都是拼搏出来的

    “ 每篇CVPR都是拼出来”,这是我研究生第一年的时候,我导师说的让我印象最深的一句话。这一句话道出了中国年轻一代研究人员在与西方研究团队争夺学术地位过程中的心酸(我们现在还处于劣势)。当然我也用近乎整个研究生阶段去不断地检验整句话的正确性。这里的“拼”有两个层次的含义,一个是时间上的争分夺秒,另一个是接受有挑战课题的勇气。

    前者需要我们去合理分配任务、认真规划时间,争分夺秒地去完成相应的研究任务。原因很简单:“当你想到一个绝佳的idea时,世界上至少已经有三个人有过类似的想法了”。我们不可能让别人不去想,更不可能控制别人不去做。我们能把握的只有我们自己。给大家说一个我自己的例子,2015年的CVPR,我做了一个还不错的工作,但就是因为当时拖拖拉拉,论文在写作方面还是有很多不足的,最终的结果也是比较悲剧的。于是我和导师修改了一下,转投了期刊IEEE Trans. on Image Processing。转投不久就发现Arxiv挂出了两篇几乎和我们想法一样,被CVPR15接收的论文。后续期刊评审的意见当然是和这两篇文章进行比较,我耗费了近乎整个暑假去调整参数,就为了那零点几个百分点的优势。没办法,这就是人家拼了我没有拼的结果,这就是学术研究中的先发优势。

    Arxiv 是美国国家科学基金会和美国能源部资助,于1991年8月由美国洛斯阿拉莫斯国家实验室建立的电子预印本文献库。

    后者说的是面对学术问题,我们需要有不断接受挑战,不断向上攀登的勇气。发过论文的小伙伴应该都有这样的感觉,当你在一个小的领域有了一定的成果的时候,如果要跳到一个更有挑战的方向上是很有难度的。对比一下不难发现,如果坚持以前的小领域,可以很快发一系列论文;而跳转新的方向就需要重新分析问题、重新做调研、重新研究技术细节、重新设计实验,同时整个课题的风险也会更高。但科研训练的过程不就是为了不断重复后者的过程,让我们成为一个成熟的、具有独立研究能力的科研人员,进而不断去承担更为挑战的研究任务吗。记得15年年末的时候,一个在CMU计算机系读博士的朋友回来广州续办签证。和他一起吃饭,说起他的研究课题,他说他导师会要求他每个课题都做不同的领域。而且我看他论文的时候,会明显发现,每一个课题都会更加有意思,但是同时技术挑战也会更大。“敢于接受和面对挑战”,我想这也是CMU培养出来的计算机学科人员更加具有行业竞争力的一个原因吧。

    科研心理上的感悟:

    其实科研上的很多感悟和S君文章中提到的内容有很大重合。我是今年元旦加入成长会的。当我去完成“刷文章”的任务的时候,真的如同看到一个懂自己的人。一篇接一篇地读过去,我在有些问题上有了更为深刻的认识,在另一些问题上则是因为共鸣的存在,而产生的感动。因为我知道,成长路上,我并不孤单。

    1. 最后一公里的坚持

    相信听过S君成长课程的小伙伴一定会对“最后一公里”这个问题印象深刻。当时S君举了一个很有意思的例子。大概是说在电力的整个输送过程中,电能损失最大的、技术环节最多的,都集中于最后一公里上。其中的道理并不难理解,为了能够让千家万户能够用电,在电力传输的最后一公里往往需要不断的变压、分流。每个环节必须严丝合缝,才能保证最终用户的用电稳定与用电安全。

    对应到学术研究中,道理是相类似的。研究的早期环节包含了文献的调研、方法的设计、基础实验和论文草稿的撰写。后期的环节则多数涉及到实验的完善和论文的校订。而最后这两个环节往往又直接决定了你的想法能否通过学术论文发表的形式,让众人所知。学术研究的本质是一个发现或创造的过程,既然是发现就需要通过技术手段验证它的真实性,既然是创造,就要模拟环境证明它的有效性。因而在时间允许的情况下,应该尽可能地实现实验的全覆盖。同时论文的撰写也很重要,它的核心意义在于让后来者了解工作的核心价值,明确工作的主要方法。论文打磨的好坏一方面将决定评审对工作价值的评判,另一方面将决定工作在未来的传播能力。

    当然在学术研究中,最后一公里的坚持是有难度的,尤其是对成长中的研究者更是如此。试想一下,你辛辛苦苦完成的论文,却被导师痛批逻辑混乱,要求反复修改;在会议论文提交deadline来临之前,却被导师要求调整图表;自认为写的还不错的期刊,评审却在实验环节吹毛求疵,反复蹂躏你的玻璃心。以上这些情境都是在我们认为工作基本完成的前提下,被导师或者评审要求再前进一步。这些要求看似是刁难,实则是因为我们段位不够,很多细节没有处理好所导致。因此说, 最后一公里上所遇到的荆棘并不可怕,可怕的是缺少一颗勇敢面对的心 。

    2. 不要对自己的工作有过高的期盼

    7 天连锁酒店(现隶属与铂涛酒店集团)董事长郑南雁先生是我的校友,记得郑先生有一次回学校来做报告,说了 成长过程中通常会经历的四个阶段,即不知道自己不知道、知道自己不知道、不知道自己知道、以及知道自己知道 。对于一个持续行动者来说,想要习得一项技能或者是完成一个较为宏大的系统性工程时,前两个阶段需要持续的时间大约为1到1.5年。这样是为什么博士在第三年的时候好像突然就能出很多工作了,因为他们正在处于一个从“知道自己不知道”向“不知道自己知道”的过渡过程(他们在学术研究的过程中逐渐成熟了起来)。而后续两个阶段所需要的时间可能会更长。

    多数研究者在具备了一定研究能力之后,将在很长一段时间处于第二到第三阶段的过渡过程中。与到达了第四阶段的人(具有较为明确的研究方向和较为完备的研究体系)不同,这个阶段的小伙伴基本是摸着石头过河,有时候有那么一点感觉,有时候却又被突如其来的挫折砸的怀疑自己、怀疑学术研究本身。

    这也是我为什么说不要对自己的工作有过高的期盼。一切顺其自然, 重点放在工作的打磨,以及自身学术能力的建设上来。换做S君的话就是注重构建自己的学习系统和成长系统。 我坚信那些有价值的工作,终归是会被评审发现的。就拿这次CVPR的论文来说,我和合作的小伙伴并没有想到会是口头报告,我们觉得很有可能徘徊在weakly accept 和 borderline 之间。甚至我们已经在想如果不中,要做什么改进,要投什么期刊的事情。 没有过高的期盼,只是朴素的做事,幸福反而来的很突然。

    3. 没有工作是完美的,不要因为不完美而不去做

    “世界是被不完美推进的。”虽然对每个人来说,去追求好的、完美的工作结果是十分重要的一件事情。但是我们也必须学会去面对那些潜在的不够完美的事情。这一点在我上大学之后更是尤为凸显。我来自祖国的西部,虽然是省会城市,但从小的教育依然以填鸭式的应试教育为主。这种教育给我们带来一种二值化的思维模式,对就是对,错就是错。在思维的培养方面,更是缺乏那种迭代优化、逐步完善的训练。解决实际问题的思路也更加侧重自底向上,而不是自顶向下。这样的教育有一个很不好的地方,就是在解决较为庞杂的问题的时候,根本抓不住重点,找不到突破口。这也造成了我本科阶段,知识点还算牢固,但是遇到大的project就完全抓瞎。久而久之,养成了一种做不好的事情不去做的心态。

    其实这也算是拖延症的一种了,因为事情并没有因为逃避而消失,该要解决的问题终究是要解决的。视而不见只不过是因为害怕自己做不好、害怕自己不擅长、害怕做的过程太煎熬、害怕投入巨大却没有回报等等。事实上,“不完美”才是生活中的常态,把“不完美”逐步打造成“完美”的过程才是突破困局,不断提升自己的必由之路。因此说,不要因为“不完美”而放弃做事锻炼自己的机会。

    这里我说说这次CVPR的例子。我们一开始和老师讨论这个课题以后,其实不是很想做。因为牵涉的技术点太多了,需要去梳理的内容就很多。同时先前没有类似的工作,从评价指标到实验设计都是从0到1的过程。就包括实现的模型和我们最初idea设想的也是有差距的。有的部分是因为想不到好的技术手段去解决,所以没有添加到最终的模型中;有的部分则是因为实验无法验证其有效性,所以只能忍痛割爱。但是这并没有影响我们工作的新颖程度。同时先前idea中没有解决的问题也成了我们进一步研究和探索的目标。

    4. 去除对每一个人的偏见

    “生活中是否对人对事会有偏见?”这一点其实是成长会入会帖中的一个问题。也就是写完成长帖的那一刻,我开始关注自己在生活和工作中的那些偏见。其实,对于还不够成熟的学术工作者来说,带有偏见的去为人处事是很可怕的,甚至是毁灭性的。因为一旦加上了有色眼镜,你的眼光就局限在了某些点上,只能看到自己脑补出来的世界了。

    说说我个人的情况吧,过去一年我最大的偏见在于一度认为导师以前想做一些所谓的big idea,不够脚踏实地。认为那些idea很难做出来,导师太急于求成,想一下产生影响力。所以当时我们讨论完CVPR的工作之后,我是很排斥这个idea的。我当时有很多小的idea,可以在以前工作的基础上,快速出成果,但是导师一直说我的idea不够好,不让我去做。当时一度觉得导师很不踏实,有点急功近利。这也致使后续的几次讨论,一旦导师提出较大的修改意见,我就会认为他很不切实际,至于意见的内容如何,听进去的就少之又少了。

    后来,我加入了成长会,发现了偏见这个问题。伴随着CVPR的顺利接收,我也在不断分析自己产生这种偏见的原因:第一,可能确实是我没有导师的格局大,面对前沿性问题的时候,判断力有限。第二,我面对困难问题的时候不太自信(可能是科研素养还不够)。因为博士早几年一直处于自己摸索的阶段,碰了很多壁,因而认为科研不可太冒进。担心会在水深的地方“淹死”。这虽然历练了我独自总结归纳和分析的能力,使得我从事课题研究的时候可以步步为营。但是也局限了我,使我不敢接受有挑战的课题。

    所以说,去年我觉的幸运的三件事就是:(1)关注了ScalersTalk公众号并加入了成长会(2)当初没有因为偏见而放弃课题(3)随着在成长会的不断自我发现,意识到了偏见的存在,并积极尝试去克服它。

    林林总总写了近万字,算是对去年CVPR工作的一个梳理,也是对接下来工作的一种鞭策吧。“博学、审问、慎思、明辨、笃行”是Ramon大学时的校训,我也会谨记这几点,努力在自己的成长路走得漂亮。Ramon深知互联网上藏龙卧虎,学术圈里更是牛人林立。故言语如有偏颇不足之处,还望各位前辈提点,各位同仁指正。

    相关阅读

    Scalers:从学生到职场的最大障碍是“学生气”

    Scalers:独立出活的能力是职场进步的关键因素

    Scalers:成长必经三阶段:看不起,看不懂和看不到

    Scalers:在线教育应该着力解决学习的最后一公里问题

    Scalers:在通往牛逼的道路上,让一部分事情先做起来

    ScalersTalk   ID:scalerstalk

    微信公众号作者Scalers,游走在口译世界的IT从业者。微信公众号ScalersTalk,微博@Scalers, 网站ScalersTalk.com,口译100小时训练计划群C 456036104

    成长会是由Scalers发起的面向成长、实践行动,且凝聚了来自全球各地各行各业从业者的社群。有意入会者请和Scalers直接联系,我和其他会员会和你直接交流关于成长行动等各方面的经验教训。2016年 成长会 持续招募中,参见 做能说会写的持续行动者:ScalersTalk成长会2016年会员计划介绍(2016.3更新)


    展开全文
  • 计算机视觉论文整理

    2018-05-30 10:19:42
    本文梳理了2012到2017年计算机视觉领域的大事件:以论文和其他干货资源为主,并附上资源地址。囊括上百篇论文,分ImageNet 分类、物体检测、物体追踪、物体识别、图像与语言和图像生成等多个方向进行介绍。 上述的...

    经典论文

    计算机视觉论文

    1. ImageNet分类
    2. 物体检测
    3. 物体跟踪
    4. 低级视觉
    5. 边缘检测
    6. 语义分割
    7. 视觉注意力和显著性
    8. 物体识别
    9. 人体姿态估计
    10. CNN原理和性质(Understanding CNN)
    11. 图像和语言
    12. 图像解说
    13. 视频解说
    14. 图像生成

    微软ResNet

    论文:用于图像识别的深度残差网络

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1512.03385v1.pdf

    微软PRelu(随机纠正线性单元/权重初始化)

    论文:深入学习整流器:在ImageNet分类上超越人类水平

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1502.01852.pdf

    谷歌Batch Normalization

    论文:批量归一化:通过减少内部协变量来加速深度网络训练

    作者:Sergey Ioffe, Christian Szegedy

    链接:http://arxiv.org/pdf/1502.03167.pdf

    谷歌GoogLeNet

    论文:更深的卷积,CVPR 2015

    作者:Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich

    链接:http://arxiv.org/pdf/1409.4842.pdf

    牛津VGG-Net

    论文:大规模视觉识别中的极深卷积网络,ICLR 2015

    作者:Karen Simonyan & Andrew Zisserman

    链接:http://arxiv.org/pdf/1409.1556.pdf

    AlexNet

    论文:使用深度卷积神经网络进行ImageNet分类

    作者:Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

    链接:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

    物体检测

    这里写图片描述

    PVANET

    论文:用于实时物体检测的深度轻量神经网络(PVANET:Deep but Lightweight Neural Networks for Real-time Object Detection)

    作者:Kye-Hyeon Kim, Sanghoon Hong, Byungseok Roh, Yeongjae Cheon, Minje Park

    链接:http://arxiv.org/pdf/1608.08021

    纽约大学OverFeat

    论文:使用卷积网络进行识别、定位和检测(OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks),ICLR 2014

    作者:Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun

    链接:http://arxiv.org/pdf/1312.6229.pdf

    伯克利R-CNN

    论文:精确物体检测和语义分割的丰富特征层次结构(Rich feature hierarchies for accurate object detection and semantic segmentation),CVPR 2014

    作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

    链接:http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

    微软SPP

    论文:视觉识别深度卷积网络中的空间金字塔池化(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition),ECCV 2014

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1406.4729.pdf

    微软Fast R-CNN

    论文:Fast R-CNN

    作者:Ross Girshick

    链接:http://arxiv.org/pdf/1504.08083.pdf

    微软Faster R-CNN

    论文:使用RPN走向实时物体检测(Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks)

    作者:任少卿、何恺明、Ross Girshick、孙剑

    链接:http://arxiv.org/pdf/1506.01497.pdf

    牛津大学R-CNN minus R

    论文:R-CNN minus R

    作者:Karel Lenc, Andrea Vedaldi

    链接:http://arxiv.org/pdf/1506.06981.pdf

    端到端行人检测

    论文:密集场景中端到端的行人检测(End-to-end People Detection in Crowded Scenes)

    作者:Russell Stewart, Mykhaylo Andriluka

    链接:http://arxiv.org/pdf/1506.04878.pdf

    实时物体检测

    论文:你只看一次:统一实时物体检测(You Only Look Once: Unified, Real-Time Object Detection)

    作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

    链接:http://arxiv.org/pdf/1506.02640.pdf

    Inside-Outside Net

    论文:使用跳跃池化和RNN在场景中检测物体(Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks)

    作者:Sean Bell, C. Lawrence Zitnick, Kavita Bala, Ross Girshick

    链接:http://arxiv.org/abs/1512.04143.pdf

    微软ResNet

    论文:用于图像识别的深度残差网络

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1512.03385v1.pdf

    R-FCN

    论文:通过区域全卷积网络进行物体识别(R-FCN: Object Detection via Region-based Fully Convolutional Networks)

    作者:代季峰,李益,何恺明,孙剑

    链接:http://arxiv.org/abs/1605.06409

    SSD

    论文:单次多框检测器(SSD: Single Shot MultiBox Detector)

    作者:Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

    链接:http://arxiv.org/pdf/1512.02325v2.pdf

    速度/精度权衡

    论文:现代卷积物体检测器的速度/精度权衡(Speed/accuracy trade-offs for modern convolutional object detectors)

    作者:Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy

    链接:http://arxiv.org/pdf/1611.10012v1.pdf

    物体跟踪

    • 论文:用卷积神经网络通过学习可区分的显著性地图实现在线跟踪(Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network)

    作者:Seunghoon Hong, Tackgeun You, Suha Kwak, Bohyung Han

    地址:arXiv:1502.06796.

    • 论文:DeepTrack:通过视觉跟踪的卷积神经网络学习辨别特征表征(DeepTrack: Learning Discriminative Feature Representations by Convolutional Neural Networks for Visual Tracking)

    作者:Hanxi Li, Yi Li and Fatih Porikli

    发表: BMVC, 2014.

    • 论文:视觉跟踪中,学习深度紧凑图像表示(Learning a Deep Compact Image Representation for Visual Tracking)

    作者:N Wang, DY Yeung

    发表:NIPS, 2013.

    • 论文:视觉跟踪的分层卷积特征(Hierarchical Convolutional Features for Visual Tracking)

    作者:Chao Ma, Jia-Bin Huang, Xiaokang Yang and Ming-Hsuan Yang

    发表: ICCV 2015

    • 论文:完全卷积网络的视觉跟踪(Visual Tracking with fully Convolutional Networks)

    作者:Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu,

    发表:ICCV 2015

    • 论文:学习多域卷积神经网络进行视觉跟踪(Learning Multi-Domain Convolutional Neural Networks for Visual Tracking)

    作者:Hyeonseob Namand Bohyung Han

    对象识别(Object Recognition)

    论文:卷积神经网络弱监督学习(Weakly-supervised learning with convolutional neural networks)

    作者:Maxime Oquab,Leon Bottou,Ivan Laptev,Josef Sivic,CVPR,2015

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Oquab_Is_Object_Localization_2015_CVPR_paper.pdf

    FV-CNN

    论文:深度滤波器组用于纹理识别和分割(Deep Filter Banks for Texture Recognition and Segmentation)

    作者:Mircea Cimpoi, Subhransu Maji, Andrea Vedaldi, CVPR, 2015.

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Cimpoi_Deep_Filter_Banks_2015_CVPR_paper.pdf

    人体姿态估计(Human Pose Estimation)

    • 论文:使用 Part Affinity Field的实时多人2D姿态估计(Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields)

    作者:Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh, CVPR, 2017.

    • 论文:Deepcut:多人姿态估计的联合子集分割和标签(Deepcut: Joint subset partition and labeling for multi person pose estimation)

    作者:Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, and Bernt Schiele, CVPR, 2016.

    • 论文:Convolutional pose machines

    作者:Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, CVPR, 2016.

    • 论文:人体姿态估计的 Stacked hourglass networks(Stacked hourglass networks for human pose estimation)

    作者:Alejandro Newell, Kaiyu Yang, and Jia Deng, ECCV, 2016.

    • 论文:用于视频中人体姿态估计的Flowing convnets(Flowing convnets for human pose estimation in videos)

    作者:Tomas Pfister, James Charles, and Andrew Zisserman, ICCV, 2015.

    • 论文:卷积网络和人类姿态估计图模型的联合训练(Joint training of a convolutional network and a graphical model for human pose estimation)

    作者:Jonathan J. Tompson, Arjun Jain, Yann LeCun, Christoph Bregler, NIPS, 2014.

    理解CNN

    这里写图片描述

    • 论文:通过测量同变性和等价性来理解图像表示(Understanding image representations by measuring their equivariance and equivalence)

    作者:Karel Lenc, Andrea Vedaldi, CVPR, 2015.

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf

    • 论文:深度神经网络容易被愚弄:无法识别的图像的高置信度预测(Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images)

    作者:Anh Nguyen, Jason Yosinski, Jeff Clune, CVPR, 2015.

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

    • 论文:通过反演理解深度图像表示(Understanding Deep Image Representations by Inverting Them)

    作者:Aravindh Mahendran, Andrea Vedaldi, CVPR, 2015

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf

    • 论文:深度场景CNN中的对象检测器(Object Detectors Emerge in Deep Scene CNNs)

    作者:Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, ICLR, 2015.

    链接:http://arxiv.org/abs/1412.6856

    • 论文:用卷积网络反演视觉表示(Inverting Visual Representations with Convolutional Networks)

    作者:Alexey Dosovitskiy, Thomas Brox, arXiv, 2015.

    链接:http://arxiv.org/abs/1506.02753

    • 论文:可视化和理解卷积网络(Visualizing and Understanding Convolutional Networks)

    作者:Matthrew Zeiler, Rob Fergus, ECCV, 2014.

    链接:http://www.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

    图像与语言

    图像说明(Image Captioning)

    这里写图片描述

    UCLA / Baidu

    用多模型循环神经网络解释图像(Explain Images with Multimodal Recurrent Neural Networks)

    Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090

    http://arxiv.org/pdf/1410.1090

    Toronto

    使用多模型神经语言模型统一视觉语义嵌入(Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models)

    Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel, arXiv:1411.2539.

    http://arxiv.org/pdf/1411.2539

    Berkeley

    用于视觉识别和描述的长期循环卷积网络(Long-term Recurrent Convolutional Networks for Visual Recognition and Description)

    Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrell, arXiv:1411.4389.

    http://arxiv.org/pdf/1411.4389

    Google

    看图写字:神经图像说明生成器(Show and Tell: A Neural Image Caption Generator)

    Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan, arXiv:1411.4555.

    http://arxiv.org/pdf/1411.4555

    Stanford

    用于生成图像描述的深度视觉语义对齐(Deep Visual-Semantic Alignments for Generating Image Description)

    Andrej Karpathy, Li Fei-Fei, CVPR, 2015.

    Web:http://cs.stanford.edu/people/karpathy/deepimagesent/

    Paper:http://cs.stanford.edu/people/karpathy/cvpr2015.pdf

    UML / UT

    使用深度循环神经网络将视频转换为自然语言(Translating Videos to Natural Language Using Deep Recurrent Neural Networks)

    Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, NAACL-HLT, 2015.

    http://arxiv.org/pdf/1412.4729

    CMU / Microsoft

    学习图像说明生成的循环视觉表示(Learning a Recurrent Visual Representation for Image Caption Generation)

    Xinlei Chen, C. Lawrence Zitnick, arXiv:1411.5654.

    Xinlei Chen, C. Lawrence Zitnick, Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation, CVPR 2015

    http://www.cs.cmu.edu/~xinleic/papers/cvpr15_rnn.pdf

    Microsoft

    从图像说明到视觉概念(From Captions to Visual Concepts and Back)

    Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, Geoffrey Zweig, CVPR, 2015.

    http://arxiv.org/pdf/1411.4952

    Univ. Montreal / Univ. Toronto

    Show, Attend, and Tell:视觉注意力与神经图像标题生成(Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention)

    Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, Yoshua Bengio, arXiv:1502.03044 / ICML 2015

    http://www.cs.toronto.edu/~zemel/documents/captionAttn.pdf

    Idiap / EPFL / Facebook

    基于短语的图像说明(Phrase-based Image Captioning)

    Remi Lebret, Pedro O. Pinheiro, Ronan Collobert, arXiv:1502.03671 / ICML 2015

    http://arxiv.org/pdf/1502.03671

    UCLA / Baidu

    像孩子一样学习:从图像句子描述快速学习视觉的新概念(Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images)

    Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan L. Yuille, arXiv:1504.06692

    http://arxiv.org/pdf/1504.06692

    MS + Berkeley

    探索图像说明的最近邻方法( Exploring Nearest Neighbor Approaches for Image Captioning)

    Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick, arXiv:1505.04467

    http://arxiv.org/pdf/1505.04467.pdf

    图像说明的语言模型(Language Models for Image Captioning: The Quirks and What Works)

    Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, Margaret Mitchell, arXiv:1505.01809

    http://arxiv.org/pdf/1505.01809.pdf

    阿德莱德

    具有中间属性层的图像说明( Image Captioning with an Intermediate Attributes Layer)

    Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick, arXiv:1506.01144

    蒂尔堡

    通过图片学习语言(Learning language through pictures)

    Grzegorz Chrupala, Akos Kadar, Afra Alishahi, arXiv:1506.03694

    蒙特利尔大学

    使用基于注意力的编码器-解码器网络描述多媒体内容(Describing Multimedia Content using Attention-based Encoder-Decoder Networks)

    Kyunghyun Cho, Aaron Courville, Yoshua Bengio, arXiv:1507.01053

    康奈尔

    图像表示和神经图像说明的新领域(Image Representations and New Domains in Neural Image Captioning)

    Jack Hessel, Nicolas Savva, Michael J. Wilber, arXiv:1508.02091

    MS + City Univ. of HongKong

    Learning Query and Image Similarities with Ranking Canonical Correlation Analysis

    Ting Yao, Tao Mei, and Chong-Wah Ngo, ICCV, 2015

    视频字幕(Video Captioning)

    伯克利

    Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrell, Long-term Recurrent Convolutional Networks for Visual Recognition and Description, CVPR, 2015.

    犹他州/ UML / 伯克利

    Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, Translating Videos to Natural Language Using Deep Recurrent Neural Networks, arXiv:1412.4729.

    微软

    Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui, Joint Modeling Embedding and Translation to Bridge Video and Language, arXiv:1505.01861.

    犹他州/ UML / 伯克利

    Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, Kate Saenko, Sequence to Sequence–Video to Text, arXiv:1505.00487.

    蒙特利尔大学/ 舍布鲁克

    Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, Aaron Courville, Describing Videos by Exploiting Temporal Structure, arXiv:1502.08029

    MPI / 伯克利

    Anna Rohrbach, Marcus Rohrbach, Bernt Schiele, The Long-Short Story of Movie Description, arXiv:1506.01698

    多伦多大学 / MIT

    Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler, Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books, arXiv:1506.06724

    蒙特利尔大学

    Kyunghyun Cho, Aaron Courville, Yoshua Bengio, Describing Multimedia Content using Attention-based Encoder-Decoder Networks, arXiv:1507.01053

    TAU / 美国南加州大学

    Dotan Kaufman, Gil Levi, Tal Hassner, Lior Wolf, Temporal Tessellation for Video Annotation and Summarization, arXiv:1612.06950.

    图像生成

    卷积/循环网络
    • 论文:Conditional Image Generation with PixelCNN Decoders”

    作者:Aäron van den Oord, Nal Kalchbrenner, Oriol Vinyals, Lasse Espeholt, Alex Graves, Koray Kavukcuoglu

    • 论文:Learning to Generate Chairs with Convolutional Neural Networks

    作者:Alexey Dosovitskiy, Jost Tobias Springenberg, Thomas Brox

    发表:CVPR, 2015.

    • 论文:DRAW: A Recurrent Neural Network For Image Generation

    作者:Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Jimenez Rezende, Daan Wierstra

    发表:ICML, 2015.

    对抗网络
    • 论文:生成对抗网络(Generative Adversarial Networks)

    作者:Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

    发表:NIPS, 2014.

    • 论文:使用对抗网络Laplacian Pyramid 的深度生成图像模型(Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks)

    作者:Emily Denton, Soumith Chintala, Arthur Szlam, Rob Fergus

    发表:NIPS, 2015.

    • 论文:生成模型演讲概述 (A note on the evaluation of generative models)

    作者:Lucas Theis, Aäron van den Oord, Matthias Bethge

    发表:ICLR 2016.

    • 论文:变分自动编码深度高斯过程(Variationally Auto-Encoded Deep Gaussian Processes)

    作者:Zhenwen Dai, Andreas Damianou, Javier Gonzalez, Neil Lawrence

    发表:ICLR 2016.

    • 论文:用注意力机制从字幕生成图像 (Generating Images from Captions with Attention)

    作者:Elman Mansimov, Emilio Parisotto, Jimmy Ba, Ruslan Salakhutdinov

    发表: ICLR 2016

    • 论文:分类生成对抗网络的无监督和半监督学习(Unsupervised and Semi-supervised Learning with Categorical Generative Adversarial Networks)

    作者:Jost Tobias Springenberg

    发表:ICLR 2016

    • 论文:用一个对抗检测表征(Censoring Representations with an Adversary)

    作者:Harrison Edwards, Amos Storkey

    发表:ICLR 2016

    • 论文:虚拟对抗训练实现分布式顺滑 (Distributional Smoothing with Virtual Adversarial Training)

    作者:Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, Shin Ishii

    发表:ICLR 2016

    • 论文:自然图像流形上的生成视觉操作(Generative Visual Manipulation on the Natural Image Manifold)

    作者:朱俊彦, Philipp Krahenbuhl, Eli Shechtman, and Alexei A. Efros

    发表: ECCV 2016.

    • 论文:深度卷积生成对抗网络的无监督表示学习(Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)

    作者:Alec Radford, Luke Metz, Soumith Chintala

    发表: ICLR 2016

    问题回答

    这里写图片描述

    弗吉尼亚大学 / 微软研究院

    论文:VQA: Visual Question Answering, CVPR, 2015 SUNw:Scene Understanding workshop.

    作者:Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh

    MPI / 伯克利

    论文:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

    作者:Mateusz Malinowski, Marcus Rohrbach, Mario Fritz,

    发布 : arXiv:1505.01121.

    多伦多

    论文: Image Question Answering: A Visual Semantic Embedding Model and a New Dataset

    作者:Mengye Ren, Ryan Kiros, Richard Zemel

    发表: arXiv:1505.02074 / ICML 2015 deep learning workshop.

    百度/ 加州大学洛杉矶分校

    作者:Hauyuan Gao, Junhua Mao, Jie Zhou, Zhiheng Huang, Lei Wang, 徐伟

    论文:Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering

    发表: arXiv:1505.05612.

    POSTECH(韩国)

    论文:Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

    作者:Hyeonwoo Noh, Paul Hongsuck Seo, and Bohyung Han

    发表: arXiv:1511.05765

    CMU / 微软研究院

    论文:Stacked Attention Networks for Image Question Answering

    作者:Yang, Z., He, X., Gao, J., Deng, L., & Smola, A. (2015)

    发表: arXiv:1511.02274.

    MetaMind

    论文:Dynamic Memory Networks for Visual and Textual Question Answering

    作者:Xiong, Caiming, Stephen Merity, and Richard Socher

    发表: arXiv:1603.01417 (2016).

    首尔国立大学 + NAVER

    论文:Multimodal Residual Learning for Visual QA

    作者:Jin-Hwa Kim, Sang-Woo Lee, Dong-Hyun Kwak, Min-Oh Heo, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhang

    发表:arXiv:1606:01455

    UC Berkeley + 索尼

    论文:Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

    作者:Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach

    发表:arXiv:1606.01847

    Postech

    论文:Training Recurrent Answering Units with Joint Loss Minimization for VQA

    作者:Hyeonwoo Noh and Bohyung Han

    发表: arXiv:1606.03647

    首尔国立大学 + NAVER

    论文: Hadamard Product for Low-rank Bilinear Pooling

    作者:Jin-Hwa Kim, Kyoung Woon On, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhan

    发表:arXiv:1610.04325.

    视觉注意力和显著性

    这里写图片描述
    论文:Predicting Eye Fixations using Convolutional Neural Networks

    作者:Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu

    发表:CVPR, 2015.

    学习地标的连续搜索

    作者:Learning a Sequential Search for Landmarks

    论文:Saurabh Singh, Derek Hoiem, David Forsyth

    发表:CVPR, 2015.

    视觉注意力机制实现多物体识别

    论文:Multiple Object Recognition with Visual Attention

    作者:Jimmy Lei Ba, Volodymyr Mnih, Koray Kavukcuoglu,

    发表:ICLR, 2015.

    视觉注意力机制的循环模型

    作者:Volodymyr Mnih, Nicolas Heess, Alex Graves, Koray Kavukcuoglu

    论文:Recurrent Models of Visual Attention

    发表:NIPS, 2014.

    低级视觉

    超分辨率
    • Iterative Image Reconstruction

    Sven Behnke: Learning Iterative Image Reconstruction. IJCAI, 2001.

    Sven Behnke: Learning Iterative Image Reconstruction in the Neural Abstraction Pyramid. International Journal of Computational Intelligence and Applications, vol. 1, no. 4, pp. 427-438, 2001.

    • Super-Resolution (SRCNN)

    Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang, Learning a Deep Convolutional Network for Image Super-Resolution, ECCV, 2014.

    Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang, Image Super-Resolution Using Deep Convolutional Networks, arXiv:1501.00092.

    • Very Deep Super-Resolution

    Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, Accurate Image Super-Resolution Using Very Deep Convolutional Networks, arXiv:1511.04587, 2015.

    • Deeply-Recursive Convolutional Network

    Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, Deeply-Recursive Convolutional Network for Image Super-Resolution, arXiv:1511.04491, 2015.

    • Casade-Sparse-Coding-Network

    Zhaowen Wang, Ding Liu, Wei Han, Jianchao Yang and Thomas S. Huang, Deep Networks for Image Super-Resolution with Sparse Prior. ICCV, 2015.

    • Perceptual Losses for Super-Resolution

    Justin Johnson, Alexandre Alahi, Li Fei-Fei, Perceptual Losses for Real-Time Style Transfer and Super-Resolution, arXiv:1603.08155, 2016.

    • SRGAN

    Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi, Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, arXiv:1609.04802v3, 2016.

    其他应用

    Optical Flow (FlowNet)

    Philipp Fischer, Alexey Dosovitskiy, Eddy Ilg, Philip Häusser, Caner Hazırbaş, Vladimir Golkov, Patrick van der Smagt, Daniel Cremers, Thomas Brox, FlowNet: Learning Optical Flow with Convolutional Networks, arXiv:1504.06852.

    Compression Artifacts Reduction

    Chao Dong, Yubin Deng, Chen Change Loy, Xiaoou Tang, Compression Artifacts Reduction by a Deep Convolutional Network, arXiv:1504.06993.

    Blur Removal

    Christian J. Schuler, Michael Hirsch, Stefan Harmeling, Bernhard Schölkopf, Learning to Deblur, arXiv:1406.7444

    Jian Sun, Wenfei Cao, Zongben Xu, Jean Ponce, Learning a Convolutional Neural Network for Non-uniform Motion Blur Removal, CVPR, 2015

    Image Deconvolution

    Li Xu, Jimmy SJ. Ren, Ce Liu, Jiaya Jia, Deep Convolutional Neural Network for Image Deconvolution, NIPS, 2014.

    Deep Edge-Aware Filter

    Li Xu, Jimmy SJ. Ren, Qiong Yan, Renjie Liao, Jiaya Jia, Deep Edge-Aware Filters, ICML, 2015.

    Computing the Stereo Matching Cost with a Convolutional Neural Network

    Jure Žbontar, Yann LeCun, Computing the Stereo Matching Cost with a Convolutional Neural Network, CVPR, 2015.

    Colorful Image Colorization Richard Zhang, Phillip Isola, Alexei A. Efros, ECCV, 2016

    Feature Learning by Inpainting

    Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, Alexei A. Efros, Context Encoders: Feature Learning by Inpainting, CVPR, 2016

    边缘检测

    这里写图片描述
    Saining Xie, Zhuowen Tu, Holistically-Nested Edge Detection, arXiv:1504.06375.

    DeepEdge

    Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, DeepEdge: A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection, CVPR, 2015.

    DeepContour

    Wei Shen, Xinggang Wang, Yan Wang, Xiang Bai, Zhijiang Zhang, DeepContour: A Deep Convolutional Feature Learned by Positive-Sharing Loss for Contour Detection, CVPR, 2015.

    语义分割

    这里写图片描述

    SEC: Seed, Expand and Constrain

    Alexander Kolesnikov, Christoph Lampert, Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation, ECCV, 2016.

    Adelaide

    Guosheng Lin, Chunhua Shen, Ian Reid, Anton van dan Hengel, Efficient piecewise training of deep structured models for semantic segmentation, arXiv:1504.01013. (1st ranked in VOC2012)

    Guosheng Lin, Chunhua Shen, Ian Reid, Anton van den Hengel, Deeply Learning the Messages in Message Passing Inference, arXiv:1508.02108. (4th ranked in VOC2012)

    Deep Parsing Network (DPN)

    Ziwei Liu, Xiaoxiao Li, Ping Luo, Chen Change Loy, Xiaoou Tang, Semantic Image Segmentation via Deep Parsing Network, arXiv:1509.02634 / ICCV 2015 (2nd ranked in VOC 2012)

    CentraleSuperBoundaries, INRIA

    Iasonas Kokkinos, Surpassing Humans in Boundary Detection using Deep Learning, arXiv:1411.07386 (4th ranked in VOC 2012)

    BoxSup

    Jifeng Dai, Kaiming He, Jian Sun, BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation, arXiv:1503.01640. (6th ranked in VOC2012)

    POSTECH

    Hyeonwoo Noh, Seunghoon Hong, Bohyung Han, Learning Deconvolution Network for Semantic Segmentation, arXiv:1505.04366. (7th ranked in VOC2012)

    Seunghoon Hong, Hyeonwoo Noh, Bohyung Han, Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation, arXiv:1506.04924.

    Seunghoon Hong,Junhyuk Oh,Bohyung Han, andHonglak Lee, Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network, arXiv:1512.07928

    Conditional Random Fields as Recurrent Neural Networks

    Shuai Zheng, Sadeep Jayasumana, Bernardino Romera-Paredes, Vibhav Vineet, Zhizhong Su, Dalong Du, Chang Huang, Philip H. S. Torr, Conditional Random Fields as Recurrent Neural Networks, arXiv:1502.03240. (8th ranked in VOC2012)

    DeepLab

    Liang-Chieh Chen, George Papandreou, Kevin Murphy, Alan L. Yuille, Weakly-and semi-supervised learning of a DCNN for semantic image segmentation, arXiv:1502.02734. (9th ranked in VOC2012)

    Zoom-out

    Mohammadreza Mostajabi, Payman Yadollahpour, Gregory Shakhnarovich, Feedforward Semantic Segmentation With Zoom-Out Features, CVPR, 2015

    Joint Calibration

    Holger Caesar, Jasper Uijlings, Vittorio Ferrari, Joint Calibration for Semantic Segmentation, arXiv:1507.01581.

    Fully Convolutional Networks for Semantic Segmentation

    Jonathan Long, Evan Shelhamer, Trevor Darrell, Fully Convolutional Networks for Semantic Segmentation, CVPR, 2015.

    Hypercolumn

    Bharath Hariharan, Pablo Arbelaez, Ross Girshick, Jitendra Malik, Hypercolumns for Object Segmentation and Fine-Grained Localization, CVPR, 2015.

    Deep Hierarchical Parsing

    Abhishek Sharma, Oncel Tuzel, David W. Jacobs, Deep Hierarchical Parsing for Semantic Segmentation, CVPR, 2015.

    Learning Hierarchical Features for Scene Labeling

    Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun, Scene Parsing with Multiscale Feature Learning, Purity Trees, and Optimal Covers, ICML, 2012.

    Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun, Learning Hierarchical Features for Scene Labeling, PAMI, 2013.

    University of Cambridge

    Vijay Badrinarayanan, Alex Kendall and Roberto Cipolla “SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation.” arXiv preprint arXiv:1511.00561, 2015.

    Alex Kendall, Vijay Badrinarayanan and Roberto Cipolla “Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding.” arXiv preprint arXiv:1511.02680, 2015.

    Princeton

    Fisher Yu, Vladlen Koltun, “Multi-Scale Context Aggregation by Dilated Convolutions”, ICLR 2016

    Univ. of Washington, Allen AI

    Hamid Izadinia, Fereshteh Sadeghi, Santosh Kumar Divvala, Yejin Choi, Ali Farhadi, “Segment-Phrase Table for Semantic Segmentation, Visual Entailment and Paraphrasing”, ICCV, 2015

    INRIA

    Iasonas Kokkinos, “Pusing the Boundaries of Boundary Detection Using deep Learning”, ICLR 2016

    UCSB

    Niloufar Pourian, S. Karthikeyan, and B.S. Manjunath, “Weakly supervised graph based semantic segmentation by learning communities of image-parts”, ICCV, 2015

    其他资源

    课程

    深度视觉

    [斯坦福] CS231n: Convolutional Neural Networks for Visual Recognition

    [香港中文大学] ELEG 5040: Advanced Topics in Signal Processing(Introduction to Deep Learning)

    · 更多深度课程推荐

    [斯坦福] CS224d: Deep Learning for Natural Language Processing

    [牛津 Deep Learning by Prof. Nando de Freitas

    [纽约大学] Deep Learning by Prof. Yann LeCun

    图书

    免费在线图书

    Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

    Neural Networks and Deep Learning by Michael Nielsen

    Deep Learning Tutorial by LISA lab, University of Montreal

    视频

    演讲

    Deep Learning, Self-Taught Learning and Unsupervised Feature Learning By Andrew Ng

    Recent Developments in Deep Learning By Geoff Hinton

    The Unreasonable Effectiveness of Deep Learning by Yann LeCun

    Deep Learning of Representations by Yoshua bengio

    软件

    框架
    • Tensorflow: An open source software library for numerical computation using data flow graph by Google [Web]
    • Torch7: Deep learning library in Lua, used by Facebook and Google Deepmind [Web]
    • Torch-based deep learning libraries: [torchnet],
    • Caffe: Deep learning framework by the BVLC [Web]
    • Theano: Mathematical library in Python, maintained by LISA lab [Web]
    • Theano-based deep learning libraries: [Pylearn2], [Blocks], [Keras], [Lasagne]
    • MatConvNet: CNNs for MATLAB [Web]
    • MXNet: A flexible and efficient deep learning library for heterogeneous distributed systems with multi-language support [Web]
    • Deepgaze: A computer vision library for human-computer interaction based on CNNs [Web]

    应用

    • 对抗训练 Code and hyperparameters for the paper “Generative Adversarial Networks” [Web]
    • 理解与可视化 Source code for “Understanding Deep Image Representations by Inverting Them,” CVPR, 2015. [Web]
    • 词义分割 Source code for the paper “Rich feature hierarchies for accurate object detection and semantic segmentation,” CVPR, 2014. [Web] ; Source code for the paper “Fully Convolutional Networks for Semantic Segmentation,” CVPR, 2015. [Web]
    • 超分辨率 Image Super-Resolution for Anime-Style-Art [Web]
    • 边缘检测 Source code for the paper “DeepContour: A Deep Convolutional Feature Learned by Positive-Sharing Loss for Contour Detection,” CVPR, 2015. [Web]
    • Source code for the paper “Holistically-Nested Edge Detection”, ICCV 2015. [Web]

    讲座

    • [CVPR 2014] Tutorial on Deep Learning in Computer Vision
    • [CVPR 2015] Applied Deep Learning for Computer Vision with Torch

    博客

    • Deep down the rabbit hole: CVPR 2015 and beyond@Tombone’s Computer Vision Blog
    • CVPR recap and where we’re going@Zoya Bylinskii (MIT PhD Student)’s Blog
    • Facebook’s AI Painting@Wired
    • Inceptionism: Going Deeper into Neural Networks@Google Research
    • Implementing Neural networks
    展开全文
  • 计算机视觉领域较好论文汇总 Learning to Track at 100 FPS with Deep Regression Networks (2016) Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks (AAAI 2016) Online Multi-target ...

    计算机视觉领域较好论文汇总

    • Learning to Track at 100 FPS with Deep Regression Networks (2016)
    • Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks (AAAI 2016)
    • Online Multi-target Tracking using Recurrent Neural Networks (2016)
    • Multi-Target Tracking by Discrete-Continuous Energy Minimization (2016)
    • Learning Multi-Domain Convolutional Neural Networks for Visual Tracking (VOT2015 冠军)
    • Learning to Track: Online Multi-Object Tracking by Decision Making (ICCV 2015)
    • Hierarchical Convolutional Features for Visual Tracking (ICCV 2015)
    • Robust Visual Tracking via Convolutional Networks without Training (2015)
    • Transferring Rich Feature Hierarchies for Robust Visual Tracking (2015)
    • Understanding and Diagnosing Visual Tracking Systems (ICCV 2015)
    • RATM: Recurrent Attentive Tracking Model (2015)
    • Visual Tracking with Fully Convolutional Networks (ICCV 2015)
    • Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor (2015)
    • High-speed Tracking with Kernelized Correlation filters(2015 TPAMI)
    • Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals (VOT2015)
    • Adaptive Decontamination of the Training Set:A Unified Formulation for Discriminative Visual Tracking (2016)
    • Sequentially Training Convolutional Networks for Visual Tracking (2016)
    • Complementary Learners for Real-Time Tracking (2016)
    • Siamese Instance Search for Tracking (2016)
    • learning multi-domain convolution neural networks for visual tracking (2016)
    • Visual Tracking with Fully Convolutional Networks (2016)
    • Learning to Track at 100 FPS with Deep Regression Networks
    • Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network
    • DeepTrack: Learning Discriminative Feature Representations Online for Robust Visual Tracking
    • RCNN Rich feature hierarchies for accurate object detection andsemantic segmentation
    • SPP-net Spatial Pyramid Pooling in Deep Convolutional Networks forVisual Recognition
    • Fast R-CNN Towards Real-Time Object Detection with Region Proposal Networks
    • Faster R-CNN Faster R-CNN Towards Real-Time ObjectDetection with Region Proposal Networks
    • DeepTrack:Learning Discriminative Feature Representations by Convolutional Neural Networks for visual Tracking (2014)
    • Matching Networks for One Shot Learning (2016)
    • Factorized Convolutional Neural Networks (2016)
    • Multi-scale Patch Aggregation(MPA)for Simultaneous Detection and Segmentation (CVPR2016)
    • DeepFashion:Powering Robust Clothes Recognition and Retrieval With Rich Annotations (2016)
    • A Key Volume Mining Deep Framework for Action Recognition (2016)
    • Joint Training of Cascaded CNN for Face Detection (2016)
    • Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (2014)
    • Deep Learning Face Representation from Predicting 10,000 Classes (CVPR2014)
    • Recover Canonical-View Faces in the Wild with Deep Neural Network (CVPR2014)
    • Deep Neural Networks for Object Detection.
    • Is Faster R-CNN Doing Well for Pedestrain Detection?(ECCV 2016)
    • Ten Years of Pedestrian Detection, What Have We Learned? (ECCV 2014)
    • (未完待续)…
    展开全文
  • 计算机视觉论文 ImageNet分类 物体检测 物体跟踪 低级视觉 边缘检测 语义分割 视觉注意力和显著性 物体识别 人体姿态估计 CNN原理和性质(Understanding CNN) 图像和语言 图像解说 视频解说 图像生成...

    经典论文

    计算机视觉论文

    1. ImageNet分类
    2. 物体检测
    3. 物体跟踪
    4. 低级视觉
    5. 边缘检测
    6. 语义分割
    7. 视觉注意力和显著性
    8. 物体识别
    9. 人体姿态估计
    10. CNN原理和性质(Understanding CNN)
    11. 图像和语言
    12. 图像解说
    13. 视频解说
    14. 图像生成

    微软ResNet

    论文:用于图像识别的深度残差网络

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1512.03385v1.pdf

    微软PRelu(随机纠正线性单元/权重初始化)

    论文:深入学习整流器:在ImageNet分类上超越人类水平

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1502.01852.pdf

    谷歌Batch Normalization

    论文:批量归一化:通过减少内部协变量来加速深度网络训练

    作者:Sergey Ioffe, Christian Szegedy

    链接:http://arxiv.org/pdf/1502.03167.pdf

    谷歌GoogLeNet

    论文:更深的卷积,CVPR 2015

    作者:Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich

    链接:http://arxiv.org/pdf/1409.4842.pdf

    牛津VGG-Net

    论文:大规模视觉识别中的极深卷积网络,ICLR 2015

    作者:Karen Simonyan & Andrew Zisserman

    链接:http://arxiv.org/pdf/1409.1556.pdf

    AlexNet

    论文:使用深度卷积神经网络进行ImageNet分类

    作者:Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

    链接:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

    物体检测

    这里写图片描述

    PVANET

    论文:用于实时物体检测的深度轻量神经网络(PVANET:Deep but Lightweight Neural Networks for Real-time Object Detection)

    作者:Kye-Hyeon Kim, Sanghoon Hong, Byungseok Roh, Yeongjae Cheon, Minje Park

    链接:http://arxiv.org/pdf/1608.08021

    纽约大学OverFeat

    论文:使用卷积网络进行识别、定位和检测(OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks),ICLR 2014

    作者:Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun

    链接:http://arxiv.org/pdf/1312.6229.pdf

    伯克利R-CNN

    论文:精确物体检测和语义分割的丰富特征层次结构(Rich feature hierarchies for accurate object detection and semantic segmentation),CVPR 2014

    作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

    链接:http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

    微软SPP

    论文:视觉识别深度卷积网络中的空间金字塔池化(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition),ECCV 2014

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1406.4729.pdf

    微软Fast R-CNN

    论文:Fast R-CNN

    作者:Ross Girshick

    链接:http://arxiv.org/pdf/1504.08083.pdf

    微软Faster R-CNN

    论文:使用RPN走向实时物体检测(Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks)

    作者:任少卿、何恺明、Ross Girshick、孙剑

    链接:http://arxiv.org/pdf/1506.01497.pdf

    牛津大学R-CNN minus R

    论文:R-CNN minus R

    作者:Karel Lenc, Andrea Vedaldi

    链接:http://arxiv.org/pdf/1506.06981.pdf

    端到端行人检测

    论文:密集场景中端到端的行人检测(End-to-end People Detection in Crowded Scenes)

    作者:Russell Stewart, Mykhaylo Andriluka

    链接:http://arxiv.org/pdf/1506.04878.pdf

    实时物体检测

    论文:你只看一次:统一实时物体检测(You Only Look Once: Unified, Real-Time Object Detection)

    作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

    链接:http://arxiv.org/pdf/1506.02640.pdf

    Inside-Outside Net

    论文:使用跳跃池化和RNN在场景中检测物体(Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks)

    作者:Sean Bell, C. Lawrence Zitnick, Kavita Bala, Ross Girshick

    链接:http://arxiv.org/abs/1512.04143.pdf

    微软ResNet

    论文:用于图像识别的深度残差网络

    作者:何恺明、张祥雨、任少卿和孙剑

    链接:http://arxiv.org/pdf/1512.03385v1.pdf

    R-FCN

    论文:通过区域全卷积网络进行物体识别(R-FCN: Object Detection via Region-based Fully Convolutional Networks)

    作者:代季峰,李益,何恺明,孙剑

    链接:http://arxiv.org/abs/1605.06409

    SSD

    论文:单次多框检测器(SSD: Single Shot MultiBox Detector)

    作者:Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

    链接:http://arxiv.org/pdf/1512.02325v2.pdf

    速度/精度权衡

    论文:现代卷积物体检测器的速度/精度权衡(Speed/accuracy trade-offs for modern convolutional object detectors)

    作者:Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy

    链接:http://arxiv.org/pdf/1611.10012v1.pdf

    物体跟踪

    • 论文:用卷积神经网络通过学习可区分的显著性地图实现在线跟踪(Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network)

    作者:Seunghoon Hong, Tackgeun You, Suha Kwak, Bohyung Han

    地址:arXiv:1502.06796.

    • 论文:DeepTrack:通过视觉跟踪的卷积神经网络学习辨别特征表征(DeepTrack: Learning Discriminative Feature Representations by Convolutional Neural Networks for Visual Tracking)

    作者:Hanxi Li, Yi Li and Fatih Porikli

    发表: BMVC, 2014.

    • 论文:视觉跟踪中,学习深度紧凑图像表示(Learning a Deep Compact Image Representation for Visual Tracking)

    作者:N Wang, DY Yeung

    发表:NIPS, 2013.

    • 论文:视觉跟踪的分层卷积特征(Hierarchical Convolutional Features for Visual Tracking)

    作者:Chao Ma, Jia-Bin Huang, Xiaokang Yang and Ming-Hsuan Yang

    发表: ICCV 2015

    • 论文:完全卷积网络的视觉跟踪(Visual Tracking with fully Convolutional Networks)

    作者:Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu,

    发表:ICCV 2015

    • 论文:学习多域卷积神经网络进行视觉跟踪(Learning Multi-Domain Convolutional Neural Networks for Visual Tracking)

    作者:Hyeonseob Namand Bohyung Han

    对象识别(Object Recognition)

    论文:卷积神经网络弱监督学习(Weakly-supervised learning with convolutional neural networks)

    作者:Maxime Oquab,Leon Bottou,Ivan Laptev,Josef Sivic,CVPR,2015

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Oquab_Is_Object_Localization_2015_CVPR_paper.pdf

    FV-CNN

    论文:深度滤波器组用于纹理识别和分割(Deep Filter Banks for Texture Recognition and Segmentation)

    作者:Mircea Cimpoi, Subhransu Maji, Andrea Vedaldi, CVPR, 2015.

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Cimpoi_Deep_Filter_Banks_2015_CVPR_paper.pdf

    人体姿态估计(Human Pose Estimation)

    • 论文:使用 Part Affinity Field的实时多人2D姿态估计(Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields)

    作者:Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh, CVPR, 2017.

    • 论文:Deepcut:多人姿态估计的联合子集分割和标签(Deepcut: Joint subset partition and labeling for multi person pose estimation)

    作者:Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, and Bernt Schiele, CVPR, 2016.

    • 论文:Convolutional pose machines

    作者:Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, CVPR, 2016.

    • 论文:人体姿态估计的 Stacked hourglass networks(Stacked hourglass networks for human pose estimation)

    作者:Alejandro Newell, Kaiyu Yang, and Jia Deng, ECCV, 2016.

    • 论文:用于视频中人体姿态估计的Flowing convnets(Flowing convnets for human pose estimation in videos)

    作者:Tomas Pfister, James Charles, and Andrew Zisserman, ICCV, 2015.

    • 论文:卷积网络和人类姿态估计图模型的联合训练(Joint training of a convolutional network and a graphical model for human pose estimation)

    作者:Jonathan J. Tompson, Arjun Jain, Yann LeCun, Christoph Bregler, NIPS, 2014.

    理解CNN

    这里写图片描述

    • 论文:通过测量同变性和等价性来理解图像表示(Understanding image representations by measuring their equivariance and equivalence)

    作者:Karel Lenc, Andrea Vedaldi, CVPR, 2015.

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf

    • 论文:深度神经网络容易被愚弄:无法识别的图像的高置信度预测(Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images)

    作者:Anh Nguyen, Jason Yosinski, Jeff Clune, CVPR, 2015.

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

    • 论文:通过反演理解深度图像表示(Understanding Deep Image Representations by Inverting Them)

    作者:Aravindh Mahendran, Andrea Vedaldi, CVPR, 2015

    链接:
    http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf

    • 论文:深度场景CNN中的对象检测器(Object Detectors Emerge in Deep Scene CNNs)

    作者:Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, ICLR, 2015.

    链接:http://arxiv.org/abs/1412.6856

    • 论文:用卷积网络反演视觉表示(Inverting Visual Representations with Convolutional Networks)

    作者:Alexey Dosovitskiy, Thomas Brox, arXiv, 2015.

    链接:http://arxiv.org/abs/1506.02753

    • 论文:可视化和理解卷积网络(Visualizing and Understanding Convolutional Networks)

    作者:Matthrew Zeiler, Rob Fergus, ECCV, 2014.

    链接:http://www.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

    图像与语言

    图像说明(Image Captioning)

    这里写图片描述

    UCLA / Baidu

    用多模型循环神经网络解释图像(Explain Images with Multimodal Recurrent Neural Networks)

    Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090

    http://arxiv.org/pdf/1410.1090

    Toronto

    使用多模型神经语言模型统一视觉语义嵌入(Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models)

    Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel, arXiv:1411.2539.

    http://arxiv.org/pdf/1411.2539

    Berkeley

    用于视觉识别和描述的长期循环卷积网络(Long-term Recurrent Convolutional Networks for Visual Recognition and Description)

    Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrell, arXiv:1411.4389.

    http://arxiv.org/pdf/1411.4389

    Google

    看图写字:神经图像说明生成器(Show and Tell: A Neural Image Caption Generator)

    Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan, arXiv:1411.4555.

    http://arxiv.org/pdf/1411.4555

    Stanford

    用于生成图像描述的深度视觉语义对齐(Deep Visual-Semantic Alignments for Generating Image Description)

    Andrej Karpathy, Li Fei-Fei, CVPR, 2015.

    Web:http://cs.stanford.edu/people/karpathy/deepimagesent/

    Paper:http://cs.stanford.edu/people/karpathy/cvpr2015.pdf

    UML / UT

    使用深度循环神经网络将视频转换为自然语言(Translating Videos to Natural Language Using Deep Recurrent Neural Networks)

    Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, NAACL-HLT, 2015.

    http://arxiv.org/pdf/1412.4729

    CMU / Microsoft

    学习图像说明生成的循环视觉表示(Learning a Recurrent Visual Representation for Image Caption Generation)

    Xinlei Chen, C. Lawrence Zitnick, arXiv:1411.5654.

    Xinlei Chen, C. Lawrence Zitnick, Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation, CVPR 2015

    http://www.cs.cmu.edu/~xinleic/papers/cvpr15_rnn.pdf

    Microsoft

    从图像说明到视觉概念(From Captions to Visual Concepts and Back)

    Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, Geoffrey Zweig, CVPR, 2015.

    http://arxiv.org/pdf/1411.4952

    Univ. Montreal / Univ. Toronto

    Show, Attend, and Tell:视觉注意力与神经图像标题生成(Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention)

    Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, Yoshua Bengio, arXiv:1502.03044 / ICML 2015

    http://www.cs.toronto.edu/~zemel/documents/captionAttn.pdf

    Idiap / EPFL / Facebook

    基于短语的图像说明(Phrase-based Image Captioning)

    Remi Lebret, Pedro O. Pinheiro, Ronan Collobert, arXiv:1502.03671 / ICML 2015

    http://arxiv.org/pdf/1502.03671

    UCLA / Baidu

    像孩子一样学习:从图像句子描述快速学习视觉的新概念(Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images)

    Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan L. Yuille, arXiv:1504.06692

    http://arxiv.org/pdf/1504.06692

    MS + Berkeley

    探索图像说明的最近邻方法( Exploring Nearest Neighbor Approaches for Image Captioning)

    Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick, arXiv:1505.04467

    http://arxiv.org/pdf/1505.04467.pdf

    图像说明的语言模型(Language Models for Image Captioning: The Quirks and What Works)

    Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, Margaret Mitchell, arXiv:1505.01809

    http://arxiv.org/pdf/1505.01809.pdf

    阿德莱德

    具有中间属性层的图像说明( Image Captioning with an Intermediate Attributes Layer)

    Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick, arXiv:1506.01144

    蒂尔堡

    通过图片学习语言(Learning language through pictures)

    Grzegorz Chrupala, Akos Kadar, Afra Alishahi, arXiv:1506.03694

    蒙特利尔大学

    使用基于注意力的编码器-解码器网络描述多媒体内容(Describing Multimedia Content using Attention-based Encoder-Decoder Networks)

    Kyunghyun Cho, Aaron Courville, Yoshua Bengio, arXiv:1507.01053

    康奈尔

    图像表示和神经图像说明的新领域(Image Representations and New Domains in Neural Image Captioning)

    Jack Hessel, Nicolas Savva, Michael J. Wilber, arXiv:1508.02091

    MS + City Univ. of HongKong

    Learning Query and Image Similarities with Ranking Canonical Correlation Analysis

    Ting Yao, Tao Mei, and Chong-Wah Ngo, ICCV, 2015

    视频字幕(Video Captioning)

    伯克利

    Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrell, Long-term Recurrent Convolutional Networks for Visual Recognition and Description, CVPR, 2015.

    犹他州/ UML / 伯克利

    Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, Translating Videos to Natural Language Using Deep Recurrent Neural Networks, arXiv:1412.4729.

    微软

    Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui, Joint Modeling Embedding and Translation to Bridge Video and Language, arXiv:1505.01861.

    犹他州/ UML / 伯克利

    Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, Kate Saenko, Sequence to Sequence–Video to Text, arXiv:1505.00487.

    蒙特利尔大学/ 舍布鲁克

    Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, Aaron Courville, Describing Videos by Exploiting Temporal Structure, arXiv:1502.08029

    MPI / 伯克利

    Anna Rohrbach, Marcus Rohrbach, Bernt Schiele, The Long-Short Story of Movie Description, arXiv:1506.01698

    多伦多大学 / MIT

    Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler, Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books, arXiv:1506.06724

    蒙特利尔大学

    Kyunghyun Cho, Aaron Courville, Yoshua Bengio, Describing Multimedia Content using Attention-based Encoder-Decoder Networks, arXiv:1507.01053

    TAU / 美国南加州大学

    Dotan Kaufman, Gil Levi, Tal Hassner, Lior Wolf, Temporal Tessellation for Video Annotation and Summarization, arXiv:1612.06950.

    图像生成

    卷积/循环网络

    • 论文:Conditional Image Generation with PixelCNN Decoders”

    作者:Aäron van den Oord, Nal Kalchbrenner, Oriol Vinyals, Lasse Espeholt, Alex Graves, Koray Kavukcuoglu

    • 论文:Learning to Generate Chairs with Convolutional Neural Networks

    作者:Alexey Dosovitskiy, Jost Tobias Springenberg, Thomas Brox

    发表:CVPR, 2015.

    • 论文:DRAW: A Recurrent Neural Network For Image Generation

    作者:Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Jimenez Rezende, Daan Wierstra

    发表:ICML, 2015.

    对抗网络

    • 论文:生成对抗网络(Generative Adversarial Networks)

    作者:Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

    发表:NIPS, 2014.

    • 论文:使用对抗网络Laplacian Pyramid 的深度生成图像模型(Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks)

    作者:Emily Denton, Soumith Chintala, Arthur Szlam, Rob Fergus

    发表:NIPS, 2015.

    • 论文:生成模型演讲概述 (A note on the evaluation of generative models)

    作者:Lucas Theis, Aäron van den Oord, Matthias Bethge

    发表:ICLR 2016.

    • 论文:变分自动编码深度高斯过程(Variationally Auto-Encoded Deep Gaussian Processes)

    作者:Zhenwen Dai, Andreas Damianou, Javier Gonzalez, Neil Lawrence

    发表:ICLR 2016.

    • 论文:用注意力机制从字幕生成图像 (Generating Images from Captions with Attention)

    作者:Elman Mansimov, Emilio Parisotto, Jimmy Ba, Ruslan Salakhutdinov

    发表: ICLR 2016

    • 论文:分类生成对抗网络的无监督和半监督学习(Unsupervised and Semi-supervised Learning with Categorical Generative Adversarial Networks)

    作者:Jost Tobias Springenberg

    发表:ICLR 2016

    • 论文:用一个对抗检测表征(Censoring Representations with an Adversary)

    作者:Harrison Edwards, Amos Storkey

    发表:ICLR 2016

    • 论文:虚拟对抗训练实现分布式顺滑 (Distributional Smoothing with Virtual Adversarial Training)

    作者:Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, Shin Ishii

    发表:ICLR 2016

    • 论文:自然图像流形上的生成视觉操作(Generative Visual Manipulation on the Natural Image Manifold)

    作者:朱俊彦, Philipp Krahenbuhl, Eli Shechtman, and Alexei A. Efros

    发表: ECCV 2016.

    • 论文:深度卷积生成对抗网络的无监督表示学习(Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)

    作者:Alec Radford, Luke Metz, Soumith Chintala

    发表: ICLR 2016

    问题回答

    这里写图片描述

    弗吉尼亚大学 / 微软研究院

    论文:VQA: Visual Question Answering, CVPR, 2015 SUNw:Scene Understanding workshop.

    作者:Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh

    MPI / 伯克利

    论文:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

    作者:Mateusz Malinowski, Marcus Rohrbach, Mario Fritz,

    发布 : arXiv:1505.01121.

    多伦多

    论文: Image Question Answering: A Visual Semantic Embedding Model and a New Dataset

    作者:Mengye Ren, Ryan Kiros, Richard Zemel

    发表: arXiv:1505.02074 / ICML 2015 deep learning workshop.

    百度/ 加州大学洛杉矶分校

    作者:Hauyuan Gao, Junhua Mao, Jie Zhou, Zhiheng Huang, Lei Wang, 徐伟

    论文:Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering

    发表: arXiv:1505.05612.

    POSTECH(韩国)

    论文:Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

    作者:Hyeonwoo Noh, Paul Hongsuck Seo, and Bohyung Han

    发表: arXiv:1511.05765

    CMU / 微软研究院

    论文:Stacked Attention Networks for Image Question Answering

    作者:Yang, Z., He, X., Gao, J., Deng, L., & Smola, A. (2015)

    发表: arXiv:1511.02274.

    MetaMind

    论文:Dynamic Memory Networks for Visual and Textual Question Answering

    作者:Xiong, Caiming, Stephen Merity, and Richard Socher

    发表: arXiv:1603.01417 (2016).

    首尔国立大学 + NAVER

    论文:Multimodal Residual Learning for Visual QA

    作者:Jin-Hwa Kim, Sang-Woo Lee, Dong-Hyun Kwak, Min-Oh Heo, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhang

    发表:arXiv:1606:01455

    UC Berkeley + 索尼

    论文:Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

    作者:Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach

    发表:arXiv:1606.01847

    Postech

    论文:Training Recurrent Answering Units with Joint Loss Minimization for VQA

    作者:Hyeonwoo Noh and Bohyung Han

    发表: arXiv:1606.03647

    首尔国立大学 + NAVER

    论文: Hadamard Product for Low-rank Bilinear Pooling

    作者:Jin-Hwa Kim, Kyoung Woon On, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhan

    发表:arXiv:1610.04325.

    视觉注意力和显著性

    这里写图片描述
    论文:Predicting Eye Fixations using Convolutional Neural Networks

    作者:Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu

    发表:CVPR, 2015.

    学习地标的连续搜索

    作者:Learning a Sequential Search for Landmarks

    论文:Saurabh Singh, Derek Hoiem, David Forsyth

    发表:CVPR, 2015.

    视觉注意力机制实现多物体识别

    论文:Multiple Object Recognition with Visual Attention

    作者:Jimmy Lei Ba, Volodymyr Mnih, Koray Kavukcuoglu,

    发表:ICLR, 2015.

    视觉注意力机制的循环模型

    作者:Volodymyr Mnih, Nicolas Heess, Alex Graves, Koray Kavukcuoglu

    论文:Recurrent Models of Visual Attention

    发表:NIPS, 2014.

    低级视觉

    超分辨率

    • Iterative Image Reconstruction

    Sven Behnke: Learning Iterative Image Reconstruction. IJCAI, 2001.

    Sven Behnke: Learning Iterative Image Reconstruction in the Neural Abstraction Pyramid. International Journal of Computational Intelligence and Applications, vol. 1, no. 4, pp. 427-438, 2001.

    • Super-Resolution (SRCNN)

    Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang, Learning a Deep Convolutional Network for Image Super-Resolution, ECCV, 2014.

    Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang, Image Super-Resolution Using Deep Convolutional Networks, arXiv:1501.00092.

    • Very Deep Super-Resolution

    Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, Accurate Image Super-Resolution Using Very Deep Convolutional Networks, arXiv:1511.04587, 2015.

    • Deeply-Recursive Convolutional Network

    Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, Deeply-Recursive Convolutional Network for Image Super-Resolution, arXiv:1511.04491, 2015.

    • Casade-Sparse-Coding-Network

    Zhaowen Wang, Ding Liu, Wei Han, Jianchao Yang and Thomas S. Huang, Deep Networks for Image Super-Resolution with Sparse Prior. ICCV, 2015.

    • Perceptual Losses for Super-Resolution

    Justin Johnson, Alexandre Alahi, Li Fei-Fei, Perceptual Losses for Real-Time Style Transfer and Super-Resolution, arXiv:1603.08155, 2016.

    • SRGAN

    Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi, Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, arXiv:1609.04802v3, 2016.

    其他应用

    Optical Flow (FlowNet)

    Philipp Fischer, Alexey Dosovitskiy, Eddy Ilg, Philip Häusser, Caner Hazırbaş, Vladimir Golkov, Patrick van der Smagt, Daniel Cremers, Thomas Brox, FlowNet: Learning Optical Flow with Convolutional Networks, arXiv:1504.06852.

    Compression Artifacts Reduction

    Chao Dong, Yubin Deng, Chen Change Loy, Xiaoou Tang, Compression Artifacts Reduction by a Deep Convolutional Network, arXiv:1504.06993.

    Blur Removal

    Christian J. Schuler, Michael Hirsch, Stefan Harmeling, Bernhard Schölkopf, Learning to Deblur, arXiv:1406.7444

    Jian Sun, Wenfei Cao, Zongben Xu, Jean Ponce, Learning a Convolutional Neural Network for Non-uniform Motion Blur Removal, CVPR, 2015

    Image Deconvolution

    Li Xu, Jimmy SJ. Ren, Ce Liu, Jiaya Jia, Deep Convolutional Neural Network for Image Deconvolution, NIPS, 2014.

    Deep Edge-Aware Filter

    Li Xu, Jimmy SJ. Ren, Qiong Yan, Renjie Liao, Jiaya Jia, Deep Edge-Aware Filters, ICML, 2015.

    Computing the Stereo Matching Cost with a Convolutional Neural Network

    Jure Žbontar, Yann LeCun, Computing the Stereo Matching Cost with a Convolutional Neural Network, CVPR, 2015.

    Colorful Image Colorization Richard Zhang, Phillip Isola, Alexei A. Efros, ECCV, 2016

    Feature Learning by Inpainting

    Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, Alexei A. Efros, Context Encoders: Feature Learning by Inpainting, CVPR, 2016

    边缘检测

    这里写图片描述
    Saining Xie, Zhuowen Tu, Holistically-Nested Edge Detection, arXiv:1504.06375.

    DeepEdge

    Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, DeepEdge: A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection, CVPR, 2015.

    DeepContour

    Wei Shen, Xinggang Wang, Yan Wang, Xiang Bai, Zhijiang Zhang, DeepContour: A Deep Convolutional Feature Learned by Positive-Sharing Loss for Contour Detection, CVPR, 2015.

    语义分割

    这里写图片描述

    SEC: Seed, Expand and Constrain

    Alexander Kolesnikov, Christoph Lampert, Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation, ECCV, 2016.

    Adelaide

    Guosheng Lin, Chunhua Shen, Ian Reid, Anton van dan Hengel, Efficient piecewise training of deep structured models for semantic segmentation, arXiv:1504.01013. (1st ranked in VOC2012)

    Guosheng Lin, Chunhua Shen, Ian Reid, Anton van den Hengel, Deeply Learning the Messages in Message Passing Inference, arXiv:1508.02108. (4th ranked in VOC2012)

    Deep Parsing Network (DPN)

    Ziwei Liu, Xiaoxiao Li, Ping Luo, Chen Change Loy, Xiaoou Tang, Semantic Image Segmentation via Deep Parsing Network, arXiv:1509.02634 / ICCV 2015 (2nd ranked in VOC 2012)

    CentraleSuperBoundaries, INRIA

    Iasonas Kokkinos, Surpassing Humans in Boundary Detection using Deep Learning, arXiv:1411.07386 (4th ranked in VOC 2012)

    BoxSup

    Jifeng Dai, Kaiming He, Jian Sun, BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation, arXiv:1503.01640. (6th ranked in VOC2012)

    POSTECH

    Hyeonwoo Noh, Seunghoon Hong, Bohyung Han, Learning Deconvolution Network for Semantic Segmentation, arXiv:1505.04366. (7th ranked in VOC2012)

    Seunghoon Hong, Hyeonwoo Noh, Bohyung Han, Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation, arXiv:1506.04924.

    Seunghoon Hong,Junhyuk Oh,Bohyung Han, andHonglak Lee, Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network, arXiv:1512.07928

    Conditional Random Fields as Recurrent Neural Networks

    Shuai Zheng, Sadeep Jayasumana, Bernardino Romera-Paredes, Vibhav Vineet, Zhizhong Su, Dalong Du, Chang Huang, Philip H. S. Torr, Conditional Random Fields as Recurrent Neural Networks, arXiv:1502.03240. (8th ranked in VOC2012)

    DeepLab

    Liang-Chieh Chen, George Papandreou, Kevin Murphy, Alan L. Yuille, Weakly-and semi-supervised learning of a DCNN for semantic image segmentation, arXiv:1502.02734. (9th ranked in VOC2012)

    Zoom-out

    Mohammadreza Mostajabi, Payman Yadollahpour, Gregory Shakhnarovich, Feedforward Semantic Segmentation With Zoom-Out Features, CVPR, 2015

    Joint Calibration

    Holger Caesar, Jasper Uijlings, Vittorio Ferrari, Joint Calibration for Semantic Segmentation, arXiv:1507.01581.

    Fully Convolutional Networks for Semantic Segmentation

    Jonathan Long, Evan Shelhamer, Trevor Darrell, Fully Convolutional Networks for Semantic Segmentation, CVPR, 2015.

    Hypercolumn

    Bharath Hariharan, Pablo Arbelaez, Ross Girshick, Jitendra Malik, Hypercolumns for Object Segmentation and Fine-Grained Localization, CVPR, 2015.

    Deep Hierarchical Parsing

    Abhishek Sharma, Oncel Tuzel, David W. Jacobs, Deep Hierarchical Parsing for Semantic Segmentation, CVPR, 2015.

    Learning Hierarchical Features for Scene Labeling

    Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun, Scene Parsing with Multiscale Feature Learning, Purity Trees, and Optimal Covers, ICML, 2012.

    Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun, Learning Hierarchical Features for Scene Labeling, PAMI, 2013.

    University of Cambridge

    Vijay Badrinarayanan, Alex Kendall and Roberto Cipolla “SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation.” arXiv preprint arXiv:1511.00561, 2015.

    Alex Kendall, Vijay Badrinarayanan and Roberto Cipolla “Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding.” arXiv preprint arXiv:1511.02680, 2015.

    Princeton

    Fisher Yu, Vladlen Koltun, “Multi-Scale Context Aggregation by Dilated Convolutions”, ICLR 2016

    Univ. of Washington, Allen AI

    Hamid Izadinia, Fereshteh Sadeghi, Santosh Kumar Divvala, Yejin Choi, Ali Farhadi, “Segment-Phrase Table for Semantic Segmentation, Visual Entailment and Paraphrasing”, ICCV, 2015

    INRIA

    Iasonas Kokkinos, “Pusing the Boundaries of Boundary Detection Using deep Learning”, ICLR 2016

    UCSB

    Niloufar Pourian, S. Karthikeyan, and B.S. Manjunath, “Weakly supervised graph based semantic segmentation by learning communities of image-parts”, ICCV, 2015

    其他资源

    课程

    深度视觉

    [斯坦福] CS231n: Convolutional Neural Networks for Visual Recognition

    [香港中文大学] ELEG 5040: Advanced Topics in Signal Processing(Introduction to Deep Learning)

    · 更多深度课程推荐

    [斯坦福] CS224d: Deep Learning for Natural Language Processing

    [牛津 Deep Learning by Prof. Nando de Freitas

    [纽约大学] Deep Learning by Prof. Yann LeCun

    图书

    免费在线图书

    Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

    Neural Networks and Deep Learning by Michael Nielsen

    Deep Learning Tutorial by LISA lab, University of Montreal

    视频

    演讲

    Deep Learning, Self-Taught Learning and Unsupervised Feature Learning By Andrew Ng

    Recent Developments in Deep Learning By Geoff Hinton

    The Unreasonable Effectiveness of Deep Learning by Yann LeCun

    Deep Learning of Representations by Yoshua bengio

    软件

    框架

    • Tensorflow: An open source software library for numerical computation using data flow graph by Google [Web]
    • Torch7: Deep learning library in Lua, used by Facebook and Google Deepmind [Web]
    • Torch-based deep learning libraries: [torchnet],
    • Caffe: Deep learning framework by the BVLC [Web]
    • Theano: Mathematical library in Python, maintained by LISA lab [Web]
    • Theano-based deep learning libraries: [Pylearn2], [Blocks], [Keras], [Lasagne]
    • MatConvNet: CNNs for MATLAB [Web]
    • MXNet: A flexible and efficient deep learning library for heterogeneous distributed systems with multi-language support [Web]
    • Deepgaze: A computer vision library for human-computer interaction based on CNNs [Web]

    应用

    • 对抗训练 Code and hyperparameters for the paper “Generative Adversarial Networks” [Web]
    • 理解与可视化 Source code for “Understanding Deep Image Representations by Inverting Them,” CVPR, 2015. [Web]
    • 词义分割 Source code for the paper “Rich feature hierarchies for accurate object detection and semantic segmentation,” CVPR, 2014. [Web] ; Source code for the paper “Fully Convolutional Networks for Semantic Segmentation,” CVPR, 2015. [Web]
    • 超分辨率 Image Super-Resolution for Anime-Style-Art [Web]
    • 边缘检测 Source code for the paper “DeepContour: A Deep Convolutional Feature Learned by Positive-Sharing Loss for Contour Detection,” CVPR, 2015. [Web]
    • Source code for the paper “Holistically-Nested Edge Detection”, ICCV 2015. [Web]

    讲座

    • [CVPR 2014] Tutorial on Deep Learning in Computer Vision
    • [CVPR 2015] Applied Deep Learning for Computer Vision with Torch

    博客

    • Deep down the rabbit hole: CVPR 2015 and beyond@Tombone’s Computer Vision Blog
    • CVPR recap and where we’re going@Zoya Bylinskii (MIT PhD Student)’s Blog
    • Facebook’s AI Painting@Wired
    • Inceptionism: Going Deeper into Neural Networks@Google Research
    • Implementing Neural networks
    展开全文
  • 这是一份被国外专家引用最多的计算机视觉和深度学习论文清单。 本文整理来自http://www.afenxi.com/post/19793 在2012年,我整理了一份有关计算机视觉的热门论文清单。我把论文的研究重点放在视觉科学上,避免其与...

    这是一份被国外专家引用最多的计算机视觉和深度学习论文清单。
    本文整理来自http://www.afenxi.com/post/19793
    在2012年,我整理了一份有关计算机视觉的热门论文清单。我把论文的研究重点放在视觉科学上,避免其与图形处理、调研和纯静态处理等方向产生重叠。但在2012年后随着深度学习技术的兴起,计算机视觉科学发生了巨大的变化–从深度学习中产生了大量的视觉科学基线。虽然不知道该趋势还会持续多久,但我认为它们应该拥有属于自己的清单。

    一如我一直强调的,被引用得最多的论文并不代表它在该领域做出的贡献就最大;而是代表了它抓住了当时的某个热点。

    以下就是我重新整理的有关计算机视觉与(或)深度学习的Top30论文清单:
    1.引用次数:5518
    标题:深度卷积神经网络分类(Imagenet classification with deep convolutional neural networks)
    A Krizhevsky, I Sutskever, GE Hinton, 2012
    论文链接地址http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf?spm=5176.100239.blogcont55892.5.pm8zm1&file=4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

    2.引用次数:1868
    标题:咖啡:快速卷积结构特征嵌入(Caffe: Convolutional architecture for fast feature embedding)
    Y Jia, E Shelhamer, J Donahue, S Karayev…, 2014
    论文链接地址http://dl.acm.org/citation.cfm?spm=5176.100239.blogcont55892.6.pm8zm1&id=2654889

    3.引用次数:1681
    标题:反向传播算法在手写体邮政编码识别中的应用(Backpropagation applied to handwritten zip code recognition)
    Y LeCun, B Boser, JS Denker, D Henderson…, 1989
    论文链接地址http://www.mitpressjournals.org/doi/abs/10.1162/neco.1989.1.4.541?spm=5176.100239.blogcont55892.7.pm8zm1&#.V7O2B_n7yjh

    4.引用次数:1516
    标题:实现精确对象和语义段检测的富特征层次结构(Rich feature hierarchies for accurate object detection and semantic segment)
    R Girshick, J Donahue, T Darrell…, 2014
    论文链接地址http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf?spm=5176.100239.blogcont55892.8.pm8zm1&file=Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

    5.引用次数:1405
    标题: 进行大型图像识别的深层网络(Very deep convolutional networks for large-scale image recognition)
    K Simonyan, A Zisserman, 2014
    论文链接地址http://arxiv.org/abs/1409.1556?spm=5176.100239.blogcont55892.9.pm8zm1&file=1409.1556

    6.引用次数:1169
    标题:通过共适应的特征探测器来改进神经网络(Improving neural networks by preventing co-adaptation of feature detectors)
    GE Hinton, N Srivastava, A Krizhevsky…, 2012
    论文链接地址http://arxiv.org/abs/1207.0580?spm=5176.100239.blogcont55892.10.pm8zm1&file=1207.0580

    7.引用次数:1160
    标题:深入了解卷积(Going deeper with convolutions)
    C Szegedy, W Liu, Y Jia, P Sermanet…, 2015
    论文链接地址

    8.引用次数:977
    标题:反向传播网络的手写数字识别(Handwritten digit recognition with a back-propagation network)
    BB Le Cun, JS Denker, D Henderson…, 1990
    论文链接地址

    9.引用次数:907
    标题:观察和理解卷积网络(Visualizing and understanding convolutional networks)
    MD Zeiler, R Fergus, 2014
    论文链接地址

    10.引用次数:839
    标题: 降阶—以简单的方法来防止神经网络拟合(Dropout: a simple way to prevent neural networks from overfitting)
    N Srivastava, GE Hinton, A Krizhevsky…, 2014
    论文链接地址

    11.引用次数:839
    标题:Overfeat框架:使用卷积网络进行综合识别、 定位和检测(Overfeat: Integrated recognition, localization and detection using convolutional networks)
    P Sermanet, D Eigen, X Zhang, M Mathieu…, 2013
    论文链接地址

    12.引用次数:818
    标题:从微图像里学习多层次特征(Learning multiple layers of features from tiny images)
    A Krizhevsky, G Hinton, 2009
    论文链接地址

    13.引用次数:718
    标题:无咖啡因:一个用于通用图像识别的深积激活特征(DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition)
    J Donahue, Y Jia, O Vinyals, J Hoffman, N Zhang…, 2014
    论文链接地址

    14.引用次数:691
    标题: 深度人脸:拉近与真人之间的面部识别差距(Deepface: Closing the gap to human-level performance in face verification)
    Y Taigman, M Yang, MA Ranzato…, 2014
    论文链接地址

    15.引用次数:679
    标题:深入玻耳兹曼机 (Deep Boltzmann Machines)
    R Salakhutdinov, GE Hinton, 2009
    论文链接地址

    16.引用次数:670
    标题:用于图像、 语音和时间序列的卷积网络(Convolutional networks for images, speech, and time series)
    Y LeCun, Y Bengio, 1995
    论文链接地址

    17.引用次数:570
    标题:现成的 CNN 功能: 令人震惊的基线识别(CNN features off-the-shelf: an astounding baseline for recognition)
    A Sharif Razavian, H Azizpour, J Sullivan…, 2014
    论文链接地址

    18.引用次数:549
    标题:学习场景标识中的分层结构特征 (Learning hierarchical features for scene labeling)
    C Farabet, C Couprie, L Najman…, 2013
    论文链接地址

    19.引用次数:510
    标题:完全卷积网络的语义分割(Fully convolutional networks for semantic segmentation)
    J Long, E Shelhamer, T Darrell, 2015
    论文链接地址

    20.引用次数:469
    标题: 最大输出网络(Maxout networks)
    IJ Goodfellow, D Warde-Farley, M Mirza, AC Courville…, 2013
    论文链接地址

    21.引用次数:453
    标题:精绝的细节:深度钻研卷积网(Return of the devil in the details: Delving deep into convolutional nets)
    K Chatfield, K Simonyan, A Vedaldi…, 2014
    论文链接地址

    22.引用次数:445
    标题:使用卷积神经网络进行大型视频分类 (Large-scale video classification with convolutional neural networks)
    A Karpathy, G Toderici, S Shetty, T Leung…, 2014
    论文链接地址

    23.引用次数:347
    标题:深度视觉语义路线生成图像描述(Deep visual-semantic alignments for generating image descriptions)
    A Karpathy, L Fei-Fei, 2015
    论文链接地址

    24.引用次数:342
    标题:深入学习整流器:超越人类水平的图像分类(Delving deep into rectifiers: Surpassing human-level performance on imagenet classification)
    K He, X Zhang, S Ren, J Sun, 2015
    论文链接地址
    25.引用次数:334
    标题:使用卷积神经网络来学习和转移中级图像显示 (Learning and transferring mid-level image representations using convolutional neural networks)
    M Oquab, L Bottou, I Laptev, J Sivic, 2014
    论文链接地址

    26.引用次数:333
    标题:卷积网络及其在视觉中的应用(Convolutional networks and applications in vision)
    Y LeCun, K Kavukcuoglu, C Farabet, 2010
    论文链接地址
    27.引用次数:332
    标题:使用场景数据库进行深度场景识别(Learning deep features for scene recognition using places database)
    B Zhou, A Lapedriza, J Xiao, A Torralba…,2014
    论文链接地址

    28.引用次数:299
    标题:使用深积网络中的空间金字塔池进行视觉识别 (Spatial pyramid pooling in deep convolutional networks for visual recognition)
    K He, X Zhang, S Ren, J Sun, 2014
    论文链接地址

    29.引用次数:268
    标题:使用长期递归卷积网络进行视觉识别和描述(Long-term recurrent convolutional networks for visual recognition and description)
    J Donahue, L Anne Hendricks…, 2015
    论文链接地址

    30.引用次数:261
    标题:使用二流卷积网络进行动作视频识别(Two-stream convolutional networks for action recognition in videos)
    K Simonyan, A Zisserman, 2014
    论文链接地址

    展开全文
  • 计算机视觉领域经典论文源码 在读一些大牛的论文后,总是想找些代码读一读,可是查找代码资源是如此的痛苦,经过一番请教和查找,将比较的资源贴出来,方便大家使用,希望大家有什么更的资源也能分享出来,可以...
  • 图像处理和计算机视觉的课程大家已经看过很多,但总有“听不透”,“用不了”的感觉。课程致力于创建人人都能听的懂的计算机视觉,通过生动、细腻的讲解配合实战演练,让学生真正学懂、用会。 【超...
  • ICCV: http://www.informatik.uni-trier.de/~ley/db/conf/iccv/index.html ECCV: http://www.informatik.uni-trier.de/~ley/db/conf/eccv/index.html CVPR: ... 还可...
  • 计算机视觉、机器学习相关领域论文和源代码大集合--持续更新…… zouxy09@qq.com http://blog.csdn.net/zouxy09   注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。 ...
  • 如何学习计算机视觉

    2018-09-15 10:10:01
    (有关计算机视觉入门的其它只是,可以阅读另一篇文章计算机视觉入门必读)这两年,计算机视觉似乎火了起来,计算机视觉的黄金时代真的到来了吗?生物医学、机械自动化、土木建筑等好多专业的学生都开始研究其在各自...
  • 原文:CV arXiv Daily:计算机视觉论文每日精选(2019/1/23-2018/1/28) 如有兴趣可以**点击加入极市CV专业微信群**,获取更多高质量干货 本系列文章转自计算机视觉牛人朱政大佬的微信公众号(CV arxiv Daily),...
  • http://bbs.cvmart.net/topics/1276?from=timeline
  • 计算机视觉论文

    2013-11-29 09:37:43
    找到了一个很的博客,作者很详尽的总结了一系列有深刻影响的计算机视觉方面的论文,希望有更多的人能够看过这些经典的论文。在此转载改博客,在此向水木上表示深深的敬意,只有有更多像这样善于总结和分享的人才能...
  • 计算机视觉相关论文整理、翻译、记录、分享; 包括图像分类、目标检测、视觉跟踪/目标跟踪、人脸识别/人脸验证等领域。 欢迎加星, 欢迎提问,欢迎指正错误, 同时也期待能够共同参与;长沙的朋友欢迎线下交流 持续...
  • CSDN的小伙伴们,福利来了,以下总结近年来的机器人和计算机视觉顶会的论文集,赶紧收藏吧!后续还会持续更新,尽请期待,首先介绍一个收录较为完全的网站: http://www.cvpapers.com/ CVPR2017: ...
  • 计算机视觉入门系列(一) 综述自大二下学期以来,学习计算机视觉及机器学习方面的各种课程和论文,也亲身参与了一些项目,回想起来求学过程中难免走了不少弯路和坎坷,至今方才敢说堪堪入门。因此准备写一个计算机...
  • 图像处理与计算机视觉基础相关领域的经典书籍以及论文
  • 论文地址从摄影测量到计算机视觉龚健雅摄影测量:透视几何、成像设备、摄影平台、测量法和测量工具几何角度:计算机视觉和摄影测量之间的紧密联系。语义方面 分析了遥感学科的发展,与机器学习和计算机视觉之间的...
  • 本章介绍计算机视觉的基本概念
1 2 3 4 5 ... 20
收藏数 42,281
精华内容 16,912