2017-12-01 06:42:24 Uwr44UOuQcNsUQb60zk2 阅读数 496
斯坦福大学的研究者们正在使用计算机视觉系统,利用谷歌街景图片上街边汽车的型号来识别给定社区的政治倾向,其识别准确率超过了 80%。这项研究的论文已发表在《美国科学院论文集》上,研究人员表示,新的研究不仅可以节省大量人力开支,也可以为人口统计任务提供前所未有的实时数据。


从奢华的宾利到经济家用的 MPV,再到实用的皮卡,每个美国人驾驶的汽车都或多或少是他们个性的外在表述。就像俗话说的:你就是你所开的汽车,斯坦福大学的研究人员正在把这一思想提升到新的高度。


通过计算机视觉算法,一群研究人员正在利用谷歌街景上数百万张公开图像展开分析。研究人员称,只要看看街边的停着的汽车,他们开发的算法就可以识别出社区的政治倾向。



李飞飞,斯坦福大学计算机科学教授


「通过使用这种易于获得的视觉数据,我们可以学习到众多社区的方方面面,而想要从人口普查中获知这些信息需要花费数十亿美元。更重要的是,新的研究打开了利用计算机视觉信息对社会进行探究的思路,」斯坦福大学计算机科学副教授,斯坦福人工智能实验室和斯坦福视觉实验室负责人李飞飞说道,她也是这一研究的参与者之一。


作为著名图片数据集 ImageNet 的发起人,李飞飞是计算机视觉和深度学习的著名学者。在众多研究人员的努力下,人工智能在今天已经可以从二维图片中识别三维物体——计算机可以看到并识别它所见到的东西。


在李飞飞等人的研究下,新的算法通过谷歌街景中 200 个美国城市的超过 5000 万张图片进行学习,并在自我训练过程中学会了识别自 1990 年以后所有汽车的品牌、型号与出产年份。


汽车的类型和地址随后会与(目前最为全面的人口数据库)美国社区情况调查和美国总统投票结果数据相匹配,以评价种族、受教育程度、收入以及投票倾向。


李飞飞和她的团队发现汽车、人口统计与政治倾向上存在简单的线性关系。这种社会学关联「简单而有力」,该研究的论文《Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States》刚刚发表在《美国科学院论文集》上。


例如,如果一个社区路边轿车的数量大于皮卡,那么这个社区有 88% 的几率倾向于民主党。而与之相反的社区有 82% 的几率倾向于共和党。


及时与连续


除了对于政治倾向的见解之外,研究人员相信他们的算法能够为目前的人口统计学调查带来更多及时与连续的帮助。目前的「美国社区调查(American Community Survey)」采用挨家挨户的探访调查形式,每年都会花费美国政府超过 2.5 亿美元的费用。即便花费如此巨资,收集到的数据距离整理发表也要延迟两年甚至更久,在小城市和农村地区尤为如此。


相比之下,李飞飞的研究基于公开的,经常更新的数据集之上,由谷歌街景构建与投资,而生成分析结果的过程是近乎实时的。


「我认为这样的技术并不会替代 American Community Survey,但它可以作为一个补充,让数据实时跟进,」该论文的第一作者,李飞飞实验室的原成员 Timnit Gebru 这样说道。Gebru 目前是微软研究院人工智能组 Fairness Accountability Transparency and Ethics(FATE)的一名博士后。


Gebru 表示,要实现这样的成果并不容易。他们的研究团队首先对自 1990 年以来的所有汽车型号手动建立了一个图像数据集,对生产年、品牌、型号、不同配置分别进行标记,随后才开始训练计算机从模糊的图片中区分这些车型的细微差别。


细微的差异


他们从来自汽车销售网站 Edmunds.com 的一个包含 15,000 辆汽车的数据集开始。接下来人类专家需要将汽车根据细节一个接一个地分类。例如,本田雅阁的 2007 年版本和 2008 年版本的差异,只是一个几乎无法察觉的尾灯变化。


该算法运行得很快,只需要两周时间就可以将全部 5000 万张图像根据品牌、型号和出产年份分为 2657 个类别。相比之下,一个人以每分钟 6 张图像的速率工作,需要 15 年才能完成这个任务。


面对其他人对该研究提出的质疑,Gebru 说。他们指出图像拍摄时间的不一致性可能会影响交通模式和汽车型号组成。「实际上,」Gebru 补充道,「很多街景图像是在清晨拍摄的,这样可以避开交通高峰,这一定程度上形成了拍摄时间的一致性。」即使忽略交通问题,Gebru 认为,这些图像仍然提供了有价值的信息。



旧金山居民区的谷歌街景图像(来源:谷歌街景)


「当驾车穿越一个地区的时候,有时候从交通密度获得的信息和从车辆类型获得的信息有相同的价值,」Gebru 说,「我们可以在算法中使用所有这些信息。」


Gebru 对她的新应用抱有很大的期待。她很期待不久以后,他们的新技术能够超越人口统计的范畴,使用视觉影像分析提高对难以直接接触的地区进行有意义的调查,比如监控二氧化碳水平和缓解交通拥堵。


李飞飞对此表示同意,「这项技术可以帮助我们理解我们社会的运转方式、人们的需求和提高生活的方法。」


论文:Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States


论文链接:http://www.pnas.org/content/early/2017/11/27/1700035114.abstract


摘要:美国每年需要花费超过 2 亿 5000 万美元在美国社区调查(American Community Survey,ACS)上,这是一项劳动密集型的门到门研究,测算关于种族、性别、教育、职业、失业和其它人口统计因素的统计学结果。虽然拥有综合的数据资源,人口变化和在 ACS 中的记录之间往往有着超过两年的时间差。随着数位影像学的普及和机器视觉技术的进步,自动化数据分析在实践中越来越有望成为 ACS 的补充。在本论文中,我们提出了一种方法,可以通过使用由谷歌街景车搜集的 5000 万张街景图像,评估跨越 200 个美国城市的区域的社会经济学特征。使用基于深度学习的计算机视觉技术,我们决定监控和统计(谷歌街景车跨越)特定区域时遇见的所有汽车的品牌、型号和出产年份。汽车统计的数据(总共包含 2200 万辆汽车,占全美汽车量的 8%)可以用于准确地估计收入、种族、教育,和邮政编码层次、选区层次的投票模式(美国的选区平均包含约 1000 个人)。得到的结果非常简单而有力。例如,如果在驾车穿越一个城市的过程中遇到的轿车数量比皮卡的数量多很多,该城市更可能在下次总统选举中把票投给民主党(88% 的几率)。反之,该城市更可能投给共和党(82% 的几率)。我们的结果表明监控人口统计数据的自动化系统具备高空间分辨率测量人口统计数据的潜能,接近实时监控的程度,可以作为劳动密集型方法的有效补充。


2017-11-30 00:00:00 zw0Pi8G5C1x 阅读数 516


9 月 26 日,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。


李飞飞与大家讨论了计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩。李飞飞介绍的自己团队的工作也丰富多样、令人振奋。


(2015年,李飞飞也在同一个会场面向着大海和听众进行过一次 TED 演讲)



01 物体识别之后:丰富场景识别


在物体识别问题已经很大程度上解决以后,我们的下一个目标是走出物体本身,关注更为广泛的对象之间的关系、语言等等。



在Visual Genome数据集之后,我们做的另一项研究是重新认识场景识别。



场景识别单独来看是一项简单的任务,在谷歌里搜索“穿西装的男人”或者“可爱的小狗”,都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候,就得不到什么好结果。它的表现在这里就变得糟糕了,这种物体间的关系是一件很难处理的事情。



比如只关注了“长椅”和“人”的物体识别,就得不到“人坐在长椅上”的关系;即便训练网络识别“坐着的人”,也无法保证看清全局。我们有个想法是,把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系。



如果我们有一张场景图(graph),其中包含了场景内各种复杂的语义信息,那我们的场景识别就能做得好得多。其中的细节可能难以全部用一个长句子描述,但是把一个长句子变成一个场景图之后,我们就可以用图相关的方法把它和图像做对比;场景图也可以编码为数据库的一部分,从数据库的角度进行查询。



我们已经用场景图匹配技术在包含了许多语义信息的场景里得到了许多不错的量化结果,不过在座的各位可能边听就边觉得,这些场景图是谁来定义的呢?在Visual Genome数据集中,场景图都是人工定义的,里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的,过程挺痛苦的,我们也不希望以后还要对每一个场景都做这样的工作。所以在这项工作之后,我们很可能会把注意力转向自动场景图生成。



比如这项我和我的学生们共同完成的CVPR2017论文就是一个自动生成场景图的方案,对于一张输入图像,我们首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。



这里涉及到了一些迭代信息传递算法,我先不详细解释了。但这个结果体现出的是,我们的模型的工作方式和人的做法已经有不少相似之处了。



得到这样的结果我们非常开心,这代表着一组全新的可能性来到了我们面前。借助场景图,我们可以做信息提取、可以做关系预测、可以理解对应关系等等。



当然了论文发表前我们也做了好看的数据出来。



我们相信Visual Genome数据集也能够帮助很多的研究人员在研究关系和信息提取的算法和模型实验中施展拳脚。



02 场景识别之后还有什么?



刚才说过了物体识别、关系预测这两项场景理解难题之后,Jeremy 提到的最后一件事情就是,“场景中的gist的根本是三维空间中在物体间和物体表面上以一定形式扩散、重复出现的视觉元素”。不过由于我关注的并不是三维场景理解,我就只是简单介绍一下斯坦福的同事们近期的研究成果。



左侧是从单张图片推测三维场景的布局,展现出其中物体的三维几何特征;右侧是空间三维结构的语意分割。除了斯坦福的这两项之外,三维场景理解还有很多的研究成果,包括使用图片的和点云的。我也觉得很兴奋,将来也不断地会有新东西来到我们面前,尤其是在机器人领域会非常有用。


这样,我们就基本覆盖全了场景的gist,就是看到场景的前150毫秒中发生的事情。视觉智慧的研究当然并不会局限于这150毫秒,之后要考虑的、我们也在期待的还有两项任务。



我的研究兴趣里,除了计算机科学和人工智能之外,认知神经科学也占了相当的位置。所以我想回过头去看看我在加州理工学院读博士的时候做的一个实验,我们就让人们观察一张照片,然后让他们尽可能地说出自己在照片中看到的东西。当时做实验的时候,我们在受试者面前的屏幕上快速闪过一张照片,然后用一个别的图像、墙纸一样的图像盖住它,它的作用是把他们视网膜暂留的信息清除掉。



接下来我们就让他们尽可能多地写下自己看到的东西。从结果上看,有的照片好像比较容易,但是其实只是因为我们选择了不同长短的展示时间,最短的照片只显示了27毫秒,这已经达到了当时显示器的显示速度上限;有些照片显示了0.5秒的时间,对人类视觉理解来说可算是绰绰有余了。



我们得到的结果大概是这样的,对于这张照片,时间很短的时候看清的内容也很有限,500毫秒的时候他们就能写下很长一段。进化给了我们这样的能力,只看到一张图片就可以讲出一个很长的故事。



03 计算机视觉+语言



我展示这个实验想说的是,在过去的3年里,CV领域的研究人员们就在研究如何把图像中的信息变成故事。



他们首先研究了图像说明,比如借助CNN把图像中的内容表示到特征空间,然后用LSTM这样的RNN生成一系列文字。这类工作在2015年左右有很多成果,从此之后我们就可以让计算机给几乎任何东西配上一个句子。



比如这两个例子,“一位穿着橙色马甲的工人正在铺路”和“穿着蓝色衬衫的男人正在弹吉他”。这让我想起来,2015年的时候我就是在这同一个房间里做过演讲。两年过去了,我们的算法也已经不是最先进的了,不过那时候我们的研究确实是是图像说明这个领域的开拓性工作之一。



我们沿着这个方向继续做研究,迎来的下一个成果是稠密说明,就是在一幅图片中有很多个区域都会分配注意力,这样我们有可以有很多个不同的句子描述不同的区域,而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合,再加上一个语言模型,这样我们就可以对场景做稠密的标注。



比如这张图里就可以生成,“有两个人坐在椅子上”、“有一头大象”、“有一棵树”等等;另一张我的学生们的室内照片也标出了丰富的内容。



我们的稠密标注系统也比当时其它基于滑动窗口的方法表现好得多。



在最近的CVPR2017的研究中,我们让表现迈上了一个新的台阶,不只是简单的说明句子,还要生成文字段落,把它们以具有空间意义的方式连接起来。



这样我们就可以写出“一只长颈鹿站在树边,在它的右边有一个有叶子的杆子,在篱笆的后面有一个黑色和白色的砖垒起来的建筑”,等等。虽然里面有错误,而且也远比不上莎士比亚的作品,但我们已经迈出了视觉和语言结合的第一步。



而且,视觉和语言的结合并没有停留在静止的图像上,刚才的只是我们的最新成果之一。在另外的研究中,我们把视频和语言结合起来,比如这个CVPR2017的研究,我们可以对一个说明性视频中不同的部分做联合推理、整理出文本结构。这里的难点是解析文本中的实体,比如第一步是“搅拌蔬菜”,然后“拿出混合物”。如果算法能够解析出“混合物”指的是前一步里混合的蔬菜,那就棒极了。我的学生和博士后们也都觉得这是让机器人进行学习的很重要的一步。



这里的机会仍然是把视觉问题和语言结合起来,如果只用视觉的方法,就会造成视觉上的模糊性;如果只用语言学的方法,就会造成语言上的模糊性;把视觉和语言结合起来,我们就可以解决这些问题。



太细节的还是不说了,我们主要用了图优化的方法在实体嵌入上解决这些模糊性。我们的结果表明,除了解决模糊性之外,我们还能对视频中的内容作出更广泛完善的推理。



04 任务驱动的计算机视觉



在语言之后,我想说的最后一个方向是任务驱动的视觉问题,它和机器人的联系也更紧密一些。对整个AI研究大家庭来说,任务驱动的AI是一个共同的长期梦想,从一开始人类就希望用语言给机器人下达指定,然后机器人用视觉方法观察世界、理解并完成任务。



比如人类说:“蓝色的金字塔很好。我喜欢不是红色的立方体,但是我也不喜欢任何一个垫着5面体的东西。那我喜欢那个灰色的盒子吗?” 那么机器,或者机器人,或者智能体就会回答:“不,因为它垫着一个5面体”。它就是任务驱动的,对这个复杂的世界做理解和推理。



最近,我们和Facebook合作重新研究这类问题,创造了带有各种几何体的场景,然后给人工智能提问,看它会如何理解、推理、解决这些问题。这其中会涉及到属性的辨别、计数、对比、空间关系等等。



我们在这方面的第一篇论文用了CNN+LSTM+注意力模型,结果算不上差,人类能达到超过90%的正确率,机器虽然能做到接近70%了,但是仍然有巨大的差距。有这个差距就是因为人类能够组合推理,机器则做不到。



在一个月后的ICCV我们就会介绍新一篇论文中的成果,我们把一个问题分解成带有功能的程序段,然后在程序段基础上训练一个能回答问题的执行引擎。这个方案在尝试推理真实世界问题的时候就具有高得多的组合能力。



模型的实际表现当然不错,所以论文被ICCV接收了。比如这个例子里,我们提问某种颜色的东西是什么形状的,它就会回答“是一个立方体”这样,表明了它的推理是正确的。它还可以数出东西的数目。这都体现出了算法可以对场景做推理。



我们也在尝试环境仿真,我们用三维渲染引擎建立执行任务的环境,让学习策略的机器人在其中学习动作,比如把篮球放进微波炉,也需要它把这个任务分解成许多步骤然后执行。



我们采用了一种深度语意表征,然后用不同难度的任务测试它,中等难度的任务可以是从厨房里多个不同的地方拿取多个不同的物体,然后把它们放在指定的地方;难的任务可以是需要策略让它寻找之前从来没有见过的新物体。



视觉相关的任务说了这么多,我想把它们组织成这三类。


  • 首先是除了物体识别之外的关系识别、复杂语意表征、场景图;

  • 在场景gist之外,我们需要用视觉+语言处理单句标注、段落生成、视频理解、联合推理;

  • 最后是任务驱动的视觉问题,这里还是一个刚刚起步的领域,我相信视觉和逻辑的组合会在这个领域真正携起手来。



人类视觉已经发展了很久,计算机视觉虽然在出现后的60年里有了长足的进步,但也仍然只是一门新兴学科。我以前应该有提过我边工作边带孩子,这也就是一张我女儿二十个月大时候的照片。



看着她一天天成长的过程,真的让我觉得还有许许多多的东西等着我们去研究。视觉能力也是她的日常生活里重要的一部分,读书、画画、观察情感等等,这些重大的进步都是这个领域未来的研究目标。



谢谢大家!


来源:AI科技评论


近期精彩活动(直接点击查看):

福利 · 阅读 | 免费申请读大数据新书 第21期


END


投稿和反馈请发邮件至hzzy@hzbook.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

大数据


为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

华为内部狂转好文,大数据,看这一篇就够了!

读完这100篇论文,你也是大数据高手!

如何建立数据分析的思维框架

百度内部培训资料PPT:数据分析的道与术

论大数据的十大局限

打包带走!史上最全的大数据分析和制作工具

数据揭秘:中国姓氏排行榜

程序猿分析了42万字歌词后,终于搞清楚民谣歌手唱什么了

计算机告诉你,唐朝诗人之间的关系到底是什么样的?

数据分析:微信红包金额分配的秘密

2000万人口的大北京,上下班原来是这样的(附超炫蝌蚪图)

大数据等IT职业技能图谱【全套17张,第2版】

不要跟赌场说谎,它真的比你老婆还了解你

如果看了这篇文章你还不懂傅里叶变换,那就过来掐死我吧

不做无效的营销,从不做无效的用户画像开始


更多精彩文章,请在公众号后台点击“历史文章”查看,谢谢。

2018-01-27 00:00:00 dzJx2EOtaA24Adr 阅读数 2710

大数据文摘作品


看完视频并不是真正的学习了一遍,更重要的是写作业、动手实践、讨论,这才能把学到的知识真正掌握住。看完斯坦福CS231n的公开课,是不是觉得还不够过瘾?快来和文摘菌一起写作业敲代码吧!


提到深度学习与计算机视觉,不得不提ImageNet和它的创建者,斯坦福大学计算机科学系副教授、Google Cloud 人工智能和机器学习团队的首席科学家李飞飞。而她的成名作,斯坦福大学课程《深度学习与计算机视觉》自从公开视频和作业,也造福了一批对计算机视觉感兴趣的IT从业者。


先来看看某互联网招聘平台普通IT和视觉算法工程师薪资对比:


而深度学习和计算机视觉的课程那么多,文摘菌为何偏偏推荐这一门?


首先,该课是计算机视觉的一门经典的课程,是来自世界名校斯坦福的大咖李飞飞教授开设的,观看学习课程还是免费的!!!


其次,课程内容安排合理,由浅入深。主要介绍了深度学习(尤其是卷积神经网络和与其相关的框架)在计算机视觉领域的应用,内容涵盖多种神经网络具体结构与训练应用细节,以及针对大规模图像识别,物体定位,物体检测,图像风格迁移,图像理解描述与视频内容识别等问题的前沿解决思路。从一个简单的cifar10数据集和最简单的KNN算法开始介绍,慢慢引入深度学习相关的知识点。比如dropout、batchnormalization等。最后介绍了一些深度学习经典的范例,比如RNNs, LSTMs ,GAN等。


最后,也是小编要强调的一个原因,视频课程中嵌入了中文字暮!没错,尽管多数IT从业者都有基本的英文水平,但是要理解如此高深的课程,还是要花费大量功夫。而汉化视频不仅需要高神准的英文水平,更需要一定的深度学习专业能力。


大数据文摘联合北京邮电大学模式识别实验室共同完成了这一巨大的工程! 整整耗时6个月(从2016年9月-2017年2月)!特别感谢字幕汉化组的成员,为你们疯狂的打call。


字幕汉化组工作人员的辛苦也换来了丰厚的回报,自课程推出后,在网易云课堂的播放次数截至今日就达到了77790次,课程评分高达5颗星,5颗哦!大数据文摘也收获该课程的一大批真爱粉,大家还很期待的询问有关CS224的课程呢。



对了,是不是还有同学没有来得及学习这一经典课程?快戳下面的链接学习吧!

https://study.163.com/provider/10146755/index.htm


大家学习的热情也很高,各种精彩的笔记:


看来也有很多大佬在学习该课程,如果你以为听完课程就入门机器视觉了,那你就太单纯了。上完课还是要做作业的,还是要敲代码的。可是做作业遇到困难怎么办?做完的作业没有参考答案怎么办?


文摘菌听到了大家的心声,也邀请了一批一线从业人员,牺牲休息时间,亲手研读课程作业,并且整理了课程作业的完整笔记。


笔记作者和校对人员对于作业每一道题涉及到的知识点,都进行了相关知识点的讲解。讲解内容不仅涉及到课程上的一些知识,也有一线从业人员的心得体会和知识点的扩充。针对每一道题目大家都可以进行实操,以加深对每一道题的理解。


比如针对assignment1中的Q2,我们的志愿者同学给出了这么详细的答案:



为了帮助大家顺利完成作业,笔记作者和校对人员给出了每道题完整的代码作为参考,并且代码都有详细的注释,有没有超级棒?



那么这么精彩的笔记怎么拿到呢?以下是第一期作业笔记获取链接

大数据文摘网易云课程专栏:

https://study.163.com/provider/10146755/index.htm


大数据文摘CSDN专栏:

http://blog.csdn.net/BigDataDigest


大数据文摘GitHub专栏:

https://github.com/theBigDataDigest/Stanford-CS231n-assignments-in-Chinese/tree/master/assignment1


我们会根据进度分批把作业全部发布出来,请各位持续关注大数据文摘哦。


最后,让我们感谢本次作业的工作人员,是你们无私的付出,让更多读者可以享受这一成果。


全体作者:郭承坤  观自在降魔  Fanli  SlyneD  土豆  MoreZheng   张礼俊

校对:毛丽   郭承坤

总校对与审核:寒小阳

文案:冯晓丽


【今日机器学习概念】

Have a Great Definition

第一期参与志愿者

2019-07-20 10:20:23 RobinlyChannel 阅读数 224

????点击上方蓝字星标“Robinly”,获取更多重磅AI访谈

Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。

2019年计算机视觉顶会CVPR前不久刚在美国长滩闭幕。Robin.ly在大会现场独家采访20多位热点论文作者,为大家解读论文干货。继上一篇CVPR2019 获奖论文现场解读后,再次推出三篇爆款文章作者解读:

  1. 斯坦福李飞飞团队与上海交通大学合作项目:6D目标姿态估计

    DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

  2. 康奈尔Kilian Weinberger教授团队:无人驾驶中的智能传感技术-3D目标检测研究

    Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

  3. 密歇根大学Jason Corso教授团队:BubbleNets检测视频资料真伪研究

    BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames

长按二维码或点击“阅读原文”

访问Robin.ly获取更多CVPR访谈实录

1

  密集融合方式:6D目标姿态估计

6D 目标姿态估计对许多重要的现实应用都很关键,例如机器人抓取与操控、自动导航、增强现实等。斯坦福大学李飞飞团队致力于研究如何提高姿态估计的准确率和推断速度,并在CVPR发表了论文“DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion“这项研究希望给机器人提供在不同情况下对操作物体的位置和姿态的识别能力,从而能实现更精准的抓取和分拣操作。

本论文的第一作者Chen Wang在CVPR2019墙报展示现场给我们做了详细讲解。Chen Wang现在是上海交通大学博士生学生,此项研究是他在斯坦福大学实习时合作进行的研究。以下是论文讲解实录:

Chen Wang在CVPR现场讲解“6D目标姿态估计模型”研究

“我们在研究中发现,从 RGB-D 输入中提取 6D 姿态信息时,很多点是被其他对象遮挡住的,这就会导致识别性能发生明显下降。在前人的工作中,一种流行的方法是利用全局特征进行 6D 位姿估计。但是当发生了遮挡,全局特征很大程度上会受到影响,导致预估测结果不佳。在这项工作中,我们生成了基于像素的密集融合方式,在不同的通道中先分别处理 RGB 和深度信息,以生成基于像素的颜色嵌入和带有 PointNet 结构的几何嵌入。然后我们利用 RGB 和密集度之间的对应关系就可以实现像素级别的融合并进行预测。

我们的工作和前人的工作之间的主要区别是,我们可以从这些未被遮挡的点开始基于像素进行预测。墙报上展示了我们在 YCB 视频数据集上测试的结果。图中 X 轴代表遮挡的程度,Y 轴代表的是位子估计的准确度。我们可以看到,虽然遮挡范围越来越大,但与前人的工作相比,我们的结果鲁棒性更好。我们在这两个数据集中取得了目前效果最好的RGB-D 姿态估计效果。相关的所有代码和信息已经发布在网上,大家如果有兴趣可以去查看。

论文图示:6D目标姿态估计模型 (来源 Chen Wang)

我现在播放的演示视频中包含了两个部分的内容。第一部分是对框架的分析,在墙报中也有所展示。接着,这是我们在 YCB 视频数据集上的测试结果。相比前人的工作,我们在重度遮挡的场景中获得的姿态估计结果更加准确和可靠。视频的第二部分展示的是我们如何使用这种训练好的模型在真实的机器人抓取实验中进行测试。这里展示的是机器人视角。这是我们利根据DenseFusion 姿态估计结果将模型数据点反向投影回图像帧的示例。我们可以看到,大多数点都与它的实际位置吻合较好。这样机器人就可以知道操作对象物体的位置和姿态,能够使用预定义的抓取策略来抓取这些对象。这就是我们的技术在拾取,组装等一些场景中的应用。“

Chen Wang在CVPR现场讲解“6D目标姿态估计模型”研究完整视频


论文信息

DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

作者:Chen Wang, Danfei Xu, Yuke Zhu, Roberto Martín-Martín, Cewu Lu, Fei-Fei Li, Silvio Savarese

研究机构:斯坦福大学、上海交通大学

论文链接:

https://arxiv.org/abs/1901.04780


2

 无人驾驶中的智能传感技术:3D目标检测

自动驾驶汽车依靠各种传感器来感知环境。每种类型的传感器都有自己的优点和缺点。LiDAR提供精确的距离信息,并且能够探测到小物体,但是成本比较高,如何在保证传感器的精准基础上降低成本,是计算机视觉领域的一个重要研究方向。论文“Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving” 研究了在无人驾驶中如何使用LiDAR以外的技术来获取精准数据。

该文的作者来自康奈尔大学Kilian Weinberger教授和Bharath Hariharan教授团队的博士生Yan Wang、Wei-Lun Chao、Divyansh Gary。Weinberger教授曾获得ICML, CVPR, AISTATS和KDD等会议的最佳论文奖、AAAI Senior Program Chair奖,并当选ICML 2016和AAAI 2018的大会日程主席。以下为论文分享访谈实录和视频:

康奈尔大学Kilian Weinberger和Bharath Hariharan团队在CVPR2019现场接受Robin.ly访谈

Wenli: 请简要介绍一下 “3D Object Detection for Autonomous Driving”这篇文章。当初为什么选择这个课题?文章中的亮点是什么?

Yan Wang:

我们认为 3D 目标检测是自动驾驶汽车系统中的一个重要且基本的问题。目前人们只关注基于激光雷达(LiDAR)的目标检测,对纯视觉的 3D 检测技术的兴趣相对则没有那么高。但是只依靠LiDAR, 系统会不够鲁棒,而且LiDAR价格昂贵。所以我们想寻找一个成本比较低的替代方案,比如基于视觉深度估计的3D目标检测。但是在我们做之前,该方向准确性还很低,所以我们认为有很多工作可以做。

Divyansh Gary:

具体一点说,我们实际上是利用图像数据进行了高精度的 3D 目标检测。我们在文章中讨论了激光雷达的表征方法及其重要性。我们从左右两个摄像头上获取了图像,计算了图像中每个像素之间的距离并估计了密集Disparity。我们想把相关结果转换成一个三维的表征方法,叫伪LiDAR。它跟 LiDAR 类似,但是它是从图片中得到的。这种方法可以用来训练卷积神经网络,并应用于目标检测,发挥跟 LiDAR 类似的作用。我们仅仅通过转变表征方式就让准确度从20%上升到了70% 

论文图示:对比LiDAR和图像数据的3D检测效果(来源 Yan Wang)

Wei-Lun Chao:

现在很多论文都在讨论新的深度学习架构。但我们发现基于图像的检测技术准确性不如 LiDAR,并不是因为原始数据不够好,或深度学习框架不够好,而是因为人们表征数据的方式存在问题。在这篇文章中,我们提出了一个通用框架,人们可以利用这个框架将任何新的深度估算网络和优质的检测器结合在一起以发挥最佳的效果。我认为这就是最重要的创新点。

Wenli:你们下一步的计划是什么?你们认为这项技术多久可以商业化?

Wei-Lun Chao:

我想能让我们的方法准确度达到 LiDAR 的水平。另外,LiDAR 是能够直接获得深度信息的,但现在我们是使用神经网络来从图片中估计深度,所以我们要想办法提高模型处理速度。最后,我们还希望能够将系统推广到不同的应用场景,将不同的传感器,激光雷达和相机整合起来。能否以及何时商业化应该取决于不同公司的标准。

Divyansh Gary:

的确已经有一些公司联系过我们,想了解我们的研究能否应用于他们的车辆。我们希望一年之内就能实现合作。

Wenli: 许多自动驾驶公司当前所使用的智能传感技术是什么?你们对此有什么看法?

Kilian Weinberger:

我们特别关注无人车使用 LiDAR 是不是绝对必要。LiDAR 是一种主动式传感器,性能非常好,能够在黑暗中工作,通过检测发送激光脉冲在检测目标上反射的信息来测量距离。但是 LiDAR非常昂贵,会增加汽车的成本。

相比之下,相机是一种被动式传感器,跟 LiDAR 的工作原理有着本质的不同。但是我们在论文中提到,如果使用正确的方式处理基于相机的立体图像数据,即便使用被动式传感器也可以获得非常精确的结果。所以我们试图挖掘 LiDAR 和立体图像处理技术之间的区别,从而找到技术上的突破点。

论文图示:不同传感器测量效果图 (来源 Yan Wang)

Wenli: 能举一个具体的例子吗?

Kilian Weinberger

LiDAR 的一个优势是,当它离检测目标很远时预测仍然非常准确。双目摄像头的工作原理是,你可以测量目标在左右图像中分别显示的位置,进而测量Disparity。但是如果存在Disparity估计误差,即使小于1个像素,对于较远的物体都意味着超过一个车身的距离。这时你只需要几个 LiDAR 数据点进行辅助,就可以通过这几个LiDAR点移动整个观测物体的深度估计来消除这个误差。但是物体距离相机很近,立体成像的预测结果会很准,误差问题就几乎不存在了。

Wenli: 你们认为相机和 LiDAR 相结合是比较有前景的行业趋势吗?单独使用相机能够实现高级自动驾驶吗?

Kilian Weinberger:

这个问题已经有人研究过了。但是我们仅仅通过改变数据处理方式就能使立体成像技术更可靠,这个技术也可以泛化到其他场景。在这个基础上再结合 LiDAR 的数据就可以获得非常准确的结果。我认为如果没有 LiDAR 的辅助,单纯依靠相机也可以实现比较准确的检测结果。比如可以使用高分辨率相机,或者其他的主动式传感器。目前这方面还需要进一步的研究。

Bharath Hariharan:

我同意 Kilian 的观点。我认为我们的技术起到了四两拨千斤的效果。我们甚至没有太关注跟基于相机的 3D 重建相关的研究,这个领域还有很多待开发的工具,尤其是在自动驾驶汽车这样的领域。我个人认为相机能做的事情还很多,我们还需要进行更深入的探索。我建议大家还是先尽量使用已有的数据来摸索正确的数据处理和使用方法。

康奈尔大学Kilian Weinberger和Bharath Hariharan团队在CVPR2019现场接受Robin.ly访谈


论文信息

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

作者:Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger

研究机构:康奈尔大学

论文链接:

https://arxiv.org/abs/1812.07179


3

 BubbleNets:检测视频资料真伪

CVPR接收的论文“BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames”研究如果检测出“伪视频”。以下是该论文的作者,来自密西根大学的Jason Corso教授以及助理研究科学家 Brent Griffin给我们介绍他们的研究。

Jason Corso教授以及助理研究科学家Brent Griffin在CVPR2019接受Robin.ly采访

Wenli: 能介绍一下这篇论文吗?当初为什么选择这个研究方向?

Brent Griffin:

在目前的视频对象分割方法中,半监督算法的效果是最好的,但前提是我们要手动提供注释帧以及待分割对象的边界信息。如果选择的注释帧不正确,也会影响结果的准确性。这项研究的目的就是理解半监督算法如何自动检测被处理过的媒体文件,因为我们确实已经遇到了这个领域的实际应用问题。

Wenli: 这是个比较新的领域,你们如何评判检测结果的好坏?

Brent Griffin:

我们最开始只遵循使用第一个注释帧的方法,但发现我们想要在视频中删除的对象可能一直在不停运动,这样一来注释效果就比较差。后来我们发现只使用中间帧的效果也很好。我们的一个客户公司不知道如何选择最好佳注释帧,希望我们的能够自动化这个过程。听起来很难实现,但实际上我们能够利用 DAVIS(Densely Annotated VIdeo Segmentation)数据集找到一种方法来获取其中包含的注释信息,并将这些信息转换成 60 个原始视频中所包含的75万个训练样例,用于训练BubbleNets,最后再进行注释筛选。问题就在于,我们如何利用这些有限的注释视频示样例生成大量训练样例,如何理解视频的内容。这涉及到很多参数。如果你的训练样例有限,很容易就会导致过度拟合。

Jason Corso:

最开始我们只是在寻找一个最好的注释帧,然后对帧质量进行回归处理。当时我们并没有足够的训练数据,于是就采用了一种非常传统的冒泡排序算法,比较成对的帧中哪一个帧的注释信息质量更好。通过将现代的深度学习与传统的排序算法结合起来,在整个视频中重复这样的操作,我们就能够处理更大的训练数据集。

论文图示:对比不同注释帧的注释信息质量(来源:密西根大学)

Wenli: 这个方法是论文中最大的技术突破吗?

Brent Griffin:

结合冒泡排序框架实际上可以将这个问题转变为我们能够解决的,有意义的机器学习或深度学习问题。我认为这并不意味着 BubbleNets 就是最佳解决方案,一定还有提高的空间。我们希望其他研究人员能够继续这方面的工作,弄清如何通过自动选择注释帧来解决这个问题。BubbleNets 只是这个过程中重要的开端。

Jason Corso:

这个方法也是我们实验室“混合智能”研究方向的一个具体实例,将人类智能与计算机算法结合起来,充分利用两者的优势,另辟蹊径的解决问题。

Wenli: 这个方法目前有什么商业应用前景?面临的挑战是什么?

Brent Griffin:

总的来说,我认为对象分割在机器人技术,自动驾驶车辆领域有比较重要的应用。比如在我们实验室另外的项目中会使用机器人进行视频对象分割和视觉伺服控制。我们能够使用基于计算机视觉开发的机械装置快速跟踪目标和控制机器人。这项工作是与丰田研究所合作的,他们对我们所取得的进展感到非常兴奋。

Jason Corso:

我认为公众也很关注这方面技术的应用。我在来时的飞机上读到了一篇关于在几年前的选举前夕,候选人的演讲视频如果被动了手脚可能造成的影响的文章。通常人们在篡改视频和图像时总是会留下一些蛛丝马迹,很难做到不留下任何痕迹,所以我们通常能够利用这些痕迹检测一个视频是否被人为修改过。针对双JPEG压缩之类比较复杂的情况,比如视频显示其内容发生在某一天的某个地点,我们可能会从其他相关数据中发现,根据天气或车辆的GPS信息,这是不可能的。最简单的方法当然就是将其跟原始视频进行对比,就能发现其中的问题。从科学和社会的角度来看,这是一个值得重视的问题。

我们正在推动的“混合智能”领域的研究有很多问题亟待解决。比如一个研究项目是获取 YouTube 上的行车记录仪视频,其中记录的通常是比较罕见的交通事件。但训练自动驾驶模型通常需要大量数据训。我们开发的一个技术能够从 YouTube 中获取大量单眼数据,但是我们无法直接利用单眼数据对场景进行全面重建,还需要借助人工的辅助,比如提供车辆的品牌信息,标记事故中的车辆等等。人工智能方法无法提供这类信息,所以一个很重要的工作就是充分结合机器的自动操作和人工的辅助功能。

Wenli: 您创办了一个公司叫Voxel51,在本次 CVPR 会议上推出了“AI for Video”平台和 Scoop 产品。能介绍一下这家公司吗?

Jason Corso:

公司是在 2018 年 10 月成立的,在此之前经历了大约两年的技术开发阶段。从 2016 年开始,我们的目标是打造一个软件平台,让计算机视觉专家和非专业人士都能够大规模利用我们在计算机视觉和机器学习领域获得的进展。

我们在本次 CVPR 大会上推出了该平台的第一个版本,包含有三个主要的用例。第一个用例是帮助计算机视觉或机器学习专家建立模型进行视频对象分割。他们通常不太了解后端操作,不清楚如何打造一个系统来实现在一天内处理数千小时视频的功能。我们的平台可以帮助他们把模型导入 Voxel51 的软件开发工具包并在几小时内部署在平台上,更快的实现他们的目标。

另外,你可能有大量的数据,但没有财力负担人工数据标记。这样的公司目前有很多,但是价格不菲,标记一帧大约需要 30 或 50 美分。现在你完全可以将视频上传到我们的平台,应用我们的“Sense” 技术提供的对车辆,道路和人进行的内容丰富的标签和注释,比如车辆的制造商,类型,颜色,姿态,精度都在90%以上。我们希望能够跟有相关需求的一级公司合作。

第三个是,该平台也可以用于应用程序开发。我们在平台上构建的一叫做 Scoop 的程序演示了这一功能。人们无需任何培训就能获取大型数据集以及关于其内容的详细介绍。这个工具的界面非常友好,可以快速完成我们称之为“分面搜索(faceted searches)”的操作。人们可以使用 Scoop 对数据进行筛选,只提取需要的数据,也可以将自己的标签数据上传到 Scoop 进行后续操作。

密歇根大学Jason Corso教授以及助理研究科学家Brent Griffin在CVPR2019接受Robin.ly采访完整视频


论文信息

BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames

作者:Brent A. Griffin, Jason J. Corso

研究机构:密西根大学

论文链接:

https://arxiv.org/abs/1903.11779


关注Robin.ly “Leaders In AI” Podcast

收听更多英文访谈


相关阅读

斯坦福AI Lab主任Chris Manning:我的第一次CVPR

CVPR2019爆款论文作者现场解读:视觉语言导航、运动视频深度预测、6D姿态估计

CVPR 2019最佳论文得主专访:非视距形状重建的费马路径理论

CVPR大会项目主席、前微软计算机视觉科学主任华刚博士专访

前NIH资深研究员吕乐:医疗领域的AI革命,任重道远,但充满希望

快手AI引擎幕后“推手”刘霁:跨越学界和业界的青年创新领袖

2017-11-11 03:51:17 fanfly123 阅读数 137

计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言结合任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩。


1. 关系预测:

在李飞飞团队ECCV2016的收录论文中,他们的模型已经可以预测空间关系、比较关系、语义关系、动作关系和位置关系,在“列出所有物体”之外,向着场景内的物体的丰富关系理解迈出了坚实的一步。


2. 无样本学习:


3. Visual Genome数据集:

它的目标就是走出物体本身,关注更为广泛的对象之间的关系、语言、推理等等。


4. 重新认识场景识别:

他们有个想法是,把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系。

场景图(scene graphs)生成:手工 ——>自动

对于一张输入图像,首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。迭代信息传递算法。


图像说明,比如借助CNN把图像中的内容表示到特征空间,然后用LSTM这样的RNN生成一系列文字。

稠密说明,就是在一幅图片中有很多个区域都会分配注意力,这样有可以有很多个不同的句子描述不同的区域,而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合,再加上一个语言模型,这样就可以对场景做稠密的标注。


但我们已经迈出了视觉语言结合的第一步。

视频语言结合起来,难点是解析文本中的实体


5. 任务驱动的视觉问题

这其中会涉及到属性的辨别、计数、对比、空间关系等等。

CNN+LSTM+注意力模型:接近70%



图像相关的任务说了这么多,李飞飞把它们总结为了两大类

  • 首先是除了物体识别之外的关系识别、复杂语意表征、场景图;

  • 在场景gist之外,我们需要用视觉+语言处理单句标注、段落生成、视频理解、联合推理;


没有更多推荐了,返回首页