• 斯坦福大学的研究者们正在使用计算机视觉系统,利用谷歌街景图片上街边汽车的型号来识别给定社区的政治倾向,其识别准确率超过了 80%。这项研究的论文已发表在《美国科学院论文集》上,研究人员表示,新的研究不仅...
    斯坦福大学的研究者们正在使用计算机视觉系统,利用谷歌街景图片上街边汽车的型号来识别给定社区的政治倾向,其识别准确率超过了 80%。这项研究的论文已发表在《美国科学院论文集》上,研究人员表示,新的研究不仅可以节省大量人力开支,也可以为人口统计任务提供前所未有的实时数据。


    从奢华的宾利到经济家用的 MPV,再到实用的皮卡,每个美国人驾驶的汽车都或多或少是他们个性的外在表述。就像俗话说的:你就是你所开的汽车,斯坦福大学的研究人员正在把这一思想提升到新的高度。


    通过计算机视觉算法,一群研究人员正在利用谷歌街景上数百万张公开图像展开分析。研究人员称,只要看看街边的停着的汽车,他们开发的算法就可以识别出社区的政治倾向。


    38580640-6.jpeg

    李飞飞,斯坦福大学计算机科学教授


    「通过使用这种易于获得的视觉数据,我们可以学习到众多社区的方方面面,而想要从人口普查中获知这些信息需要花费数十亿美元。更重要的是,新的研究打开了利用计算机视觉信息对社会进行探究的思路,」斯坦福大学计算机科学副教授,斯坦福人工智能实验室和斯坦福视觉实验室负责人李飞飞说道,她也是这一研究的参与者之一。


    作为著名图片数据集 ImageNet 的发起人,李飞飞是计算机视觉和深度学习的著名学者。在众多研究人员的努力下,人工智能在今天已经可以从二维图片中识别三维物体——计算机可以看到并识别它所见到的东西。


    在李飞飞等人的研究下,新的算法通过谷歌街景中 200 个美国城市的超过 5000 万张图片进行学习,并在自我训练过程中学会了识别自 1990 年以后所有汽车的品牌、型号与出产年份。


    汽车的类型和地址随后会与(目前最为全面的人口数据库)美国社区情况调查和美国总统投票结果数据相匹配,以评价种族、受教育程度、收入以及投票倾向。


    李飞飞和她的团队发现汽车、人口统计与政治倾向上存在简单的线性关系。这种社会学关联「简单而有力」,该研究的论文《Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States》刚刚发表在《美国科学院论文集》上。


    例如,如果一个社区路边轿车的数量大于皮卡,那么这个社区有 88% 的几率倾向于民主党。而与之相反的社区有 82% 的几率倾向于共和党。


    及时与连续


    除了对于政治倾向的见解之外,研究人员相信他们的算法能够为目前的人口统计学调查带来更多及时与连续的帮助。目前的「美国社区调查(American Community Survey)」采用挨家挨户的探访调查形式,每年都会花费美国政府超过 2.5 亿美元的费用。即便花费如此巨资,收集到的数据距离整理发表也要延迟两年甚至更久,在小城市和农村地区尤为如此。


    相比之下,李飞飞的研究基于公开的,经常更新的数据集之上,由谷歌街景构建与投资,而生成分析结果的过程是近乎实时的。


    「我认为这样的技术并不会替代 American Community Survey,但它可以作为一个补充,让数据实时跟进,」该论文的第一作者,李飞飞实验室的原成员 Timnit Gebru 这样说道。Gebru 目前是微软研究院人工智能组 Fairness Accountability Transparency and Ethics(FATE)的一名博士后。


    Gebru 表示,要实现这样的成果并不容易。他们的研究团队首先对自 1990 年以来的所有汽车型号手动建立了一个图像数据集,对生产年、品牌、型号、不同配置分别进行标记,随后才开始训练计算机从模糊的图片中区分这些车型的细微差别。


    细微的差异


    他们从来自汽车销售网站 Edmunds.com 的一个包含 15,000 辆汽车的数据集开始。接下来人类专家需要将汽车根据细节一个接一个地分类。例如,本田雅阁的 2007 年版本和 2008 年版本的差异,只是一个几乎无法察觉的尾灯变化。


    该算法运行得很快,只需要两周时间就可以将全部 5000 万张图像根据品牌、型号和出产年份分为 2657 个类别。相比之下,一个人以每分钟 6 张图像的速率工作,需要 15 年才能完成这个任务。


    面对其他人对该研究提出的质疑,Gebru 说。他们指出图像拍摄时间的不一致性可能会影响交通模式和汽车型号组成。「实际上,」Gebru 补充道,「很多街景图像是在清晨拍摄的,这样可以避开交通高峰,这一定程度上形成了拍摄时间的一致性。」即使忽略交通问题,Gebru 认为,这些图像仍然提供了有价值的信息。


    39068640-7.jpeg

    旧金山居民区的谷歌街景图像(来源:谷歌街景)


    「当驾车穿越一个地区的时候,有时候从交通密度获得的信息和从车辆类型获得的信息有相同的价值,」Gebru 说,「我们可以在算法中使用所有这些信息。」


    Gebru 对她的新应用抱有很大的期待。她很期待不久以后,他们的新技术能够超越人口统计的范畴,使用视觉影像分析提高对难以直接接触的地区进行有意义的调查,比如监控二氧化碳水平和缓解交通拥堵。


    李飞飞对此表示同意,「这项技术可以帮助我们理解我们社会的运转方式、人们的需求和提高生活的方法。」


    论文:Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States

    65817640-8.jpeg

    论文链接:http://www.pnas.org/content/early/2017/11/27/1700035114.abstract


    摘要:美国每年需要花费超过 2 亿 5000 万美元在美国社区调查(American Community Survey,ACS)上,这是一项劳动密集型的门到门研究,测算关于种族、性别、教育、职业、失业和其它人口统计因素的统计学结果。虽然拥有综合的数据资源,人口变化和在 ACS 中的记录之间往往有着超过两年的时间差。随着数位影像学的普及和机器视觉技术的进步,自动化数据分析在实践中越来越有望成为 ACS 的补充。在本论文中,我们提出了一种方法,可以通过使用由谷歌街景车搜集的 5000 万张街景图像,评估跨越 200 个美国城市的区域的社会经济学特征。使用基于深度学习的计算机视觉技术,我们决定监控和统计(谷歌街景车跨越)特定区域时遇见的所有汽车的品牌、型号和出产年份。汽车统计的数据(总共包含 2200 万辆汽车,占全美汽车量的 8%)可以用于准确地估计收入、种族、教育,和邮政编码层次、选区层次的投票模式(美国的选区平均包含约 1000 个人)。得到的结果非常简单而有力。例如,如果在驾车穿越一个城市的过程中遇到的轿车数量比皮卡的数量多很多,该城市更可能在下次总统选举中把票投给民主党(88% 的几率)。反之,该城市更可能投给共和党(82% 的几率)。我们的结果表明监控人口统计数据的自动化系统具备高空间分辨率测量人口统计数据的潜能,接近实时监控的程度,可以作为劳动密集型方法的有效补充。


    展开全文
  • 9 月 26 日,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。 李飞飞与大家讨论了计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言...

    0?wx_fmt=gif&wxfrom=5&wx_lazy=1


    9 月 26 日,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。


    李飞飞与大家讨论了计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩。李飞飞介绍的自己团队的工作也丰富多样、令人振奋。


    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

    (2015年,李飞飞也在同一个会场面向着大海和听众进行过一次 TED 演讲)



    01 物体识别之后:丰富场景识别


    在物体识别问题已经很大程度上解决以后,我们的下一个目标是走出物体本身,关注更为广泛的对象之间的关系、语言等等。


    0?wx_fmt=jpeg


    在Visual Genome数据集之后,我们做的另一项研究是重新认识场景识别。


    0?wx_fmt=jpeg


    场景识别单独来看是一项简单的任务,在谷歌里搜索“穿西装的男人”或者“可爱的小狗”,都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候,就得不到什么好结果。它的表现在这里就变得糟糕了,这种物体间的关系是一件很难处理的事情。


    0?wx_fmt=jpeg


    比如只关注了“长椅”和“人”的物体识别,就得不到“人坐在长椅上”的关系;即便训练网络识别“坐着的人”,也无法保证看清全局。我们有个想法是,把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系。


    0?wx_fmt=jpeg


    如果我们有一张场景图(graph),其中包含了场景内各种复杂的语义信息,那我们的场景识别就能做得好得多。其中的细节可能难以全部用一个长句子描述,但是把一个长句子变成一个场景图之后,我们就可以用图相关的方法把它和图像做对比;场景图也可以编码为数据库的一部分,从数据库的角度进行查询。


    0?wx_fmt=jpeg


    我们已经用场景图匹配技术在包含了许多语义信息的场景里得到了许多不错的量化结果,不过在座的各位可能边听就边觉得,这些场景图是谁来定义的呢?在Visual Genome数据集中,场景图都是人工定义的,里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的,过程挺痛苦的,我们也不希望以后还要对每一个场景都做这样的工作。所以在这项工作之后,我们很可能会把注意力转向自动场景图生成。


    0?wx_fmt=jpeg


    比如这项我和我的学生们共同完成的CVPR2017论文就是一个自动生成场景图的方案,对于一张输入图像,我们首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。


    0?wx_fmt=jpeg


    这里涉及到了一些迭代信息传递算法,我先不详细解释了。但这个结果体现出的是,我们的模型的工作方式和人的做法已经有不少相似之处了。


    0?wx_fmt=jpeg


    得到这样的结果我们非常开心,这代表着一组全新的可能性来到了我们面前。借助场景图,我们可以做信息提取、可以做关系预测、可以理解对应关系等等。


    0?wx_fmt=jpeg


    当然了论文发表前我们也做了好看的数据出来。


    0?wx_fmt=jpeg


    我们相信Visual Genome数据集也能够帮助很多的研究人员在研究关系和信息提取的算法和模型实验中施展拳脚。



    02 场景识别之后还有什么?


    0?wx_fmt=jpeg


    刚才说过了物体识别、关系预测这两项场景理解难题之后,Jeremy 提到的最后一件事情就是,“场景中的gist的根本是三维空间中在物体间和物体表面上以一定形式扩散、重复出现的视觉元素”。不过由于我关注的并不是三维场景理解,我就只是简单介绍一下斯坦福的同事们近期的研究成果。


    0?wx_fmt=jpeg


    左侧是从单张图片推测三维场景的布局,展现出其中物体的三维几何特征;右侧是空间三维结构的语意分割。除了斯坦福的这两项之外,三维场景理解还有很多的研究成果,包括使用图片的和点云的。我也觉得很兴奋,将来也不断地会有新东西来到我们面前,尤其是在机器人领域会非常有用。


    这样,我们就基本覆盖全了场景的gist,就是看到场景的前150毫秒中发生的事情。视觉智慧的研究当然并不会局限于这150毫秒,之后要考虑的、我们也在期待的还有两项任务。


    0?wx_fmt=jpeg


    我的研究兴趣里,除了计算机科学和人工智能之外,认知神经科学也占了相当的位置。所以我想回过头去看看我在加州理工学院读博士的时候做的一个实验,我们就让人们观察一张照片,然后让他们尽可能地说出自己在照片中看到的东西。当时做实验的时候,我们在受试者面前的屏幕上快速闪过一张照片,然后用一个别的图像、墙纸一样的图像盖住它,它的作用是把他们视网膜暂留的信息清除掉。


    0?wx_fmt=jpeg


    接下来我们就让他们尽可能多地写下自己看到的东西。从结果上看,有的照片好像比较容易,但是其实只是因为我们选择了不同长短的展示时间,最短的照片只显示了27毫秒,这已经达到了当时显示器的显示速度上限;有些照片显示了0.5秒的时间,对人类视觉理解来说可算是绰绰有余了。


    0?wx_fmt=jpeg


    我们得到的结果大概是这样的,对于这张照片,时间很短的时候看清的内容也很有限,500毫秒的时候他们就能写下很长一段。进化给了我们这样的能力,只看到一张图片就可以讲出一个很长的故事。



    03 计算机视觉+语言


    0?wx_fmt=jpeg


    我展示这个实验想说的是,在过去的3年里,CV领域的研究人员们就在研究如何把图像中的信息变成故事。


    0?wx_fmt=jpeg


    他们首先研究了图像说明,比如借助CNN把图像中的内容表示到特征空间,然后用LSTM这样的RNN生成一系列文字。这类工作在2015年左右有很多成果,从此之后我们就可以让计算机给几乎任何东西配上一个句子。


    0?wx_fmt=jpeg


    比如这两个例子,“一位穿着橙色马甲的工人正在铺路”和“穿着蓝色衬衫的男人正在弹吉他”。这让我想起来,2015年的时候我就是在这同一个房间里做过演讲。两年过去了,我们的算法也已经不是最先进的了,不过那时候我们的研究确实是是图像说明这个领域的开拓性工作之一。


    0?wx_fmt=jpeg


    我们沿着这个方向继续做研究,迎来的下一个成果是稠密说明,就是在一幅图片中有很多个区域都会分配注意力,这样我们有可以有很多个不同的句子描述不同的区域,而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合,再加上一个语言模型,这样我们就可以对场景做稠密的标注。


    0?wx_fmt=jpeg


    比如这张图里就可以生成,“有两个人坐在椅子上”、“有一头大象”、“有一棵树”等等;另一张我的学生们的室内照片也标出了丰富的内容。


    0?wx_fmt=jpeg


    我们的稠密标注系统也比当时其它基于滑动窗口的方法表现好得多。


    0?wx_fmt=jpeg


    在最近的CVPR2017的研究中,我们让表现迈上了一个新的台阶,不只是简单的说明句子,还要生成文字段落,把它们以具有空间意义的方式连接起来。


    0?wx_fmt=jpeg


    这样我们就可以写出“一只长颈鹿站在树边,在它的右边有一个有叶子的杆子,在篱笆的后面有一个黑色和白色的砖垒起来的建筑”,等等。虽然里面有错误,而且也远比不上莎士比亚的作品,但我们已经迈出了视觉和语言结合的第一步。


    0?wx_fmt=jpeg


    而且,视觉和语言的结合并没有停留在静止的图像上,刚才的只是我们的最新成果之一。在另外的研究中,我们把视频和语言结合起来,比如这个CVPR2017的研究,我们可以对一个说明性视频中不同的部分做联合推理、整理出文本结构。这里的难点是解析文本中的实体,比如第一步是“搅拌蔬菜”,然后“拿出混合物”。如果算法能够解析出“混合物”指的是前一步里混合的蔬菜,那就棒极了。我的学生和博士后们也都觉得这是让机器人进行学习的很重要的一步。


    0?wx_fmt=jpeg


    这里的机会仍然是把视觉问题和语言结合起来,如果只用视觉的方法,就会造成视觉上的模糊性;如果只用语言学的方法,就会造成语言上的模糊性;把视觉和语言结合起来,我们就可以解决这些问题。


    0?wx_fmt=jpeg


    太细节的还是不说了,我们主要用了图优化的方法在实体嵌入上解决这些模糊性。我们的结果表明,除了解决模糊性之外,我们还能对视频中的内容作出更广泛完善的推理。



    04 任务驱动的计算机视觉


    0?wx_fmt=jpeg


    在语言之后,我想说的最后一个方向是任务驱动的视觉问题,它和机器人的联系也更紧密一些。对整个AI研究大家庭来说,任务驱动的AI是一个共同的长期梦想,从一开始人类就希望用语言给机器人下达指定,然后机器人用视觉方法观察世界、理解并完成任务。


    0?wx_fmt=jpeg


    比如人类说:“蓝色的金字塔很好。我喜欢不是红色的立方体,但是我也不喜欢任何一个垫着5面体的东西。那我喜欢那个灰色的盒子吗?” 那么机器,或者机器人,或者智能体就会回答:“不,因为它垫着一个5面体”。它就是任务驱动的,对这个复杂的世界做理解和推理。


    0?wx_fmt=jpeg


    最近,我们和Facebook合作重新研究这类问题,创造了带有各种几何体的场景,然后给人工智能提问,看它会如何理解、推理、解决这些问题。这其中会涉及到属性的辨别、计数、对比、空间关系等等。


    0?wx_fmt=jpeg


    我们在这方面的第一篇论文用了CNN+LSTM+注意力模型,结果算不上差,人类能达到超过90%的正确率,机器虽然能做到接近70%了,但是仍然有巨大的差距。有这个差距就是因为人类能够组合推理,机器则做不到。


    0?wx_fmt=jpeg


    在一个月后的ICCV我们就会介绍新一篇论文中的成果,我们把一个问题分解成带有功能的程序段,然后在程序段基础上训练一个能回答问题的执行引擎。这个方案在尝试推理真实世界问题的时候就具有高得多的组合能力。


    0?wx_fmt=jpeg


    模型的实际表现当然不错,所以论文被ICCV接收了。比如这个例子里,我们提问某种颜色的东西是什么形状的,它就会回答“是一个立方体”这样,表明了它的推理是正确的。它还可以数出东西的数目。这都体现出了算法可以对场景做推理。


    0?wx_fmt=jpeg


    我们也在尝试环境仿真,我们用三维渲染引擎建立执行任务的环境,让学习策略的机器人在其中学习动作,比如把篮球放进微波炉,也需要它把这个任务分解成许多步骤然后执行。


    0?wx_fmt=jpeg


    我们采用了一种深度语意表征,然后用不同难度的任务测试它,中等难度的任务可以是从厨房里多个不同的地方拿取多个不同的物体,然后把它们放在指定的地方;难的任务可以是需要策略让它寻找之前从来没有见过的新物体。


    0?wx_fmt=jpeg


    视觉相关的任务说了这么多,我想把它们组织成这三类。


    • 首先是除了物体识别之外的关系识别、复杂语意表征、场景图;

    • 在场景gist之外,我们需要用视觉+语言处理单句标注、段落生成、视频理解、联合推理;

    • 最后是任务驱动的视觉问题,这里还是一个刚刚起步的领域,我相信视觉和逻辑的组合会在这个领域真正携起手来。


    0?wx_fmt=jpeg


    人类视觉已经发展了很久,计算机视觉虽然在出现后的60年里有了长足的进步,但也仍然只是一门新兴学科。我以前应该有提过我边工作边带孩子,这也就是一张我女儿二十个月大时候的照片。


    0?wx_fmt=jpeg


    看着她一天天成长的过程,真的让我觉得还有许许多多的东西等着我们去研究。视觉能力也是她的日常生活里重要的一部分,读书、画画、观察情感等等,这些重大的进步都是这个领域未来的研究目标。


    0?wx_fmt=jpeg


    谢谢大家!


    来源:AI科技评论


    近期精彩活动(直接点击查看):

    福利 · 阅读 | 免费申请读大数据新书 第21期


    END


    投稿和反馈请发邮件至hzzy@hzbook.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

    大数据


    为大家提供与大数据相关的最新技术和资讯。


    0?wx_fmt=jpeg0?wx_fmt=jpeg长按指纹 > 识别图中二维码 > 添加关注


    近期精彩文章(直接点击查看):

    华为内部狂转好文,大数据,看这一篇就够了!

    读完这100篇论文,你也是大数据高手!

    如何建立数据分析的思维框架

    百度内部培训资料PPT:数据分析的道与术

    论大数据的十大局限

    打包带走!史上最全的大数据分析和制作工具

    数据揭秘:中国姓氏排行榜

    程序猿分析了42万字歌词后,终于搞清楚民谣歌手唱什么了

    计算机告诉你,唐朝诗人之间的关系到底是什么样的?

    数据分析:微信红包金额分配的秘密

    2000万人口的大北京,上下班原来是这样的(附超炫蝌蚪图)

    大数据等IT职业技能图谱【全套17张,第2版】

    不要跟赌场说谎,它真的比你老婆还了解你

    如果看了这篇文章你还不懂傅里叶变换,那就过来掐死我吧

    不做无效的营销,从不做无效的用户画像开始


    更多精彩文章,请在公众号后台点击“历史文章”查看,谢谢。

    展开全文
  • 提到深度学习与计算机视觉,不得不提ImageNet和它的创建者,斯坦福大学计算机科学系副教授、Google Cloud 人工智能和机器学习团队的首席科学家李飞飞。而她的成名作,斯坦福大学课程《深度学习与计
        

    640?wx_fmt=png

    大数据文摘作品


    看完视频并不是真正的学习了一遍,更重要的是写作业、动手实践、讨论,这才能把学到的知识真正掌握住。看完斯坦福CS231n的公开课,是不是觉得还不够过瘾?快来和文摘菌一起写作业敲代码吧!


    提到深度学习与计算机视觉,不得不提ImageNet和它的创建者,斯坦福大学计算机科学系副教授、Google Cloud 人工智能和机器学习团队的首席科学家李飞飞。而她的成名作,斯坦福大学课程《深度学习与计算机视觉》自从公开视频和作业,也造福了一批对计算机视觉感兴趣的IT从业者。


    先来看看某互联网招聘平台普通IT和视觉算法工程师薪资对比:


    640?wx_fmt=jpeg

    而深度学习和计算机视觉的课程那么多,文摘菌为何偏偏推荐这一门?


    首先,该课是计算机视觉的一门经典的课程,是来自世界名校斯坦福的大咖李飞飞教授开设的,观看学习课程还是免费的!!!


    其次,课程内容安排合理,由浅入深。主要介绍了深度学习(尤其是卷积神经网络和与其相关的框架)在计算机视觉领域的应用,内容涵盖多种神经网络具体结构与训练应用细节,以及针对大规模图像识别,物体定位,物体检测,图像风格迁移,图像理解描述与视频内容识别等问题的前沿解决思路。从一个简单的cifar10数据集和最简单的KNN算法开始介绍,慢慢引入深度学习相关的知识点。比如dropout、batchnormalization等。最后介绍了一些深度学习经典的范例,比如RNNs, LSTMs ,GAN等。


    最后,也是小编要强调的一个原因,视频课程中嵌入了中文字暮!没错,尽管多数IT从业者都有基本的英文水平,但是要理解如此高深的课程,还是要花费大量功夫。而汉化视频不仅需要高神准的英文水平,更需要一定的深度学习专业能力。


    大数据文摘联合北京邮电大学模式识别实验室共同完成了这一巨大的工程! 整整耗时6个月(从2016年9月-2017年2月)!特别感谢字幕汉化组的成员,为你们疯狂的打call。


    字幕汉化组工作人员的辛苦也换来了丰厚的回报,自课程推出后,在网易云课堂的播放次数截至今日就达到了77790次,课程评分高达5颗星,5颗哦!大数据文摘也收获该课程的一大批真爱粉,大家还很期待的询问有关CS224的课程呢。


    640?wx_fmt=png


    对了,是不是还有同学没有来得及学习这一经典课程?快戳下面的链接学习吧!

    https://study.163.com/provider/10146755/index.htm


    大家学习的热情也很高,各种精彩的笔记:

    640?wx_fmt=png

    640?wx_fmt=png640?wx_fmt=png


    看来也有很多大佬在学习该课程,如果你以为听完课程就入门机器视觉了,那你就太单纯了。上完课还是要做作业的,还是要敲代码的。可是做作业遇到困难怎么办?做完的作业没有参考答案怎么办?


    文摘菌听到了大家的心声,也邀请了一批一线从业人员,牺牲休息时间,亲手研读课程作业,并且整理了课程作业的完整笔记。


    笔记作者和校对人员对于作业每一道题涉及到的知识点,都进行了相关知识点的讲解。讲解内容不仅涉及到课程上的一些知识,也有一线从业人员的心得体会和知识点的扩充。针对每一道题目大家都可以进行实操,以加深对每一道题的理解。


    比如针对assignment1中的Q2,我们的志愿者同学给出了这么详细的答案:


    640?wx_fmt=png


    为了帮助大家顺利完成作业,笔记作者和校对人员给出了每道题完整的代码作为参考,并且代码都有详细的注释,有没有超级棒?


    640?wx_fmt=png


    那么这么精彩的笔记怎么拿到呢?以下是第一期作业笔记获取链接

    大数据文摘网易云课程专栏:

    https://study.163.com/provider/10146755/index.htm


    大数据文摘CSDN专栏:

    http://blog.csdn.net/BigDataDigest


    大数据文摘GitHub专栏:

    https://github.com/theBigDataDigest/Stanford-CS231n-assignments-in-Chinese/tree/master/assignment1


    我们会根据进度分批把作业全部发布出来,请各位持续关注大数据文摘哦。


    最后,让我们感谢本次作业的工作人员,是你们无私的付出,让更多读者可以享受这一成果。


    全体作者:郭承坤  观自在降魔  Fanli  SlyneD  土豆  MoreZheng   张礼俊

    校对:毛丽   郭承坤

    总校对与审核:寒小阳

    文案:冯晓丽


    【今日机器学习概念】

    Have a Great Definition

    640?wx_fmt=png

    第一期参与志愿者

    640?wx_fmt=jpeg

    640?wx_fmt=png

    640?wx_fmt=jpeg

    640?wx_fmt=jpeg

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=jpeg

    640?wx_fmt=jpeg

    展开全文
  • 来源:AI科技评论 本文长度为4170字,建议阅读6分钟 本文为你解读机器计算机视觉的进展与前景。 ...在报告中李飞飞与大家讨论了计算机视觉的目标:丰富场景理解,以及计算机视觉与语言结合和任

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

    来源:AI科技评论

    本文长度为4170,建议阅读6分钟

    本文为你解读机器计算机视觉的进展与前景。


    9 月 26 日,机器人领域的顶级学术会议 IROS 2017 进入第二日。上午,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。


    在报告中李飞飞与大家讨论了计算机视觉的目标:丰富场景理解,以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩。李飞飞介绍的自己团队工作也丰富多样、令人振奋。


    640?wx_fmt=png&wxfrom=5&wx_lazy=1

    2015年,李飞飞也在同一个会场面向着大海和听众进行过一次 TED 演讲


    物体识别之后:丰富场景识别


    在物体识别问题已经很大程度上解决以后,我们的下一个目标是走出物体本身,关注更为广泛的对象之间的关系、语言等等。


    640?wx_fmt=jpeg


    在Visual Genome数据集之后,我们做的另一项研究是重新认识场景识别。


    640?wx_fmt=jpeg


    场景识别单独来看是一项简单的任务,在谷歌里搜索“穿西装的男人”或者“可爱的小狗”,都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候,就得不到什么好结果。它的表现在这里就变得糟糕了,这种物体间的关系是一件很难处理的事情。


    640?wx_fmt=jpeg


    比如只关注了“长椅”和“人”的物体识别,就得不到“人坐在长椅上”的关系;即便训练网络识别“坐着的人”,也无法保证看清全局。我们有个想法是,把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系。


    640?wx_fmt=jpeg


    如果我们有一张场景图(graph),其中包含了场景内各种复杂的语义信息,那我们的场景识别就能做得好得多。其中的细节可能难以全部用一个长句子描述,但是把一个长句子变成一个场景图之后,我们就可以用图相关的方法把它和图像做对比;场景图也可以编码为数据库的一部分,从数据库的角度进行查询。


    640?wx_fmt=jpeg


    我们已经用场景图匹配技术在包含了许多语义信息的场景里得到了许多不错的量化结果,不过在座的各位可能边听就边觉得,这些场景图是谁来定义的呢?在Visual Genome数据集中,场景图都是人工定义的,里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的,过程挺痛苦的,我们也不希望以后还要对每一个场景都做这样的工作。所以在这项工作之后,我们很可能会把注意力转向自动场景图生成。


    640?wx_fmt=jpeg


    比如这项我和我的学生们共同完成的CVPR2017论文就是一个自动生成场景图的方案,对于一张输入图像,我们首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。


    640?wx_fmt=jpeg


    这里涉及到了一些迭代信息传递算法,我先不详细解释了。但这个结果体现出的是,我们的模型的工作方式和人的做法已经有不少相似之处了。


    640?wx_fmt=jpeg


    得到这样的结果我们非常开心,这代表着一组全新的可能性来到了我们面前。借助场景图,我们可以做信息提取、可以做关系预测、可以理解对应关系等等。


    640?wx_fmt=jpeg


    当然了论文发表前我们也做了好看的数据出来。


    640?wx_fmt=jpeg


    我们相信Visual Genome数据集也能够帮助很多的研究人员在研究关系和信息提取的算法和模型实验中施展拳脚。


    场景识别之后还有什么?


    640?wx_fmt=jpeg


    刚才说过了物体识别、关系预测这两项场景理解难题之后,Jeremy 提到的最后一件事情就是,“场景中的gist的根本是三维空间中在物体间和物体表面上以一定形式扩散、重复出现的视觉元素”。不过由于我关注的并不是三维场景理解,我就只是简单介绍一下斯坦福的同事们近期的研究成果。


    640?wx_fmt=jpeg


    左侧是从单张图片推测三维场景的布局,展现出其中物体的三维几何特征;右侧是空间三维结构的语意分割。除了斯坦福的这两项之外,三维场景理解还有很多的研究成果,包括使用图片的和点云的。我也觉得很兴奋,将来也不断地会有新东西来到我们面前,尤其是在机器人领域会非常有用。


    这样,我们就基本覆盖全了场景的gist,就是看到场景的前150毫秒中发生的事情。视觉智慧的研究当然并不会局限于这150毫秒,之后要考虑的、我们也在期待的还有两项任务。


    640?wx_fmt=jpeg


    我的研究兴趣里,除了计算机科学和人工智能之外,认知神经科学也占了相当的位置。所以我想回过头去看看我在加州理工学院读博士的时候做的一个实验,我们就让人们观察一张照片,然后让他们尽可能地说出自己在照片中看到的东西。当时做实验的时候,我们在受试者面前的屏幕上快速闪过一张照片,然后用一个别的图像、墙纸一样的图像盖住它,它的作用是把他们视网膜暂留的信息清除掉。


    640?wx_fmt=jpeg


    接下来我们就让他们尽可能多地写下自己看到的东西。从结果上看,有的照片好像比较容易,但是其实只是因为我们选择了不同长短的展示时间,最短的照片只显示了27毫秒,这已经达到了当时显示器的显示速度上限;有些照片显示了0.5秒的时间,对人类视觉理解来说可算是绰绰有余了。


    640?wx_fmt=jpeg


    我们得到的结果大概是这样的,对于这张照片,时间很短的时候看清的内容也很有限,500毫秒的时候他们就能写下很长一段。进化给了我们这样的能力,只看到一张图片就可以讲出一个很长的故事。


    计算机视觉+语言


    640?wx_fmt=jpeg


    我展示这个实验想说的是,在过去的3年里,CV领域的研究人员们就在研究如何把图像中的信息变成故事。


    640?wx_fmt=jpeg


    他们首先研究了图像说明,比如借助CNN把图像中的内容表示到特征空间,然后用LSTM这样的RNN生成一系列文字。这类工作在2015年左右有很多成果,从此之后我们就可以让计算机给几乎任何东西配上一个句子。


    640?wx_fmt=jpeg


    比如这两个例子,“一位穿着橙色马甲的工人正在铺路”和“穿着蓝色衬衫的男人正在弹吉他”。这让我想起来,2015年的时候我就是在这同一个房间里做过演讲。两年过去了,我们的算法也已经不是最先进的了,不过那时候我们的研究确实是是图像说明这个领域的开拓性工作之一。


    640?wx_fmt=jpeg


    我们沿着这个方向继续做研究,迎来的下一个成果是稠密说明,就是在一幅图片中有很多个区域都会分配注意力,这样我们有可以有很多个不同的句子描述不同的区域,而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合,再加上一个语言模型,这样我们就可以对场景做稠密的标注。


    640?wx_fmt=jpeg


    比如这张图里就可以生成,“有两个人坐在椅子上”、“有一头大象”、“有一棵树”等等;另一张我的学生们的室内照片也标出了丰富的内容。


    640?wx_fmt=jpeg


    我们的稠密标注系统也比当时其它基于滑动窗口的方法表现好得多。


    640?wx_fmt=jpeg


    在最近的CVPR2017的研究中,我们让表现迈上了一个新的台阶,不只是简单的说明句子,还要生成文字段落,把它们以具有空间意义的方式连接起来。


    640?wx_fmt=jpeg


    这样我们就可以写出“一只长颈鹿站在树边,在它的右边有一个有叶子的杆子,在篱笆的后面有一个黑色和白色的砖垒起来的建筑”,等等。虽然里面有错误,而且也远比不上莎士比亚的作品,但我们已经迈出了视觉和语言结合的第一步。


    640?wx_fmt=jpeg


    而且,视觉和语言的结合并没有停留在静止的图像上,刚才的只是我们的最新成果之一。在另外的研究中,我们把视频和语言结合起来,比如这个CVPR2017的研究,我们可以对一个说明性视频中不同的部分做联合推理、整理出文本结构。这里的难点是解析文本中的实体,比如第一步是“搅拌蔬菜”,然后“拿出混合物”。如果算法能够解析出“混合物”指的是前一步里混合的蔬菜,那就棒极了。我的学生和博士后们也都觉得这是让机器人进行学习的很重要的一步。


    640?wx_fmt=jpeg


    这里的机会仍然是把视觉问题和语言结合起来,如果只用视觉的方法,就会造成视觉上的模糊性;如果只用语言学的方法,就会造成语言上的模糊性;把视觉和语言结合起来,我们就可以解决这些问题。


    640?wx_fmt=jpeg


    太细节的还是不说了,我们主要用了图优化的方法在实体嵌入上解决这些模糊性。我们的结果表明,除了解决模糊性之外,我们还能对视频中的内容作出更广泛完善的推理。


    任务驱动的计算机视觉


    640?wx_fmt=jpeg


    在语言之后,我想说的最后一个方向是任务驱动的视觉问题,它和机器人的联系也更紧密一些。对整个AI研究大家庭来说,任务驱动的AI是一个共同的长期梦想,从一开始人类就希望用语言给机器人下达指定,然后机器人用视觉方法观察世界、理解并完成任务。


    640?wx_fmt=jpeg


    比如人类说:“蓝色的金字塔很好。我喜欢不是红色的立方体,但是我也不喜欢任何一个垫着5面体的东西。那我喜欢那个灰色的盒子吗?” 那么机器,或者机器人,或者智能体就会回答:“不,因为它垫着一个5面体”。它就是任务驱动的,对这个复杂的世界做理解和推理。


    640?wx_fmt=jpeg


    最近,我们和Facebook合作重新研究这类问题,创造了带有各种几何体的场景,然后给人工智能提问,看它会如何理解、推理、解决这些问题。这其中会涉及到属性的辨别、计数、对比、空间关系等等。


    640?wx_fmt=jpeg


    我们在这方面的第一篇论文用了CNN+LSTM+注意力模型,结果算不上差,人类能达到超过90%的正确率,机器虽然能做到接近70%了,但是仍然有巨大的差距。有这个差距就是因为人类能够组合推理,机器则做不到。


    640?wx_fmt=jpeg


    在一个月后的ICCV我们就会介绍新一篇论文中的成果,我们把一个问题分解成带有功能的程序段,然后在程序段基础上训练一个能回答问题的执行引擎。这个方案在尝试推理真实世界问题的时候就具有高得多的组合能力。


    640?wx_fmt=jpeg


    模型的实际表现当然不错,所以论文被ICCV接收了。比如这个例子里,我们提问某种颜色的东西是什么形状的,它就会回答“是一个立方体”这样,表明了它的推理是正确的。它还可以数出东西的数目。这都体现出了算法可以对场景做推理。


    640?wx_fmt=jpeg


    我们也在尝试环境仿真,我们用三维渲染引擎建立执行任务的环境,让学习策略的机器人在其中学习动作,比如把篮球放进微波炉,也需要它把这个任务分解成许多步骤然后执行。


    640?wx_fmt=jpeg


    我们采用了一种深度语意表征,然后用不同难度的任务测试它,中等难度的任务可以是从厨房里多个不同的地方拿取多个不同的物体,然后把它们放在指定的地方;难的任务可以是需要策略让它寻找之前从来没有见过的新物体。


    640?wx_fmt=jpeg


    视觉相关的任务说了这么多,我想把它们组织成这三类:


    • 首先是除了物体识别之外的关系识别、复杂语意表征、场景图;

    • 在场景gist之外,我们需要用视觉+语言处理单句标注、段落生成、视频理解、联合推理;

    • 最后是任务驱动的视觉问题,这里还是一个刚刚起步的领域,我相信视觉和逻辑的组合会在这个领域真正携起手来。


    640?wx_fmt=jpeg


    人类视觉已经发展了很久,计算机视觉虽然在出现后的60年里有了长足的进步,但也仍然只是一门新兴学科。我以前应该有提过我边工作边带孩子,这也就是一张我女儿二十个月大时候的照片。


    640?wx_fmt=jpeg


    看着她一天天成长的过程,真的让我觉得还有许许多多的东西等着我们去研究。视觉能力也是她的日常生活里重要的一部分,读书、画画、观察情感等等,这些重大的进步都是这个领域未来的研究目标。


    640?wx_fmt=jpeg


    谢谢大家!(完)


    编辑:文婧0?wx_fmt=jpeg

    展开全文
  • 计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言...在李飞飞团队ECCV2016的收录论文中,他们的模型已经可以预测空间关系、比较关系、语义关系、动作关系和位置关系,在“列出所有物体”之外,向着场景内

    计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言结合任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩。


    1. 关系预测:

    在李飞飞团队ECCV2016的收录论文中,他们的模型已经可以预测空间关系、比较关系、语义关系、动作关系和位置关系,在“列出所有物体”之外,向着场景内的物体的丰富关系理解迈出了坚实的一步。


    2. 无样本学习:


    3. Visual Genome数据集:

    它的目标就是走出物体本身,关注更为广泛的对象之间的关系、语言、推理等等。


    4. 重新认识场景识别:

    他们有个想法是,把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系。

    场景图(scene graphs)生成:手工 ——>自动

    对于一张输入图像,首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。迭代信息传递算法。


    图像说明,比如借助CNN把图像中的内容表示到特征空间,然后用LSTM这样的RNN生成一系列文字。

    稠密说明,就是在一幅图片中有很多个区域都会分配注意力,这样有可以有很多个不同的句子描述不同的区域,而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合,再加上一个语言模型,这样就可以对场景做稠密的标注。


    但我们已经迈出了视觉语言结合的第一步。

    视频语言结合起来,难点是解析文本中的实体


    5. 任务驱动的视觉问题

    这其中会涉及到属性的辨别、计数、对比、空间关系等等。

    CNN+LSTM+注意力模型:接近70%



    图像相关的任务说了这么多,李飞飞把它们总结为了两大类

    • 首先是除了物体识别之外的关系识别、复杂语意表征、场景图;

    • 在场景gist之外,我们需要用视觉+语言处理单句标注、段落生成、视频理解、联合推理;


    展开全文
  • 机械栗 发自 凹非寺 量子位 报道 | 公众号 QbitAI锤子是一个神奇的工具,各种画风都能驾驭。比如,神族玩锤子是这样。兽族玩锤子是这样。人族嘛……误。回归正...
  • 本文讲的是李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁, 中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕。参加会议的人数众多,主会场座无虚席。雷锋网 ...
  • 在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状——包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库——而关键性的要点还不止于此。 视频内容翻译: 我先来给你们...
  • CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一。2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道。 李飞飞就职于斯坦福大学...
  • 本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处。本文共1000字,建议阅读5分钟。斯坦福视觉实验室即将在CVPR 2018上发表的一篇关于研...
  • 自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究——《AI-ASSISTED IN-HOME ELDERLY CARE AMID COVID-19 PANDEMIC》(COVID-19 大流行病中人工...
  • 据悉,斯坦福大学人工智能实验室和视觉实验室主任李飞飞此前已被邀请两届,今年终于来参会,带来了其实验室的最新研究成果——实时视频描述。李飞飞从5.4亿年前的寒武纪大爆发开始讲起,强调了视觉是智能
  • 根据Guide2Research的排名,IROS是计算机视觉领域排名第四的学术会议,前三名分别为CVPR、ICCV、ECCV。计算机视觉在机器人的发展史中起着非常重要的作用,与之相关的“感知”也正是历年IROS大会上的重要内容,随着...
  • 本文授权转载自公众号机器之心 ...点击**加入极市CV技术交流群**,交流更多计算机视觉相关的技术干货 刚刚,CVPR 2019 颁发了今年的所有奖项。来自 CMU 的辛书冕等人...李飞飞、李佳等人因 ImageNet 的贡献获得最具...
  • ↑ 点击上方【计算机视觉联盟】关注我们近日,斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab,其在图像语义分割问题上超越了很多业内最佳模型,甚至可以在未经过预训...
  • 计算机视觉从入门到放肆 一、基础知识 1.1 计算机视觉到底是什么? 计算机视觉是一门研究如何让机器“看”的科学 更进一步的说,就是使用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步...
  • 作者 | 年素清责编 | 伍杏玲出品 | 程序人生(ID:coder_life)近日,Twitter宣布任命斯坦福大学计算机科学教授、前谷歌副总裁李飞飞为董事会独立董事。李飞飞本人表...
  • 在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状——包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库——而关键性的要点还不止于此。 视频内容翻译: 我先来给你们看点...
1 2 3 4 5 ... 20
收藏数 812
精华内容 324