精华内容
下载资源
问答
  • 清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)
    千次阅读 热门讨论
    2018-05-14 00:00:00


    本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲。


    注:后台回复关键词“0427”,下载完整版PPT。


    演讲视频:

    视频时长约半个小时,建议使用wifi观看


    张长水:大家好,我来自清华大学自动化系,主要做机器学习和图像识别的研究。现在人工智能很流行,机器学习也推到风口浪尖上,图像识别已经变成产品,新闻媒体告诉我们AlphaGo、AlphaGo zero已经战胜了人类、皮肤癌的识别超过了大夫、无人车已经上路测试,很快要量产。这些新闻仿佛告诉我们,图像识别的问题已经解决了,然而很多高科技做图像识别公司都在高薪聘用掌握机器学习的人。图像识别问题解决了吗?我们看看现在图像识别还有些什么问题。




    一、大量数据


    现在做图像识别,要求有大量的数据。什么叫大量的数据?比如上图是在业界做图像识别的数据集,包含很多类别的图像,像飞机、鸟、猫、鹿、狗。对于一个物体,需要有不同的表现,需要有不同的外观在不同的环境下的表现,所以我们需要很多照片素材。


    尽管在我们领域里有很多大的数据集,但其实这些数据集远远不能满足我们的实用产品的要求。比如说我们看这样一个文字识别的例子。文字识别比一般的图像识别要简单,因为文字不涉及到三维,它只是一个平面的东西。



    二、大量的样本


    比如我们要识别清华大学的“清”,通常的做法是收集“清”的各种各样的图像,所谓各种各样的图像就是说要包括不同的字体,不同的光照,不同的背景噪声,不同的倾斜等,要想把“清”字识别好,就需要收集上很多这样的样本。那么这么做得困难是什么?


    三、困难



    1、样本的获取


    当我们应用于实际、设计产品的时候,就会发现不是每一种情况下都有那么多数据。所以,怎么获得丰富的数据是首要的问题。



    上图给大家展示的这一排图像是一个交通标志的识别任务。我们如果需要去识别路上的交通标志,就要在不同的环境下,不同的光照下,比如说早晨、中午、晚上,逆光还是背光,不同的视角,是否有遮挡,所有的因素都要考虑到,来采集数据。经验上每种标识收集上千张或者更多的图像,才能保证识别率到达实际应用的水平。


    我们的问题是什么?看第一张图像。第一张图是有连续急转的标志。这样的标志在城市很难见到,除非到山区。这个例子说明,图像获取本身就不容易。


    2、样本的标注



    我们现在的图像识别方法是基于标注的数据的,这叫做监督学习。图像标注就意味着把图像一张一张抠出来。如果我们开车穿梭在北京市大街小巷,但是交通标志并不是在视频的每一张图片上出现。如果我们需要把视频中交通标志如果都要标出来,需要花很多钱。做机器学习的人会关心我们能不能通过一些其他更廉价的方法去做数据标注,例如能不能通过一些众包的方式去做。在12306网站购买火车票,每次让我们勾出相对应的图像,这可以看做是在标注数据。但是众包标注数据也存在一些问题,就是每个人标的时候会不一样,有时会有错误。所以在机器学习中,有人关心在众包情况下、标注数据有错的时候,我们如何设计学习算法,使得它对错误的标注不敏感。这个事大概七八年前就开始研究,不断的有新的文章出现。



    当数据没有那么多的时候,怎么办?机器学习界遇到了这样的问题,就是小样本的数据学习。当样本不多的时候能不能达到和大数据量类似的识别效果?例如上图中只有几张狗的图片的时候,要识别狗,还能从哪里得到狗的信息?思路是从其他的图片中来,比如上边有有鸟,有猫,有鹿,它们的皮毛很像狗等等。换句话说,他从其他的丰富的图像中获取一些信息,把那些信息迁移到这个少量的数据上,从而能够实现对狗的识别。



    另外,图片数量是否能降到只有一张?比如清华大学的“清”,只有一个模板图像,是否能够把文字识别做好。更极端的例子,能不能做到一个样本都没有,也就是说,机器在没有见过狗的情况下,是否能把狗识别出来,这都是研究人员关心的事情。


    3、大数据量的训练


    有了很多的数据还需要对它进行训练,这通常需要花很长时间,需要配备高端的设备去训练。



    我们有了大量的数据怎么去做训练?可以采用GPU去做训练,这样可以达到特别快的速度。在这大的数据量上进行训练和学习的问题,叫做big learning。


    Big learning 关心是否有更快速的方法训练呢,需要一个月才能训练出来的问题,能不能在一天就训练出来;能不能用并行训练?如果数据不能一次存到硬盘里,这个时候怎么学习呢?这些就是企业和机器学习界都关心的事。



    除此之外,我们发现深度学习模型很容易被攻击。如上图左边是一只熊猫,我们已经训练好网络能够识别出这是一只熊猫。如果我在这张图像上加了一点点噪声,这个噪声在右图你几乎看不出来,我再把这个叠加后的图像给网络,它识别出来的不是熊猫,是别的东西。而且它以99.3%的信心说这不是熊猫,甚至你可以指定他是任何一个东西。这件事情的风险在什么地方?如果只是娱乐一下,也没什么大关系。但是如果把它用于军事或者金融后果就比较严重了。因此我们一直在关心这个问题怎么解决,就是希望算法能够抗攻击性强一点,但目前只是缓解而没有彻底解决。


    而且研究中会发现这个问题,相当于去研究分类器的泛化性能。泛化性能这件事在机器学习里是理论性很强的问题,是机器学习圈子里面非常少的一些人做的事情。换句话说,这个问题看起来很应用,其实它涉及了背后的一些很深理论。为什么会出现这样的情况?因为我们对深度学习这件事没有太好的理论去解释它,我们没有那么好的方法去把所有的问题解决。



    我们再说风险,图像识别中我们会把一个学习问题往往形式化一个优化问题,然后去优化这个函数,使这个函数最小。我们把这个函数叫做目标函数。有的时候我们会把这样的函数叫做损失函数,物体识别有错就带来损失。就是说在整个过程我们希望不要有太多的损失。其实,风险函数可能是更合适的词。因为你识别错了,其实是有风险的。一般来说目标函数对应于错误率,把狗识别成猫错了一张,把猫识别成狗又错了一张,都影响错误率,而错误率足以反映算法的性能。



    但是在不同的问题里,识别错误的风险是不一样的。比如我们做一个医学上的诊断,本来是正常人,你判别说他有癌症,这种错误就导致虚惊一场。还有一种情况是他患有恶性肿瘤,算法没有识别出来而导致了延误治疗。这样的错误风险就很大。因此我们在优化的时候,这个目标函数其实是应该把这样的决策错误和风险放到里面去,我的目标是优化这个风险。但是这件事往往是和应用、和我们的产品设计相关。所以不同的产品设计,它的决策风险不一样。所以我们在设计产品的时候,是要考虑。



    苹果宣称他们的人脸识别错误率是百万分之一,如果别人来冒充你去用这个手机是百万分之一的可能性,就是说,别人冒充你是很难的;但是人脸识别还有一种错误,就是:我自己用我的手机,没有识别出是我,这个错误率是10%。换句话说,你用十次就会有一次不过。在用手机这个问题上不明显,但是如果用于金融,这个事就有风险。我们设计产品的时候,你就要考虑风险在哪,我们怎么样使得整个风险最小,而不是只考虑其中一边的错误率。



    有公司会宣传说错误率可以降到百万分之一,让人误以为人脸识别的问题已经解决了,然而我们在CAPR、ICCA这样的学术会议上仍然能看到怎么去做文字的检测,怎么去做人脸识别的研究。换句话说这件事还没有到那么容易使用的地步。所以我们做图像识别的产品有风险,产品设计要考虑风险,我们做这件事就要考虑用技术的时候,用对地方很重要,用错地方就会很大的风险。


    机器学习是一个和应用紧密结合的学科,虽然有很多高大上的公式,其实都是面向应用,希望能解决实际问题。实际应用给我们提出很多需求,图像识别遇到的问题给我们提出了挑战。最后,感谢各位的聆听。   


    注:后台回复关键词“0427”,下载完整版PPT。


    张长水教授简介


    张长水清华-青岛数据科学研究院二维码安全技术研究中心主任智能技术与系统国家重点实验室学术委员会委员,清华大学自动化系教授、博士生导师,IEEE Fellow 。主要从事机器学习与人工智能、计算机视觉等研究工作。


    清华-青岛数据科学研究院二维码安全技术研究中心:

    中心成立于2017年4月25日,由张长水教授担任中心主任。中心致力于以核心技术研发为基础,为移动互联、移动支付和社会治理等领域提供二维码技术相关标准和应用解决方案。中心依托清华大学雄厚的科研实力和银河联动十余年研发积淀的二维码专利技术,目前在全球二维码技术研发领域具有领先地位。此次校企联合成立二维码安全技术研究中心,将进一步巩固和扩大清华在二维码技术上的领先优势,服务于产业发展、社会治理和国家安全。


    更多信息可了解数据科学研究院官网:

    http://www.ids.tsinghua.edu.cn/


    数据派曾独家发布过张老师的更多演讲干货,感兴趣的读者可以回顾了解:


    2017年10月14日的阿里云栖大会机器学习峰会专场上,张长水教授为大家带来“神经网络模型结构优化”的主题演讲,分享了神经网络模型结构优化的新办法,并解析实验过程、效果及应用案例。

    优化神经网络模型结构新方法 | 清华张长水云栖大会分享


    2015年11月26日张老师在RONGv2.0---图形图像处理与大数据技术论坛上所做的题为《机器学习与图像识别》的演讲,分享了关于机器学习和图像识别的研究及进展。

    干货 | 张长水:机器学习与图像识别


    校对:李君

    为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

    若您在阅读文章过程中发现任何错误,请在文末留言经小编确认后,数据派将向检举读者发8.8元红包

    同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

    感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。

    更多相关内容
  • 清华大学自动化系教授张长水 图像识别与机器学习.pdf
  • 清华大学 张长水 模式识别课件 2018,里面包括k近邻,决策树,支持向量机,等课程内容资源,适合模式识别的入门学习
  • 小样本学习视频-清华张长水老师
  •  可解释性定义与可解释模型的学习 演讲嘉宾:张长水 张长水,清华大学自动化系教授、博士生导师, 智能技术与系统国家重点实验室副主任,自动化系主任,智能技术与系统国家重点实验室学术委员会委员,智源研究员。...

    2021年6月1日-3日,第三届北京智源大会将隆重举办。现正式开放大会线上和线下报名渠道。

    2021年北京智源大会召开在即,6月1日至6月3日,持续三天,13场主旨报告/重磅对话,29场由各领域领军学者主导的专题论坛,4场讲习班。大会将紧紧围绕这些当前学术领域迫切解决的问题,以及产业落地过程中存在的诸多挑战,延续一贯以来的“内行认可”品质口碑,采取极为严格的内行荣誉邀请制,分享真正内行认可的重大成果与真知灼见,献上一场诚意满满的AI盛宴!

    北京智源大会倒计时:12 


    29场专题论坛中,机器学习专题论坛详细议程如下:


    论坛主席

     

    朱 军

     

        朱军,清华大学计算机系教授、北京智源人工智能研究院首席科学家,曾任卡内基梅隆大学兼职教授。主要从事机器学习研究,担任IEEE TPAMI的副主编、AI编委,担任ICML、NeurIPS等领域主席20余次。获科学探索奖、CCF自然科学一等奖等,入选万人计划领军人才、MIT TR35中国先锋者以及IEEE“AI’s 10 to Watch”,获多项国际竞赛冠军和最佳论文奖。

    演讲主题及嘉宾介绍

     

    1. Opening the Black Box of Deep Learning: Some Lessons and Take-aways

    议题简介:在过去的十年里,深度学习迅速占据了人工智能和机器学习的主导地位。尽管深度学习在很大程度上是一个“黑盒子”,但不可否认,其取得了显著的成功。当下,有一个小的分支学科正在发展起来,获得对深度学习潜在数学特性更好的理解。通过对深度学习在某些具体情况下的最新理论分析的回顾,我们说明了黑盒理论是如何忽略(甚至错误地理解)训练过程中发生的特殊现象的。这些现象也没有体现在训练目标函数中。我们认为,通过数学视角来理解这种现象对于未来的全面应用至关重要。(翻译参考)

    Deep learning has rapidly come to dominate AI and machine learning in the past decade. These successes have come despite deep learning largely being a “black box.” A small subdiscipline has grown up trying to derive better understanding of the underlying mathematical properties. Via a tour d’horizon of recent theoretical analyses of deep learning in some concrete settings, we illustrate how the black box view can miss out on (or even be wrong about) special phenomena going on during training. These phenomena are also not captured by the training objective. We argue that understanding such phenomena via mathematical understanding will be crucial for enabling the full range of future applications.

        

    演讲嘉宾:Sanjeev Arora

    Sanjeev Arora是普林斯顿大学计算机科学Charles C. Fitzmorris教授。他曾获得Packard Fellowship(1997)、Simons Investigator Award(2012)、Gödel Prize(2001和2010)、ACM Prize in Computing(2012)和Fulkerson Prize(2012)。他是NAAS Fellow和NAS成员。

    2. Deep (Convolution) Networks from First Principles

    议题简介:在本次报告中,我将从数据压缩(和群不变性)的角度,提供一个对深度(卷积)网络的完全“白盒”的解释。特别是,我们展示了现代的深层架构,线性(卷积)算子和非线性激活函数,以及所有的参数都可以从最大编码率降低(群不变性)的原则推导出来。网络中所有的层、算子和参数都可以在前向传播中显式地构造出来,而不是用反向传播学习出来。这样得到的网络称为ReduNet,其中所有的组成部件都具有精确的优化、几何特征和统计解释。这个本质的方法还有几个好的惊喜:它解释了不变性和可分所需的稀疏性之间本质的权衡关系;它从群不变性的角度解释了深度网络和傅里叶变换的本质联系——频域的计算优势;这个方法也说明了前向传播和反向传播的数学角色。特别是ReduNet的前向传播和反向传播都可以通过优化同一个目标函数细调。(翻译参考)

    In this talk, we offer an entirely “white box’’ interpretation of deep (convolution) networks from the perspective of data compression (and group invariance). In particular, we show how modern deep layered architectures, linear (convolution) operators and nonlinear activations, and even all parameters can be derived from the principle of maximizing rate reduction (with group invariance). All layers, operators, and parameters of the network are explicitly constructed via forward propagation, instead of learned via back propagation. All components of so-obtained network, called ReduNet, have precise optimization, geometric, and statistical interpretation. There are also several nice surprises from this principled approach: it reveals a fundamental tradeoff between invariance and sparsity for class separability; it reveals a fundamental connection between deep networks and Fourier transform for group invariance – the computational advantage in the spectral domain (why spiking neurons?); this approach also clarifies the mathematical role of forward propagation (optimization) and backward propagation (variation). In particular, the so-obtained ReduNet is amenable to fine-tuning via both forward and backward (stochastic) propagation, both for optimizing the same objective. 

    演讲嘉宾:马 毅

    马毅,加州大学伯克利分校电气工程和计算机科学系客座教授。1995年获清华大学学士学位,2000年获加州大学伯克利分校硕士、博士学位。他的研究兴趣包括计算机视觉、高维数据分析和智能系统。2000年至2011年在UIUC ECE学院任教,2009年至2014年任微软亚洲研究院视觉计算组主管,2014年至2017年任上海科技大学信息科学与技术学院院长。他在计算机视觉、统计学习和数据科学领域发表了160多篇论文和三本教科书。2004年获NSF职业成就奖,2005年获ONR青年研究员奖。1999年,他还获得了计算机视觉领域的David Marr奖,并分别担任ICCV 2013年和2015年的程序主席和大会主席,是IEEE/SIAM/ACM Fellow。

    3. 开放环境机器学习

    议题简介:机器学习任务以往通常考虑封闭环境,一般假设学习过程中的诸多关键因素不发生变化,而随着机器学习越来越多地进入现实应用,亟需考虑开放环境带来的挑战。本报告将汇报我们最近在这方面的一点粗浅工作。

        

    演讲嘉宾:周志华

    周志华,南京大学计算机系主任兼人工智能学院院长。主要从事机器学习与数据挖掘研究,在集成学习、多标记学习与弱监督学习方面有重要贡献。著有《机器学习》《Ensemble Methods: Foundations and Algorithms》等。曾获国家自然科学二等奖、IEEE计算机学会Edward J. McCluskey技术成就奖、CCF-ACM人工智能奖等,是欧洲科学院外籍院士,ACM、AAAI、AAAS、IEEE、IAPR等的Fellow。

    4. 可解释性定义与可解释模型的学习

    演讲嘉宾:张长水

    张长水,清华大学自动化系教授、博士生导师, 智能技术与系统国家重点实验室副主任,自动化系主任,智能技术与系统国家重点实验室学术委员会委员,智源研究员。


    - 点击阅读原文或长按图片,内行盛会,免费注册-


    欢迎加入智源社区「机器学习」交流群

    (更多活动信息将在交流群中同步)

    展开全文
  • 清华大学张长水教授:神经网络模型的结构优化 转自搜狐:▼▼▼▼点击下方原标题跳转至原文 原标题:清华大学张长水教授:神经网络模型的结构优化(附PPT) 张长水教授,清华大学自动化系教授、博士生导师,智能...

    清华大学张长水教授:神经网络模型的结构优化


    转自搜狐:▼▼▼▼点击下方原标题跳转至原文

    原标题:清华大学张长水教授:神经网络模型的结构优化(附PPT)

    张长水教授,清华大学自动化系教授、博士生导师,智能技术与系统国家重点实验室学术委员会委员,智能技术与系统国家重点实验室副主任。主要从事机器学习、模式识别、人工智能、计算机视觉等领域的教学和科研工作。

    以下是根据张长水教授现场分享整理的文字报告.

    今天我和大家分享的主题是“神经网络模型的结构优化”。我大概会讲这么几点:

    • 研究背景
    • 子模函数和超模函数
    • 神经网络结构的优化
    • 实验部分

    Part 1: 研究背景

    当前,深度神经网络模型的出现给我们带成了很大的影响,这个影响大部分都是积极正面的,但是同时也存在一些不同看法。不管怎么说,深度学习模型在传统的很多机器学习问题和相关问题上,都取得了令人瞩目的突破和进展。

    我举几个例子,比如图像识别。图像识别是这样一个问题:有一张图像,需要识别这个图像是猫、是狗、是计算机、是羽毛球拍?在2012年的深度学习网络用于解决问题时,有了很大的突破。

    除此之外还有其他的问题,比如图像描述、机器翻译、语音识别。机器翻译我们知道过去几十年发展也很慢,基本上没有办法应用实际,也是因为深度学习方法的应用,使得机器翻译有了一个很大的突破。百度因为这个方面的工作,大概在去年获得了一个国家科技进步二等奖,是王海峰带领他的团队的成果。此外,语音识别,大家都知道,以前也是没有到应用的水平,而现在我们就可以用。比如说大家用微信,就可以用语音输入。目前为止性能还不错的语音识别系统,全部都是用深度学习方法去做的。

    除此以外还有很多,比如医疗。还比如大家都知道的下棋。

    深度学习方法应用有很多好处,同时也有很多问题。比如说,深度学习网络模型计算量特别大、模型特别复杂。模型复杂导致两个问题,第一是训练上的困难,第二个是测试上的困难。训练上的困难在于它需要大量的时间,而且一个深度学习网络要想在某个问题上达到特别好的实用化性能,需要特别多的数据。而这对于机器计算的要求、对于数据的要求,通常来说不是我们在高校擅长满足的。因此,工业界就显得很有优势,他们有数据、有计算资源。现在深度学习的技术进步了,但是训练模型依然要花费很长时间。像我们实验室动不动训练一个模型就要一两天的时间。另外测试时间也很长,我给一个数据,跑神经网络,最后从末端给出一个结果。这个过程看起来只有一遍过程,但是由于中间计算过于复杂,所以时间仍然很长。比如给一张图像,通常来说如果代码写的不够好,大概需要几秒的时间,如果写的特别糟也可能一分钟的时间。可是我们知道有些应用问题不允许你这样做,它需要你实时地识别图像。还有就是对内存有要求。神经网络模型有大量的参数都要存到计算机里去。如果你用的是服务器,这就没问题,但当你的这个技术走向应用变成产品,这就不一样了。比如说无人驾驶车,我们希望无人驾驶车上装的摄像头能够识别路上的情况、标识一些物体,你如果这么做,就要在无人驾驶车上有一个识别设备。我们知道无人驾驶车是一个那么有限的环境,它不太可能让你放一个服务器或GPU,所以它的计算能力很弱。还有就是它对于电的要求高,我们知道GPU特别费电,车上不太可能放一个几百瓦、上千瓦的供电系统。所以有人对AlphaGo的一个批评就是,你和人去比赛,人靠的是什么,喝一杯牛奶、一片面包、一个鸡蛋就来参加比赛;AlphaGo靠什么,后面有那么大的一个供电系统。还有一个特别理想的状况,既然深度学习做图像识别已经有了很多突破,为什么不用在手机上?可是一旦考虑用在手机上,就发现有一堆的问题:内存太小、计算能力太弱、耗电太厉害,所有这些东西都导致了神经网络现在在应用阶段有非常大的困难。

    因此就提出这样的问题,我们怎么样让深度学习网络紧凑、小型化。在实际中,我们做深度学习的时候有一个很重要的问题,就是要调参数。首先,给你一个问题,你有了数据,选择了一个基本模型,但是这个模型结构到底怎么设置,层有多少,每层宽度多少?这样一些参数怎么去定?有很多的因素会影响我们学习的性能。有人做过一项这样的研究,你能够把网络学的好,学习率(learning rate)是最重要的一个因素。学习率就是我们求偏导的时候,会对导数的权重调整的系数,这个系数特别重要,有相当多的研究工作关注在这个地方,这个地方任何一个突破对所有人都是至关重要的,这里“所有人”是指对神经网络使用的那部分研究人员。此外,每层的宽度也是一个重要的参数。我今天的报告主要讲如何选择每层宽度。

    神经网络结构优化,有哪些已有的方法?

    第一种,贝叶斯方法

    权重参数是我们在训练阶段要学习的一个参数,此外我们需要提前确定的参数我们叫超参数。我们在超参数这个问题上怎么去做?这是我们传统的深度学习、机器学习比较关注的问题。我们假设有一个要学习的参数,有的时候我们给这个参数假设一个形式,例如:高斯分布,那这个高斯分布就是你的先验,你再想办法确定这个高斯分布的均值、方差。这就是贝叶斯方法。但是这样的方法里面,你需要先确定先验。

    第二种,导数的方法

    优化目标函数通常的做法是通过求导完成的。我们往往对神经网络的权重进行求导。既然你的学习率是一个超参数,我们为什么不能够对它进行学习?所以如果你能够建立你要优化的这个损失函数和你现在要学习的超参数之间的函数关系,建立这个函数关系以后,就可以去求梯度、求导。这个方法的优点是很明显的,但是缺点就是,可能需要你把这两者之间的函数关系理清楚。第二个,对于离散的问题,这种办法就不好用。

    第三种,网格搜索

    超参数还怎么优化?在实际过程中我们还有一些经验上的做法,比如说网格搜索。大家去设想一下,在神经网络之前我们大家学过支持向量机。支持向量机的目标函数有两项:是间隔项和惩罚项。这两项之间会有一个C来平衡大的间隔和错分样本的惩罚。这里 C是需要提前定的。但是实际中我们不知道C是多少。实际做的过程就是,我们通过网格搜索把这C等间隔取值,分别优化SVM,使得我能够得到一个特别好的结果。调好参数很重要,一来你要去发文章的时候,把你的参数调的尽可能好,和其它最好的方法去比较。另一个就是调系统和产品,我们希望自己的系统性能尽可能好,去卖个好价钱。

    假如我们要优化一个神经网络,而我只关心这两层的宽度。所谓的网格搜索就是,让每层的宽度取值5、10、15、20、25个节点,然后两层一起考虑,遍历所有的组合。这样做保证不丢掉一些重要的结构。可想而知,这种做法非常慢,而且我们神经网络往往会很多很多层,所以这是一个很头疼的事。

    即使采用遍历的方法,网格搜索的方法后来也被认为不太好。在2012年Bengio在 “The Journal of Machine Learning Research”发表的工作告诉我们,假设你要优化的那两个参数,可能有一个很重要而另一个不那么重要,网格搜索就意味着构成一个这样的搜索点的分布,这个分布向两个方向投影,就意味着你搜索了9个点,而在每个方向上都有一些搜索点重复。如果我们采用随机采样的方式,而不是网格搜索的话,就有可能会充分利用这九个点采到这个特别重要的点。他们做了一些理论的和实验的分析,说明随机搜索效果往往会更好。而比较有意思的,随机搜索本身其实是一个很简单的过程,不需要那么多的预备知识和技术,所以是一件挺好的事。

    结构优化是一个离散优化问题,所以我们用前边很多的贝叶斯方法、求导方法不能用,所以通常情况下,都是人工做的。如果我们在座的有老师,让你的学生去调参,说你要网格搜索,他可能会拒绝,他说这事我搞不定,这个参数组合太多了,另外,我们机器承受不了,我算一次就要1天、2天,我这样一组合可能要几百次、几万次人工调参数。所以人工调参数费时费力。此外,就是需要特别多的知识,你要有很多的知识和经验才能调好参数,对专家的依赖性很强。更关键的问题是,我好不容易花一个月把参数调好,现在换一个数据集,我还需要再花半个月时间调参。另外是当你的应用场景发生变化的时候,新的客户来了,这个时候你不得不调,非硬着头皮做不可,所以熬夜就成了家常便饭。

    第四种,其它优化手段

    一种是低秩近似。我们把神经网络这些权列成一个矩阵,假设这个矩阵是低秩的,加上低秩正则以后,去优化这个网络结构。换句话说,在你优化整个目标函数的时候,同时希望这个秩要低。如果把约束加在全连接层上,效果就比较好。

    其二,去掉无用的连接和节点。神经网络每相邻层之间都是连接,我们有的时候会问,所有这些连接都有用吗,是不是有的连接没有用?如果是这样的话,我们是不是可以把没有用的连接去掉。换句话说,看起来那个权重是有,但是其实很小,我们总觉得特别小的权重起的作用很弱,我们就把它去掉。这种想法有人做过,就是我先训练一个网络,训练好以后,我看哪个权重特别小,把它去掉,然后再重新训练。训练稳定了以后,看哪个权重又小,再把它去掉,一点点这么去做。好像2015年NIPS会议上就有这样一个文章发表,大概用的是这样的思路。当然也有人说,我对于你们的权重加一个稀疏的正则,去优化。当然这样从做法上更流畅、更漂亮。后来有人说,除了连接很重要,中间有几十万个节点,每个节点都很重要吗,能不能把某个节点去掉,这个做法就是节点稀疏。

    其三,量化权重。现在整个权训练好了,但是因为有很多权,我要存这些权就很麻烦,因此大家想,这个权重不用浮点数,用整数行不行?整数做的一种办法就是,把所有的权重都聚类,在聚集多的地方取值,其它的用近似。还有一种做法就是,把所有的权重量化成几个等级,比如有4个等级。一个极端是两个等级,有和没有,有的话就是1,没有的话就是0。在这种情况下你会发现,整个神经网络计算就变得非常非常的容易,只存在有和没有,就变得非常的简单和快速。

    当然,所有这些方法都会带来副作用,就是你的识别率会下降。有的时候我们会说,我们关注这个算法能不能放手机里去,因为通常来说,放到手机里的很多应用程序对识别率没有那么高的影响,认为大众对有些识别问题的要求可能没有那么高。这样识别率降一点也没有特别大的关系。

    Part 2: 子模函数和超模函数

    子模函数和超模函数是后边的网络结构优化要用到的知识。介绍的时候我先说明,这里面大概有10页左右的PPT是从这个网站上拿过来的(网址:http://www.select.cs.cmu.edu/tutorials/icml08submodularity.html)。在2008年国际机器学习大会有一个特别好的tutorial,就是关于子模函数和超模函数。那个报告给我印象深刻,所以我就把其中的几页拿过来在上面做了一些改动。不管怎么说,谢谢这两个作者。课后大家如果对这个有兴趣,可以去看看他们很完整的PPT。他们对子模函数和超模函数介绍非常详细,很感谢他们。

    子模函数和超模函数,是关于集合函数的一些性质。集合函数是指,这个函数是定义在它的子集上的函数,这个函数在每个子集上的取值。通常我们认为空集函数是对应的是0。

    什么是子模函数?子模函数是怎么形成的,我们不去管它,可以把它看成一个黑箱(black box),但是我们希望这个函数具有一个这样的性质:对于任给的A、B两个子集, F(A)+F(B) ≥ F(A ∪ B)+F(A ∩ B)。

    如果它满足这个条件,就说它是一个子模函数。这样的性质也等价于这个性质:有两个集合,一个是A,一个是B,A集合是B集合的一部分。这种情况下如果在A集合上加上一个元素,这个集合就变大一点,变大了以后,这个函数会比原来A集合函数增加了一部分,在小的集合上增加的量要更大大。换句话说,小集合加上一个元素带来的改进更大,而在大的集合上增加同样的元素以后,它带来的影响会比较小一些。

    什么是超模函数?如果F是一个子模函数,前面加一个负号,那就是超模函数。

    这件事有点太抽象,我们举一个具体的问题,这样大家就会有很直观理解。假设,现在有一个房间,我们需要在房间里布置一些传感器,布置传感器是为了对整个房间进行数据采样。每个每个传感器会有一个覆盖面积。我们希望放上有限的传感器,覆盖的面积越大越好。在这样一个问题里边,对于任何一个集合,F(A)=A能够覆盖的面积。所谓的A是什么呢?就是你放的传感器,因为每个传感器会放在一个位置上。

    这个问题里的F是一个子模函数(我定义F是它覆盖的那个面积)。为什么呢?可以设想,我有两种情况,一种情况是我放2个传感器,还有一种情况是,我放4个传感器,其中包含了刚才的两个传感器。我在2和4个传感器的布局里,分别再加上同一个位置的1个传感器,那么你会发现上面小的集合情况(2个传感器)下带来的面积增加量比较大。而原来4个传感器的集合增加的面积部分比较小。这是一个非常直观的例子。

    子模函数有一个很有意思的性质:假如Fi是子模函数,这个λi>0,它的正的线性叠加仍然是子模函数。就是在正的这种线性组合的意义上它是封闭的。

    我们怎么去理解子模函数?对子模函数的寻优对应的是一个离散的优化问题,我们可能知道更多的是连续的优化问题。在连续优化问题里边我们比较喜欢的一个问题叫凸问题,就是说白一点,我们只有一个单峰。这种情况下找最大值相对比较容易。我们通过求偏导,原则上一定能找到最优值。但是到离散问题以后,什么是凸我们就不知道了。而子模函数类似于我们在连续问题里的凸函数。下面这个例子会呈现子模函数与凸问题的关系。

    假设有一个这样的函数g,它是从整数到实数的一个映射,函数F定义在A集合上,这个子模函数怎么定义呢?它就定义成我这个集合的“大小”,把集合别的因素都去掉,只考虑它的大小。这样如果两个集合a是b的子集,那么 a的大小 < b的大小。这个函数的特点就在于,在小的地方增加一点所带来的增益,和在大的地方同样增加一点所带来的增益,前者要大。所以你也可以认为,子模函数是离散函数的一种凸性质。

    当然你会说我们还有别的运算,比如说两个子模函数F1、F2,求最大,那还是子模函数吗?它的最大max(F1,F2)不一定是子模函数。它的最小,就是这两个子模函数取最小,min(F1,F2)一般来说也不一定是子模函数。

    展开全文
  • 张长水:图像识别与机器学习

    千次阅读 2016-09-28 08:55:51
    王生进教授、张长水教授、郑方教授、微软芮勇、搜狗王小川分别发言。学界泰斗与产业嘉宾精彩的演讲,碰撞出一大批关于人工智能过去、现在、未来的真知灼见。   本文内容选自 清华大学自动化系张长水教授...

    http://blog.sina.com.cn/s/blog_7147954d0102we8r.html

    http://mp.weixin.qq.com/s?__biz=MzAxMzA2MDYxMw==&mid=2651557156&idx=1&sn=6874fdb622fad5656d208b9b7267039d&scene=1&srcid=0627ODA0eqzJROfJM6U0msh9#rd


    导读: 6月6日清华人工智能论坛上,张钹院士针对当下浮躁的“人工智能热”,告诫我们要冷静地面对人工智能。王生进教授、张长水教授、郑方教授、微软芮勇、搜狗王小川分别发言。学界泰斗与产业嘉宾精彩的演讲,碰撞出一大批关于人工智能过去、现在、未来的真知灼见。

     

    本文内容选自清华大学自动化系张长水教授于“清华人工智能”论坛上所做的题为《图像识别与机器学习》的演讲。


    整理:李柯南

    校对:郭芯芮

    编辑:张梦



    图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。

     

    一、 什么是图像识别?



    图像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。


    二、 图像识别有什么应用?

     

    做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

     

    另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。


    还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。


    三、图像识别的困难在哪里?


    图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。


    第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。


    光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。


    第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

     

    第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

     

    第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。


    四、图像识别的发展历史



    图像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。


    做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。


    另外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等、等。当时有的研究工作已经发展到了产品化的程度,包括OCR和指纹识别。

     

    在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

     

    在80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bag of words)的方法用于图像识别。

     

    什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

     

    这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。


    比如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段落的语法结构,而只要把这些高频词放到一块,叫“bag of words”。

     

    怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表达很抽象的语义。



    这种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个事,每年的进步大概就是1%-2%的样子。

     在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问题。为什么人工智能现在这么热?主要就是因为这个原因。


    张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。


    五、 面临的困难和今后要研究的问题

     

    看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。

     

    比如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了,种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。




    在2009年李飞飞她们发布了新的数据库ImageNet,大概有几千万张图像数据。

     

    标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

     


    还有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片,标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

     


    还有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测和识别出来。

     

    现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

     

    在这个方面给大家介绍一下我们做的一个工作,叫image caption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Image caption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像块。在对这张图像生成的句子A brown cow is standing in the grass时,我们看到brown,cow, grass都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fill with(把…填满),你会发现图片全是容器里面盛东西。


    这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

     


    上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

     

    另外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某种意义上来说我们也可以把它们做成产品,让他为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。


    本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。


    展开全文
  • 张长水:机器学习与图像识别

    万次阅读 2017-06-10 10:13:26
    本讲座选自清华大学自动化系张长水老师于2015年11月26日在 RONG v2.0---图形图像处理与大数据技术论坛上所做的题为《机器学习与图像识别》的演讲。  张长水:我的题目叫《机器学习和图像识别》。我主要在做...
  • 电子档讲义和作业 人工智能导论的实验 上课使用的电子档资料
  • 王生进教授、张长水教授、郑方教授、微软芮勇、搜狗王小川分别发言。学界泰斗与产业嘉宾精彩的演讲,碰撞出一大批关于人工智能过去、现在、未来的真知灼见。 图像识别是人工智能领域非常核心的一个课题。同时从研究...
  • Fellow,其中清华大学张长水、舒继武、孙宏斌、赵争鸣、周彤5人当选。 张长水教授简介: 张长水,清华-青岛数据科学研究院二维码安全技术研究中心主任,智能技术与系统国家重点实验室学术委员会...
  • 日前,全球最大的非营利专业技术学会IEEE(国际电气与电子工程师协会)公布了2018年度Fellow名单,中国大陆共有17位科学家当选新一届IEEE Fellow,其中清华大学张长水、舒继武、孙宏斌、赵争鸣、周彤5人当选。...
  • 本文为智源论坛第 5 期机器学习系列报告会的要点回顾第二弹。7 月 10 日,清华大学自动化系教授张长水在智源论坛上同大家分享了其“关于小样本学习的一些思路”。作为国内机器学习领域的...
  • 清华大学教授、IEEE Fellow 张长水等人广泛阅读和总结了自 21 世纪初到 2019 年的 300 余篇论文,写了一篇关于 FSL 的综述文章。 论文链接:https://arxiv.org/pdf/2009.02653.pdf 这篇综述文章回顾了 FSL 的演进...
  • 来源:专知 本文为论文,建议阅读5分钟本文综述了近年来在大间隔训练及其理论基础方面取得的进展。 本文综述了近年来在大间隔训练及其理论基础方面取得的进展,主要针对(非线性)深度神经网络...
  • 目的:探讨3D打印技术在复杂胫骨平台骨折中的应用价值。 方法:2016年9月至2018年9月,我院收治28例胫骨平台复杂骨折。 根据住院顺序的不同,将患者分为两组。 A组在手术前使用了3D重建,虚拟还原,3D打印以及单个...
  • 清华大学计算机系网络课程之模式识别,因上传文件大小有限制,所以分成三份上传。必须全部下载一起解压才能成功解压。怕麻烦可以给我留言哦。
  • 模式识别教程讲义

    2018-02-09 09:43:12
    模式识别讲义,讲解模式识别经典理论,快速了解机器学习,模式识别主要是对已知数据样本的特征发现和提取,比如人脸识别、雷达信号识别等,强调从原始信息中提取有价值的特征
  • 模式识别讲义

    2014-11-16 14:36:45
    上海大学自动化系模式识别讲义,很全面。适合研究生一年级以及相关专业使用。
  • 龚平华,张长水,卢兆松,黄建华,叶洁平的非凸正则优化问题的通用迭代收缩和阈值算法 直接运行main.m,您将看到流行方法与该实现之间的比较。 Randon变换代码和DFT代码的反投影由Mark Ba​​ngert编写。 解算器也...
  • 模式识别 张学工

    2014-05-16 21:54:53
    各位热与爱好学习的学霸们,推荐给你们一本学习模式识别的首选好书,是张学工编写的,内容很经典,希望会对你有帮助,have a good day
  • 上篇提到深度学习中对隐层的分析,隐层分析需要进行大量神经元节点的分析,且只能分析到的神经... 出处: 2021 北京智源大会 - 机器学习论坛 - 清华大学教授张长水 - 可解释性定义与可解释模型的学习_哔哩哔哩_bilibili
  • 10、张长水 11、孙剑     注:本文章随着人工智能领域的进展,将会持续更新,建议收藏。如有纰漏或错误,欢迎前来指正,谢谢! 国外大佬 1、Michael I. Jordan   Michael I. Jordan ,...
  • CCF YOCSEF学术委员会主席唐杰和清华大学计算机系老师崔鹏共同主持讲座。讲座现场座无虚席,很多同学提前1个半小时就到现场去占座。 在本次讲座中,Yoshua教授介绍说目前的人工智能距离人类水平仍然十分遥远,当前...
  • 水一波作业~

    2018-09-19 19:11:00
    应老师要求,写下这篇博客。 (没有按照作业里的模式写了,老师不会搞我吧。。。) 第一部分:结缘计算机 第一次接触电脑是在2003年,因为我爸工作原因买了电脑,那时候电脑还有很厚的屁股,我第一次看到这个...
  • (NIPS 20): Kernel Based Progressive Distillation for Adder Neural Networks (Arxiv): AdderSR: Towards Energy Efficient Image Super-Resolution 7 Slimming: (ICCV 2017):清华张长水,黄高团队: ...
  • 朱文武(Wenwu Zhu | home),朱军(Jun Zhu's Homepage),苏航(Home Page),龙明盛(Mingsheng Long - Tsinghua University),鲁继文(清华大学自动化系),黄高(清华大学自动化系),艾海舟(ahz_webpage),张长水(Big ...
  • 想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 大数据下的自杀风险感知与疏导讲座 2017年12月13日 ...自杀是困扰全世界的一个社会性问题,鉴于自杀给个人、家庭和社会带来的巨大情感创伤和经济...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 196
精华内容 78
热门标签
关键字:

张长水