精华内容
下载资源
问答
  • 清华大学 张长水 模式识别课件 2018,里面包括k近邻,决策树,支持向量机,等课程内容资源,适合模式识别的入门学习
  • 清华大学张长水教授:神经网络模型的结构优化 转自搜狐:▼▼▼▼点击下方原标题跳转至原文 原标题:清华大学张长水教授:神经网络模型的结构优化(附PPT) 张长水教授,清华大学自动化系教授、博士生导师,智能...

    清华大学张长水教授:神经网络模型的结构优化


    转自搜狐:▼▼▼▼点击下方原标题跳转至原文

    原标题:清华大学张长水教授:神经网络模型的结构优化(附PPT)

    张长水教授,清华大学自动化系教授、博士生导师,智能技术与系统国家重点实验室学术委员会委员,智能技术与系统国家重点实验室副主任。主要从事机器学习、模式识别、人工智能、计算机视觉等领域的教学和科研工作。

    以下是根据张长水教授现场分享整理的文字报告.

    今天我和大家分享的主题是“神经网络模型的结构优化”。我大概会讲这么几点:

    • 研究背景
    • 子模函数和超模函数
    • 神经网络结构的优化
    • 实验部分

    Part 1: 研究背景

    当前,深度神经网络模型的出现给我们带成了很大的影响,这个影响大部分都是积极正面的,但是同时也存在一些不同看法。不管怎么说,深度学习模型在传统的很多机器学习问题和相关问题上,都取得了令人瞩目的突破和进展。

    我举几个例子,比如图像识别。图像识别是这样一个问题:有一张图像,需要识别这个图像是猫、是狗、是计算机、是羽毛球拍?在2012年的深度学习网络用于解决问题时,有了很大的突破。

    除此之外还有其他的问题,比如图像描述、机器翻译、语音识别。机器翻译我们知道过去几十年发展也很慢,基本上没有办法应用实际,也是因为深度学习方法的应用,使得机器翻译有了一个很大的突破。百度因为这个方面的工作,大概在去年获得了一个国家科技进步二等奖,是王海峰带领他的团队的成果。此外,语音识别,大家都知道,以前也是没有到应用的水平,而现在我们就可以用。比如说大家用微信,就可以用语音输入。目前为止性能还不错的语音识别系统,全部都是用深度学习方法去做的。

    除此以外还有很多,比如医疗。还比如大家都知道的下棋。

    深度学习方法应用有很多好处,同时也有很多问题。比如说,深度学习网络模型计算量特别大、模型特别复杂。模型复杂导致两个问题,第一是训练上的困难,第二个是测试上的困难。训练上的困难在于它需要大量的时间,而且一个深度学习网络要想在某个问题上达到特别好的实用化性能,需要特别多的数据。而这对于机器计算的要求、对于数据的要求,通常来说不是我们在高校擅长满足的。因此,工业界就显得很有优势,他们有数据、有计算资源。现在深度学习的技术进步了,但是训练模型依然要花费很长时间。像我们实验室动不动训练一个模型就要一两天的时间。另外测试时间也很长,我给一个数据,跑神经网络,最后从末端给出一个结果。这个过程看起来只有一遍过程,但是由于中间计算过于复杂,所以时间仍然很长。比如给一张图像,通常来说如果代码写的不够好,大概需要几秒的时间,如果写的特别糟也可能一分钟的时间。可是我们知道有些应用问题不允许你这样做,它需要你实时地识别图像。还有就是对内存有要求。神经网络模型有大量的参数都要存到计算机里去。如果你用的是服务器,这就没问题,但当你的这个技术走向应用变成产品,这就不一样了。比如说无人驾驶车,我们希望无人驾驶车上装的摄像头能够识别路上的情况、标识一些物体,你如果这么做,就要在无人驾驶车上有一个识别设备。我们知道无人驾驶车是一个那么有限的环境,它不太可能让你放一个服务器或GPU,所以它的计算能力很弱。还有就是它对于电的要求高,我们知道GPU特别费电,车上不太可能放一个几百瓦、上千瓦的供电系统。所以有人对AlphaGo的一个批评就是,你和人去比赛,人靠的是什么,喝一杯牛奶、一片面包、一个鸡蛋就来参加比赛;AlphaGo靠什么,后面有那么大的一个供电系统。还有一个特别理想的状况,既然深度学习做图像识别已经有了很多突破,为什么不用在手机上?可是一旦考虑用在手机上,就发现有一堆的问题:内存太小、计算能力太弱、耗电太厉害,所有这些东西都导致了神经网络现在在应用阶段有非常大的困难。

    因此就提出这样的问题,我们怎么样让深度学习网络紧凑、小型化。在实际中,我们做深度学习的时候有一个很重要的问题,就是要调参数。首先,给你一个问题,你有了数据,选择了一个基本模型,但是这个模型结构到底怎么设置,层有多少,每层宽度多少?这样一些参数怎么去定?有很多的因素会影响我们学习的性能。有人做过一项这样的研究,你能够把网络学的好,学习率(learning rate)是最重要的一个因素。学习率就是我们求偏导的时候,会对导数的权重调整的系数,这个系数特别重要,有相当多的研究工作关注在这个地方,这个地方任何一个突破对所有人都是至关重要的,这里“所有人”是指对神经网络使用的那部分研究人员。此外,每层的宽度也是一个重要的参数。我今天的报告主要讲如何选择每层宽度。

    神经网络结构优化,有哪些已有的方法?

    第一种,贝叶斯方法

    权重参数是我们在训练阶段要学习的一个参数,此外我们需要提前确定的参数我们叫超参数。我们在超参数这个问题上怎么去做?这是我们传统的深度学习、机器学习比较关注的问题。我们假设有一个要学习的参数,有的时候我们给这个参数假设一个形式,例如:高斯分布,那这个高斯分布就是你的先验,你再想办法确定这个高斯分布的均值、方差。这就是贝叶斯方法。但是这样的方法里面,你需要先确定先验。

    第二种,导数的方法

    优化目标函数通常的做法是通过求导完成的。我们往往对神经网络的权重进行求导。既然你的学习率是一个超参数,我们为什么不能够对它进行学习?所以如果你能够建立你要优化的这个损失函数和你现在要学习的超参数之间的函数关系,建立这个函数关系以后,就可以去求梯度、求导。这个方法的优点是很明显的,但是缺点就是,可能需要你把这两者之间的函数关系理清楚。第二个,对于离散的问题,这种办法就不好用。

    第三种,网格搜索

    超参数还怎么优化?在实际过程中我们还有一些经验上的做法,比如说网格搜索。大家去设想一下,在神经网络之前我们大家学过支持向量机。支持向量机的目标函数有两项:是间隔项和惩罚项。这两项之间会有一个C来平衡大的间隔和错分样本的惩罚。这里 C是需要提前定的。但是实际中我们不知道C是多少。实际做的过程就是,我们通过网格搜索把这C等间隔取值,分别优化SVM,使得我能够得到一个特别好的结果。调好参数很重要,一来你要去发文章的时候,把你的参数调的尽可能好,和其它最好的方法去比较。另一个就是调系统和产品,我们希望自己的系统性能尽可能好,去卖个好价钱。

    假如我们要优化一个神经网络,而我只关心这两层的宽度。所谓的网格搜索就是,让每层的宽度取值5、10、15、20、25个节点,然后两层一起考虑,遍历所有的组合。这样做保证不丢掉一些重要的结构。可想而知,这种做法非常慢,而且我们神经网络往往会很多很多层,所以这是一个很头疼的事。

    即使采用遍历的方法,网格搜索的方法后来也被认为不太好。在2012年Bengio在 “The Journal of Machine Learning Research”发表的工作告诉我们,假设你要优化的那两个参数,可能有一个很重要而另一个不那么重要,网格搜索就意味着构成一个这样的搜索点的分布,这个分布向两个方向投影,就意味着你搜索了9个点,而在每个方向上都有一些搜索点重复。如果我们采用随机采样的方式,而不是网格搜索的话,就有可能会充分利用这九个点采到这个特别重要的点。他们做了一些理论的和实验的分析,说明随机搜索效果往往会更好。而比较有意思的,随机搜索本身其实是一个很简单的过程,不需要那么多的预备知识和技术,所以是一件挺好的事。

    结构优化是一个离散优化问题,所以我们用前边很多的贝叶斯方法、求导方法不能用,所以通常情况下,都是人工做的。如果我们在座的有老师,让你的学生去调参,说你要网格搜索,他可能会拒绝,他说这事我搞不定,这个参数组合太多了,另外,我们机器承受不了,我算一次就要1天、2天,我这样一组合可能要几百次、几万次人工调参数。所以人工调参数费时费力。此外,就是需要特别多的知识,你要有很多的知识和经验才能调好参数,对专家的依赖性很强。更关键的问题是,我好不容易花一个月把参数调好,现在换一个数据集,我还需要再花半个月时间调参。另外是当你的应用场景发生变化的时候,新的客户来了,这个时候你不得不调,非硬着头皮做不可,所以熬夜就成了家常便饭。

    第四种,其它优化手段

    一种是低秩近似。我们把神经网络这些权列成一个矩阵,假设这个矩阵是低秩的,加上低秩正则以后,去优化这个网络结构。换句话说,在你优化整个目标函数的时候,同时希望这个秩要低。如果把约束加在全连接层上,效果就比较好。

    其二,去掉无用的连接和节点。神经网络每相邻层之间都是连接,我们有的时候会问,所有这些连接都有用吗,是不是有的连接没有用?如果是这样的话,我们是不是可以把没有用的连接去掉。换句话说,看起来那个权重是有,但是其实很小,我们总觉得特别小的权重起的作用很弱,我们就把它去掉。这种想法有人做过,就是我先训练一个网络,训练好以后,我看哪个权重特别小,把它去掉,然后再重新训练。训练稳定了以后,看哪个权重又小,再把它去掉,一点点这么去做。好像2015年NIPS会议上就有这样一个文章发表,大概用的是这样的思路。当然也有人说,我对于你们的权重加一个稀疏的正则,去优化。当然这样从做法上更流畅、更漂亮。后来有人说,除了连接很重要,中间有几十万个节点,每个节点都很重要吗,能不能把某个节点去掉,这个做法就是节点稀疏。

    其三,量化权重。现在整个权训练好了,但是因为有很多权,我要存这些权就很麻烦,因此大家想,这个权重不用浮点数,用整数行不行?整数做的一种办法就是,把所有的权重都聚类,在聚集多的地方取值,其它的用近似。还有一种做法就是,把所有的权重量化成几个等级,比如有4个等级。一个极端是两个等级,有和没有,有的话就是1,没有的话就是0。在这种情况下你会发现,整个神经网络计算就变得非常非常的容易,只存在有和没有,就变得非常的简单和快速。

    当然,所有这些方法都会带来副作用,就是你的识别率会下降。有的时候我们会说,我们关注这个算法能不能放手机里去,因为通常来说,放到手机里的很多应用程序对识别率没有那么高的影响,认为大众对有些识别问题的要求可能没有那么高。这样识别率降一点也没有特别大的关系。

    Part 2: 子模函数和超模函数

    子模函数和超模函数是后边的网络结构优化要用到的知识。介绍的时候我先说明,这里面大概有10页左右的PPT是从这个网站上拿过来的(网址:http://www.select.cs.cmu.edu/tutorials/icml08submodularity.html)。在2008年国际机器学习大会有一个特别好的tutorial,就是关于子模函数和超模函数。那个报告给我印象深刻,所以我就把其中的几页拿过来在上面做了一些改动。不管怎么说,谢谢这两个作者。课后大家如果对这个有兴趣,可以去看看他们很完整的PPT。他们对子模函数和超模函数介绍非常详细,很感谢他们。

    子模函数和超模函数,是关于集合函数的一些性质。集合函数是指,这个函数是定义在它的子集上的函数,这个函数在每个子集上的取值。通常我们认为空集函数是对应的是0。

    什么是子模函数?子模函数是怎么形成的,我们不去管它,可以把它看成一个黑箱(black box),但是我们希望这个函数具有一个这样的性质:对于任给的A、B两个子集, F(A)+F(B) ≥ F(A ∪ B)+F(A ∩ B)。

    如果它满足这个条件,就说它是一个子模函数。这样的性质也等价于这个性质:有两个集合,一个是A,一个是B,A集合是B集合的一部分。这种情况下如果在A集合上加上一个元素,这个集合就变大一点,变大了以后,这个函数会比原来A集合函数增加了一部分,在小的集合上增加的量要更大大。换句话说,小集合加上一个元素带来的改进更大,而在大的集合上增加同样的元素以后,它带来的影响会比较小一些。

    什么是超模函数?如果F是一个子模函数,前面加一个负号,那就是超模函数。

    这件事有点太抽象,我们举一个具体的问题,这样大家就会有很直观理解。假设,现在有一个房间,我们需要在房间里布置一些传感器,布置传感器是为了对整个房间进行数据采样。每个每个传感器会有一个覆盖面积。我们希望放上有限的传感器,覆盖的面积越大越好。在这样一个问题里边,对于任何一个集合,F(A)=A能够覆盖的面积。所谓的A是什么呢?就是你放的传感器,因为每个传感器会放在一个位置上。

    这个问题里的F是一个子模函数(我定义F是它覆盖的那个面积)。为什么呢?可以设想,我有两种情况,一种情况是我放2个传感器,还有一种情况是,我放4个传感器,其中包含了刚才的两个传感器。我在2和4个传感器的布局里,分别再加上同一个位置的1个传感器,那么你会发现上面小的集合情况(2个传感器)下带来的面积增加量比较大。而原来4个传感器的集合增加的面积部分比较小。这是一个非常直观的例子。

    子模函数有一个很有意思的性质:假如Fi是子模函数,这个λi>0,它的正的线性叠加仍然是子模函数。就是在正的这种线性组合的意义上它是封闭的。

    我们怎么去理解子模函数?对子模函数的寻优对应的是一个离散的优化问题,我们可能知道更多的是连续的优化问题。在连续优化问题里边我们比较喜欢的一个问题叫凸问题,就是说白一点,我们只有一个单峰。这种情况下找最大值相对比较容易。我们通过求偏导,原则上一定能找到最优值。但是到离散问题以后,什么是凸我们就不知道了。而子模函数类似于我们在连续问题里的凸函数。下面这个例子会呈现子模函数与凸问题的关系。

    假设有一个这样的函数g,它是从整数到实数的一个映射,函数F定义在A集合上,这个子模函数怎么定义呢?它就定义成我这个集合的“大小”,把集合别的因素都去掉,只考虑它的大小。这样如果两个集合a是b的子集,那么 a的大小 < b的大小。这个函数的特点就在于,在小的地方增加一点所带来的增益,和在大的地方同样增加一点所带来的增益,前者要大。所以你也可以认为,子模函数是离散函数的一种凸性质。

    当然你会说我们还有别的运算,比如说两个子模函数F1、F2,求最大,那还是子模函数吗?它的最大max(F1,F2)不一定是子模函数。它的最小,就是这两个子模函数取最小,min(F1,F2)一般来说也不一定是子模函数。

    展开全文
  • 张长水:机器学习与图像识别

    万次阅读 2017-06-10 10:13:26
    本讲座选自清华大学自动化系张长水老师于2015年11月26日在 RONG v2.0---图形图像处理与大数据技术论坛上所做的题为《机器学习与图像识别》的演讲。  张长水:我的题目叫《机器学习和图像识别》。我主要在做...

    http://www.cbdio.com/BigData/2015-12/23/content_4371155.htm


    本讲座选自清华大学自动化系张长水老师于2015年11月26日在 RONG v2.0---图形图像处理与大数据技术论坛上所做的题为《机器学习与图像识别》的演讲。

      张长水:我的题目叫《机器学习和图像识别》。我主要在做机器学习,不知道在座的听众是否会对机器学习感兴趣。

      什么叫机器学习呢?这里举两个例子,一个是做分类,一个是做回归。分类是一个基本问题。例如在右图中,当我们知道有不同颜色表示的两类物体,在向量空间中,我们有一种什么样的算法能够把这两类物体分开,并且分得更好。

      机器学习关心什么事呢?机器学习关心的怎么样建模。以回归问题为例,我们用什么样的回归模型,我们的目标函数应该是什么样,我们怎么去估计这个模型的参数,以及使用的估计方法和该方法的性能是什么。估计的性能可能会和数据量有关、和维数有关,其收敛速度怎么样,和最优解是什么关系?刚才徐葳老师谈到了我们在实际建模中的困难,包括不同人标注的果蝇基因数据能不能共享。类似的问题在机器学习领域有相关的研究,我们把这样的任务看成是知识的传递,或者是模型的传递,或者是参数的传递。我们把它当做机器学习的问题,这个时候会有数据的共享、模型的共享、参数的共享,当我们的共享方式不一样的时候,建模也会不一样,优化方法也会不一样,得到性能也会不一样。所以机器学习是一个特别宽泛和基础性的研究方向,应用领域广泛。

      泛泛来说,机器学习是一个比较基础的研究,模式识别、数据挖掘中的很多方法都是来自于机器学习,模式识别和数据挖掘可以用在语言、文字、图像和视频识别中。这里列的都是大家常见的一些应用,其实还包括生物、医学、材料科学等其他学科方面的应用。机器学习是一个基础的研究工具,或者说是理论和方法。所以在大数据时代,机器学习是核心方法之一。这样一个方法在任何一个大的应用领域都有可能有发挥它的用武之地。

      既然今天的话题是图像图形,我们就说一下图像图形识别方面的事。在视觉领域做图象识别,物体的识别研究已经有几十年历史了,但是直到几年以前,有影响的图像识别产品不多,一个是OCR,一个是指纹,还有一个就是人脸检测。

      人脸检测是01年的事,OCR和指纹是九几年的事。更广泛的应用研究从1970年代就有了。当时研究比较多的是人脸检测和识别、数字、车的识别。

      后来从2001、2002年开始做更广泛的图象识别研究。那时研究人员就在想有没有一个统一的方法能够识别各种各样的物体。比如说我们预计需要识别的物体种类是几万类。当时觉得机器学习发展了那么多年,已经有了一些很好的方法,能不能用这些方法使得我们在图像识别上有更大的发展。之后有些人做了连续十年的工作都在目标识别、图象识别上。

      真正的突破是在2012年深度学习的引入。之前在一个ImageNet物体识别竞赛。允许对每一张图像允许算法给出五个候选类别,只要这前五名类别里包含了这个物体的真实类别就算该图像识别正确了。2012年前,这个识别率慢慢在涨,突然这一年有了一个大的飞跃,这就是Hilton的团队用了深度学习得到的结果。

      但是并不意味着图像识别的问题就解决了。其实图像识别率还很低,很多问题没有解决,还有相当多的困难。现在因为深度学习的效果好,所以做图像识别的很多,特别是工业界非常热闹,但是这里面的技术问题非常多。

      我在自动化系,我的实验室叫大眼睛,这是我实验室的首页,欢迎大家访问,给我们提一些建议。过去十几年我们一直在做机器学习方面的工作,涉及机器学习中相当多的研究问课题和方向。因为做机器学习必须要考虑一些应用,所以我们做了一些应用研究,例如图像方面的应用。

      我们做了一个比较实用的课题:交通标识识别。我们是在大数据和深度学习的大背景下做这件事。国家自然科学基金委有一个项目是无人驾驶车。这需要识别场景中的交通标识。我们搜集了很多数据去做,能够达到单张图片识别率99.5%,如果把前后帧合在一起准确率会更高。我们在无人驾驶车上测试,比赛的时候还没有识别错过。

      这是无人驾驶车现场的情况,左边的标识和右边的标识都被框出来了,并且被识别了出来。

      在交通问题上还有很多要识别的东西,车开在马路上需要知道要沿着哪条路走,我们也做了路面标识的识别,性能也是差不多的,也是这样的一个结果。

    我们对这张图进行识别,下面有识别结果。有了这样一个分析以后,车就知道应该往哪走,是不是违反交通规则。

      我们还做了手的识别,这张图上有一个手,我们知道是张开的手,我们以这个技术为核心做成了一个APP,这个APP有三个版本,一个是iPad上叫iFinger,iPhone上还有一个iFinger For Phone。特别简单的一个游戏,左边给你一个手的姿势,你的视频就在中间显示,一旦你做对了,这一关就PASS。谁来判断对不对?就是程序。这个程序不断的检测手并且识别手的姿势。有四五种姿势还是相当难做的。我们试过,只有一个人,我们管他叫超级手指王,他能做很多复杂动作,其他人都很难做到。

      我们实验室正在做的一个工作叫做Image Captions。就是给一张图像,算法用文字描述它。例如:对第二张图的描述是在火车站旁边的轨道上有一辆火车。这个工作不仅仅是识别物体,更要考虑物体之间的关系,我们去描述这个关系,而我们希望通过文字描述。我们训练的时候只是给一些图像,和对应的描述。

      看我们生成的这个结果,文字描述是:一只棕色的牛站在草地上。算法给这个描述的时候,知道哪个词大概会聚焦在什么地方。就象人观察一张图像时会有注意力,词的生成对应注意力的改变。

      当我们有了很多图像的时候,算法开始学习。它学到了什么?我们把一些名词拿出来black cat,他对应的图像块是这样的,看起来它还是学到了一些概念。比如说一个动词,Filled with,他表示的是这样的图像。

      描述动词,飞翔:flying,还有:laying,还有标识,红色。看起来它学习到了一些东西。从这样的结果来看应该是一件有意思的事,比目前做的工作又往前迈了一步。

      因为这次会议的主题是大数据,所以我再说几个大数据味道更浓一点的例子。这些例子不是我们做的,是当前计算机视觉领域里的几个工作。

      一个是超分辨率,超分辨率想做这样的事情:给一张特别小的图像,因为很多种原因想把它放大,你一拉伸,就出现了一个马赛克。大家觉得不好看,所以我们希望把细节填充进来,这就是用不同方法填充的结果,你会觉得这个不太好,这个更好一点。做这个事可以在大数据的背景下有一个新的思路。

      思路是这样的。我们在一些特殊的情况下,比如说天安门广场,或者巴黎圣母院、凯旋门,很多人都去拍照晒照片。当我们有了很多天安门的图像后,利用图像三维重构算法可以把整个天安门的三维结构构建出来,然后再把纹理贴上去。假如,你某一天去天安门广场拍一张照片,你当时的相机很糟糕,拍了一个模糊不清的照片。你去上传到网上,算法可以帮助你干这样一件事,把你这张图片和重构出来的天安门的模型做一个对应,然后把不清楚的细节填充回来。

      在今年CVPR2015年就有一个这样的工作。

      6天重建全世界。其基本的思路是差不多的。有一个非常大的图像数据库,就可以把很多的场景构建出来。文章说他们构建了卢浮宫、自由女神、凯旋门、罗马斗兽场等,为什么是六天呢?因为机算了5点七几天。

      除了目标识别以外,视觉研究中还有另外一个问题叫做图像解析,给了一张图片之后,算法给出这张图片每一部分代表的含义,这是天空、这是汽车、这是道路,这对于我们的理解非常有帮助。

      怎么完成这个任务呢?历史上有过各种各样的研究方法,我介绍这个工作是CVPR2009年的工作,当时获得了最佳学生论文。这个工作也是大数据的思路。作者说我们现在在互联网时代,我们有很好的搜索引擎,比如说百度、谷歌、必应,除了这些以外我们还有互联网上大量的人,他们可以给我们标注很多图像,告诉我们这个是车,这个是楼房。获得一张图像以后,首先对大量数据库检索,检索出类似的图像,用一种视觉的方法去匹配,匹配以后知道这是车,这儿是楼房。

      再一个例子是CVPR2015年的文章。作者要对图像数据库分析。例如我们搜集的都是和西红柿有关的图象。你能不能把它结构化,比如说把图像按照从生到熟排序,从新鲜到腐烂、霉变过程排序。这对于我们理解这些图像非常有帮助。

      最后再花两分钟说一下机器学习和大数据。大数据给机器学习提出很多的问题,包括噪声多、数据量大。特别是大规模数据给机器学习带来的挑战更厉害。所谓大规模,是大数据在机器学习上体现在三个方面:数据量大、维数高、求解的时候参数空间很大。对此机器学习传统方法都不适用。

      近八到十年,机器学习研究人员在想办法把算法变得非常快。有很多优秀的工作,我就不一一介绍了。

      谢谢大家!

      整理:刘博

      校对:付睿

      二校:闵黎

      编辑:yimi

      注:本稿件摘自数据观自媒体—数据派,转载请注明来源中国大数据产业观察网www.cbdio.com,微信搜索“数据观”获取更多大数据资讯。

    展开全文
  • 本文为智源论坛第 5 期机器学习系列报告会的要点回顾第二弹。7 月 10 日,清华大学自动化系教授张长水在智源论坛上同大家分享了其“关于小样本学习的一些思路”。作为国内机器学习领域的...

    本文为智源论坛第 5 期机器学习系列报告会的要点回顾第二弹。

    7 月 10 日,清华大学自动化系教授张长水在智源论坛上同大家分享了其“关于小样本学习的一些思路”。作为国内机器学习领域的前沿开拓者,张长水教授的专业方向包括机器学习、人工智能、模式识别、计算机视觉等,他不仅仅在学术领域取得了非常高的成就,同时也培养了一大批优秀的机器学习人才。2018 年,张长水博士因对“信号处理中的半监督学习”方面的贡献当选国际电气与电子工程师协会会士(IEEE Fellow)。目前在 TPAMI 等期刊担任编委(Associate Editor)。

    在此次分享中,张长水教授重点介绍了半监督学习在样本需求大、数据标注难的深度学习研究环境下的意义,包括其团队在解决计算机视觉问题中的一些机器学习方法,以及当前研究中存在问题的进展。更多细节回顾,参见以下正文部分。


    【获取完整版PDF+视频回放>>关注“北京智源人工智能研究院”微信公众号,回复“190710a”获取资料下载及在线视频播放链接。】

    众所周知,深度学习离不开样本。如果要用深度学习去学习一个目标分类器,就需要特别多的样本。以识别清华的“清”为例,常规操作是要收集关于“清”这个字的不同字体、倾斜和旋转情况,以及不同的噪声、背景、阴影——各种各样的字都要去学习才能得到很好的分类器。而样本多了,问题也就简单了。

    我们早在 2013 年便做过类似的工作,彼时深度学习刚在视觉研究领域得到认可不久,又恰逢团队于 2012 年接到了国家自然科学基金委员会一个关于交通标识识别的项目,其初衷是想支持一些团队的无人车研究工作。虽然车在机械层面的自动控制等问题的研究从 2008 年起的两三年内就陆续有了成果,但基金委方面认为还需要打造一个交通标识识别系统,让车辆在行进过程中“知道”道路前方有什么样的标识。

    当时用深度学习方法去研发交通标识识别系统的效果不错,单张图像识别率约为 99.5%。如下图右侧所示,我们在汽车的挡风玻璃上安装了摄像头,类似于现在的行车记录仪。但从车的角度来说却完全不能满足要求,因为这意味着一千张图像里就会有四五张分错。在一秒钟 24 张图像,一小时 3600 秒的实际情况面前,这样的误差显然不容忽视。

    前面说的是“单张图片”的情况,但若是在视频流过来之时,远处的标识就会随着走近逐渐变得很大很清晰,所以连续的一张一个交通标识会在视频里出现很多次,信息关联后错误率也不会太大,所以在参与“智能车未来挑战赛”时候的效果就非常好。然而由于这部分工作实际上和一些地图应用的功能重合了,所以基金委真正需要的是地图导航应用不能告诉我们的信息,特别是红绿灯。因此我们改道研究针对路上标识的识别,达到了 99.49% 的识别率。

    到这一步问题似乎已经解决了,然事实并非如此——标注数据依旧是负担大压力重,彼时没有公司支持的我们,只能在基金委的资金支持下自己想办法获取数据并标注,为此耗费了很长一段时间。

    近年来,机器学习领域一直不乏数据标注方面的研究,下图是在 12306 网站购买火车票的体验,其进入页面后用户验证的过程就是在做图像标注,这个方法叫 Crowdsourcing(众包)。而机器学习领域大约在九、十年就有类似的研究,即在众包的形式下如何做机器学习。

    这也是一个大家长期以来持续关注的难题,一方面是因为这个过程可能会有噪声;另一方面是获取数据本身就很难。以交通标识的识别为例,需要对每一张交通标识的各种表现进行收集,但像是“连续急转弯标识”这样的图像在数据里出现的次数特别少,数据获取也就相对比较困难——现实确乎给当前的我们提出了诸多难题。

    为了应对这些问题,在机器学习方面还有一项较早的研究工作——半监督学习,其大约在 1998 年走入研究人员的视野,关注度也自此不断上涨,并一直持续到 2010 年前后,其间各种各样的半监督学习类工作迭出。

    何为半监督学习?做机器学习时,如果有大量监督样本无疑能学得很好,但数据标注又很困难;非监督学习用到了很多未标注数据,我们学到的又不一定正确。而所谓半监督学习就是采此二者之长,运用一部分标注好的样本和大量没有标注的样本,一部分有监督一部无监督。

    如下所示,左上角的图是由各个样本点构成的,而该图即是他们之间的关系,所有黑色的点之间是没有标注的。当给定一个蓝色样本和红色样本时,凭借其标签沿着该图进行传播,最后到右下角,就可以给定所有样本标签,这就是半监督学习的一个例子。

    运用这个方法时会有这样的情况:构造一个目标函数,并通过不断迭代的方法给出一个解,最后这个解会收敛,收敛结果是上图中的最底下一行。这是我们团队早期在 2009 年左右的一项工作,借此我们了解到半监督学习一定会收敛,同时还分析了它和已有的流形学习之间存在的关系。

    半监督学习方法可以用于任何地方,与应用无关,但在视觉领域里半监督学习有一个特别好的应用,即交互式的图像分割。而图像分割工作又实属相当困难,在计算机视觉领域历经 40 余载研究但仍突破不大。

    分割之难,在于对同一个图像而言,人与人之间的需求不尽相同,根本不可能给出一个满足所有人要求的统一算法。当然从机器学习的角度来看,这就是聚类问题,但非监督学习永远无法保证其正确性,所以用上监督学习就能做得非常完美。

    图像分割的工作可以用下图来进行说明,假设需要将图中雕塑从图像分形里抠出来,看似比较困难,但在半监督情况下可以实现——在中间一排,用鼠标左键划线,告诉计算机这是想要的地方;用右键划蓝线,告诉计算机这是不想要的地方,然后进行分割。从机器学习的角度看这属于半监督学习,从视觉的角度看这是交互,交互是图像分割。


    再如右图所示,如果只需要保留前面的南瓜,而不要背景的南瓜,非监督学习就可以把这项工作做得非常完美。同理,非监督学习进行图像分割也适用于困难颇多的医学图像领域。


    在此基础上,图像分割在视觉领域中还有很多有趣的应用,例如要把两朵玫瑰进行分割并且改变其中一朵玫瑰的颜色,或是把草地上的动物抹掉进行背景填充,这都属于半监督学习的范畴。

    下面一个问题是多示例学习,其研究的问题如下图所示:假如要进行人脸检测,已知左边图像上有人脸,右边那张图像没有人脸,在这种情况下能否做好人脸检测呢?我们通常的做法是画出人脸的框架,并抠出来进行训练。但是这样做存在一定的难度,因为至少不同人脸框架的大小位置是不一样的,“人脸”本身就没有一个明确和清晰的唯一定义。


    对此我们有一个思路,就是给机器一个很弱的标签,即整张图像有人脸,但不告知具体位置,同时告知右边图像没有人脸。在这种情况下能不能做机器学习,这是我们关心的问题。人们称之为“多示例学习”,其含义是其中有很多例子,已知有的是人脸,有的不是,同时还有很多图像中一个人脸都没有,能否在这样的条件下做学习?

    类似的,假设我们有几个包,每个包里面有一个样本,现已知这里面每一个都含有我们要的样本,但下面还有一个包不是我要的样本,能不能根据已有信息把我要的样本找出来?这有点像做游戏,这样的问题有一个经典解法,即默认当我们把所有样本收集起来时,其在特征空间里会聚集在某些地方,密度最高的那些区域通常是我们要学的概念,在这个假设基础上就可以做学习。这个例子的本质是先建立一个目标函数,然后再对它进行求解。

    我们也做过一些多事例学习的工作,但现在很多人谈及深度学习就认为一定要把样本十分精准地标出来,其实不必如此。我们前三年还有一项工作工作,是对叶片上的病虫害进行监测,只要一批数据有病虫害,另一批没有病虫害,就可以据此找到病虫害区域,这就是用好多示例学习思想的一个实际案例,而且有趣的是,这一方法相当于成功跳过了最困难的数据标注环节。

    另一个与数据标注有关的问题叫 Active learning,其思路类似于给学生上课时不要按部就班地从头至尾一点点讲解,最好是先讲一个大概,然后询问学生没有听懂的地方,再就没听懂的地方细说。对应到 Active learning 中来看,就是当我们只有少量样本的时候,可以训练一个分类器,那么为了得到更多的标注样本,从而使得这个分类器性能更好,我们应该标注哪些样本?

    如上图所示,毫无疑问在整个图像中再给更多左下角和右上角的样本其实意义不大,都能猜到那个地方不是×就是⚪,而且信息很充足。其实最容易出错的地方是在分界线附近,这个方法告诉我们,如果要标样本,在分界线附近的那些地方是最有价值的,只消标少量样本就可以达到很高的学习准确率。该办法经证明可以迅速缩小解空间,继而很快集中到所要的那个解,且在解空间上每标一个样本,就相当于对整个解空间做划分。Active learning 实际上与学习范式有关,其与学习模型和学习方法相结合,是减少标注样本的一个高效方法。

    除此之外,还有 Multi-Label Learning。以下图为例,对于其中这张图像我们会有一个标注,这张标注可能是关于城市的,可能是汽车、楼房,也可能是道路、人、树。这些标签之间彼此关联(如下图右侧关系树所示),一张图像会用不同的标签,而我们则应充分利用这些标签之间的关系,从而使我们的预测结果更为准确——这就是“多标签学习”。


    另一项值得一提的工作叫 Co-Training,也颇有意义,其来源于 1998 年发布的一篇论文。彼时,一位 CMU 的老师发表提出要将教师网页和学生网页进行分类,这确乎可行,毕竟前者关心的是科研、经费、学生培养、上课等,而后者关心的则是课题、选课,游戏、电影等——二者的关注点不同。

    既然任务可行,我们又该如何处理?

    首先,我们可以考虑设计一个分类器,这个分类器仅根据内容进行分类,例如课程介绍、基金申请介绍、项目介绍,从中找出关键词做分类,以内容为重;另一个重要的分类指标是 link,即老师和学生关心的网页不同——学生可能会指向一些游戏,老师则可能会指向一些像是基金委、科技部这类的网站,所以也可以根据 link 来分类。但是 link 和内容之间孰重孰轻也不易权衡,因此很难放在一个空间里设计分类器。


    因此,就需将其分为两部分:先用内容设计一个分类器 C1,再用 link 设计一个分类器 C2。设计好后标一些样本,并用这些样本来训练第一个分类器,得到结果后用同样的样本去训练第二个分类器,就得到了两个分类器。此时还有很多没有标注的数据,用第一个分类器试一下这些没有标的网页,明确是“学生”还是“老师”,再转而用这些确认的数据训练 C2。同样也可以交换次序,先由 C2 确认然后再训练 C1——如此轮换操作,得以提升整个分类器 C1 和 C2 的性能。这项工作获得了 ICML 2008 的十年最佳论文奖,影响力不容小觑,也因其思路简单,颇受人们喜欢。

    此外,机器学习里还有一些其他的方法和工作,涉及到如何在有限样本的情况下提升学习的准确性,例如稀疏学习(Sparse Learning)、Low Rank 以及 Transfer Learning。其中,稀疏学习的思路是考虑到一些稀疏的特性,把一些稀疏优化的技术用到学习里,稀疏学习其实不只是用在机器学习里去减少标注量、提高准确率,还可以用在别的地方。

    2010 年前后,我们做了一项名为“图像分离”的工作,即“混叠图像分离”。如下所示,左边一列有三张图像,现将这几张图像混叠成中间第二列的三张图像,混叠的意思就是指两个图像的纯粹相加。当然,混叠时这几张图像之间会有位置上的差异,或者说混叠的系数不一样,也可能会有位置的不同,以及一些平移等变化。

    当初我们的设想是希望在只有中间这一列图像的情况下,能够得到左边这一列图像。这个问题在图像里难度非常高,人类能隐隐约约能感觉到一点不同图像的信息,却解决不了分离任务,于是我们就用到了稀疏性——考虑一个物体虽然在整个图像上到处都是,但是其边缘是很稀疏的,这是非常重要的信息,我们通过边缘的稀疏性去计算物体之间的关系,最后右边一列是我们反解出来的图像,和左边一列达成了非常好的对应。当然,混叠图像分离通常无法保证图像质量,但正确分离后能看出图像的大概即可。

    这个问题还不止于此,原则上,一张图像混叠的图像要多,否则可提供信息很少。换言之,可以混叠四五张图像,一般混叠图像越多恢复出来的可能性越大。除此之外,我们还可以通过这个方法来做欠定,即用四张图像混叠成两张图像,只有中间两张图像就可以把这四张图像也恢复出来。当然,中间图像越少,恢复出来的质量就会越没那么好,如下所示,底层图像的质量和最上排仍存在一定差距。


    在利用了稀疏特性后,会发现如果有类似下图树木花草这样的纹理图像,很难看到如汽车、飞机等物体图像那样的清晰边缘,还能否进行分离?答案是肯定的——我们对稀疏性要求没有那么高,如第一行两张图像混叠成第二行,最后我们把它分离成底部一行,仍然可以分离得很好。

    早前所有人做这个工作都是在合成问题上展开,也就是指给定上面两张清晰的图像,进行人为的混合,混合以后再把它分离出来。其原因有二,一是我们知道标准答案,清楚两张原始图像是什么样的;二是我们在混合时严格按照模型操作,比如线性叠加,而且难度已经足够了,所以没有人做真实图像测试。

    那么真实图像的操作又当如何?于是我们创造了这样的数据:

    假设我们面对一面玻璃,玻璃另一边有一个张贴画,我们在这里拍那个张贴画,所以拍的时候(如上左图),我们既可以看到张贴画的图案,同时也可以看到拍摄人自己的反光,所以这是一个很真实的图像,我们得到两张图像之后可以做分离。中间那一列用经典的方法做就完全做不到,用我们的方法就可以把这两张图像分离开,这是我们第一次在真实图像上尝试。

    这个现象其实在另外一个情况下也有可能出现,就是在电影电视中,一个镜头的淡出另外一个镜头的淡入,此二者也会混叠,这样的一些图像也可以用稀疏的方式进行分离,但这里并不是为了提高我们分类的准确性。

    以上就是在深度学习之前,机器学习对小样本问题做的事。进入深入学习以后,又出现了一些新办法。起初在 2013-2015 那几年,大家都热血沸腾地去办数据标注公司,结果发现难度很大,因此该领域近年来以另外一种形式出现——叫做 Few-shot Learning。它提出了一个比较有意思的范式,该范式告诉我们,以下图为例,前三行可以收集到大量的类别,比如对各种各样的树木、植物进行分类,但有时我们发现在某些类别我们只能得到有限的三五张图像,比如左下角这三类。而一个非常实际的问题在于,以后见到这三五类图像的时候我们能否识别好。


    针对这一问题,近几年有一些典型的工作:第一类是通过样本的生成完成工作,其做法是一些图像经过卷积神经网络后,到了特征空间,同时在特征空间做一些扰动,加一些噪声,生成各种各样的图像,使它的泛化性能更好;另外一类工作是当只有左下角那几张图像时,给每一张图像算一个圆心,即做一个平均,算完圆心以后如果新来一个样本 X,可以计算 X 领域内这三个圆形样本之间的距离,它与谁的距离近就分成哪一类,通过求解对新的 query 进行分类。该方法的好处在于适用于只有一个样本的场景,即所谓的 One-shot Learning。但是其效果也比较受限,因为它利用的信息太少,所以效果没那么好;还有一类方法叫“元学习”,其思路是将每一个分类项目当成不同的任务,同时研究这些分类任务之间的共同点,并希望通过这些学到的共同点在以后遇见新问题时,能够根据少量的样本做调整,从而实现对新的类别进行分类的目的——这便是眼下主流的三类思路,以下为详解:


    DualTriNet 实际上是对数据很少的类别做 feature-levelaugmentation,它由 EncoderTriNet 和 DecoderTriNet 组成,如上图所示。Encoder 的输入为 ResNet 关于一张输入图像的各层特征图,输出为该图像对应的语义向量,通过对该语义向量进行增广之后(增广的手段包括对语义向量加随机高斯噪声等),便形成了新的语义向量,该语义向量被认为是属于同类的其他图像的语义向量。通过 Decoder 网络对增广的语义向量进行反解码,形成各层的特征图,最后用原特征图和增广得到的特征图对 ResNet 进行充分训练。由于可以无限增广,所以可以达到增加训练数据量的效果。

    但是,在语义空间的构造过程中,这个算法需要用到额外的媒介信息,比如类别层面的 word2vec 或 attributevector 信息,以此来构建任务类别(包括训练类和测试类)之间新的语义关系,从而来指导语义向量的解码过程。

    本质上来说,基于数据增广的 few-shotlearning 方法并没有摆脱基于大量数据的学习框架,且增广得到的特征或数据并不能完全拟合真实数据的分布。


    Prototypicalnets 的主要思路是为每一类生成一个原型表征,这个表征可以通过对该类仅有的几个样本的 embedding 进行平均而得到,如果每一类只有一个训练样本,那该仅有的单样本的 embedding 自然就是该类的原型表征。

    对于测试样本,会计算该测试样本的 embedding 与每类原型表征点的距离,然后用 softmax 形式形成类别预测的概率分布,进而进行训练或预测。

    embedding 的生成过程通过一个 CNN 实现,整个网络的训练也借鉴了 matchingnetwork 提出的 episodictraining 策略。

    该方法的问题在于:embeddings 之间距离度量的选择会很大程度地影响算法性能,另外,当任务类别数量增加或单类样本增加时,不同类之间的 prototyperepresentation 区分度会有所降低,这种在 embedding 空间的最近邻分类策略将难以应付。


    MAML 算法是一种经典的基于元学习思路去解决 few-shotlearning 任务的算法。将每个 few-shotlearning 任务视为一个 task,那么 MAML 的思路是学一个兼顾众多独立 task 的模型参数初始值,以期能在新的 task 的几个样本上只需经过数步的 fine-tune 操作就能使模型在该任务上达到较好的泛化性能(如左上图,三个方向代表三个不同的 few-shotlearningtasks)。

    本质上,MAML 是寻找到了一些对 task 化敏感的参数,使得当梯度方向改变时,小的参数变动能够带来较大的损失函数变化,从这一点上增强模型对诸多小样本学习 tasks 的平均泛化能力。

    获取完整版PDF+视频回放>>关注“北京智源人工智能研究院”微信公众号,回复“190710a”获取资料下载及在线视频播放链接。

    【相关阅读】

    展开全文
  • &#13; &#13; &#13; &#13; &#13; &#13; &#13; 本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据...
        


    本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲。


    注:后台回复关键词“0427”,下载完整版PPT。


    演讲视频:

    视频时长约半个小时,建议使用wifi观看


    张长水:大家好,我来自清华大学自动化系,主要做机器学习和图像识别的研究。现在人工智能很流行,机器学习也推到风口浪尖上,图像识别已经变成产品,新闻媒体告诉我们AlphaGo、AlphaGo zero已经战胜了人类、皮肤癌的识别超过了大夫、无人车已经上路测试,很快要量产。这些新闻仿佛告诉我们,图像识别的问题已经解决了,然而很多高科技做图像识别公司都在高薪聘用掌握机器学习的人。图像识别问题解决了吗?我们看看现在图像识别还有些什么问题。




    一、大量数据


    现在做图像识别,要求有大量的数据。什么叫大量的数据?比如上图是在业界做图像识别的数据集,包含很多类别的图像,像飞机、鸟、猫、鹿、狗。对于一个物体,需要有不同的表现,需要有不同的外观在不同的环境下的表现,所以我们需要很多照片素材。


    尽管在我们领域里有很多大的数据集,但其实这些数据集远远不能满足我们的实用产品的要求。比如说我们看这样一个文字识别的例子。文字识别比一般的图像识别要简单,因为文字不涉及到三维,它只是一个平面的东西。



    二、大量的样本


    比如我们要识别清华大学的“清”,通常的做法是收集“清”的各种各样的图像,所谓各种各样的图像就是说要包括不同的字体,不同的光照,不同的背景噪声,不同的倾斜等,要想把“清”字识别好,就需要收集上很多这样的样本。那么这么做得困难是什么?


    三、困难



    1、样本的获取


    当我们应用于实际、设计产品的时候,就会发现不是每一种情况下都有那么多数据。所以,怎么获得丰富的数据是首要的问题。



    上图给大家展示的这一排图像是一个交通标志的识别任务。我们如果需要去识别路上的交通标志,就要在不同的环境下,不同的光照下,比如说早晨、中午、晚上,逆光还是背光,不同的视角,是否有遮挡,所有的因素都要考虑到,来采集数据。经验上每种标识收集上千张或者更多的图像,才能保证识别率到达实际应用的水平。


    我们的问题是什么?看第一张图像。第一张图是有连续急转的标志。这样的标志在城市很难见到,除非到山区。这个例子说明,图像获取本身就不容易。


    2、样本的标注



    我们现在的图像识别方法是基于标注的数据的,这叫做监督学习。图像标注就意味着把图像一张一张抠出来。如果我们开车穿梭在北京市大街小巷,但是交通标志并不是在视频的每一张图片上出现。如果我们需要把视频中交通标志如果都要标出来,需要花很多钱。做机器学习的人会关心我们能不能通过一些其他更廉价的方法去做数据标注,例如能不能通过一些众包的方式去做。在12306网站购买火车票,每次让我们勾出相对应的图像,这可以看做是在标注数据。但是众包标注数据也存在一些问题,就是每个人标的时候会不一样,有时会有错误。所以在机器学习中,有人关心在众包情况下、标注数据有错的时候,我们如何设计学习算法,使得它对错误的标注不敏感。这个事大概七八年前就开始研究,不断的有新的文章出现。



    当数据没有那么多的时候,怎么办?机器学习界遇到了这样的问题,就是小样本的数据学习。当样本不多的时候能不能达到和大数据量类似的识别效果?例如上图中只有几张狗的图片的时候,要识别狗,还能从哪里得到狗的信息?思路是从其他的图片中来,比如上边有有鸟,有猫,有鹿,它们的皮毛很像狗等等。换句话说,他从其他的丰富的图像中获取一些信息,把那些信息迁移到这个少量的数据上,从而能够实现对狗的识别。



    另外,图片数量是否能降到只有一张?比如清华大学的“清”,只有一个模板图像,是否能够把文字识别做好。更极端的例子,能不能做到一个样本都没有,也就是说,机器在没有见过狗的情况下,是否能把狗识别出来,这都是研究人员关心的事情。


    3、大数据量的训练


    有了很多的数据还需要对它进行训练,这通常需要花很长时间,需要配备高端的设备去训练。



    我们有了大量的数据怎么去做训练?可以采用GPU去做训练,这样可以达到特别快的速度。在这大的数据量上进行训练和学习的问题,叫做big learning。


    Big learning 关心是否有更快速的方法训练呢,需要一个月才能训练出来的问题,能不能在一天就训练出来;能不能用并行训练?如果数据不能一次存到硬盘里,这个时候怎么学习呢?这些就是企业和机器学习界都关心的事。



    除此之外,我们发现深度学习模型很容易被攻击。如上图左边是一只熊猫,我们已经训练好网络能够识别出这是一只熊猫。如果我在这张图像上加了一点点噪声,这个噪声在右图你几乎看不出来,我再把这个叠加后的图像给网络,它识别出来的不是熊猫,是别的东西。而且它以99.3%的信心说这不是熊猫,甚至你可以指定他是任何一个东西。这件事情的风险在什么地方?如果只是娱乐一下,也没什么大关系。但是如果把它用于军事或者金融后果就比较严重了。因此我们一直在关心这个问题怎么解决,就是希望算法能够抗攻击性强一点,但目前只是缓解而没有彻底解决。


    而且研究中会发现这个问题,相当于去研究分类器的泛化性能。泛化性能这件事在机器学习里是理论性很强的问题,是机器学习圈子里面非常少的一些人做的事情。换句话说,这个问题看起来很应用,其实它涉及了背后的一些很深理论。为什么会出现这样的情况?因为我们对深度学习这件事没有太好的理论去解释它,我们没有那么好的方法去把所有的问题解决。



    我们再说风险,图像识别中我们会把一个学习问题往往形式化一个优化问题,然后去优化这个函数,使这个函数最小。我们把这个函数叫做目标函数。有的时候我们会把这样的函数叫做损失函数,物体识别有错就带来损失。就是说在整个过程我们希望不要有太多的损失。其实,风险函数可能是更合适的词。因为你识别错了,其实是有风险的。一般来说目标函数对应于错误率,把狗识别成猫错了一张,把猫识别成狗又错了一张,都影响错误率,而错误率足以反映算法的性能。



    但是在不同的问题里,识别错误的风险是不一样的。比如我们做一个医学上的诊断,本来是正常人,你判别说他有癌症,这种错误就导致虚惊一场。还有一种情况是他患有恶性肿瘤,算法没有识别出来而导致了延误治疗。这样的错误风险就很大。因此我们在优化的时候,这个目标函数其实是应该把这样的决策错误和风险放到里面去,我的目标是优化这个风险。但是这件事往往是和应用、和我们的产品设计相关。所以不同的产品设计,它的决策风险不一样。所以我们在设计产品的时候,是要考虑。



    苹果宣称他们的人脸识别错误率是百万分之一,如果别人来冒充你去用这个手机是百万分之一的可能性,就是说,别人冒充你是很难的;但是人脸识别还有一种错误,就是:我自己用我的手机,没有识别出是我,这个错误率是10%。换句话说,你用十次就会有一次不过。在用手机这个问题上不明显,但是如果用于金融,这个事就有风险。我们设计产品的时候,你就要考虑风险在哪,我们怎么样使得整个风险最小,而不是只考虑其中一边的错误率。



    有公司会宣传说错误率可以降到百万分之一,让人误以为人脸识别的问题已经解决了,然而我们在CAPR、ICCA这样的学术会议上仍然能看到怎么去做文字的检测,怎么去做人脸识别的研究。换句话说这件事还没有到那么容易使用的地步。所以我们做图像识别的产品有风险,产品设计要考虑风险,我们做这件事就要考虑用技术的时候,用对地方很重要,用错地方就会很大的风险。


    机器学习是一个和应用紧密结合的学科,虽然有很多高大上的公式,其实都是面向应用,希望能解决实际问题。实际应用给我们提出很多需求,图像识别遇到的问题给我们提出了挑战。最后,感谢各位的聆听。   


    注:后台回复关键词“0427”,下载完整版PPT。


    张长水教授简介


    张长水清华-青岛数据科学研究院二维码安全技术研究中心主任智能技术与系统国家重点实验室学术委员会委员,清华大学自动化系教授、博士生导师,IEEE Fellow 。主要从事机器学习与人工智能、计算机视觉等研究工作。


    清华-青岛数据科学研究院二维码安全技术研究中心:

    中心成立于2017年4月25日,由张长水教授担任中心主任。中心致力于以核心技术研发为基础,为移动互联、移动支付和社会治理等领域提供二维码技术相关标准和应用解决方案。中心依托清华大学雄厚的科研实力和银河联动十余年研发积淀的二维码专利技术,目前在全球二维码技术研发领域具有领先地位。此次校企联合成立二维码安全技术研究中心,将进一步巩固和扩大清华在二维码技术上的领先优势,服务于产业发展、社会治理和国家安全。


    更多信息可了解数据科学研究院官网:

    http://www.ids.tsinghua.edu.cn/


    数据派曾独家发布过张老师的更多演讲干货,感兴趣的读者可以回顾了解:


    2017年10月14日的阿里云栖大会机器学习峰会专场上,张长水教授为大家带来“神经网络模型结构优化”的主题演讲,分享了神经网络模型结构优化的新办法,并解析实验过程、效果及应用案例。

    优化神经网络模型结构新方法 | 清华张长水云栖大会分享


    2015年11月26日张老师在RONGv2.0---图形图像处理与大数据技术论坛上所做的题为《机器学习与图像识别》的演讲,分享了关于机器学习和图像识别的研究及进展。

    干货 | 张长水:机器学习与图像识别


    校对:李君

    为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

    若您在阅读文章过程中发现任何错误,请在文末留言经小编确认后,数据派将向检举读者发8.8元红包

    同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

    感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。

    展开全文
  • 王生进教授、张长水教授、郑方教授、微软芮勇、搜狗王小川分别发言。学界泰斗与产业嘉宾精彩的演讲,碰撞出一大批关于人工智能过去、现在、未来的真知灼见。 图像识别是人工智能领域非常核心的一个课题。同时从研究...
  • Fellow,其中清华大学张长水、舒继武、孙宏斌、赵争鸣、周彤5人当选。 张长水教授简介: 张长水,清华-青岛数据科学研究院二维码安全技术研究中心主任,智能技术与系统国家重点实验室学术委员会...
  • 日前,全球最大的非营利专业技术学会IEEE(国际电气与电子工程师协会)公布了2018年度Fellow名单,中国大陆共有17位科学家当选新一届IEEE Fellow,其中清华大学张长水、舒继武、孙宏斌、赵争鸣、周彤5人当选。...
  • 张长水:图像识别与机器学习

    千次阅读 2016-09-28 08:55:51
    王生进教授、张长水教授、郑方教授、微软芮勇、搜狗王小川分别发言。学界泰斗与产业嘉宾精彩的演讲,碰撞出一大批关于人工智能过去、现在、未来的真知灼见。   本文内容选自 清华大学自动化系张长水教授...
  • 电子档讲义和作业 人工智能导论的实验 上课使用的电子档资料
  • 来源:专知 本文为论文,建议阅读5分钟本文综述了近年来在大间隔训练及其理论基础方面取得的进展。 本文综述了近年来在大间隔训练及其理论基础方面取得的进展,主要针对(非线性)深度神经网络...
  • 清华大学教授、IEEE Fellow 张长水等人广泛阅读和总结了自 21 世纪初到 2019 年的 300 余篇论文,写了一篇关于 FSL 的综述文章。 论文链接:https://arxiv.org/pdf/2009.02653.pdf 这篇综述文章回顾了 FSL 的演进...
  • 清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Multimedia Intelligence Group),朱文武,朱军,苏航,鲁继文,徐枫,刘烨斌,张钹,胡事民,刘永进,孙富春,王健民 ...
  • 教学委员会委员:赵千川,陈峰,石宗英,张佐,师丽,叶朝辉,刘连臣,任艳频,李力,赵虹,耿华,索津莉(未出席:张长水,叶昊,卓晴) 教学委员会顾问:王书宁,杨耕,钟宜生,王红,徐文立,萧德云,王雄,慕...
  • 张长水的ppt: 机器学习与图像识别:理论、应用,很好的内容,可以看下
  • 文章来源于极市平台,作者CV开发者都爱看的国内高校研究团队北京清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Multimedia...
  • 汇总|国内外优秀的计算机视觉团队

    千次阅读 2020-07-17 07:00:00
    点击上方“3D视觉工坊”,选择“星标”干货第一时间送达国内高校研究团队北京清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Mult...
  • ,,,张长水( ),丁贵广( ),,,, ,,, ,,, ,, , 北京大学:,,,( ),,,,,,,,,, 中科院大学:,, 中科院计算所:高文( ),,,,,,,, 中科院自动化所:tanh铁牛 ,李子青 ,,,...
  • 清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Multimedia Intelligence Group),朱文武,朱军,苏航,鲁继文,徐枫,刘烨斌,张钹,胡事民,刘永进,孙富春,王健民,季向阳...
  • 国内外计算机视觉领域优秀研究团队汇总国内高校研究团队1 北京2 哈尔滨3 大连4 天津5 西安6 南京7 上海8 杭州9 宁波10 合肥11 武汉12 长沙13 成都14 ...清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory
  • 国内外优秀的计算机视觉团队汇总

    千次阅读 2019-07-22 09:06:45
    清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Multimedia Intelligence Group),朱文武,朱军,苏航,鲁继文,徐枫,刘烨斌,张钹,胡事民,刘永进,孙富春,王健民 ...
  • 作者:潘争,格灵深瞳计算机视觉工程师,博士毕业于清华大学自动化系,师从智能技术与系统国家重点实验室副主任张长水。 偶然 · 必然我当时加入格灵深瞳是偶然,也是必然。#偶然# 我知道格灵...
  • 张长水:大数据时代的机器学习 VS 传统机器学习 从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确。数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战: 数据量大导致计算困难分布在...
  • 清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Multimedia Intelligence Group),朱文武,朱军,苏航,鲁继文,徐枫,刘烨斌,张钹,胡事民,刘永进,孙富春,王健民,季向阳...
  • 人工神经网络与模拟进化计算的第二版,这边书个人觉得是国内版本中非常好的,不像一些什么MATLAB神经网络之类的,...原本期待这边书的第三版,估计不会有了吧,估计阎平凡退休了,张长水搞模式识别与机器学习的。
  • 作者潘争,格灵深瞳计算机视觉工程师,清华大学自动化系博士,师从智能技术与系统国家重点实验室副主任张长水。深度学习(Deep Learning)这个词最近借着AlphaGO与李世石的人机大战又火了一把。深度学习其实是机器学习...
  • 来源:模式识别国家重点实验室作者:谭铁牛 中国科学院院士,中央政府驻港联络办副主任...会上请九位知名专家(谭铁牛院士、张钹院士、李海洲、徐波、李远清、唐杰、张长水、徐雷、刘成林)分别就学科不同方向的发展现

空空如也

空空如也

1 2
收藏数 40
精华内容 16
关键字:

张长水