精华内容
下载资源
问答
  • 简介:这是一本从概率的角度分析介绍机器学习的一本书,非常的经典,不过这本书的内容很难啃,需要有一定的基础,但是干货很多,豆瓣评分8.9。该书作者Kevin Murphy是谷歌总部研究科学家,在谷歌研究人工智能、机器...

    简介:

    这是一本从概率的角度分析介绍机器学习的一本书,非常的经典,不过这本书的内容很难啃,需要有一定的基础,但是干货很多,豆瓣评分8.9。

    c5e2b34723ebefbbbc17a48e913b15bc.png

    该书作者Kevin Murphy是谷歌总部研究科学家,在谷歌研究人工智能、机器学习、计算机视觉与自然语言理解。他于2011年加入谷歌,此前是加拿大温哥华英属哥伦比亚大学的计算机科学和统计学终生副教授。

    最近,作者公布了该书第二版的代码,有些还在进行中,代码可以直接在Google家的Golab中打开,下面是作者的话:

    I have created IPython notebooks for each of the chapters. When you open a notebook, there will be a button at the top that says 'Open in colab'. If you click on this, it will start a virtual machine (VM) instance on Google Cloud Platform (GCP), running Colab, which has all the libraries you will need (e.g., scikit-learn, tensorflow 2, PyTorch) pre-installed. Furthermore, this is free, so all you need is a web browser and an internet connection.

    If you select 'GPU' from the 'Runtime' menu at the top of Colab, many examples (especially those that use deep neural networks) will run much faster. The main limitation seems to be the 12GB memory limit. This should suffice for small experiments. For bigger jobs, you may need to buy cloud credit. Alternatively, you can run these notebooks locally on your desktop in Jupyter, but then you will have to install the packages yourself (see instructions below).

    下面是一些书评:

    099969bb13551d7d67287e8cc7e0bd5e.png


    2b9d519b4cfee163c4ddb60410f80be8.png

    需要代码的同学请查看原文,需要pdf文件的同学请私信小编微信,书本版权归原作者所有,该pdf仅供学习交流,请勿商用

    大致有下面的内容

    Foundations

    • Introduction

    • Linear algebra

    • Calculus

    • Probability

    • Information theory

    • Bayesian statistics

    • Frequentist statistics

    • Statistical models

    Algorithms

    • Optimization

    • Graphical model inference

    • Variational inference

    • Monte Carlo inference

    Models

    • Generalized linear models

    • Deep neural networks

    • Graphical models

    • Visible generative models

    • Latent generative models

    • Gaussian processes

    • Models for graphs, manifolds and clusters

    • Reinforcement learning

    【目录】

    Chapter 1: 引言 Introduction
    Chapter 2: 概率 Probability
    Chapter 3: 面向离散数据的生成式模型 Generative models for discrete data

    Chapter 4: 高斯模型 Gaussian models

    Chapter 5: 贝叶斯统计 Bayesian statistics
    Chapter 6: 频率统计 Frequentist statistics
    Chapter 7: 线性回归 Linear regression
    Chapter 8: 逻辑回归 Logistic regression
    Chapter 9: 广义线性模型和指数族 Generalized linear models and the exponential family

    Chapter 10: 有向图模型(贝叶斯网络) Directed graphical models (Bayes nets)
    Chapter 11: 混合模型与EM算法 Mixture models and the EM algorithm
    Chapter 12: 隐式线性模型 Latent linear models
    Chapter 13: 稀疏线性模型 Sparse linear models
    Chapter 14: 核方法 Kernels
    Chapter 15: 高斯过程 Gaussian processes

    Chapter 16: 自适应基函数模型 Adaptive basis function model

    Chapter 17: 马尔可夫模型和隐马尔可夫模型 Markov and hidden Markov Models
    Chapter 18: 状态空间模型 State space models
    Chapter 19: 无向图模型(马尔可夫随机域) Undirected graphical models (Markov random fields)

    Chapter 20: 图模型精准推断 Exact inference algorithms for graphical models
    Chapter 21: 变分推断 Variational inference
    Chapter 22: 更进变分推断 More variational inference
    Chapter 23: 蒙特卡洛推断 Monte Carlo inference algorithms
    Chapter 24: 马尔科夫链蒙特卡洛推断 MCMC inference algorithms
    Chapter 25: 聚类 Clustering
    Chapter 26: 图模型结构学习 Graphical model structure learning
    Chapter 27: 因变量 Latent variable models for discrete data
    Chapter 28: 深度学习 Deep learning

    ▼加入微信群,我们一起学习鸭~▼e3f0873701dff30d0e9ef84b4c595476.png7bea8025d9532f471c6d6ea726b45386.png嗨,你还在看吗?
    展开全文
  • 为了解决此限制,我们提出了一个新的分类器,称为随机子空间证据分类器(RSEC)。 具体而言,RSEC首先计算每个类的局部超平面距离,不仅作为整个特征空间的证据,而且还作为随机生成的特征子空间的证据。 然后,...
  • 其中拓扑结构包括开集,闭集,邻域,开核,闭包等等概念。 拓扑空间最为对象,连续映射作为态射构成了拓扑空间范畴: X是一个集合,O是一些X的子集构成的族,则(X,O)构成一个拓扑空间的充分必要条件: 1.空集和X...

    态射
    一种数学结构映射到另一种数学结构所使用的一种规则。

    拓扑空间
      是一个集合X和其上定义的拓扑结构τ组成的二元组(X,τ)。其中拓扑结构包括开集,闭集,邻域,开核,闭包等等子概念。
    拓扑空间最为对象,连续映射作为态射构成了拓扑空间范畴:
    X是一个集合,O是一些X的子集构成的族,则(X,O)构成一个拓扑空间的充分必要条件:
    1.空集和X属于O
    2.O中任意多个元素并集仍属于O
    3.O中任意多个元素的交仍属于O

    欧几里得空间:

    设V是实数域R上的线性空间,若V上定义着正定对称双线性型g(g称为内积),则V称为对于g的欧几里德空间。 具体来说,g是V上的二元实值函数,满足如下关系:
    (1)g(x,y)=g(y,x);
    (2)g(x+y,z)=g(x,z)+g(y,z);
    (3)g(kx,y)=kg(x,y);
    (4)g(x,x)>=0,而且g(x,x)=0当且仅当x=0时成立。
    这里x,y,z是V中任意向量,k是任意实数。
    例子:
    经典欧几里德空间E^n:在n维实向量空间R^n中定义内积(x,y)=x1y1+...+xnyn,则Rn为欧几里德空间。(事实上,任意一个n维欧几里德空间V等距同构于E^n。)

    酉空间

    设V是复数域C上的线性空间,若对于V中任意两个向量x、y都有唯一确定的负数内积(x,y)与它们相对应,且满足: 
    共轭对称性(x,y)=(y,x) ; 
    可加性(x+y,z)=(x,z)+(y,z); 
    齐次性(k x,y)=k(x,y),k为任意复数; 
    非负性(x,x)≥ 0,当且仅当x=0时有(x,x)= 0. 
    定义了内积的复线性空间V,叫复内积空间即酉空间(有限维或无限维)。

    凸函数

    f(x)在[a,b]上连续,在(a,b)内具有一阶和二阶导数,那么:

    若在(a,b)内,{f}''(x)>0,则f(x)在[a,b]上的图形是凹的;

    若在(a,b)内,{f}''(x)<0,则f(x)在[a,b]上的图形是凸的;

    也可知:{f}'(x)=0,{f}''(x)>0 则x为极小值点;{f}'(x)=0,{f}''(x)<0 则x为极大值点;{f}'(x)=0,{f}''(x)=0 则x为驻点。

    定义一个集合 C \subseteq R^{_{n}} ,则对于任意的x_i{\subseteq C}  。任意的\theta x+(1-\theta )y\subseteq C   0\leqslant \theta \leqslant 1 ,\sum \theta =1

    f(\theta x+(1-\theta )y)\leqslant \theta f(x)+(1-\theta )f(y) 则称为定义域上的凸函数。

    常见的凸函数包括:指数函数,幂函数,负对数函数-logx,负熵函数xlogx,范数函数||x||。

    标准场:

      仅用其大小就可以完整的表征的场,一个标量场U可以用一个标量函数u(x,y,z)来表示,令u=(x,y,z)=C,其中C是常数,则该表达式在几何上表示一个曲面,曲面上个点坐标不同但是函数值相等构成等值面,随着C的不同构成一系列不同的等值面,对于二维同理构成了很多的u(x,y)的等值线。

    标准场的方向导数

    p_{0}为标量场u=u(p)中的一点,从p_{0}出发引出一条射线l,在l上p_{0}点附近去一点P,记\underset{p_{0}p}{\rightarrow}=\Delta l,如果\xrightarrow[p\rightarrow p_{0}]{lim}  \frac{\Delta u}{\Delta l} =\frac{u(p)-u(p_{0})}{\Delta l}   方向导数是函数u(p)

    梯度算法:

    因为梯度的方向是f(x,y)变化最快的方向,所以沿着f(x,y)增长的梯度方向更能找到函数的最大值,沿着函数f(x,y)减小的方向更能找到函数的最小值。当求局部(全局)损失函数最大值时采用梯度上升的方法,当求解局部(全局)损失函数最小值时采用梯度上升的方法,当函数是凹凸函数的时候随机梯度法一定能够找到全局最优解,当函数不是凹凸函数时候很可能得到局部最优解。

    梯度下降算法参数更新公式:

    \theta \leftarrow \theta -\varepsilon \bigtriangledown J\left ( \theta \right )

    其中\varepsilon为每次迭代向梯度下降方向前进的步长,也成为学习系数。J(\theta)成为目标函数,根据目标函数的不同可以对梯度下降算法进行分类。批量梯度下降法(BGD)整个训练集参与计算,数据量较大,收敛速度较慢。随机梯度下降法(SGD)针对训练集中的一个训练样本进行计算,又称为在线学习,收敛速度块但是会出现目标函数值震荡现象,因为高频率的参数更新导致了高方差。小批量样本计算(MGD)选取训练集中一个小样本计算J(\theta),保证训练过程稳定,这是目前最常用的梯度下降算法。

    图解机器学习matlab源码解释:

    rand('state',0);randn('state',0); %指定状态s部分为0可以得到相同的操作结果

    n=50;N=1000;

    x=linspace(-3,3,n)';X=linspace(-3,3,N)';%x为训练样本,X为拟合x的测试样本集合

    pix=pi*x;y=sin(pix)./(pix)+0.1*x+0.05*randn(n,1);

    hh=2*0.3^2;

    t0=randn(n,1); e=0.1;

    for o=1:n*1000

    i=ceil(rand*n);%i取值为不大于括号内最大的整数

    ki=exp(-(x-x(i)).^2/hh);%精髓随机取样本(xi,yi)对样本xi进行全体样本升维,把ki变成一个(n*1)的向量

    t=t0-e*ki*(ki'*t0-y(i));%根据随机梯度下降的更新公式可以得到:\theta \leftarrow \theta -\varepsilon \bigtriangledown J_{i}(\theta ) ,\bigtriangledown J=\Phi ^{T }\Phi \theta -\Phi ^{T}y=k(k^{T}\theta -y);

    if norm(t-t0)<0.000001 break,end %norm函数在这里的意思表示求2范数

    t0=t;

    end

    K=exp(-(repmat(X.^2,1,n)+repmat(x.^2',N,1)-2*X*x')/hh); %X是准备拟合训练集样本点的测试集的横坐标,因为两个矩阵的规模不一样所以需要用repmat矩阵把两个矩阵化成可以进行k内积的形式,最后的形式为

    F=K*t;%F=\left [ k(X,x1)...k(X,x50) \right ]\left [ \theta 1...\theta 50 \right ]^{T} 其中X=\left [ X1...X1000 \right ]^{T}

    figure(1);clf;hold on;axis([-2.8 2.8 -0.5 1.2]);

    plot(X,F,'-g');plot(x,y,'bo');

     

     

     

     

    展开全文
  • 如今,深度学习在机器学习中占有非常重要的地位。但随着对深度学习的要求越来越多,需要的网络层数越来越深,参数越来越多,消耗的计算资源也随之扩张,而这很大程度上阻碍了其产业化应用和推广从上世纪 90 年代开始...

    机器之心分析师网络

    作者:张雨嘉

    编辑:H4O

    本篇对彩票假说的发展及其扩展应用做了分析研究。

    如今,深度学习在机器学习中占有非常重要的地位。但随着对深度学习的要求越来越多,需要的网络层数越来越深,参数越来越多,消耗的计算资源也随之扩张,而这很大程度上阻碍了其产业化应用和推广

    从上世纪 90 年代开始,Yan Lecun 等人【1】首先提出了神经网络剪枝的思想,即将网络中某些对输出结果贡献不大的参数进行剪除。这种方法可以大大提高模型运行速度,但同时会对模型准确度有一定影响。经过近 30 年的研究,现在的神经网络剪枝技术可以减少训练网络时 90% 以上的参数,以减少存储需求,提高模型的推理计算性能。通常的网络剪枝步骤如下图 1 所示,首先训练一个大的、过参数化的模型,然后根据一定的准则对训练过的模型参数进行修剪,最后将修剪过的模型微调以获得失去的精度。

    216b368639020d4375a7b97e43c84373.png

    图 1 经典网络剪枝步骤

    然而,既然一个网络可以缩小规模,为什么我们不直接训练这个较小的体系结构,使训练更有效率呢?但是人们通过长期实验发现,网络越稀疏,训练越难、学习速度越慢,所以剪枝产生的稀疏体系结构网络很难从一开始就进行训练。

    1. 提出「彩票假说」

    随着网络剪枝研究的深入,Jonathan Frankle 等人【2】发表了一篇名为《The Lottery Ticket Hypothesis :Finding Sparse Trainable Neural Networks》的论文,并获得了 2019 年 ICLR 最佳论文奖。他们发现了一种标准剪枝技术,可以从庞大的原网络中自然地揭示出子网络,并采用合适的初始化使它们能够有效地训练。这种可训练的子网络及其初始化参数被称为「中奖彩票」,作者用 Lenet、Conv-2、Conv-4、Conv-6 结构验证了「中奖彩票」(图 2 实线)的优势。横轴代表网络的稀疏性 Pm,例如 Pm=25 时 75% 的权值被修剪。中奖票可以较快进行训练,并达到与原网络相似的精度。

    384920ba2d20216b1ef46448421da26c.png

    图 2 不同网络剪枝结果

    基于此,作者提出了论文的核心思想——「彩票假说」。即随机初始化的密集神经网络包含一个初始化的子网络(winning ticket),当它进行隔离训练时可以与原始网络的测试精度相匹配。与理论相对应的剪枝方法可以自动从全连接和卷积前馈网络中找到这种可训练的子网络。其基本步骤为:

    • 随机初始化神经网络 f(x;θ)
    • 训练 j 次迭代网络,得出参数θj
    • 对θj 中参数的 p% 进行修剪,生成掩码。
    • 用θj 中的剩余参数初始化结构,产生中奖票。

    从第三步可以看出,这种剪枝方法是一次性(one-shot)的:训练一次网络,修剪 p% 的权重,重置剩余的权重。然而,作者将重点放在迭代(iteration)剪枝上(如图 3),它反复地训练、修剪并重置网络。实验发现,当与原始网络的精度相匹配时,迭代剪枝可以提取到较小的获胜票,但重复训练也意味着它们的查找成本很高。

    dbc1d2eeaac3100db47752a687807be6.png

    图 3 不同初始化和剪枝方法下的网络性能

    中奖票的初始化与中奖票结构同样重要,从左图可以看出,随机初始化的网络(Random Renit)比用原来网络初始化(Winning Ticket)的学习速度慢,在修剪率很小时就失去了测试精度

    作者在全连接网络 Lenet 上用 MNIST 数据集按迭代剪枝的方法进行训练,结果见图 4,绘制了训练中奖彩票迭代修剪到不同程度时的平均测试精度,label 为不同修剪程度。当 Pm>21.1 时,网络越修剪,学习速度变快(左图)。当 Pm<21.1 学习速度减慢(中图),当 Pm=3.6% 时,中奖彩票会回到原来网络相似的表现。大部分中奖票的准确率明显高于原始网络,这意味着中奖彩票的训练精度和测试精度之间的差距较小,泛化能力有所提高。

    fc59891827995cf87c5b81a3355e1bb0.png

    图 4 不同修剪率下的 Lenet 测试精度

    之后,作者还用 Cifar-10 数据集在卷积网络上进行了相同的实验,得到了与前面相同的结论。随着网络的修剪,中奖彩票与原始网络相比,学习速度更快,测试精度更高,泛化能力更强。同时证明了 Dropout——2012 年 Hinton 等人【3】提出通过随机禁用每次训练中的一小部分(即随机采样一个子网络)来提高测试精度——在中奖票的训练中同样适用。从图 5 中看出,Dropout 可以提高初始测试精度,但学习速度变慢。所以需要以互补的方式同时采用迭代剪枝策略与 Dropout,以更快找到中奖彩票。

    ad87f5b010724f835de4b776e38e77dc.png

    图 5 Dropout 对网络剪枝的影响

    最后,为了证明在更深层网络中中奖彩票的有效性,作者在 VGG 和 ResNet 网络中找寻中奖票。与前面以相同比例分别修剪每一层的 Lenet 和 Conv-2/4/6 不同,ResNet-18 和 VGG-19 是在所有卷积层中修剪贡献较低的权值(Global Pruning)。因为对于这些更深的网络,有些层的参数远多于其他层。如果所有层都以同样的比例修剪,这些较小的层就会成为瓶颈,阻止我们找出结构最小的中奖票。

    250d0309f1e734f282f832c954b15105.png

    图 6 不同学习率下的 VGG-19 剪枝

    不过从实验结果(图 6)发现,在较高的学习率下,迭代剪枝找不到中奖票,并且性能比剪枝网络随机初始化时更差。但在较低的学习率时,可以得出与之前相同的结论:在 Pm≥3.5 时,子网络比原网络的精度始终高 1%。如果随机重新初始化(rand reinit),子网络又会失去准确性。

    为了弥补学习率较高时中奖票低性能问题,作者提出了线性学习速率热身(warmup)方法,即在 k 次迭代中从学习率 0 到初始值。从图中绿线可以看出,warmup 提高了高学习率下的测试精度,使找到中奖彩票成为可能。不过在 ResNet 上的实验结果却说明,通过热身训练的中奖票虽然缩小了与未修剪网络的准确性差距,但仍有可能找不到中奖票。不过这些实验仍能给我们一些启发,比如如何设计更好的网络结构、进一步提高模型性能等。

    2. 假说争议探讨

    大胆的「彩票假说」理论一经发布,也引发了相关领域学者的注意。在 ICLR 上同年发表的另一篇名为《Rethinking the Value of Network Pruning》【4】的论文中,Liu 等人对「彩票假说」进行了重新实验并提出了异议。

    Liu 与 Jonathan Frankle使用相同的非结构化剪枝方法时,高学习率下的原网络初始化对网络剪枝没有显著影响,只在低学习率下对模型有些许提高(图 7)。但 Facebook 的田渊栋团队在论文《One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers》【5】中也指出 warmup 对高学习率下的网络剪枝是非常必要的,而 Liu 等人在实验中并没有实现。

    e4d208671c78ef2496a8d4fed12d4227.png

    图 7 不同学习率和初始化下网络剪枝性能

    并且对于随机初始化的问题,Liu 也进行了进一步研究(图 8)。中奖票只在非结构化剪枝下、初始学习率较小时有效,其余时候不如随机初始化的性能好。而且与大学习率相比,这种小学习率的准确性明显较低。不过这组实验只考虑了 One-shot 方法,至于在迭代剪枝上是否有相同结论还有待探讨。

    964754b953df3a764226d2f837b26d23.png

    图 8 一次剪枝下的网络性能

    3. 扩充并改进「彩票假说」

    论文链接:https//arxiv.org/pdf/1903.01611.pdf

    「彩票假说」最被人质疑的地方在于数据集,实验只采用了 MNIST 和 Cifar-10 这种较小的简单数据集,而对更普遍的 Cifar-100 和 ImageNet 数据集并没有进行研究。不过,Jonathan Frankle 和田渊栋等人很快都进行了实验补充。

    Jonathan Frankle 在《Stabilizing the Lottery Ticket Hypothesis》【6】中对「彩票假说」进行了更深层次的研究。为了证明新的迭代剪枝方法(IMP)在大数据集的有效性,图 9 显示了在 ImageNet 数据集上执行不同代 rewinding 方法的效果。rewinding 是对剪枝网络初始化的一种新方法,将修剪过的子网络权重设为第 k 次迭代时的值,而不是像「彩票假说」中一样将它们 resetting 为第 0 次迭代的值。

    9dc774555e9bac00375d246a0eb0a83f.png

    图 9 rewind 对中奖彩票的影响

    在这些大数据集支撑的更深层次的网络上的实验,IMP 没有任何证据支持 Frankle 和 Carbin 在「彩票假说」里的假设:rewind to 0 比随机初始化(reinit)时能找到能力更好的子网络。但是,rewinding 在训练开始的几代内,可以找到具有这些优良性能的子网络。

    从图 9 也能看出,当随机重新初始化(橙色线)或重置为 0 次迭代(虚线蓝线)时,任何程度修剪的子网络都会失去准确性,这说明 rewind 得到的权重是必不可少的。之后作者又引入了子网络稳定性概念:同一子网络受到两个不同噪音影响时产生的差异。提高剪枝的稳定性意味着子网络更接近原始网络的最优情况,从而具有更高的准确性。而稳定性的衡量来源于两方面:pruning,隔离训练的子网络权重与在较大网络内训练的同一子网络权重之间的距离;data order,用不同顺序的数据训练的子网络权重之间的距离。

    16599e290d38a23c04a7f45dfeb3519e.png

    图 10 网络稳定性比较

    图 10 中,在 VGG19 网络上对 rewinding 对剪枝网络稳定性影响的实验中,横轴为 rewinding 重设迭代的次数,procedure 为「彩票假说」中寻找中奖票的迭代剪枝(IMP)方法,random 则为随机剪枝方法。第一行为 data order 距离,第二行为 pruning 距离。而 L2 距离是衡量稳定方法的一种,距离越小,网络越稳定,性能越好。随着 rewinding 次数增加,L2 距离大多减小,IMP 子网络的稳定性与重设为 0 次迭代时的稳定性相比有了很大的提高。从第三行的实验中,也可证明 IMP 发现的中奖票比随机子网络表现出更高的准确性。

    总之,IMP 子网络比 one-shot 方法更加稳定,可以达到更高的精度。Rewinding 比初始化为 0 代权值的方法找到的子网络准确率更高。但「彩票假说」的核心思想依旧适用——在网络训练的早期进行剪枝;然而,这样做最有效的时刻应该晚于初始化。

    而田渊栋则从另一个方面证明了「彩票假说」在大数据上的有效性。他们用在一个数据集上生成的中奖票推广到同一领域内的不同数据集上,包括 Fashion-MNIST,SVHN,Cifar-10,Cifar-100,ImageNet 和 Places365 数据集。从图 11 的对比试验中发现,在所有数据集上找到的中奖票应用于其他目标数据集上时,其性能与在目标数据集上生成的中奖彩票性能相近。这表明,中奖票所提供的优势中有很大一部分是与数据集无关的(至少在同一领域内)。我们可以生成一次中奖票,但在不同的任务中多次使用,这样可以大大减少寻找中奖票的时间。

    76984e682960b89f951191d121df428f.png

    图 11 中奖彩票转移实验

    而且在更大、更复杂数据集上生成的中奖票性能远远优于小数据集。例如在 ImageNet 和 Places365 数据集上生成的中奖票应用于其他数据集上时,都具有更强的竞争力。当大网络非常过度参数化地处理小数据集时,比如将 VGG19 应用于 Fashion-MNIST 时,发现转移中奖票的性能明显优于在 Fashion-MNIST 本身产生的中奖票,这也为我们提供了另一种处理网络过拟合的方法。

    4. 假说的多领域应用

    论文链接:https://arxiv.org/pdf/1906.02768.pdf

    另有一些学者又提出了质疑:中奖彩票是否为自然图像分类领域出现的特例,还是同样适用于其他领域?Facebook 的田渊栋团队在 2020 年 ICLR 上发布的论文《PLAYING THE LOTTERY WITH REWARDS AND MULTIPLE LANGUAGES: LOTTERY TICKETS IN RL AND NLP》【7】可能能解答这一疑惑。

    他们发现「彩票假说」并不局限于对自然图像的监督学习,而是代表了 DNN 中一个更广泛的现象,存在于自然语言处理 (NLP) 和强化学习 (RL) 领域。对于 NLP,我们研究了经典的长短期记忆网络(LSTM)模型和用于机器翻译的 Transformer 模型;在 RL 领域则分析了一个经典控制问题和 Atari 游戏。

    首先,在 Wikitext-2 数据集上对 LSTM 模型的实验中发现,在所有修剪程度上,有 last rewind(即 lr)的中奖票性能明显优于随机票(图 12)。有趣的是,去除 lr(绿色线)对模型性能只有轻微的损坏。这表明对于 LSTM 语言模型来说,lr 方法不太重要。但是迭代修剪是必不可少的,比如使用一次修剪方法(one-shot)时,一旦 80% 的参数被修剪模型性能会急剧下降。这些结果共同验证了中奖彩票在 LSTM 语言模型的有效性。

    5a2f49344e69eee3b2057735c1ae9a1d.png

    图 12 LSTM 模型实验

    另外在强化学习的应用中,作者在经典控制中选择了三个游戏:Cartpole-v0、Acrobot-v1 和 Lunar Lander-v2,并使用了一个简单三隐层的全连接模型。结论则与图像分类的结果一致(图 13),几乎在所有剪枝程度上,中奖票的得分都超过随机初始化的网络。

    4daa675ce36e67b1c187f29e3b90b1a6.png

    图 13 RL 控制模型实验

    因此,田渊栋团队认为,彩票假说现象并不局限于有监督的图像分类,而是代表了深层神经网络训练的一般特征。但 Frankle 等人也提出,「彩票假说」的 IMP 方法没有提出一种有效方法来在 rewinding 中找到那些性能优异子网络(即中奖票)。而且采用的核心剪枝技术是非结构化的,与结构化剪枝没有进行有效对比。

    不过,大胆的「彩票假说」确实为网络的早期剪枝提供了新视角和方法。暗示了未来技术以识别小的、可训练的子网络,并能够匹配通常训练的较大网络的准确性为目标。通过网络稳定性的研究,对人们开发新的技术来保持网络剪枝时的稳定性有所益处。未来,也希望该理论可以在更深层次的网络中有所表现,在更多的领域有所贡献。

    参考文献

    【1】Yann LeCun, John S Denker, and Sara A Solla. Optimal brain damage. In Advances in neural information processing systems, pp. 598–605, 1990.
    【2】Jonathan Frankle and Michael Carbin. The lottery ticket hypothesis: Finding sparse, trainable neural networks. In International Conference on Learning Representations, 2019.
    【3】Geoffrey E Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan R Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
    【4】Zhuang Liu, Mingjie Sun, Tinghui Zhou, Gao Huang, and Trevor Darrell. Rethinking the value of network pruning. In International Conference on Learning Representations, 2019.
    【5】Morcos, Ari, et al. One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers. Advances in Neural Information Processing Systems. 2019.
    【6】Frankle, Jonathan, et al. "Stabilizing the Lottery Ticket Hypothesis." arXiv, page.2019.
    【7】Yu, Haonan, et al. Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP. arXiv preprint arXiv:1906.02768, 2019

    分析师简介:张雨嘉,现在西安理工大学攻读模式识别方面的硕士学位,主要研究基于深度学习的图像视频处理方法,对机器学习也抱有极大的兴趣。作为机器之心技术分析师的一员,希望能跟各位一起研究探讨,共同提高学习。

    关于机器之心全球分析师网络 Synced Global Analyst Network

    机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里,已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家,利用自己的学业工作之余的闲暇时间,通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识,并从中获得了自身的能力成长、经验积累及职业发展。

    展开全文
  • 随机森林(Random forests)或随机决策森林(Random decision ...随机决策森林修正了决策树过度适应训练集的习惯随机决策森林的第一个算法是由Tin Kam Ho使用随机子空间方法创建的,在Ho的公式中,这是一种实现由...

    随机森林(Random forests)或随机决策森林(Random decision forests)是一种用于分类、回归和其他任务的集成学习方法,通过在训练时构建大量决策树并输出作为单个树的类(分类)或平均预测(回归)模式的类(class)来操作。随机决策森林修正了决策树过度适应训练集的习惯

    随机决策森林的第一个算法是由Tin Kam Ho使用随机子空间方法创建的,在Ho的公式中,这是一种实现由Eugene Kleinberg提出的“stochastic discrimination”分类方法的方法。

    该算法的一个扩展是由Leo Breiman和Adele Cutler开发的,“随机森林”是他们的商标。该扩展整合了Breiman的“bagging”(bagging)思想和随机选择的特征,首先由Ho引入,随后由Amit和Geman独立引入,以构建具有受控变化的决策树的集合。

    Esemoble learning 是决策树分类的一个版本,您可以在不同时间采用多种算法并将它们组合在一起以制作更强大的功能。在RF中,我们从训练集中获取数据点,并构建与这些数据点相关的决策树,观察的子集,并选择我们想要构建或建模的N个树,并为每个新数据点迭代此过程。预测Y.RF可以显着提高我们预测的准确性,因为我们的数据集中的任何变化都只会影响很少的树,因此并非所有树都会受到影响。这让我想起的是游戏中我们有一个装有许多气球的罐子,我们必须猜测罐子里有多少个气球。最好的方法是不要单独猜测这个数字,

    要在Python中实现RF,我们需要通过sklearn.ensemble库和RandomForestRegressor类创建我们的回归器,并创建对象并将其应用于我们指定我们想要在林中拥有的树数的功能矩阵。Python代码如下:# Data Preprocessing

    # Importing the Library

    import numpy as np

    import matplotlib.pyplot as plt

    import pandas as pd

    # Importing the dataset

    dataset= pd.read_csv('Data.csv')

    X = dataset.iloc[: , 1:2].values

    Y = dataset.iloc[: , 2].values

    # Fitting Random Forest Regression model to the data set

    from sklearn.resemble import RandomForestRegressor

    regressor = RandomForestRegressor(n_estimators = 300, random_state = 0)

    regressor.fit(X, y)

    # Predicting a new result

    y_pred = regressor.predict(6.5)

    # Visualising the Decision Tree Regression results

    X_grid = np.arange(min(X), max(X), 0.1)

    X_grid = X_grid.reshape((len(X_grid), 1))

    plt.scatter(X, y, color = 'red')

    plt.plot(X, regressor.predict(X_grid), color = 'blue')

    plt.title('Truth or Bluff (Random Forest Regression)')

    plt.xlabel('Position level')

    plt.ylabel('Salary')

    plt.show()

    展开全文
  • 树基模型适合用于集成,主要是因为他们对于训练数据中的变换特别灵敏,使用控件抽样(subspace sampling)的树状模型会非常...随机森林对对实例空间的分裂式森林中每棵树各自分裂的交集,这种方式要比任何一个树单独...
  • 关注:决策智能与机器学习,深耕AI脱水干货作者 |Lee Schlenker译者 | Sambodhi策划| 李冬梅来源| AI前线近年来,机器学习取得了巨大的成功,这些成功得益于机器学习算法的不断优化,例如深度神经网络。深度神经网络...
  • 新智元推荐来源:专知整理编辑:张佳【新智元导读】最近,人工智能和机器学习领域的国际顶级会议ICLR 2020刚刚截止submission不久,大会共收到近2600篇投稿,相比ICLR 2019的1580篇论文投稿,今年增幅约为62.5%,...
  • Pasting2.1 包外评估2.2 Random Patches 和 随机子空间3. 随机森林3.1 极端随机树3.2 特征重要性参考资料 相关文章: 机器学习 | 目录 监督学习 | 决策树原理及Python实现 监督学习 | 决策树之Sklearn实现 ...
  • 文章目录集成学习和随机森林集成1 投票分类器1.1 硬(hard)投票1.2 软(soft)投票2 bagging 和 pastingScikit-Learn 的 bagging 和 pasting3 包外评估4 Random Patches 和随机子空间5 随机森林极端随机树6 特征...
  • 机器学习相关概念机器学习相关概念 线性代数 张量 生成子空间 范数 特征分解 奇异值分解SVD Moore-Penrose 伪逆 迹运算 概率与信息论 概率 随机变量 概率分布 边缘概率 条件概率 条件概率链式法则 条件独立与独立性 ...
  • [Hands On ML] 7. 集成学习随机森林

    千次阅读 2020-07-21 08:26:42
    随机贴片与随机子空间5. 随机森林6. 极端随机树 Extra-Trees7. 特征重要程度8. 提升方法8.1 AdaBoost8.2 梯度提升 本文为《机器学习实战:基于Scikit-Learn和TensorFlow》的读书笔记。 中文翻译参考 《统计学习方法...
  • 机器学习和量化投资

    千次阅读 2019-05-30 14:47:46
    70%训练,15%验证,15%测试 利用 cross validation ,寻找合适的超参数 使用遗传算法选择合适的输入特征,定义fitness函数,选择R2最大的属性 ...riage是L2,参数空间是圆形,lasso是L1,参数空间是矩...
  • opencv机器学习 1.训练集与测试集 2. 监督数据与无监督数据 3.生成模型和判别模型 4.机器学习算法 Mahalanobis 通过除以协方差来对数据空间进行变换,然后再计算距离 K均值 非监督的聚类方法 正态/朴素贝叶斯分类器...
  • Random Forests 随机森林或随机决策森林是用于分类,回归和其他任务的集成...随机决策森林的第一个算法是由Tin Kam Ho 使用随机子空间方法创建的,在Tin Kam Ho的公式中,这是一种实现Eugene Kleinberg提出的“随机...
  • 浅谈随机森林在人脸对齐上的应用~

    千次阅读 热门讨论 2015-04-22 23:15:58
    随机森林在机器学习中的应用十分广泛,它属于非传统的机器学习算法,其他的诸如神经网络,MRF,Adaboost,乃至现在大名鼎鼎的深度学习,越来越取代了传统机器学习算法,如子空间学习,流程学习等的地位。果不其然,...
  • NAS 综述 AutoML(automated machine learning)是模型选择、特征抽取和超参数调优的... 机器学习最耗费人力的是数据清洗和模型调参,而一般在模型设计时超参数的取值无规律可言,而将这部分过程自动化可以使机器学...
  • 假设在一个机器学习问题中,我们有NNN个样本,每个样本有nnn个feature,但是nnn非常大,直接用这么多feature训练模型不但浪费算力而且影响模型精度,所以我们想做一个随机投影PPP,把这组nnn维的feature投影到一个...
  • 文章目录深度学习第一章 前言第一部分 应用数学与机器学习基础第二章 线性代数2.1 标量,向量,矩阵和张量2.2 矩阵和向量相乘2.3 单位矩阵和逆矩阵2.4 线性相关和生成子空间2.5 范数2.6 特殊类型的矩阵和向量2.7 ...
  • 地址0~7FFFH的32KB空间为主随机存储器的地址空间; 地址8000H~9FFFH的8KB空间为显存地址空间; 地址A000H~FFFFH的24KB空间为各个ROM的地址空间。 1.15 内存地址空间 不同的计算机系统的内存地址空间分配情况是不同的...
  • 涉及高维空间、最佳拟合子空间和奇异值分解( SVD )、随机游走和马尔可夫链、机器学习、海量数据问题相关的算法:Streaming,Sketching,Sampling、聚类、Random Graph、主题模型、非负矩阵分解、隐马尔可夫模型和...
  • 微软研究院新版书籍《数据科学基础》PS:本书为纯英文~~其次本书学习需要有一定的基础内容如下:简介高维空间最佳拟合子空间和奇异值分解(SVD)随机游走和马尔科夫链机器学习面向海量数据问题的算法...
  • 机器学习问题 随机森林和决策树怎么操作 深度学习mask rcnn 算法题 1)找到输入数组a中最短的数组,使数组的和大于n,输出这个数组的长度。 时间要求O(n) 2)在一个整数数组中,找到第一个缺失的正整数...
  • 文章目录SiameRPNVGG16RPNEAOVOT简介AccuracyRobustnessVOT2013VOT2014VOT...空间兴趣点主方向获得SURF描述快速索引匹配光流运动模型变换矩阵RANSAC滤波卡尔曼滤波项目简化的KL机器学习线性回归SVM随机森林代码Kera

空空如也

空空如也

1 2 3
收藏数 47
精华内容 18
关键字:

机器学习随机子空间