精华内容
下载资源
问答
  • theory信息论机器学习 我们考虑一下一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要...
     
    
    我们考虑一下一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多。 
    所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来建模信息量h(x).那什么函数模型适合表达呢? 
    我们观察两个相互独立的事件x,y,我们观察它得到的信息量,要和单独观察他们得到的信息量之和相等。即 
    h(x,y) = h(x) + h(y) 
    而两个独立的时间x,y的概率关系: 
    p(x,y) = p(x) p(y) 
    基于上面的观察,信息量必须和p(x)的log函数相关。 
    所以我们得到: 
     
    加上负号,可以保证信息量大于等于0。注意一个小概率事件,具有更高的信息量。 
    log的底数选择并没有限制。信息论中大多都采用2,传输这些信息量需要的2进制位数。 

    如果我们想传输这个随机变量的值,我们传输的平均信息量,可以表示为关于分布 
    p(x)的期望: 
     
    这个表达式被称为信息熵。 

    在机器学习中,采用比较多的是自然对数形式, 
    这样 
     

    对x=0的情况,由于 
     
    所以我们让p(x)ln(x) = 0 

    如果对这些信息进行编码传输,我们希望概率大的使用较长的编码,概率小的我们采用较长的编码。最大熵能够达到最小长度的编码,关于熵和最短编码长度的关系,可以参考shannon的Noiseless coding theorem。 

    熵用来描述指定随机变量的状态,所需要的平均信息。 
    如果我们想最大化熵,我们利用拉格朗日乘子: 
     
    我们可以得  
    取得最大值,其中M是x状态数。 

    如果我们有一个联合分布p(x,y),如果x已经知道,那么指定y的值还需要的信息量, 
    可以通过-ln p(y|x)来描述,所以平均还需要的信息量,可以表示为: 
     
    被称为条件熵。我们利用乘法规则,可以得到: 
     

    相对熵和互信息: 
    考虑一个未知的分布p(x),假设我们使用了一个近似的分布q(x)来建模它, 
    如果我们使用q(x)来构建一个编码模式,用来传输x的值。那么额外需要多指定的信息: 
     
    这个式子被称为相对熵或者Kullback-Leibler divergence 
    相对熵描述了p(x)和q(x)两个分布的差异程度。注意: 
     

    我们考虑联合分布p(x,y),如果x,y相互独立,那么p(x,y)=p(x)p(y) 
    如果他们不相互独立,那么我们想知道他们的相关程度,我们可以使用KL divergence来度量: 
     
    这个表达式被称为变量x,y的互信息。从KL divergence的属性我们知道I(x,y)>= 0 
    当且仅当x和y相互独立时,等号成立。 
    我们使用加法和乘法规则得到互信息是相对于条件熵的: 
    展开全文
  • 信息论机器学习

    2017-03-08 09:59:30
    信息论机器学习
  • 信息论及其与机器学习的关系
  • 机器学习信息论基础

    千次阅读 2018-01-22 14:06:15
    信息论是应用数学的一个分支,主要研究的是对一个信号能够提供信息的多少进行量化,最初用于研究在一个含有噪声的信道上用离散的字母表来发送消息,指导最优的通信编码等,从这个角度看信息熵是求在最优编码时,最短...

    这里写图片描述

    科学真理最重要的是两点,一是能量,二是信息。一是通过爱因斯坦的 E = m c 2 E=mc^{2} E=mc2,物质和能量其实是一回事,另外如何描写和衡量信息则是更重要的,爱因斯坦本人曾经说过随着时间的改变质量方程可能会错,而这个信息方程却绝对不会,shannon。

    信息论是应用数学的一个分支,主要研究的是对一个信号能够提供信息的多少进行量化,最初用于研究在一个含有噪声的信道上用离散的字母表来发送消息,指导最优的通信编码等。

    • 熵是英文是entropy,来自于热力学,表示系统在不受外部干扰时,其内在最稳定的状态,由于entropy是能量Q和温度T的商,又与火有关,就被翻译为了熵。温度可以看作是让例子有序化的能量,而熵可以看作是“无序化”的度量。”*

    那么如何度量这种无序性?能得到某个确定的值方便比较吗?
    关于信息一个基本想法是一个不太可能的事情竟然发生了要比一个非常可能的事件的发生能提供更多的信息,也就是说导致那些“异常”事件发生的背后拥有着我们更想知道的东西,比如说“我每天都要吃饭”和“我每天都不吃饭”,哪个更有意思?再比如每天太阳都照常升起,抛一枚硬币,如果每次都是同一面朝上,完全可以预知它下一次出现的图案,那么还有意思吗,它的出现有值得我们更加关注的理由吗?所以以此来量化信息的不确定性就得满足

    1.常见的,非常可能发生的事它的信息量要少,但非负
    2.单调性,越不可能发生的事件信息量应该越多
    3.独立事件应该具有增量的性质,即二个硬币结果的信息量应该是一个的两倍
    

    于是为了满足上述各条件就产生了自信息(self-information): I ( x ) = − l o g P ( x ) I(x)=-logP(x) Ix=logPx
    这个公式完美的符合了所有的要求,能够度量这样单个变量发生的不确定性。

    信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。即描述的是有关事件 X X X的所有可能结果的自信息期望值 H ( X ) = − ∑ i = 1 n p i l o g p i H(X) = -\sum\limits_{i=1}^{n}p_i logp_i H(X)=i=1npilogpi
    其中n代表事件 X X X的所有n种可能的取值, p i p_i pi代表了事件X为i时的概率,log为以2或者e为底或者其他但影响不大,不同底数的对数之间的区别只存在一个常数的关系,但是如果使用 log2 作为底,那么熵可以更容易被理解为编码所有信息所需要的最小位数(minimum numbers of bits) 。

    这里写图片描述

    跟熵(entropy)类似,交叉熵用于比较,衡量两个事件X,Y的概率分布,经常做损失函数使用。从信息压缩的角度来看,它代表着每个词(X,真实分布)平均要用几个位(Y,非真实分布)来编码,即计算 log(X) 在概率Y 下的期望: H ( X , Y ) = E p [ − l o g ( Y ) ] = − ∑ i = 1 n p ( x i , y i ) l o g p ( x i , y i ) H(X,Y) =E_p[-log(Y)]= -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(x_i,y_i) H(X,Y)=Ep[log(Y)]=i=1np(xi,yi)logp(xi,yi)

    KL散度(Kullback-Leible Divergence ,相对熵)
    KL是另一个用来衡量分布相似度的量,即从分布p到分布q的 KL 散度为它们之间的变化所带来的信息增益,而不是“距离”(KL散度不具有交换性,衡量不是空间而是两个分布间的信息损失):
    D K L ( p ∣ ∣ q ) = E [ log ⁡ p ( x ) − log ⁡ ( q ( x ) ] = ∑ i = 1 N p ( x i ) ⋅ ( log ⁡ p ( x i ) − log ⁡ q ( x i ) ) D_{KL}(p||q)=E[\log{p(x)}-\log{(q(x)}]=\sum_{i=1}^Np(x_i)\cdot(\log{p(x_i)}-\log{q(x_i)}) DKL(pq)=E[logp(x)log(q(x)]=i=1Np(xi)(logp(xi)logq(xi))
    直观上KL散度就是求p和q之间的对数差在p上的期望。
    而且 D K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D_{KL}(p||q)=H(p,q)-H(p) DKL(pq)=HpqHp,相当于交叉熵的值等于KL 散度加上一项信息熵,那么在最小化交叉熵时,H(x)就可视为一个常量而可以被省略,交叉熵就直接等价于 了KL 散度,而KL 散度可以更加简单地从最大似然估计推导得到!但是在进行最大似然的时候需要注意到它不是“距离”,也就是说它不会对称,即便它衡量的是两个分布之间的差异,所以在一些情况下, D K L ( P p ∣ q ) D_{KL}(Pp|q) DKL(Ppq) D K L ( q ∣ ∣ p ) D_{KL}(q||p) DKL(qp)是不相等的,比如下图:

    这里写图片描述

    其中设p是两个高斯分布的混合,q是单个高斯。左边最小化D_KL(p||q),q将多峰模糊到了一起,使高频率质量放到所有峰上,而右边则选择了单个峰。简而言之就是左边的图是在p的基础上与q作比较,所以倾向于模糊多峰,而右边是在单峰的q上于p作比较,注重单峰的高质量。所以利用这个性质可以是可以按照不同的需求去最小化KL散度来达到不同的效果。

    神经网络的本质是函数的拟合近似,通过最小化损失函数来训练,此时使用KL散度来最小化近似分布时的信息损失,可以让网络学习到很多复杂的分布。 比如变分自编码器 (Variational Auto-encoders, VAE)和自编码器就可以采用。而且使用它会在使用sigmoid函数的网络情况下,梯度下降时因为学习速率可以被输出的误差所控制从而能避免均方误差损失函数学习速率降低的问题。

    JS散度(Jensen-Shannon)
    JS是KL散度的变体,尝试解决KL散度的非对称问题,即把式子变成:
    J S ( p ∣ ∣ q ) = 1 2 K L ( p ∣ ∣ p + q 2 ) + 1 2 K L ( q ∣ ∣ p + q 2 ) JS(p||q)=\frac{1}{2} KL(p||\frac{p+q}{2})+\frac{1}{2} KL(q||\frac{p+q}{2}) JS(pq)=21KL(p2p+q)+21KL(q2p+q)

    Wasserstein距离
    KL和JS存在致命的弱点就是,因为是衡量的分布,那么如果两个分布不重合,离得很远,那么KL散度值是没有意义的,而且此时JS散度值会是一个常数,梯度为0,瞬间消失。这在类似GAN的训练里很不利,所以产生了Wasserstein距离:
    W ( p , q ) inf ⁡ γ ∈ Π ( p , q )   E ( x , y ) ∼ γ ∥ x − y ∥ W(p,q) \inf_{\gamma \in \Pi(p,q)} \ \mathbb{E}_{(x,y) \sim \gamma} \Vert x - y \Vert W(p,q)γΠ(p,q)inf E(x,y)γxy
    应用详细可以参看:https://blog.csdn.net/qq_39388410/article/details/97137145

    总结:

    :描述随机变量的不确定性,若p表示其分布,则 H ( X ) = − ∑ i = 1 n p ( x ) l o g p ( x ) H(X) = -\sum\limits_{i=1}^{n}p(x) logp(x) H(X)=i=1np(x)logp(x)
    联合熵:两个随机变量X,Y的联合分布,用H(X,Y)表示
    条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。且此时H(Y|X) = H(X,Y) – H(X)成立。
    在这里插入图片描述
    相对熵:KL散度,p(x)、q(x)是X中取值的两个概率分布,则p对q(D(p||q) ≠D(q||p))的相对熵 D K L ( p ∣ ∣ q ) = E [ log ⁡ p ( x ) − log ⁡ ( q ( x ) ] D_{KL}(p||q)=E[\log{p(x)}-\log{(q(x)}] DKL(pq)=E[logp(x)log(q(x)],此式一定大于0
    交叉熵:可以用来恒定在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定所需要付出的努力大小。
    互信息:度量 X和 Y共享的信息,即度量知道这两个变量其中一个,对另一个不确定度减少的程度。所以互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵,即用I(X,Y)表示: I ( X , Y ) = ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X,Y)=\sum\limits_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X,Y)=x,yp(x,y)logp(x)p(y)p(x,y),且此时I(X,Y)=D(P(X,Y) || P(X)P(Y))
    在这里插入图片描述
    又由于H(Y|X) = H(X,Y) - H(X),所以就有了 I(X,Y)= H(X) + H(Y) - H(X,Y)。

    #计算真实值与预测值互信息
    from sklearn import metrics
    
    labels_true = [1, 0, 0, 1, 1, 1]
    labels_pred = [0, 0, 1, 1, 2, 2]
    metrics.adjusted_mutual_info_score(labels_true, labels_pred)  
    

    从这个量化的角度看信息熵是求在最优编码时,最短的平均编码长度。交叉熵是编码不一定最优时(分布的估计不准),平均编码长度。相对熵则是编码不一定最优时,平均编码长度相对于最小值的增值。而在机器学习中经常需要使用它们的关键思想来描述概率分布或者量化概率分布之间的相似性

    展开全文
  • 2019中国科学院大学春季学期人工智能学院——信息论机器学习2019年春季学期作业要求以及作业答案参考,这是一门从理论开始讲机器学习的课程,然后再对现有的机器学习方法进行讲解并与前面的理论联系起来。
  • 机器学习中的一些信息论的知识:信息熵 ,联合熵,条件熵,相对熵,互信息

    信息量:

    如果事情x发生,那么 p(x) 能为“事件x发生”所提供的信息量:

    h(X)=log2p(x)

    也就是消除事情不确定性所需要的信息量,单位是 比特
    国足取得冠军的概率是0.01 h()=log20.01=4.6
    羽毛球队取得冠军的概率是0.9 h()=log20.9=0.1

    在信息论中,熵是接收的每条消息中包含的信息的平均量,它是不确定性的度量,越随机的信号源其熵越大
    离散:

    H(X)=xp(xi)log2p(xi)

    连续:
    H(X)=p(x)log2p(x)

    在最优化理论中,很多算法用熵作为优化目标,Watanabe也提出过“学习就是一个熵减的过程”,算法学习的过程就是信息不确定性减小的过程。比如 bayesian 分类器,在两类样本数量严重不平衡的情况下,如果以经验公式为训练目标,那么对少数类样本的分类会有严重的错误率,而以互信息为训练目标的分类器,则能够根据样本比例自动平衡错误率。

    联合熵

    度量二维随机变量的不确定性

    H(XY)=ijp(xi,yj)log2p(xi,yj)

    条件熵

    H(Y|X) 表示已知 X , 求Y 的平均不确定性

    H(Y|X)=ijp(xi,yj)log2p(yj|xi)

    H(Y|X)=ip(xi)H(Y|xi)

    推导过程如下:
    H(Y|X)=ijp(xi)p(yi|xi)log2p(yi|xi)=ip(xi)jp(yi|xi)log2p(yi|xi)=ip(xi)H(Y|xi)

    由联合熵和条件熵可得:

    H(XY)=ijp(xi,yj)log2p(xi,yj)=ijp(xi,yj)log2p(yj|xi)+ijp(xi,yj)log2p(xi)=H(Y|X)+H(X)

    相对熵

    又称为KL散度(Kullback–Leibler divergence,KLD),信息散度(information divergence),信息增益(information gain)

    主要用来衡量两个分布的相似度。假设连续随机变量x,真是的概率分布为 p(x) , 模型得到的近似分布为 q(x)
    离散:

    KL(p||q)=ip(xi)lnq(xi)(p(xi)lnp(xi))=ip(xi)lnp(xi)q(xi)

    连续:
    KL(p||q)=xp(x)lnp(x)+p(x)lnq(x)=xp(x)lnp(x)q(x)

    对离散变量的相对熵:

    KL(p||q)=ip(xi)lnq(xi)(p(xi)lnp(xi))=H(p,q)H(p)

    应用:
    在LDA(Latent Dirichlet Allocation)中计算doc之间内容的相似度

    其中

    H(p,q)=ip(xi)lnq(xi)
    称为交叉熵(cross entropy),(注意 H(p,q) H(X,Y) 的区别)

    应用
    做过神经网络二值分类器的同学,用 sigmoid 做激活函数的时候,和目标函数对比较一下,是不是发现很相似?其实就是用的 cross entropy cost function:

    C=1ni[yilnf(xi)+(1yi)ln(1f(xi))]

    互信息

    相对熵是衡量同一个变量的两个一维分布之间的相似性,而互信息是用来衡量两个相同的一维分布变量之间的独立性
    mutual information I(p,q) 是衡量联合分布 p(x,y) p(x)p(y) 分布之间的关系,即他们之间的相关系数

    I(X,Y)=KL(p(x,y)||p(x)p(y))=ijp(xi,yj)lnp(xi,yj)p(xi)p(yj)=H(X,Y)+H(X)+H(Y)=H(X)H(X|Y)=H(Y)H(Y|X)

    信息增益 Information Gain

    假设系统原有的熵为 H(X) ,后来引入了特征 T ,在固定特征 T 的情况下,系统的混乱度减小,熵减小为 H(X|T) ,那么特征 T 给系统带来的信息增益为:

    IG(T)=H(X)H(X|T)

    信息增益率 Information Gain ratio

    R(X,T)=IG(T)splitinfo(T)

    在特征提取与特征选择, 和图像处理中有广泛的应用,比如在决策树中用于选择下次进行分支划分的特征。

    展开全文
  • 机器学习的数学基础 - 信息论.pdf
  • 机器学习中的概率和信息论

    千次阅读 2017-01-12 22:19:15
    在本文中,我们讨论概率和信息论。概率论是用于表示不确定性陈述(statement) 的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性陈述的公理。在人工智能领域,我们主要以两种方式来使用...

    在本文中,我们讨论概率信息论

    概率论是用于表示不确定性陈述(statement) 的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性陈述的公理。

    在人工智能领域,我们主要以两种方式来使用概率论:

    • 概率法则告诉我们AI系统应该如何推理,所以我们设计一些算法来计算或者近似由概率论导出的表达式;
    • 我们可以用概率和统计从理论上分析我们提出的AI系统的行为。

    信息论是应用数学的一个分支,主要研究的是对一个信号能够提供信息的多少进行量化。在本系列教程中我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性

    未完待续…

    展开全文
  • 论机器学习算法

    千次阅读 2015-08-26 10:54:55
    摘要主要是通过回归(discrimination learning model)来对机器学习算法建立横向连接,有助于对各类算法的理解和归类。储备知识从统计学角度来讲,一个信号基本上可以分为两个部分:系统性部分和随机分布,系统性...
  • 机器学习论文总结

    千次阅读 2017-03-31 10:01:30
    长期从事推荐系统、机器学习和人工智能的研究工作,在国际顶级会议上发表论文20余篇,长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。  责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请...
  • [机器学习]信息论(Information theory)的一些point

    万次阅读 多人点赞 2013-01-02 20:39:49
    信息论(Information theory)的一些points ①—熵(entropy)  对于一个变量X~p(X服从p分布),该变量的熵是描述该变量的不确定性的一个值  eg:对于一个有k个状态的离散随机变量X,有    a.当log以2为底...
  • 论机器学习中数据的重要性

    千次阅读 多人点赞 2020-06-13 15:51:50
    机器学习实验报告 一、数据工程意义及其内容(自创名词,勿怪) ​ 现如今,机器学习在越来越多的领域中凸显出其不可替代的重要性,人们开始从各领域渗透机器学习的典型案例,希望其大规模投入使用,而好的训练结果与...
  • 强化学习(reinforcement learning) :在给定的环境或条件下,找到合理的步骤或操作使奖赏最大化。 其特点之一是:在发现新的操作(exploration)和利用现有操作(exploitation)之间进行权衡 。 6. 线性...
  • 机器学习经典书籍&论文

    千次阅读 2018-04-18 12:32:59
    入门书单 1.《数学之美》PDF6 ...以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。 2.《Programming Collective Intelligence》(《集体智慧编程》)PDF3 作者Toby Segaran...
  • 机器学习

    千次阅读 多人点赞 2018-04-18 21:01:12
    机器学习基本理论 基本术语与方法特征选择概述多目标优化问题 分类算法、经典算法 分类算法NSGA2算法粒子群优化算法(PSO)聚类算法蚁群算法(ACO)其它算法 前沿算法 NSGA2算法前沿PSO算法差分分组算法...
  • 逻辑回归损失(或者叫交叉熵损失),这两种损失的来源可以由两方面考虑,一方面可以看做是来源于概率论中的极大似然估计,此部分可参见机器学习(二),另一方面可以看做是来源于信息论中的交叉熵损失。 本文主要从...
  • ML与Information:机器学习与Information信息论之间那些七七八八、乱七八糟、剪不断理还乱的关系攻略 目录 ML与信息论 ML与熵 1、熵的基础知识 2、熵与分布的关系 3、最大熵模型与Logistic/Softmax回归 ...
  • 机器学习教程

    2018-08-14 11:26:31
    机器学习数学基础(线性代数、概率与信息论、数值计算),机器学习常用方法、深度学习和具体应用
  • 信息论入手学习机器学习理论的最佳教材,高清扫描版
  • 本篇文章,作者将分享两篇论文,机器学习是如何运用到恶意代码攻击中的,并谈谈自己的理解,后续深入研究尝试分享相关实验,目前还是小白一只。基础性文章,希望对初学者有帮助,大神请飘过,谢谢各位看官!
  • 机器学习论文与书籍推荐

    千次阅读 2012-07-29 21:56:35
    今天在网上找到转载的《机器学习推荐论文与书籍》,看起来不错,无出处。搜索得知为水木社区某神童编写,可惜找不到原文链接。所以这里把里面的东西整理一下,收集打包至网盘(没有包含的标上了“缺”字),方便爱好...
  • 在这篇文章中,我们将回顾你在阅读机器学习论文时应该考虑的最重要的原则,以及作为机器学习工程师/从业者,你是否真的需要阅读论文来推进你的道路。 什么是论文? 论文是一篇书面的文章,但不是你可以在互联网博客上...
  • 机器学习实践应用

    万次阅读 多人点赞 2018-04-12 10:04:41
    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有 智能的根本途径。 本书通过对...
  • 机器学习100+问

    万次阅读 2020-12-07 00:23:19
    1. 机器学习的发展历史上有哪些主要事件? 2. 机器学习有哪些主要的流派?它们分别有什么贡献? 3. 讨论机器学习与人工智能的关系 4. 讨论机器学习与数据挖掘的关系 5. 讨论机器学习与数据科学、大数据分析等概念...
  • 总结了机器学习要学习的4个方面的基础知识。非常全面。包括线性代数、概率论、优化、信息论
  • 机器学习简介

    千次阅读 2020-01-24 14:20:05
    机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中...
  • 信息论基础(学习笔记整理)

    万次阅读 多人点赞 2019-06-08 13:24:12
    整理信息论基础的知识点。
  • 论文来源: Comparison of Deep Learning With ...机器学习方法在医药研究中已经应用了几十年。与贝叶斯方法相结合的指纹类型分子描述符的相对易用性和可用性使得该方法广泛应用于与药物发现相关的各种端点阵列...
  • BAT机器学习面试1000题系列(第1~305题)

    万次阅读 多人点赞 2017-09-28 11:37:49
    BAT机器学习面试1000题系列 整理:July、元超、立娜、德伟、贾茹、王剑、AntZ、孟莹等众人。本系列大部分题目来源于公开网络,取之分享,用之分享,且在撰写答案过程中若引用他人解析则必注明原作者及来源链接...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 117,206
精华内容 46,882
关键字:

信息论机器学习