精华内容
下载资源
问答
  • 协方差矩阵相关概念性质、应用意义及矩阵特征向量的用处

    1.协方差矩阵的概念:

    这里在讲述协方差矩阵的性质之前先讲解一下协方差、方差以及两者之间的关系【统计学中的样本方差、样本均值看我的另外一篇文章{   浅谈均值、方差、标准差、协方差的概念及意义  }】

    一:方差:描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。


    方差是用来衡量单个变量“自身变异”大小的总体参数,方差越大表明该变量的变异越大。

    二:协方差是用来衡量两个变量之间“协同变异大小的总体参数,即二个变量相互影响的大小的参数,协方差的绝对值越大,则两个变量相互影响越大。”

    协方差的性质:①. 是一种用来衡量两个随机变量 关系的统计量。②. 只能处理二维问题。③. 计算协方差需要计算均值。

    如下式:   定义 量E{[X-E(X)] [Y-E(Y)]}称为随机变量X和Y的协方差。记为Cov(X,Y),即

    Cov(X,Y)=E{[X-E(X)] [Y-E(Y)]}而 称为随机变量X和Y的相关系数。

    当上式结果为正时表示随机变量X和Y正相关,为负值是表示随机变量X和Y为负相关,结果为0表示两者相互独立,无关。

    三:方差与协方差的关系

    Cov(X,Y)=Cov(YX)Cov(X,X)=D(X).

    对任意两个随机变量X和Y,下列等式成立:D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

    Cov(X,Y)的定义式展开,易得Cov(X,Y)=E(XY)-E(X)E(Y)

    2.协方差矩阵的性质:

    ①. 协方差矩阵能处理多维问题;

    ②. 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差;

    ③. 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的;

    ④. 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要按照列计算均值。

    如果数据是3维的,那么协方差矩阵是:


    由性质④可知:

    详细实例请看连接文章:http://blog.csdn.net/ybdesire/article/details/6270328/

    协方差(i,j)=(第 i 列所有元素中每个元素都 - 第 i 列均值)*(第 j 列所有元素 - 第 j 列均值)

    协方差的matlab计算公式则为:协方差(i,j)=(第 i 列所有元素中每个元素都 - 第 i 列均值)*(第 j 列所有元素 - 第 j 列均值)/(样本数-1)

    3.矩阵特征值、特征向量以及局部坐标系之间的关系

    关于特征值及特征向量的相关概念参考线性代数有关知识点:这里先来了解两个定理:

    定理1:设r1、r2、...rm是方阵A的m个特征值,p1、p2、...pm依次是与之对应的特征向量,如果r1、r2、...rm各不相等,则p1、p2、...pm线性无关。

    定理2:设r1、r2是对称矩阵A的两个特征值,p1、p2是对应的特征向量,若r1与r2不想等,则p1和p2正交。

    线性变化:

    线性变换(线性映射)是在作用于两个向量空间之间的函数,它保持向量加法和标量乘法的运算,从一个向量空间变化到另一个向量空间。实际上线性变换表现出来的就是一个矩阵

    特征值和特征向量是一体的概念:

    对于一个给定的线性变换(矩阵A),它的特征向量 ξ 经过这个线性变换之后,得到的新向量仍然与原来的ξ保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值(本征值)。

    数学描述:Aξ=λξ

     在线性变换A的作用下,向量ξ仅仅在尺度上变为原来的λ倍。称ξ是线性变换A的一个特征向量,λ是对应的特征值。

    1. 矩阵是一个表示二维空间的数组,矩阵可以看做是一个变换。在线性代数中,矩阵可以把一个向量变换到另一个位置,或者说从一个坐标系变换到另一个坐标系。矩阵的“基”,实际就是变换时所用的坐标系。
    2. 矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。
    3. 任意给定一个矩阵A,并不是对所有的向量x它都能拉长(缩短)。凡是能被矩阵A拉长(缩短)的向量就称为矩阵A的特征向量(Eigenvector);拉长(缩短)的量就是这个特征向量对应的特征值(Eigenvalue)。
    4. 一个矩阵可能可以拉长(缩短)多个向量,因此它就可能有多个特征值。
    5. 对于实对称矩阵来说,不同特征值对应的特征向量必定正交。
    6. 一个变换矩阵的所有特征向量组成了这个变换矩阵的一组基。所谓基,可以理解为坐标系的轴。我们平常用到的大多是直角坐标系,在线性代数中可以把这个坐标系扭曲、拉伸、旋转,称为基变换。我们可以按需求去设定基,但是基的轴之间必须是线性无关的,也就是保证坐标系的不同轴不要指向同一个方向或可以被别的轴组合而成,否则的话原来的空间就“撑”不起来了。在主成分分析(PCA)中,我们通过在拉伸最大的方向设置基,忽略一些小的量,可以极大的压缩数据而减小失真。
    7. 变换矩阵的所有特征向量作为空间的基之所以重要,是因为在这些方向上变换矩阵可以拉伸向量而不必扭曲它,使得计算大为简单。因此特征值固然重要,但我们的终极目标却是特征向量。
    8. 同一特征值的任意多个特征向量的线性组合仍然是A属于同一特征值的特征向量。

      顾名思义,特征值和特征向量表达了一个线性变换的特征。在物理意义上,一个高维空间的线性变换可以想象是在对一个向量在各个方向上进行了不同程度的变换,而特征向量之间是线性无关的,它们对应了最主要的变换方向,同时特征值表达了相应的变换程度

      具体的说,求特征向量,就是把矩阵A所代表的空间进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上的投影长度。我们通常求特征值和特征向量即为求出这个矩阵能使哪些向量只发生拉伸,而方向不发生变化,观察其发生拉伸的程度。这样做的意义在于,看清一个矩阵在哪些方面能产生最大的分散度(scatter),减少重叠,意味着更多的信息被保留下来。





    展开全文
  • 信息安全概论:Hash函数概念性质

    千次阅读 2020-04-02 18:20:39
    信息安全除了要保障信息的机密性外,还要保障信息在存储、使用、传输过程中不被非法篡改,即信息的完整性。 Hash函数可以将“任意长度“的输入经过变换以后得到固定长度的输出,也称为消息摘要。 消息摘要能有用于...

    信息安全除了要保障信息的机密性外,还要保障信息在存储、使用、传输过程中不被非法篡改,即信息的完整性。
    Hash函数可以将“任意长度“的输入经过变换以后得到固定长度的输出,也称为消息摘要。
    消息摘要能有用于完成消息的认证功能,消息认证是保证信息完整性的重要措施。
    Hash函数也成散列函数、哈希函数、杂凑函数等,是密码学的一个重要分支,Hash函数可以看做是一种单向密码体制,即它是从一个明文到密文的不可逆映射,即只有加密过程,不能解密。

    Hash函数的基本概念
    Hash函数的单向特征和输出数据长度固定的特征使得它可以生成消息或其他数据块的“数据指纹”(消息摘要或hash值),用于消息认证和数字签名等区域。
    hash值的生成过程可以表示为h=H(M),其中M是“任意”长度的消息,H是hash函数,h是固定长度的hash值。

    • H可以用于“任意”长度的消息,“任意”是指实际存在的
    • H产生的hash值是固定长度的,这是hash函数的基本性质
    • 对于任意给定的消息M,容易计算H(M)值,这是要求hash函数的可用性。

    Hash函数的性质

    • 抗第一原像(单向性):对于给定的hash值h,要找到M使得H(M)=h在计算上是不可行的
    • 抗第二原像(抗弱碰撞性):对于给定的消息M1,要发现另一个消息M2,满足H(M1)=H(M2)在计算上是不可行的
    • 抗强碰撞性:找任意一对不同消息M1、M2,使H(M1)=H(M2)在计算上是不可行的

    消息对应hash值的每一比特应与消息的每一个比特有关联
    当消息原文发生改变时,求得的消息摘要必须相应的变化

    hash函数结构
    hash函数的设计主要分为两类:

    • 基于加密体制实现,例如使用对称分组密码算法的CBC模式来产生hash值
    • 直接构造复杂的非线性关系实现单向性,是目前使用较多的设计方法

    典型的hash算法中著名的是MD系列和SHA系列

    消息认证技术

    • 消息认证的目的主要包括:验证信息来源的真实性和验证消息的完整性
      消息认证码是一种重要的消息认证技术,利用消息和双方共享密钥通过认证函数来生成一个固定长度的短数据块,并将该数据块附在消息后
    • 消息认证码是与密钥相关的hash函数,也称消息鉴别码
      消息认证码与hash函数类似,都具有单向性,此外消息认证码还包括一个密钥
      不同的密钥会产生不同的hash函数,这样就能在验证消息没有经过篡改的同时,验证是由哪个发送者发送的

    消息认证码的实现过程
    在这里插入图片描述

    由于消息在发送过程中是明文形式,所以只提供认证性而未提供保密性
    提供保密性可在生成MAC之后或之前进行一次加密,而且加密密钥也需被收发双方共享
    通常希望直接对明文进行认证,因此先计算MAC再加密的使用方式更为常用
    MAC算法与加密算法类似,不同之处是MAC不必是可逆的,因此与加密算法相比更不易被攻破

    生成消息认证码的方法主要包括:基于加密函数的认证码和基于hash的认证码

    展开全文
  • 信息熵及其相关概念

    万次阅读 多人点赞 2018-07-24 16:26:18
    1.1 信息熵的三个性质 1.2 对信息熵三条性质的理解 1.3 回看信息熵定义 2. 伯努利分布熵的计算[3] 3. 两随机变量系统中熵的相关概念[4] 3.1 互信息 3.2 联合熵 3.3 条件熵 3.4 互信息、联合熵、条件熵...


    (转自个人博客)

    机器学习中,绕不开的一个概念就是熵 (Entropy)信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的生成过程中,就使用了熵来作为样本最优属性划分的判据。下面按照本人的理解来系统梳理一下有关熵的概念。

    1. 熵的定义是怎么来的?

    信息熵的定义公式:

    H(X)=xχp(x)logp(x) H(X)=-\sum_{x\in\chi}p(x)\log{p(x)}

    并且规定 0log(0)=00\log(0)=0

    首次看到这个定义,我感到莫名其妙,为什么熵要定义成这么复杂的形式,并且其中还出现了对数函数这种非常不直观的表述?

    1.1 信息熵的三个性质

    信息论之父克劳德·香农给出的信息熵的三个性质[1]

    1. 单调性,发生概率越高的事件,其携带的信息量越低;
    2. 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
    3. 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。

    香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式
    H(X)=Cxχp(x)logp(x) H(X)=-C\sum_{x\in\chi}p(x)\log{p(x)}

    其中的 CC 为常数,我们将其归一化为 C=1C=1 即得到了信息熵公式。

    1.2 对信息熵三条性质的理解

    单调性说的是,事件发生的概率越低,其发生时所能给出的信息量越大。举一个极端的例子,“太阳从西边升起”所携带的信息量就远大于“太阳从东边升起”,因为后者是一个万年不变的事实,不用特意述说大家都知道;而前者是一个相当不可能发生的事情,如果发生了,那代表了太多的可能性,可能太阳系有重大变故,可能物理法则发生了变化,等等。从某种角度来考虑,单调性也暗含了一种对信息含量的先验假设,即默认某些事实是不含信息量的(默认事实其实也是一种信息,我理解的默认事实应该指的是概率分布),这其实是把默认情况的信息量定标为 00 了。

    对累加性的解释,考虑到信息熵的定义涉及到了事件发生的概率,我们可以假设信息熵是事件发生概率的函数:

    H(X)=H(p(x)) H(X)=H(p(x))

    对于两个相互独立的事件 X=A,Y=BX=A, Y=B 来说,其同时发生的概率:

    p(X=A,Y=B)=p(X=A)p(Y=B) p(X=A, Y=B)=p(X=A)\cdot p(Y=B)

    其同时发生的信息熵,根据累加性可知:

    H(p(X=A,Y=B))=H(p(X=A)p(Y=B))=H(p(X=A))+H(p(Y=B)) H\left(p(X=A, Y=B)\right)=H\left(p(X=A)\cdot p(Y=B)\right)=H\left(p(X=A)\right)+H\left(p(Y=B)\right)

    一种函数形式,满足两个变量乘积函数值等于两个变量函数值的和,那么这种函数形式应该是对数函数。再考虑到概率都是小于等于 11 的,取对数之后小于 00,考虑到信息熵的第二条性质,所以需要在前边加上负号。

    1.3 回看信息熵定义

    回过头来再看信息熵的公式,其中对概率取负对数表示了一种可能事件发生时候携带出的信息量。把各种可能表示出的信息量乘以其发生的概率之后求和,就表示了整个系统所有信息量的一种期望值。从这个角度来说信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少(极端情况为 11 种情况,那么对应概率为 11,那么对应的信息熵为 00),此时的信息熵较小[2]

    2. 伯努利分布熵的计算[3]

    熵的定义公式中对数函数不局限于采用特定的底,不同的底对应了熵的不同度量单位。如果以 22 为底,熵的单位称作比特 (bit),如果以自然对数 ee 为底,熵的单位称作纳特 (nat)。

    从熵的定义中可以看出,熵是关于变量 XX 概率分布的函数,而与 XX 的取值没有关系,所以也可以将 XX 的熵记作 H(p)H(p)

    熵越大代表随机变量的不确定性越大,当变量可取值的种类一定时,其取每种值的概率分布越平均,其熵值越大。熵的取值范围为:

    0H(p)log(n) 0\leq H(p)\leq \log(n)

    nn 表示取值的种类。

    作为一个具体的例子,当随机变量只取两个值,例如 1100 时,即 XX 的分布为:

    P(X=1)=p,P(X=0)=1p,0p1 P(X=1)=p, \quad P(X=0)=1-p, \quad 0\leq p \leq 1

    熵为:

    H(p)=plog2p(1p)log2(1p) H(p)=-p\log_2p-(1-p)\log_2(1-p)

    这时,熵 H(P)H(P) 随概率 pp 变化的曲线如下图所示(单位为比特),

    熵与概率的关系

    p=0p=0p=1p=1 时, H(p)=0H(p)=0,随机变量完全没有不确定性。当 p=0.5p=0.5 时,H(p)=1H(p)=1, 熵取值最大,随机变量不确定性最大。

    3. 两随机变量系统中熵的相关概念[4]

    以上介绍了关于单随机变量系统的熵的计算,现实中的系统很多是含有多随机变量的。为了简化问题,以两随机变量系统来说,介绍几个与熵相关的概念。

    3.1 互信息

    两个离散随机变量 XXYY互信息 (Mutual Information) 定义为:

    I(X,Y)=yYxXp(x,y)log(p(x,y)p(x)p(y)) I(X,Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log\left(\frac{p(x,y)}{p(x)p(y)}\right)

    为了理解互信息的涵义,我们把公式中的对数项分解

    log(p(x,y)p(x)p(y))=log(p(x,y)(logp(x)+logp(y))=logp(x)logp(y)(logp(x,y)) \begin{aligned} \log(\frac{p(x,y)}{p(x)p(y)}) & =\log\left(p(x,y) - (\log p(x)+\log p(y)\right) \\ & = -\log p(x)-\log p(y)-\left(-\log p(x,y)\right) \end{aligned}

    我们知道概率取负对数表征了当前概率发生所代表的信息量。上式表明,两事件的互信息为各自事件单独发生所代表的信息量之和减去两事件同时发生所代表的信息量之后剩余的信息量,这表明了两事件单独发生给出的信息量之和是有重复的,互信息度量了这种重复的信息量大小。最后再求概率和表示了两事件互信息量的期望。从式中也可以看出,当两事件完全独立时,p(x,y)=p(x)p(y)p(x,y)=p(x)\cdot p(y),互信息计算为 00,这也是与常识判断相吻合的。

    3.2 联合熵

    两个离散随机变量 XXYY联合熵 (Joint Entropy) 为:

    H(X,Y)=yYxXp(x,y)logp(x,y) H(X,Y)=-\sum_{y\in Y}\sum_{x\in X}p(x,y)\log p(x,y)

    联合熵表征了两事件同时发生系统的不确定度。

    3.3 条件熵

    条件熵 (Conditional Entropy) H(YX)H(Y|X) 表示在已知随机变量 XX 的条件下随机变量 YY 的不确定性。

    H(YX)=xXp(x)H(Yx)=xXp(x)yYp(yx)logp(yx) H(Y \mid X)=\sum_{x\in X}p(x)H(Y \mid x)=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y \mid x)\log p(y \mid x)

    3.4 互信息、联合熵、条件熵之间的关系

    对互信息定义公式继续进行推导:

    I(X,Y)=yYxXp(x,y)logp(x,y)p(x)p(y)=xXyYp(x,y)(logp(x,y)logp(x)logp(y))=xXyYp(x,y)logp(x,y)xXyYp(x,y)logp(x)xXyYp(x,y)logp(y)=xXyYp(x,y)logp(x,y)xXp(x)logp(x)xXp(y)logp(y)=H(X)+H(Y)H(X,Y) \begin{aligned} I(X,Y) & =\sum_{y\in Y}\sum_{x\in X}p(x,y)\log \frac{p(x,y)}{p(x)p(y)} \\ & = \sum_{x\in X}\sum_{y\in Y}p(x,y)\left(\log p(x,y)-\log p(x)-\log p(y)\right) \\ & =\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x)-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y) \\ & =\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y)-\sum_{x\in X}p(x)\log p(x) -\sum_{x\in X}p(y)\log p(y) \\ & = H(X)+H(Y)-H(X,Y) \end{aligned}

    对条件熵定义公式继续进行推导:

    H(YX)=xXp(x)yYp(yx)logp(yx)=xXyYp(x,y)logp(x,y)p(x)=xXyYp(x,y)(logp(x,y)logp(x))=xXyYp(x,y)logp(x,y)xXyYp(x,y)logp(x)=xXyYp(x,y)logp(x,y)+xXp(x)logp(x)=H(X,Y)H(X) \begin{aligned} H(Y \mid X) & =-\sum_{x\in X}p(x)\sum_{y\in Y}p(y \mid x)\log p(y \mid x) \\ & =-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log \frac{p(x,y)}{p(x)} \\ & =-\sum_{x\in X}\sum_{y\in Y}p(x,y)\left(\log p(x,y)-\log p(x)\right) \\ & =-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x) \\ & =-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y)+\sum_{x\in X}p(x)\log p(x) \\ & =H(X,Y)-H(X) \end{aligned}

    联合上述结果,总结如下:

    I(X,Y)=H(X)+H(Y)H(X,Y)=H(Y)H(YX)=H(X)H(XY)=H(X,Y)H(YX)H(XY) \begin{aligned} I(X,Y) & = H(X)+H(Y)-H(X,Y) \\ & = H(Y)-H(Y \mid X) \\ & = H(X)-H(X \mid Y) \\ & = H(X,Y)-H(Y \mid X)-H(X \mid Y) \end{aligned}

    上述变量之间的关系,可以用 Venn 图来表示:

    Venn Diagram

    另外,在分类任务的决策树学习过程中,采用信息增益的概念来决定选用哪个特征作为后续的决策依据。这里的信息增益等价于训练数据集中类与特征的互信息。

    4. 两分布系统中熵的相关概念[5]

    4.1 交叉熵

    考虑一种情况,对于一个样本集,存在两个概率分布 p(x)p(x)q(x)q(x),其中 p(x)p(x) 为真实分布,q(x)q(x) 为非真实分布。基于真实分布 p(x)p(x) 我们可以计算这个样本集的信息熵也就是编码长度的期望为:

    H(p)=xp(x)logp(x) H(p)=-\sum_xp(x)\log p(x)
    回顾一下负对数项表征了所含的信息量,如果我们用非真实分布 q(x)q(x) 来代表样本集的信息量的话,那么:

    H(p,q)=xp(x)logq(x) H(p,q)=-\sum_xp(x)\log q(x)
    因为其中表示信息量的项来自于非真实分布 q(x)q(x),而对其期望值的计算采用的是真实分布 p(x)p(x),所以称其为交叉熵 (Cross Entropy)

    举个例子,考虑一个随机变量 xx,其真实分布 p(x)=(12,14,18,18)p(x)=(\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8}),非真实分布 q(x)=(14,14,14,14)q(x)=(\frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4}),那么其真实信息熵

    H(p)=12log21214log21418log21818log218=12+12+38+38=1.75 bits \begin{aligned} H(p) & =-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{8}\log_2\frac{1}{8} \\ & =\frac{1}{2}+\frac{1}{2}+\frac{3}{8}+\frac{3}{8} \\ & =1.75\ bits \end{aligned}
    交叉熵

    H(p,q)=12log21414log21418log21418log214=1+12+14+14=2 bits \begin{aligned} H(p,q)&=-\frac{1}{2}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{4} \\ &=1+\frac{1}{2}+\frac{1}{4}+\frac{1}{4} \\ &=2\ bits \end{aligned}
    如果我们真实分布为 q(x)q(x) 而非真实分布为 p(x)p(x),真实信息熵为

    H(q)=14log21414log21414log21414log214=12+12+12+12=2 bits \begin{aligned} H(q) & =-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4} \\ & =\frac{1}{2}+\frac{1}{2}+\frac{1}{2}+\frac{1}{2} \\ & =2\ bits \end{aligned}

    交叉熵为

    H(q,p)=14log21214log21414log21814log218=14+12+34+34=2.25 bits \begin{aligned} H(q,p)&=-\frac{1}{4}\log_2\frac{1}{2}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{8}-\frac{1}{4}\log_2\frac{1}{8} \\ &=\frac{1}{4}+\frac{1}{2}+\frac{3}{4}+\frac{3}{4} \\ &=2.25\ bits \end{aligned}
    从这个例子中,我们可以看到交叉熵比原本真实的信息熵要大。直观来看,当我们对分布估计不准确时,总会引入额外的不必要信息期望(可以理解为引入了额外的偏差),再加上原本真实的信息期望,最终的信息期望值要比真实系统分布所需的信息期望值要大。

    4.2 相对熵

    相对熵 (Relative Entropy) 也称 KL 散度,设 p(x)p(x)q(x)q(x) 是离散随机变量 XX 的两个概率分布,则 ppqq 的相对熵为:

    DKL(pq)=xp(x)logp(x)q(x)=Ep(x)logp(x)q(x) D_{KL}(p \Vert q)=\sum_x p(x)\log\frac{p(x)}{q(x)}=E_{p(x)}\log\frac{p(x)}{q(x)}
    相对熵既然是熵,也是满足大于等于 00 的,证明如下:

    DKL(pq)=xp(x)logp(x)q(x)=xp(x)logq(x)p(x)=Ep(x)(logq(x)p(x))logEp(x)(q(x)p(x))=logxp(x)q(x)p(x)=logxq(x) \begin{aligned} D_{KL}(p \Vert q)&=\sum_x p(x)\log\frac{p(x)}{q(x)} \\ &=-\sum_x p(x)\log\frac{q(x)}{p(x)} \\ &=-E_{p(x)}(\log\frac{q(x)}{p(x)}) \\ &\geq-\log E_{p(x)}\left(\frac{q(x)}{p(x)}\right) \\ &=-\log\sum_x p(x)\frac{q(x)}{p(x)} \\ &=-\log\sum_x q(x) \end{aligned}
    因为 xp(x)=1\sum_x p(x)=1,所以 DKL(pq)0D_{KL}(p \Vert q) \geq 0

    4.3 相对熵与交叉熵的关系

    对相对熵公式进一步变形为:

    DKL(pq)=xp(x)logp(x)q(x)=xp(x)logq(x)(xp(x)logp(x))=H(p,q)H(p) \begin{aligned} D_{KL}(p \Vert q)&=\sum_x p(x)\log\frac{p(x)}{q(x)} \\ &=-\sum_x p(x)\log q(x)-\left(-\sum_x p(x)\log p(x)\right) \\ &=H(p,q)-H(p) \end{aligned}
    到这一步我们也可以看出,因为 DKL(pq)0D_{KL}(p \Vert q) \geq 0,所以 H(p,q)H(p)H(p,q) \geq H(p)

    同时,也更容易的看出来相对熵表示的其实是当我们用一个非真实的分布表示系统时,其得到的信息量期望值相比采用真实分布表示时候多出的部分。

    在机器学习中,训练数据的分布已经固定下来,那么真实分布的熵 H(p)H(p) 是一个定值。最小化相对熵 DKL(pq)D_{KL}(p \Vert q) 等价于最小化交叉熵 H(p,q)H(p,q)

    相对熵与交叉熵的更多信息可以参考链接 [5]、[6] 中所述。

    参考

    1: 信息熵是什么? - D.Han的回答 - 知乎
    2: 信息熵公式的由来
    3: 《统计学习方法》 Page 60
    4: 互信息(Mutual Information)
    5: 详解机器学习中的熵、条件熵、相对熵和交叉熵
    6: 一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

    展开全文
  • NoSQL概念和特点

    千次阅读 2017-11-22 10:25:52
    该类数据库使用哈希表,在哈希表中包含特定的key与其对应的指向特定数据的指针。常用的有Redis。 2.列存储数据库。该类数据库主要用来应对分布式存储的海量数据,一个键指向了多个列。常用的有HBase。 3.文档型...

    NoSQL,泛指非关系型数据库,主要分为四大类:

    1.key-value存储数据库。该类数据库使用哈希表,在哈希表中包含特定的key和与其对应的指向特定数据的指针。常用的有Redis。

    2.列存储数据库。该类数据库主要用来应对分布式存储的海量数据,一个键指向了多个列。常用的有HBase。

    3.文档型数据库。该类数据库将结构化、半结构化的文档以特定格式存储,如json格式。一个文档相当于关系型数据库中的一条记录,也是处理信息的基本单位。常用的有MongoDB。

    4.图形数据库。该类数据库使用图形理论来存储实体之间的关系信息,最主要的组成部分是:结点集、连接节点的关系。常用的有Neo4j。


    非关系型数据库的特点:

    1.数据模型比较简单。

    2.对数据库性能的要求比较高。

    3.不需要高度的数据一致性。






    展开全文
  • 图像特征概念

    万次阅读 2014-05-12 10:47:58
    (一)特点:颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等...
  • 信息论相关概念

    2018-11-30 17:19:30
    这5个概念在机器学习深度学习中都被广泛应用。下面我们分别对这5个概念进行详细介绍。 1. 信息熵 首先,我们给出信息熵的定义:在概率论与数据统计中,熵(Entropy)表示随机变量不确定性的度量。设是一个取有限...
  • 1.1 信息安全概念 欢迎加入最棒的信息安全工程师社群,分享信息安全工程师备考干货资料。 备考交流QQ群:39460595 https://www.moondream.cn/?p=517 一.大纲要求 1.1 了解网络空间的概念、网络空间安全学科的...
  • 而我们在一开始寻找描述不确定性的函数,引出自信息概念的时候,便要求自信息的取值应在[0,+∞]。 故,熵作为自信息的加权平均,自然也是非负的。 2. 确定性:H(1,0)=H(1,0,0)=……=H(1,0,0,…,0)=0 ①根据熵的...
  • 图像特征概念、什么是图像特征

    万次阅读 2016-07-26 16:01:48
    有少量修改,如有疑问,请问原作者!...(一)特点:颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有
  • 特征提取是计算机视觉图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者...
  • 数据库 - 概念结构设计

    万次阅读 2015-05-08 10:15:46
    将需求分析得到的用户需求抽象为信息结构即概念模型的过程就是概念结构设计 概念结构是各种数据模型的共同基础,它比数据模型更独立于机器、更抽象,从而更加稳定 概念结构设计是整个数据库设计的关键 概念结构...
  • 概念模型与关系模型关系规范化

    万次阅读 2017-05-20 16:18:34
     概念模型用于信息世界的建模,是实现现实世界到信息世界的第一层抽象,是数据库设计人员进行数据库设计的有力工具,也是数据库设计人员用户之间进行交流的语言,因此概念模型一方面具有较强的语义表达能力,能够...
  • 基础数据结构算法概念

    千次阅读 2017-10-10 16:56:39
    基本数据结构查找算法本文主要是基础的数据结构算法概念,可能部分地方会涉及更高级的算法算法,具体内容以后会单独写的。此外一些性质还会不断补充,也希望可以得到您的指点,谢谢。数据结构 程序 = 数据...
  • 数据库系统概念 关系笛卡尔积

    千次阅读 2020-04-18 11:33:26
    一、关系 关系模型建立在集合代数的基础上...对关系(结构)(特征)(性质)的描述 关系名(属性1,属性2,…,属性n) R(U) 学生(学号,姓名,年龄,性别,系,年级) 补充:域 域是一组具有相同数据类型的值的...
  • 机器学习的基本概念和相关术语

    万次阅读 多人点赞 2020-06-18 11:07:18
    相当于统计学中的实例(example,instance) 特征(feature)、属性(attribute): 反映事件或对象在某方面的表现或性质的事项,如大小,颜色 属性值(attribute value): 属性上的取值,例如“青绿”“乌黑” 属性张成的...
  • 异常的概念和分类

    千次阅读 2018-10-18 12:46:04
    Exception是异常类,这里首先需要理解一个概念:什么是异常?   异常就是程序在编译时发生的意想不到的情况,一般而言分为两类:错误(Error)异常(Exception)   Error: 分为两种: 程序编写出现语法错误 jdk...
  • 数据结构基础概念

    万次阅读 多人点赞 2017-11-14 13:44:24
    数据结构一些概念 数据结构就是研究数据的逻辑结构物理结构以及它们之间相互关系,并对这种结构定义相应的运算,而且确保经过这些运算后所得到的新结构仍然是原来的结构类型。数据:所有能被输入到计算机中,且能...
  • 点互信息和信息 点互信息PMI 机器学习相关文献里面,经常会用到点互信息PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性(比如两个词)。 其原理很简单,公式如下: 在概率论中,我们...
  • 独立成分分析ICA系列2:概念、应用估计原理.

    万次阅读 多人点赞 2016-12-14 17:24:16
    1.概念 独立成分分析是从多元(多维)统计数据中寻找潜在因子或...统计数据处理及相关领域中的一个重要需要长期研究的问题就是,寻找多元数据一个恰当的表示,使得人们可以获得给定数据的本质特征或者使得数据的结构
  • 人们在使用计算机解决客观世界中存在的具体问题时,通常过程如下:首先通过对客观世界的认知形成印象和概念从而得到了信息,在此基础上建立概念模型,它必须能够如实地反映客观世界中的事物以及事物间的联系;...
  • 地理信息系统(GIS)基本概念

    千次阅读 2006-03-13 18:29:00
    1、地理信息系统(geographic information system ,即gis )——一门集计算机科学、信息学、地理学等多门科学为一体的新兴学科,它是在计算机软件硬件支持下,运用系统工程和信息科学的理论,科学管理综合分析...
  • 数据库分析之概念结构设计

    万次阅读 2018-07-01 23:54:56
    概念结构设计:将需求分析得到的用户需求抽象为信息结构(即概念模型)的过程。 一、概念模型 在需求分析阶段所得到的应用需求应该首先抽象为信息世界的结构,然后才能更改、更准确地用某一数据库管理系统实现...
  • 计算机网络的核心概念

    万次阅读 多人点赞 2019-12-31 10:44:21
    我们第一篇文章讲述了计算机网络的基本概念,互联网的基本名词,什么是协议以及几种接入网以及网络传输的物理媒体,那么本篇文章我们来探讨一下网络核心、交换网络、时延、丢包、吞吐量以及计算机网络的协议层次...
  • 掌握并区分数据,数据库,数据库管理系统数据库系统等概念,了解数据库管理系统在数据管理上的重要作用 掌握并区分数据模型,概念模型基于DBMS的数据模型等概念 掌握概念模型的建模工具E-R图 掌握关系模型,明确...
  • 概念学习归纳偏置   感觉概念学习现在提得很少,可能是因为在机器学习的实际应用中很少用到,但是从概念学习中很容易引出归纳偏置的概念,而归纳偏置是个很重要的概念,因此这次会简单讲讲概念学习,着重于归纳...
  • 假定我们收集了一些关于西瓜的数据,例如(色泽=青绿,根蒂=蜷缩,敲声=...反应事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”,称为“属性”或“特征”;属性上的取值称为“属性值”。属性张成的空间,
  • nifi初识---核心概念和整体架构

    千次阅读 2017-12-19 19:23:47
    NIFI的核心概念:nifi设计理念是基于流的编程,下面是nifi的一些概念: NiFi Term FBP Term Description FlowFile 信息流 每一个数据流在系统里面流动,并包含着key/value形式的attribute,以及不同大小的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 60,597
精华内容 24,238
关键字:

信息的概念特征和性质