精华内容
下载资源
问答
  • 信息度量  信息具可度量性,其大小取决于信息所消除的不确定性  举例如下:  消息A:中国女子乒乓球队夺取亚运会冠军。  消息B:中国男子足球队夺取世界杯赛冠军。  从事件的描述上来看,其主题内容大致...

    信息的度量

        信息具可度量性,其大小取决于信息所消除的不确定性

        举例如下:

          消息A:中国女子乒乓球队夺取亚运会冠军。

          消息B:中国男子足球队夺取世界杯赛冠军。

          从事件的描述上来看,其主题内容大致相同,那么我们是否可以认为事件A和事件B具有相同的信息量呢?显然是不行的。根据以往经验,我们可以认为事件A是一个大概率事件,所以事件A的不确定性比较小,故当事件A发生时,我们从这个消息中得到的信息(消除的不确定度)很小。同理对事件B而言,由于是个极小概率事件,我们得到的信息很大。由此我们可以推断:消息B的信息量大于消息A。

     

        对于一个事件X,我们假设其不确定性为 I(p1) ,其中 p1 是事件X的先验概率。

        对应于事件X的消息X所消除的不确定性为 I(p2)。

        那么在我们获取了消息X之后,事件X的不确定性就变为了 I(p1)-I(p2) ,由此我们可以知道当我们对一个事物的信息获取的越多,其不确定性就越小,当其不确定性变为0时,该事件就被确定下来了,我们对其无法再获取更多的信息量了。

        

        直观定义

          收到某消息获取的信息量=不确定性减少量=收到该消息前后某事件的不确定性差

     

     

    信息量的数学表示

       理论依据(信息量具有的性质):

          1.非负性 对于一个事件而言,当事件被完全确定时,即我们无法获取更多信息时,其信息量为0,因此无法比0更小。

          2.单调性 是先验概率的单调递减函数,即某事件的发生概率越大,其信息量就越小。

          3.对于事件A 若 P(a)=0 则 I(Pa)=+∞ 若 P(a)=1 则 I(Pa)=0。

          4.两个独立事件的联合信息量应等于它们分别的信息量之和。

     

        I(xi)具有两个含义:

          1.事件发生前,表示该事件发生的不确定性。

          2.事件发生后,表示该事件所提供的信息量。

     

    术语解释

        先验概率(prior probability)是指根据以往经验和分析得到的概率。

     

    转载于:https://www.cnblogs.com/Hikigaya-Hachiman/p/10075333.html

    展开全文
  • 信息及其度量 信息是指消息中所包含的有效内容,或者说是预先不知道而待知的内容。 比如说1949年新中国成立,这对于我来说是已知的,那么它对我来说就没有信息量。再比如,明天会下雨,这对我来说就有一定的信息量...

    信息及其度量

    通信的根本目的在于传输消息所包含的信息。

    信息是指消息中所包含的有效内容,或者说是预先不知道而待知的内容。
    度量消息中信息的方法(1)与消息的种类无关(2)与消息的重要程度无关(3)消息所表达的事件越不可能发生,越不可预测,信息量就越大。
    比如说1949年新中国成立,这对于我来说是已知的,那么它对我来说就没有信息量。再比如,明天会下雨,这对我来说就有一定的信息量。
    那么如何度量消息中所含的信息量?

    可见,消息中所含的信息量与 不可预测性或不确定性有关
    根据概率论知识,事件的不确定性可用事件出现的概率来描述。
    故若用P(x)表示发生信息的概率,I表示消息中所含的信息量,则易知:
    (1)消息中所含的信息量是该消息出现的概率的函数,即:I=I [P(x)]
    (2)P(x)越小,I越大,P(x)越大,I越小。且当P(x)=1的时候,I=0;P(x)=0,I=∞
    (3)若干相互独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性。
    即:I[P(x1)P(x2)…]=I[P(x1)]+I[P(x2)]+……
    故综合易得:

    一、离散消息的信息量x为在这里插入图片描述

    通常一般广泛使用的单位为比特
    比如求二进制信源(0,1)等概独立发送符号时,每个符号的信息量
    因为等概独立,故发送每个符号的概率为1/2,根据公式易得每个符号的信息量为1bit。

    二、离散消息的平均信息量

    平均信息量即信源中每个符号所含信息量的统计平均值
    在这里插入图片描述
    等概时,熵最大,Hmax=㏒₂(1/P(x))

    通信系统性能指标

    从研究信息传输的角度来说,有效性和可靠性是通信系统的主要性能指标

    一、有效性

    (1)对于模拟通信系统,传输同样的信源信号,所传输的传输带宽越小,频带利用率越高,有效性越好。信号带宽与调制方式有关。
    (2)数字通信系统有效性的指标
    1)码元传输速率RB(传码率、波特率)
    1.定义:每秒传送的码元个数
    2.单位:波特(Baud)
    3.计算:若一个码元的时间长度为Ts秒
    则RB=1/Ts

    2)1.定义:每秒传输比特数(信息量)
    2.单位:bit/s,可简记为b/s或bps
    3.RB与Rb转换:Rb=RB*H

    频带利用率—把带宽和传输速率联系起来
    1.定义:单位带宽内的传输速率
    在这里插入图片描述

    二、可靠性

    (1)对于模拟通信系统,通常用接收端输出信号与噪声功率比(S/N)来度量,它反映了信号经传输后的保真程度和抗噪声能力
    (2)对于
    数字通信系统
    的可靠性可用差错概率来衡量。差错概率常用误码率和误信率来衡量。
    在这里插入图片描述

    小结

    通信的目的是传输消息中所包含的信息。消息是传输信息的物理表现形式,信息是消息的有效内容。

    信号是消息的传输载体。根据携载消息的信号参量是连续取值还是离散取值,信号分为模拟信号和数字信号。

    通信系统有不同的分类方法。按照信道中传输的是模拟信号还是数字信号,相应的把通信系统分成模拟通信系统和数字通信系统。

    数字通信已经成为当前通信技术的主流。与模拟通信技术相比,数字通信系统具有抗干扰能力强,差错可控,保密性好等优点。缺点是占用带宽大,同步要求高。

    按消息传递的方向和时间关系,通信方式可以分为单工、半双工及全双工通信。按数据码先排列的顺序可分为并行传输和串行传输。
    信息量是对消息发生概率(不确定性)的度量。一个二进制码元含1b的信息量;一个M进制码元含log2M比特的信息量。等概发送的时候,信源熵最大值。

    有效性和可靠性是通信系统的两个主要指标。两者相互矛盾而又对立统一,且可以互换。在模拟通信系统模型中,有效性可用带宽衡量,可靠性可用输出信噪比衡量。在数字通信系统中,有效性用频带利用率表示,可靠性用误码率、误信率来表示。

    信息速率是每秒发送的比特数;码元速率是每秒发送的码元个数。码元速率在数值上小于等于信息速率。码元速率决定了发送信号所需的带宽。

    展开全文
  • 用R语言实现信息度量

    千次阅读 2019-02-11 11:36:00
    信息论定义了信息熵,用于把信息进行度量,以比特(bit)作为量纲单位,为如今发达的信息产业和互联网产业奠定了基础。本文接上一篇文章 R语言实现46种距离算法 ,继续philentropy包的介绍,包括信息度量函数的使用。 ...

    640?wx_fmt=png

    作者:张丹,R语言中文社区专栏特邀作者,《R的极客理想》系列图书作者,民生银行大数据中心数据分析师,前况客创始人兼CTO。
    个人博客 http://fens.me, Alexa全球排名70k。


    前言

    香农的《通信的数学理论》是20世纪非常伟大的著作,被认为是现代信息论研究的开端。信息论定义了信息熵,用于把信息进行度量,以比特(bit)作为量纲单位,为如今发达的信息产业和互联网产业奠定了基础。本文接上一篇文章R语言实现46种距离算法,继续philentropy包的介绍,包括信息度量函数的使用。

    目录

    1. 信息熵介绍

    2. 关键概念

    3. 信息度量函数

    4. 应用举例


    1.信息熵介绍

    信息论(Information Theory)是概率论与数理统计的一个分枝,用于研究信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。

    香农被称为是“信息论之父”,香农于1948年10月发表的A Mathematical Theory of Communication,通信的数学理论(中文版),通常被认为是现代信息论研究的开端。

    信息熵,是对信息随机性的量度,又指信息能被压缩的极限,用bit作为衡量信息的最小单位。一切信息所包含的信息量,都是1bit的正整数倍。计算机系统中常采用二进制编码,一个0或1就是1bit。

    举例来说明一下信息熵的计算原理,假设小明最喜欢5种水果,苹果、香蕉、西瓜、草莓、樱桃中的一种,如果小明没有偏爱,选择每种水果的概率都是20%,那么这一信息的信息熵为

    H(A) = -1*(0.2*log2(0.2)*5)
    = 2.321928 bits


    如果小明偏爱香蕉,选择这5种水果的概率分别是10%,20%,45%,15%,10%,那么这一信息信息熵为

    H(B)=-1*(0.1*log2(0.1)+0.2*log2(0.2)+0.45*log2(0.45)+0.15*log2(0.15)+0.1*log2(0.1))
    = 2.057717 bits

    从结果得到H(A)大于H(B),信息熵越大表示越不确定。对于B的情况,对某一种水果的偏好,比A增加了确定性的因素,所以H(B)小于H(A)是符合对于信息熵的定义的。


    2.关键概念

    我们从一幅图来认识信息熵,图中显示了随机变量X和Y的2个集合,在信息熵的概念里的所有可能逻辑关系。两个圆所包含的面积为联合熵H(X,Y), 左边的整个圆表示X的熵H(X),左边半圆是条件熵H(X|Y)。 右边的整个圆表示Y的熵H(Y),右边半圆条件熵H(Y|X),中间交集的部分是互信息I(X; Y)

    640?wx_fmt=png

    信息熵(Entropy):是对信息随机性的量度,用于计算信息能被压缩的极限。对随机变量X,不确定性越大,X的信息熵H(X)也就越大。

    公式定义:

    640?wx_fmt=png

    H(x)的取值范围,0<=H(x)<=log(n), 其中n是随机变量x取值的种类数。需要注意的是,熵只依赖于随机变量的分布,与随机变量取值无关。

    条件熵(Conditional Entropy):表示两个随机变量X和Y,在已知Y的情况下对随机变量X的不确定性,称之为条件熵H(X|Y),

    公式定义:

    640?wx_fmt=png

    联合熵(Joint Entropy):表示为两个随机事件X和Y的熵的并集,联合熵解决将一维随机变量分布推广到多维随机变量分布。

    公式定义:

    640?wx_fmt=png

    互信息(Mutual Information, 信息增益):两个随机变量X和Y,Y对X的互信息,为后验概率与先验概率比值的对数,即原始的熵H(X)和已知Y的情况下的条件熵H(X|Y)的比值的对数,信息增益越大表示条件Y对于确定性的贡献越大。互信息,也可以用来衡量相似性。

    公式定义:

    640?wx_fmt=png

    当MI(X,Y)=0时,表示两个事件X和Y完全不相关。决策树ID3算法就是使用信息增益来划分特征,信息增益大时,说明对数据划分帮助很大,优先选择该特征进行决策树的划分。

    信息增益比率:是信息增益与该特征的信息熵之比,用于解决信息增益对多维度特征的选择,决策树C4.5算法使用信息增益比率进行特征划分。

    KL散度(Kullback–Leibler Divergence, 相对熵):随机变量x取值的两个概率分布p和q,用来衡量这2个分布的差异,通常用p表示真实分布,用q表示预测分布。

    公式定义:

    640?wx_fmt=png

    n为事件的所有可能性,如果两个分布完全相同,那么它们的相关熵为0。如果相对熵KL越大,说明它们之间的差异越大,反之相对熵KL越小,说明它们之间的差异越小。

    交叉熵(Cross Entropy):是对KL散度的一种变型,把KL散度log(p(x)/q(x))进行拆分,前面部分就是p的熵H(p),后面就是交叉熵H(p,q)。

    公式定义:

    640?wx_fmt=png

    交叉熵可以用来计算学习模型分布与训练分布之间的差异,一般在机器学习中直接用交叉熵做损失函数,用于评估模型。

    信息论是通信理论的基础,也是xx的基础,关于信息论的理论,等后面有时时间再做分享,本文重要研究信息熵的函数计算问题。


    3.信息度量函数

    philentropy包的函数,主要分为3种类别的函数,第一类是距离测量的函数,第二类是相关性分析,第三类是信息度量函数,本文重点介绍这些信息度量的函数。有关于距离测量函数和相关性分析函数,请参考文章R语言实现46种距离算法

    我们来看一下,philentropy包里信息度量的函数:

    • H(): 香农熵, Shannon’s Entropy H(X)

    • JE() : 联合熵, Joint-Entropy H(X,Y)

    • CE() : 条件熵, Conditional-Entropy H(X|Y)

    • MI() : 互信息, Shannon’s Mutual Information I(X,Y)

    • KL() : KL散度, Kullback–Leibler Divergence

    • JSD() : JS散度,Jensen-Shannon Divergence

    • gJSD() : 通用JS散度,Generalized Jensen-Shannon Divergence

    本文的系统环境为:

    • Win10 64bit

    • R: 3.4.2 x86_64-w64-mingw32


    3.1

    H()香农熵

    H()函数,可用于快速计算任何给定概率向量的香农熵。

    H()函数定义:

    
     

    H (x, unit = "log2"

    参数列表:

    • x, 概率向量

    • unit,对数化的单位,默认为log2

    函数使用:

    
     
     1# 创建数据x
    2> x<-1:10;x
    3 [1]  1  2  3  4  5  6  7  8  9 10
    4> x1<-x/sum(x);x1
    5 [10.01818182 0.03636364 0.05454545 0.07272727
    6 [50.09090909 0.10909091 0.12727273 0.14545455
    7 [90.16363636 0.18181818
    8
    9# 计算香农熵
    10> H(px)
    11[13.103643


    同样地,我们也可以用程序实现公式自己算一下。

    
     
    1# 创建数据x
    2> x<-1:10
    3#计算x的概率密度px
    4> px<-x/sum(x)  
    5
    6# 根据公式计算香农熵
    7> -1*sum(px*log2(px))
    8[1] 3.103643

    我们动手的计算结果,用于H()函数的计算结果是一致的。

    3.2

    CE()条件熵

    CE()函数,基于给定的联合概率向量P(X,Y)和概率向量P(Y),根据公式 H(X|Y)= H(X,Y)-H(Y)计算香农的条件熵。

    函数定义:

    CE(xy, y, unit = "log2")

    参数列表:

    • xy, 联合概率向量

    • y, 概率向量,必须是随机变量y的概率分布

    • unit,对数化的单位,默认为log2

    函数使用:

    
     
    1> x3<- 1:10/sum(1:10)
    2> y3<- 30:40/sum(30:40)
    3
    4# 计算条件熵
    5> CE(x3, y3)
    6[1] -0.3498852


    3.3

     JE()联合熵

    JE()函数,基于给定的联合概率向量P(X,Y)计算香农的联合熵H(X,Y)。

    JE()函数定义:

    JE (x, unit = "log2"

    参数列表:

    • x, 联合概率向量

    • unit,对数化的单位,默认为log2

    函数使用:

    
     
    1# 创建数据x
    2> x2 <- 1:100/sum(1:100)
    3
    4# 联合熵
    5> JE(x2)
    6[1] 6.372236


    3.4

    MI()互信息

    MI()函数,根据给定联合概率向量P(X,Y)、概率向量P(X)和概率向量P(X),按公式I(X,Y)= H(X)+ H(Y)-H(X,Y)计算。

    函数定义:

    MI(x, y, xy, unit = "log2")

    参数列表:

    • x, 概率向量

    • x, 概率向量

    • xy, 联合概率向量

    • unit,对数化的单位,默认为log2

    函数使用:

    1# 创建数据集
    2> x3 <- 1:10/sum(1:10)
    3> y3<- 20:29/sum(20:29)
    4> xy3 <- 1:10/sum(1:10)
    5
    6# 计算互信息
    7> MI(x3, y3, xy3)
    8[1] 3.311973


    3.5

    KL()散度

    KL()函数,计算两个概率分布P和Q的Kullback-Leibler散度。
    函数定义:

    KL(x, test.na = TRUE, unit = "log2", est.prob = NULL)

    参数列表:

    • x, 概率向量或数据框

    • test.na, 是否检查NA值

    • unit,对数化的单位,默认为log2

    • est.prob, 用计数向量估计概率的方法,默认值NULL。

    函数使用:

     1# 创建数据集
    2> df4 <- rbind(x3,y3);df4
    3         [,1]       [,2]       [,3]       [,4]       [,5]      [,6]      [,7]      [,8]      [,9]
    4x3 0.01818182 0.03636364 0.05454545 0.07272727 0.09090909 0.1090909 0.1272727 0.1454545 0.1636364
    5y3 0.08163265 0.08571429 0.08979592 0.09387755 0.09795918 0.1020408 0.1061224 0.1102041 0.1142857
    6       [,10]
    7x3 0.1818182
    8y3 0.1183673
    9
    10#
     计算KL散度 
    11> KL(df4, unit = "log2"# Default
    12kullback-leibler 
    13       0.1392629 
    14> KL(df4, unit = "log10")
    15kullback-leibler 
    16       0.0419223 
    17> KL(df4, unit = "log")
    18kullback-leibler 
    19      0.09652967 


    3.6

    JSD()散度

    JSD()函数,基于具有相等权重的Jensen-Shannon散度,计算距离矩阵或距离值。

    公式定义:

    640?wx_fmt=png

    函数定义:

    JSD(x, test.na = TRUE, unit = "log2", est.prob = NULL)

    参数列表:

    • x, 概率向量或数据框

    • test.na, 是否检查NA值

    • unit, 对数化的单位,默认为log2

    • est.prob, 用计数向量估计概率的方法,默认值NULL。


    函数使用:

     1# 创建数据
    2> x5 <- 1:10
    3> y5 <- 20:29
    4> df5 <- rbind(x5,y5)
    5
    6#
     计算JSD
    7> JSD(df5,unit='log2')
    8jensen-shannon 
    9      50.11323 
    10> JSD(df5,unit='log')
    11jensen-shannon 
    12      34.73585 
    13> JSD(df5,unit='log10')
    14jensen-shannon 
    15      15.08559 
    16
    17#
     计算JSD,满足est.prob
    18> JSD(df5, est.prob = "empirical")
    19jensen-shannon 
    20    0.03792749 


    3.7

    gJSD()散度

    gJSD()函数,计算概率矩阵的广义Jensen-Shannon散度。

    公式定义:

    640?wx_fmt=png

    函数定义:

    gJSD(x, unit = "log2", weights = NULL)

    参数列表:

    • x, 概率矩阵

    • unit, 对数化的单位,默认为log2

    • weights, 指定x中每个值的权重,默认值NULL。


    函数使用:

    1# 创建数据
    2> Prob <- rbind(1:10/sum(1:10), 20:29/sum(20:29), 30:39/sum(30:39))
    3
    4# 计算gJSD
    5> gJSD(Prob)
    6[1] 0.023325



    4.应用举例

    在我们了解了熵的公式原理和使用方法后,我们就可以做一个案例来试一下。我们定义一个场景的目标:通过用户的看书行为,预测用户是否爱玩游戏。通过我们一步一步地推倒,我们计算出熵,条件熵,联合熵,互信息等指标。

    第一步,创建数据集为2列,X列用户看书的类型,包括旅游(Tourism)、美食(Food)、IT技术(IT),Y列用户是否喜欢打游戏,喜欢(Y),不喜欢(N)。

    
     
    X,Y
    Tourism,Y
    Food,N
    IT,Y
    Tourism,N
    Tourism,N
    IT,Y
    Food,N
    Tourism,Y


    第二步,建立联合概率矩阵,分别计算H(X),Y(X)。

    640?wx_fmt=png

    计算过程

    
     
    # 分别计算每种情况的概率
    p(X=Tourism) = 2/8 + 2/8 = 0.5
    p(X=Food) = 2/8 + 0/8 = 0.25
    p(X=IT) = 0/8 + 2/8 = 0.25
    p(Y=Y) = 4/8 = 0.5
    p(Y=N) = 4/8 = 0.5

    # 计算H(X)
    H(X) = -∑p(xi)*log2(p(xi)) 
     = -p(X=Tourism)*log2(p(X=Tourism) ) -p(X=Food)*log2(p(X=Food) ) -p(X=IT)*log2(p(X=IT) ) 
     = -0.5*log(0.5) -0.25*log(0.25) - 0.25*log(0.25)
     = 1.5

    # 计算H(Y)
    H(Y) = -∑p(yi)*log2(p(yi)) 
     = -p(Y=Y)*log2(p(Y=Y)) -p(Y=N)*log2(p(Y=N))
     = -0.5*log(0.5) -0.5*log(0.5)
     = 1


    第三步,计算每一项的条件熵,H(Y|X=Tourism),H(Y|X=Food),H(Y|X=IT)。

    
     
    H(Y|X=Tourism) = -p(Y|X=Tourism)*log(p(Y|X=Tourism)) - p(N|X=Tourism)*log(p(N|X=Tourism))
     = -0.5*log(0.5) -0.5*log(0.5)
     = 1

    H(Y|X=Food) = -p(Y|X=Food)*log(p(Y|X=Food)) -p(N|X=Food)*log(p(N|X=Food))
     = -0*log(0) -1*log(1)
     = 0

    H(Y|X=IT) = -p(Y|X=IT)*log(p(Y|X=IT)) -p(N|X=IT)*log(p(N|X=IT))
     = -1*log(1) -0*log(0) 
     = 0


    第四步,计算条件熵H(Y|X)

    H(Y|X) = ∑p(xi)*H(Y|xi)
     = p(X=Tourism)*H(Y|X=Tourism) + p(X=Food)*H(Y|X=Food) + p(X=IT)*H(Y|X=IT)
     = 0.5*1 + 0.25*0 + 0.25*0
     = 0.5


    第五步,计算联合熵H(X,Y)

    H(X,Y) = −∑p(x,y)log(p(x,y))
    = H(X) + H(Y|X)
    = 1.5 + 0.5
    = 2


    第六步,计算互信息I(X;Y)

    I(X;Y) = H(Y) - H(Y|X)  = 1 - 0.5 = 0.5
    = H(X) + H(Y) - H(X,Y) = 1.5 + 1 - 2 = 0.5


    我们把上面的推到过程,用程序来实现一下。

     1# 创建数据集
    2> X<-c('Tourism','Food','IT','Tourism','Tourism','IT','Food','Tourism')
    3> Y<-c('Y','N','Y','N','N','Y','N','Y'
    4> df<-cbind(X,Y);df
    5     X         Y  
    6[1,] "Tourism" "Y"
    7[2,] "Food"    "N"
    8[3,] "IT"      "Y"
    9[4,] "Tourism" "N"
    10[5,] "Tourism" "N"
    11[6,] "IT"      "Y"
    12[7,] "Food"    "N"
    13[8,] "Tourism" "Y
    14


    变型为频率矩阵

    1tf<-table(df[,1],df[,2]);tf
    2
    3          N Y
    4  Food    2 0
    5  IT      0 2
    6  Tourism 2 2


    计算概率矩阵

     1> pX<-margin.table(tf,1)/margin.table(tf);pX
    2Tourism    Food      IT 
    3   0.50    0.25    0.25 
    4> pY<-margin.table(tf,2)/margin.table(tf);pY
    5  Y   N 
    60.5 0.5 
    7> pXY<-prop.table(tf);pXY
    8           Y    N
    9Tourism 0.25 0.25
    10Food    0.00 0.25
    11IT      0.25 0.00


    计算熵

     1> H(pX)
    2[11.5
    3> H(pY)
    4[11
    5
    6# 条件熵 
    7> CE(pX,pY)
    8[10.5
    9
    10# 联合熵 
    11> JE(pXY)
    12[12
    13
    14# 互信息
    15> MI(pX,pY,pXY)
    16[10.5


    计算原理是复杂的,用R语言的程序实现却是很简单的,几行代码就搞定了。


    本文只是对的信息论的初探,重点还是在信息度量方法的R语言实现。信息熵作为信息度量的基本方法,对各种主流的机器学习的算法都有支撑,是我们必须要掌握的知识。了解本质才能发挥数据科学的潜力,学习的路上不断积累和前进。


    640?wx_fmt=gif


    往期精彩:


    640?wx_fmt=jpeg

    公众号后台回复关键字即可学习

    回复 爬虫            爬虫三大案例实战
    回复 Python       1小时破冰入门
    回复 数据挖掘     R语言入门及数据挖掘
    回复 人工智能     三个月入门人工智能
    回复 数据分析师  数据分析师成长之路 
    回复 机器学习     机器学习的商业应用
    回复 数据科学     数据科学实战
    回复 常用算法     常用数据挖掘算法


    友情提醒


    今天上称前请确保周围环境的安全!!!


    上班第一天,祝你有个好心情↓

    展开全文
  • 假设一正方形边长为单位长度,设其对角线长度为L 根据毕达哥拉斯定理(即勾股定理),L^2必定为2 ...若L为有理数,则可以表示为p/q,这里p,q均为整数,且约定p,q...因此,有理数并不能完整的建立度量理论基础

    假设一正方形边长为单位长度,设其对角线长度为L


    根据毕达哥拉斯定理(即勾股定理),L^2必定为2

    若L为有理数,则可以表示为p/q,这里p,q均为整数,且约定p,q没有公因子,因为即使有也可以在p/q中约去


    则(p/q)^2 = 2

    则p^2 = 2 * q^2       (1)

    所以p^2为偶数

    可以得出p为偶数

    这里令p = 2 * p'

    则(1)式可得 4 * p' = 2 * q^2

    两边约去2

    得 2 * p' = q^2

    则q^2为偶数

    得q为偶数


    此时p.q均为偶数,它们有公约数2,与开始约定p,q没有公因子矛盾


    因此,有理数并不能完整的建立度量理论基础

    展开全文
  • 度量空间

    千次阅读 2019-09-20 18:33:35
    度量空间的相关概念度量空间的数学意义定义例子开集、闭集、拓扑与收敛性度量空间的类型1. 完备空间2. 有界与完全有界空间3. 紧致空间4. 局部紧致与常态空间5. 连通性6. 可分空间 度量空间的数学意义 在数学中,...
  • 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和... 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3,...
  • 距离度量和相似性度量

    千次阅读 2014-03-09 12:00:43
    在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。... 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3
  • 距离度量

    千次阅读 2015-03-12 09:30:46
    声明:本篇文章内容大部分转载于July于CSDN的文章:从K近邻算法、距离度量谈到KD树、SIFT+BBF算法,对内容格式与公式进行了重新整理。同时,文章中会有一些对知识点的个人理解和归纳补充,不代表原文章作者的意图。 ...
  • 如何设计度量数据展示的指示器?

    千次阅读 2015-09-09 11:05:14
    在设计企业的度量体系时,很多企业往往在数据展示的方面不太重视,下文举例说明如何设计度量数据的指示器。 比如部门经理关注本部门内每个项目的进展情况,想通过度量数据了解每个项目的进展情况。针对此需求,我们...
  • 度量学习Metric Learning

    千次阅读 2019-01-14 16:13:32
    度量学习 (Metric Learning) == 距离度量学习 (Distance Metric Learning,DML) == 相似度学习  度量学习 是指 距离度量学习,Distance Metric Learning,简称为 DML,是人脸识别中常用传统机器学习方法,由Eric...
  • 那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(sh...
  • 评论《怎样度量信息

    千次阅读 2006-04-29 16:47:00
    回过头来看什么是信息,香农信息论的确第一次给出了形式化的定义,也就是《怎样度量信息》中提到的信息熵计算公式。这个定义的哲学就是,信息量是对不确定性的衡量。一个事件越是确定的,对你而言信息量也就越小,如...
  • 软件缺陷度量

    万次阅读 2017-07-13 16:09:31
    1.什么是缺陷度量  缺陷度量是软件度量的一部分,其本身并不能发现缺陷、剔除缺陷,但是有助于这些问题的解决。另外,当正确、持续地进行了缺陷度量时,产品以及过程的质量属性的数据为实施和管理过程改进活动提供...
  • 1.信息熵的意义及解算:代表样本所包含的信息量,用来描述数据的不...举例1:那么“专业”的信息熵:H(X) = -[p(数学)*log2(p(数学)) + p(IT)*log2(p(IT)) + p(英语)*log2(p(英语))] =-[0.5*log2(0.5) + 0.25*lo...
  • 样本相似度度量

    千次阅读 2019-10-13 22:04:57
    样本相似度度量 分类时,有时需要估算样本之间的相似度,这时候就需要进行相似度度量。 常见的相似度度量有以下几种: 欧氏距离 两个样本a(x11, x12, x13, … ,x1n)和b(x21, x22, x23, x2n)的欧氏距离: 欧氏距离...
  • 度量驱动开发

    2013-01-05 09:54:24
    在意大利罗马召开的DevOpsDays上,我进行了题目为“度量驱动开发”的演讲,这篇文章以演讲内容为基础。   如今,IT世界里的发布已经变成几小时内的事情,甚至几分钟就能完成。所有的内容都要垂直伸缩、水平扩展。...
  • 关于度量空间定义

    2020-05-12 16:10:33
    度量空间定义:
  • 数据相似性的度量方法总结

    万次阅读 多人点赞 2016-10-30 22:34:13
    现实中,我们需要处理的数据具有着不同...针对这些不同形式的数据,不可能找到一种具备普遍意义的相似性度量算法,甚至可以说,每种类型的数据都有它对应的相似度度量标准。这些标准很多,也比较杂乱,有必要作以总结。
  • 我说CMMI2.0之管理性能和度量数据

    千次阅读 2019-02-12 09:11:50
    它将组织级的、项目级的度量实践,以及统计的和非统计的量化管理都融合到了一个PA中。它合并了CMMI 1.3版本中的MA, QPM等过程域的实践。  本实践域在落地时,需要使用到一些具体的量化技术,如:  基本的量化...
  • 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

    万次阅读 多人点赞 2012-11-20 16:31:35
    从K近邻算法、距离度量谈到KD树、SIFT+BBF算法前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1、KD树;2、神经网络;3、编程艺术第28章。你看到,blog内的文章与你于别处所见的任何都不同。于是...
  • 常用的相似性度量指标

    千次阅读 2019-05-14 19:36:01
    相似性度量,即综合评定两个事物之间相近程度的一种度量。两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。相似性度量的给法种类繁多,一般根据实际问题...5.3 举例 6....
  • 如何度量项目的总体进展?

    千次阅读 2021-04-07 09:58:31
    在跟踪项目的总体进展时,传统的方法是采用挣值图进行跟踪,敏捷的方法是采用燃尽图或燃起图进行跟踪,精益的方法是采用累积流量图...两个度量元 1 时间流逝百分比(TLP:Time lapse percentage) 时间流逝百分比=...
  • 数据挖掘中的度量方法

    千次阅读 2017-12-02 22:20:13
    通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。 欧式距离  nn维...
  • 距离和相似度度量

    2015-10-19 21:09:36
    在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别...为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3,
  • 数据挖掘笔记 - 度量

    千次阅读 2018-11-27 23:08:15
    《深度学习》 3.13 信息度量 一、数据对象相似性和向异性的度量 (一)概述 1.定义 非正式的定义为,相似度为两个对象相似程度的度量,两个对象越相似,相似度就越高。相似度通常在0(完全不相似)到1...
  • 相似度度量 距离

    千次阅读 2014-05-24 20:32:27
    在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别...为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3,
  • spss度量 名义 有序

    万次阅读 2018-08-15 10:09:27
    变量视图:变量视图用于管理变量的属性,包括变量名称,类型,标签,缺失值,度量标准等属性。 数据视图:数据视图用于管理录入的数据,一行表示一条记录在不同变量下的值,一列表示相同的变量在不同记录中的值。 ...
  • 软件度量知识点

    千次阅读 2013-06-19 12:43:41
    软件度量知识点 1.测量有哪些尺度类型?各有何区别?测量作为一个过程,有哪些阶段? 2.软件度量的实体有哪些?如何采用GQM定义度量框架?GQM中如何描述目标? 3.什么是功能点分析?特征点、对象点、和功能点...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,173
精华内容 8,069
关键字:

信息的度量举例