精华内容
下载资源
问答
  • 信息度量——信息
    千次阅读
    2017-05-14 20:49:47

        我们常说信息有用,那么它的作用如何客观、定量地体现出来呢?信息用途的背后是否有理论基础呢?这个问题一直没有很好的回答,直到1948年,香农在他的论文“通信的数学原理”中提到了“信息熵”的概念,才解决了信息的度量问题,并量化出信息的作用。

        一条信息的信息量与其不确定性有着直接的关系,比如我们要搞清一件非常不确定的事,就需要大量的信息。相反如果对某件事了解较多,则不需要太多的信息就能把它搞清楚。所以从这个角度看,可以认为,信息量就等于不确定的多少。那么如何量化信息量的度量呢?2018年举行世界杯,大家很关系谁是冠军。假如我错过了看比赛,赛后我问朋友,“谁是冠军”?他不愿意直接告诉我,让我每猜一次给他一块钱,他告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军?我可以把球编上号,从1到32,然后提问:冠军在1-16号吗?依次询问,只需要五次,就可以知道结果。所以谁是世界杯冠军这条消息只值五块钱。当然香农不是用钱,而是用“比特”这个概念来度量信息量。一个比特是一位二进制数,在计算机中一个字节是8比特。

        信息熵和书本的大小?在上面的例子中,消息的信息量是5比特,如果有朝一日是64支球队进入比赛,那么这条消息就是6比特。发现了吗,信息量的比特数和所有可能情况的对数函数log有关。聪明的你可能不需要猜五次就知道谁是冠军,因为像西班牙、巴西、德国这样的球队夺冠的可能比日本、韩国等球队大得多,因此猜测的时候不需要把32支球队等分为两组,而可以把少数几支最可能的球队分一组,这样也许三次或四次就能猜出结果。因此当每支球队夺冠的概率不等时,“谁是世界杯冠军”的信息量比5比特少。

        它的准确信息量应该是H=-(p1*logp1+p2*logp2+...+p32*logp32),p1...p32分别是32支球队夺冠的概率。香农把它称为“信息熵”,一般用符合H表示,单位是比特。所以一本50万字的中文书平均有多少信息量?常用的汉字大约有7000个,假如每个字等概率,大约需要13比特(即13位二进制数)表示一个汉字。但汉字的使用频率不是均等的,实际上10%的汉字占常用文本的95%以上,因此即使不考虑上下文相关性,每个汉字的信息熵大约只有8-9比特,如果再考虑上下文相关性每个汉字的信息熵就只有5比特左右。所以,一本50万字的中文书,信息量大约是250万比特。采用比较好的算法压缩,整本书可以存成一个320KB的文件。直接用两字节的国际编码存成需要1MB左右。这两个数量的差距,在信息论中称作“冗余度”。

    更多相关内容
  • 为了确保所构建的信息系统需求变更度量框架 的合理性 ,我们迫切 的需要一种科学 的方法来指导 它。 目前 业 界 比较 流 行 的 导 方 法 有ISO9000,全 面 质 量 管 理 (TQM)、六 西 格 玛(6sigama)和 CMMI等。IS...
  • 信息度量

    千次阅读 2018-04-21 18:48:31
    香农公式个人理解基本信息就是消息,只要表达了某种状态,都可以称作是信息。生活中一直有无数消息在传播,但是重要性不一致,大多的消息甚至谈不上信息,因此经常被忽略。消息作为信息被进行衡量的标准,依赖于两个...

    香农公式

    H(X)=-\sum\limits_{x\in\mathcal{X}}p(x)\log p(x)


    个人理解

    基本

    信息就是消息,只要表达了某种状态,都可以称作是信息。

    生活中一直有无数消息在传播,但是重要性不一致,大多的消息甚至谈不上信息,因此经常被忽略。

    消息作为信息被进行衡量的标准,依赖于两个方面:

       1. 影响

           如果和自身不相关,甚至从来不想去探究。对某则消息完全不想关心,这东西就对你可有可无,可能根本不想有,因为有了也不理会,只是徒增烦恼。至于它会有什么样的作用,影响....一切都与你无关。可能会对你的生活有所影响,只是你不知道,不过这个也是一样的结果,前提就是你对他毫不关心。这里所假设的,就是大家都对自身情况有所了解,并且有所关注。这就是信息的前提。如果你对价值不感兴趣,你就不会关心钱和金子,更不会自已他们价值的差别。

       2. 程度 

            如果关心价值,所有可能携带有价值的一切相关事务,你将都会感兴趣。最重要的一点,就是比起铜板,你更想要金子。这就是目的,甚至我更想要石头----只要他它的价值更高。所以,信息的价值只和对最终目的的影响程度有关,不和形式有所关联。

        

    所以要有目的,然后要有关联程度判断的依据。

    目的纷杂,永远不会统一,不过度量的标准却可以共用。

    因此,信息度量的理论,还是那么的无用----它不能帮你改变任何事情,它只能帮你衡量一件事情----始终是自己做决定。

    一  信息数量

        讨论信息之前,还是要明确一点----事物之间都是有关联的。

        有无相生,前后相随。和扔骰子一样,我们关心的只是结果,但是骰子不只是一面,这是主要的信息。然后灌铅了没有,材质如何,这又是影响的因素。温度湿度,鸡毛蒜皮。事前烧香没有,也不得而知。

        不过,始终记得----我们关心的结果,始终是受到制约的。而对最终的结果造成影响最大的,或者说能够更全面的描绘最终结果的,那必然是大信息量的。

        所以,信息数量大,也会增大信息量。骰子如果六面都是一点,那么你押注一点获胜的概率就大大提高,甚至不败。

        大家都说一个人是坏蛋,那么他是坏蛋的可能就很大;全部的人都这样说,他就只能是坏蛋无疑了。

        但是,不同的骰子,面数不一样;不同的人群,人数也不一样。单纯的数量反应不了全部的情况。最后,也是最好的办法,用比例来决定。全部都是一点,结果必定是一点,一点的比例就是100%。如果一半说的好人,一半说的坏蛋,那比例就是五五开50%。

        问题来了,最后的情况就分作了两个部分:

        1. 结果候选名单

        2. 候选中标可能

        最后就是这样了,我们关心结果,最后只能知道结果的可能,然后知道结果发生的概率。

        支持的人越多,中标的可能就越大,因为概率大。

        用概率来替换数量,就不会受到样本的限制。

        这就是香浓公式中概率的意思了。

    二  信息质量

        知道了对结果造成影响的不只是一种,但是影响程度能有多大呢?

        通过让更多的面刻上一点,能够提高翻到一点的几率,这是从数量上进行的调整。

        但是老手一般都是灌铅的。数量一致,没办法修正的时候,关键的就看铅了。把铅全部甩到六点的一面,结果是一的可能性就会大大提高。结果候选名单的确没变,不过为一的概率的确是加大了。为什么?

        都是侄儿辈,我更喜欢带小侄女。说着一视同仁,不过终归是带侄女的次数多一点。原因就在于那点私心。衡量单位都是米,同样的步子,腿长的一定走的远。这就是公平和公正的问题了。同样的朝九晚五,工资差异还是会有的。所以,由于本质的差异,对结果影响的程度是不一样的。

        概率可以提高发生的可能,但这个是在公平的的角度上,大家的影响程度一致,然后其利断金。不过拔河时候人多也不一定赢,几个胖子或者大力士也可以扭转战局,少几个人也无所谓。数量强调公平却不公正,完全不能全面的衡量胜负。胜负依靠的是力,但是个体的贡献完全不等价。

        这就是质。是个体贡献的衡量。质好,一个顶俩,以一敌百。

        不过这两者都是片面的描述,各有各的道理,结合起来才能够准确的预料胜负。一百零一量打一个质,还是会赢的。

        这就是公式中对数部分的含义,把质换算出来。

    三  信息度量

        开始拔河了,怎么才算公正。

        抛开表面的数量,算上隐含的质,用准确的力来进行衡量。力的总和就是F = f * m。

        竞走开始,距离 S = s * m。

        这里强调的,就是看清本质。

        要注意数量,同时也要注意质量。一颗原子弹胜过了千军万马。

    四  整体信息

        这样就差不多能对比出信息量的大小了。不过现实情况不会这么绝对的,让一群弱小对付一个强敌,那是富人们的消遣。

        拔河情况简直鱼龙混杂,两边都不止是一个人。所以全部的单个的力要进行加和。

        接力赛也是,每个人都是整体的部分,全部加和才是最终结果。

        计算资产的时候,除了黄金,铜钱的价值你也不会放过吧,虽然价值低,万一数量是黄金的成千上万倍,你可亏了不少。

        

        所以,我们关注的信息量共有三部分

        1. 几个方面

        2. 数量多少

        3. 质量几何

        通过类型,数量,质量,才能够全面的衡量一条信息的信息量大小,香浓公式就是这个含义。

        1. 累加 == 类型

        2. 概率 == 数量

        3. 对数 == 权重


    疑问

    负号

        为什么要用负号,因为概率。概率是小于一的,对数后必定是负数,要矫"正"过来。

    概率

        为什么要用概率呢?两个原因

        1. 归一

        对于数量问题,永远不可能存在永远相等的情况。为了更好的描述这类问题,引入了概率。对于未知的问题我们叫做概率,但是已知的东西,这个就是比例而已。用概率理解比较麻烦,可以用比例来进行理解,然后过度到概率,其实本质上都是一个意思。统计和概率都是同一个东西的不同面而已。

        2. 普适

        经常通过数量统计才能算出比例,感觉概率多此一举。但是,骰子有什么办法呢,长得丑也不是它的错。它的数量在哪里呢。六个面是么,我就算你狠,但是遇见更"丑"的呢?

        算比例的确是麻烦操作,不过有些东西的确是从半截插入的,不可能计算数量,却能够一眼看出概率。正如统计是对历史的刻画,统计则是对未来的描述。如果处在当下,你到达未来没必要追溯历史,更别说黑市户口。

        抛硬币的信息量,没必要先抛几次统计一下,而且,统计多少次才算好呢。万一风大,万一有磁性?

        概率这样就刚好,有历史的,可追溯;刚出生的,这就是开始。

        而且,这提供了一个交流的平台,对于不同类型的信息,概率才是唯一的语言。抛开类型,抛开数量。

        普通人也有尊严,这不该受到金钱或者地位的影响,我们关心的是价值,即使落进了茅坑,价值还是在的。

        如果还要考量其他,那也是公式中的一个累加项。

        如果要排除这个毫不关心,移除就是。终究,还是相同的做法。


    展开全文
  • 信息熵:一条信息信息量和其不确定性有着直接的关系,比如我们想弄清楚一个非常不确定的事需要大量的信息,可以认为信息量就是不确定性的多少。 比如错过了世界杯,想要猜32个球队哪只是冠军,可以先问是1-16吗,...

    信息熵:一条信息的信息量和其不确定性有着直接的关系,比如我们想弄清楚一个非常不确定的事需要大量的信息,可以认为信息量就是不确定性的多少。

    比如错过了世界杯,想要猜32个球队哪只是冠军,可以先问是1-16吗,假如猜对了,可以继续问1-8吗,这样就需要五次就可以知道哪个球队是冠军,所以谁是冠军这个信息就是5.

    有些人发现可能不需要五次就能猜出来谁是冠军,因为有些球队夺冠的可能性更大一些,因此猜的时候可以把大概率赢的球队分在一边,这样猜测也许三到四次就可以猜出来。当每支球队夺冠的可能性不等时,谁是冠军的信息量比5少,香农指出,它的准确信息量应该是H=-(p_{1}*logp_{1}+p_{2}*logp_{2}+...+p_{32}*logp_{32}),其中p1,p2...p32是这些球队夺冠的概率,香农把它称为信息熵。

    来自《数学之美》

     

    展开全文
  • 另外,缺陷度量应包括追踪过程控制信息的过程改进活动所需的缺陷信息,并引入缺陷来源分析、缺陷趋势分析等作为风险减轻策略的输入。本文介绍了几种常见的缺陷度量指标,在实际项目中,缺陷度量指标通常要和其他指标...
  • 消息的定义:是包含信息的语言,文字和图像等,可表达客观事物和主观思维活动的状态 信号:是把消息变换成电信号,声信号等适合信道传输的物理量 那什么是信息呢? 1)事物中包含的内容 2)是事物在运动状态或...

    一、基础介绍

    1.1 基本概念

    物质、能量和信息是构成客观世界的三要素

    1.2 消息、信息、信号的区别

    消息的定义:是指包含信息的语言,文字和图像等,可表达客观事物和主观思维活动的状态
    信号:是把消息变换成电信号,声信号等适合信道传输的物理量

    那什么是信息呢?
    1)指事物中包含的内容
    2)是事物在运动状态或存在形式上的不确定性的描述(即不确定性越大,信息越多)

    信息与消息的关系是什么?
    消息是信息的载体,包含关系

    消息与信号的联系是什么?
    信号是把消息转换成电信号等,然后在信道上面传输,所以信号是消息的运载工具。

    1.3 信息论主要研究对象

    在这里插入图片描述

    1.4 香农信息定义

    1)信息:是事物运动状态或存在形式的不确定性的描述。同学系统中接受信息的过程就是消除不确定性。
    2)过程:不确定的清除就获得了信息,信息量与不确定性的程度有关
    3)信息的度量:信息熵

    二、信息的度量

    2.1.1 自信息

    在这里插入图片描述

    2.1.2 互信息

    在这里插入图片描述

    2.2 平均自信息(信息熵,信源熵,熵)

    在这里插入图片描述

    2.3 条件熵、联合熵

    都是在联合概率空间下进行计算
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.4 平均互信息

    在这里插入图片描述

    2.6 各种熵之间的关系

    在这里插入图片描述

    展开全文
  • 信息消息中所包含的有效内容,或者说是预先不知道而待知的内容。 比如说1949年新中国成立,这对于我来说是已知的,那么它对我来说就没有信息量。再比如,明天会下雨,这对我来说就有一定的信息量。 那么如何...
  • 用来度量计算机外部设备传输率的是MB/s,Mb/s的含义是兆比特每秒,每秒传输的位数量。数据传输率的单位一般采用MB/s或Mbit/s,尤其在内部数据传输率上官方数据中更多的采用Mbit/s为单位。此处有必要讲解一下两个...
  • 我说CMMI2.0之管理性能和度量数据

    千次阅读 2019-02-12 09:11:50
    它将组织级的、项目级的度量实践,以及统计的和非统计的量化管理都融合到了一个PA中。它合并了CMMI 1.3版本中的MA, QPM等过程域的实践。  本实践域在落地时,需要使用到一些具体的量化技术,如:  基本的量化...
  • 度量 度量的理解 度量的重点应该从“控制”转变为“改进”:精益的一个核心理念是持续改进。在理念上,我们希望把度量的重心从“控制”转向“改进”。虽然控制和改进都是对系统采取的干预性措施,“控制”给人造成的...
  • MATLAB典型代码 ...在信息上,该术语通常是Shannon熵,该熵以位为单位量化消息(随机变量的特定实例)中包含的信息的期望值。 (看: ) 具有高熵的文件显示很少的重复模式,并且通常经过压缩/优化。 这样的高
  • 软件项目管理 第六讲 软件度量

    千次阅读 2020-03-07 17:03:22
    文章目录什么是软件度量?为什么需要软件度量?...软件度量(Metrics)是对软件产品、软件开发过程或者资源的简单属性的定量描述。 产品:软件开发过程中所生成的各种文档和程序。 过程:与软件开发有关的各种活...
  • 信息度量与KL距离

    千次阅读 2015-10-26 15:29:46
    信息度量 信息论中,把信息大小解释为其不确定度。如果一个事件必然发生,那么他没有不确定度,也就不包含信息。即信息=不确定度。 借用数学之美中的一个例子: 马上要举行世界杯赛了。大家都很关心谁会是冠军。...
  • 路由来源、优先级和度量

    千次阅读 2020-07-24 08:37:09
    3路由信息的来源 任何一台支持路由功能的设备都需要维护路由表以便正确地转发数据,在一个实际 的网络中,一台路由器的路由表往往包含多条路由,这些路由可能从不同的来源获取。 如图1-3所示,路由表中路由信息的...
  • 复杂性度量 在讨论如何度量复杂性之前,我们先思考一下复杂科学是如何产生的呢? 答案是复杂性科学不止一个,而是有好几个,每个对复杂性的定义都不一样。其中一些定义很正式,一 些则不那么正式。如果想要有统一的...
  • 文档相似性度量是自然语言处理(NLP)和信息检索(IR)领域中若干下游应用程序的基础。 其中最常见的应用是聚类,重复或卑鄙的检测以及基于内容的推荐系统。 我们选择以下内容时,首先要考虑推荐系统的应用程序。 ...
  • 算法及其复杂度度量简介

    千次阅读 2019-06-03 11:08:15
    1.1 所谓算法,是基于特定的计算模型,旨在解决某一信息处理问题而设计的一个指令序列。 1.2 一般地,算法还应必须具备以下要素: 输入与输出;基本操作、确定性与可行性;有穷性与正确性;退化与鲁棒性;重用性...
  • 很多公司在度量规模的时候,不重视度量策略阶段的活动,但是在后续的度量过程中往往就会遇到疑问,在遇到问题时,才发现原来没有做到度量策略的定义,没有确定好度量的前提,因此度量策略阶段虽然可能很简单,很快速...
  • 维度、度量、指标概念

    千次阅读 2020-07-17 16:49:25
    事实表,维度,度量,指标之间的关系 事实表:每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如销售商品所产生的数据,与软件中实际表概念一样 维度:说明数据,维度是可指定不同...
  • 文章目录一、度量的目的1、引例2、度量的目的3、度量的作用二、测量、度量和指标区别1、引例2、测量、度量和指标的区别3、思考题三、过程度量和项目度量1、过程2、项目四、度量的方式1、物理世界中的测量2、软件测量...
  • 1.信息熵的意义及解算:代表样本所包含的信息量,用来描述数据的不确定性。高信息熵:即变量是均匀分布的;低信息熵:变量分布不均,有的事件发生概率可能比较大。举例1:那么“专业”的信息熵:H(X) = -[p(数学)*...
  • 交叉熵(Cross Entropy)是信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词...
  • 企业如何落地实施研发效能度量?

    千次阅读 2022-04-07 14:53:04
    研发效能度量是当下软件研发领域最火热话题之一,互联网企业和传统软件企业都在关注研发效能度量领域。 尤其在数字产业化和产业数字化的大背景下,研发效能更被视为一家科技公司的核心竞争力,也被部分管理者奉为...
  • 几种距离的度量方式

    千次阅读 2020-11-26 17:07:22
    欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,...
  • 【解析题】下列度量单位中,用来度量计算机外部设备传输率的是______。 【解析题】程序是问题求解步骤的描述,计算机能直接识别的程序是( ) 【解析题】因特网上许多复杂网络和许多不同类型的计算机之间能够互相...
  • 几种距离度量方法比较

    千次阅读 2019-02-04 13:20:43
    欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的...
  • 这里的分类正确的样本数的不仅是正例分类正确的个数还有反例分类正确的个数。 对公式(2)的解释:先统计分类正确的样本数,然后除以总的样例集D的个数。 二、查准率、查全率 (1)查准率、查全率出现的原因: ...
  • 距离和相似度度量方法

    万次阅读 2018-09-11 16:56:17
    在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据...不同距离度量的应用场景   根据数据特性的不同,可以采用不同的度量方法。...
  • 维度 度量 指标

    千次阅读 2019-03-05 15:01:40
    这是一篇学习记录(维度 度量 指标) 初期先理解 维度:说明数据,维度是可指定不同值的对象的描述性属性或特征。例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 70,544
精华内容 28,217
关键字:

信息的度量是指