精华内容
下载资源
问答
  • 公理集合

    2019-02-04 15:45:29
    公理集合(axiomatic set theory)是数理逻辑的主要分支之一,是用公理化方法重建(朴素) 集合的研究以及集合的元数学和集合的新的公理的研究。 19世纪70年代,德国数学家G.康托尔给出了一个比较完整的集合...

     

    公理集合论

     

    本词条由科普中国科学百科词条编写与应用工作项目 审核

    公理集合论(axiomatic set theory)是数理逻辑的主要分支之一,是用公理化方法重建(朴素) 集合论的研究以及集合论的元数学和集合论的新的公理的研究。

    19世纪70年代,德国数学家G.康托尔给出了一个比较完整的集合论,对无穷集合的序数和基数进行了研究。20世纪初,罗素悖论指出了康托尔集合论的矛盾。为了克服悖论,人们试图把集合论公理化,用公理对集合加以限制。

    中文名

    公理集合论

    外文名

    axiomatic set theory

        

    数理逻辑的主要分支之一

    提出时间

    9世纪70年代

    关键字

    ZF系统、等正则公理

    应用学科

    数学

    目录

    1. 1 原理简介
    2. 2 详细内容
    3. 3 替换公理
    4. 4 自然数
    5. 5 极限序数
    1. 6 正则公理
    2. 7 基数
    3. 8 构造模型
    4. 9 分支
    5.  简介
    1.  选择公理
    2.  连续统假设
    3.  可构成性公理
    4.  马丁公理
    5.  大基数公理
    6.  决定性公理

    原理简介

    编辑

    第一个常用的公理系统是E.F.F.策梅洛A.A.弗伦克尔等提出的ZF系统。这个系统中只有一个非逻辑二元关系符号,非逻辑公理有:外延公理空集公理、无序对公理、并集公理、幂集公理、无穷公理、分离公理模式、替换公理模式、正则公理。如果加上选择公理就构成ZFC系统。利用公理可以定义出空集、序对、关系、函数等集合,还可以给出序关系、良序关系、序数、基数,也可以给出自然数、整数、实数等概念。

    通过元语言,也可公理系统中各公理之间的相容性和独立性,例如Cohen1960年创立公理集合论中的力迫法,并用来证明ZFC连续统假设CH独立。 [1]  公理集合论发展很快,马丁公理、苏斯林假设等新公理新方法已被广泛使用,组合集合论、描述集合论、大基数、力迫法的研究也持续发展。

    详细内容

    编辑

    一定要注意的一点:ZF公理系统中,集合的元素都是集合,自然数可用 [2]  皮亚诺公理系统表示,如3={0,1,2}={{},{{}},{{},{{}}}}

    ZF公理系统:

    (ZF1)外延公理:一个集合完全由它的元素所决定。如果两个集合含有同样的元素,则它们是相等的。

    (ZF2空集合存在公理:即存在一集合s,它没有元素。

    (ZF3)无序对公理:也就是说,任给两个集合xy,存在第三个集合z,而wz当且仅当w=x或者w=y

    注:z = {x, y}, 就是说,如 wz, w=x w=y。又名配对公理,取义可由二个集合生成第三个集

    合,集合无次序(或说生成的第三个集合无次序),所以叫无序(配)对公理,就一个,如果有次序

    就变二个了。

    (ZF4并集公理:也就是说,任给一集合x,我们可以把x的元素的元素汇集到一起,组成一个新集合。

    准确的定义:对任意集合x,存在集合y,使wy当且仅当存在z使zxwz”

    (ZF5幂集公理:也就是说,任意的集合xPx)也是一集合。

    准确的定义:对任意集合x,存在集合y,使zy当且仅当对z的所有元素wwx”

    (ZF6)无穷公理:也就是说,存在一集合x,它有无穷多元素。

    准确的定义:存在一个集合,使得空集是其元素,且对其任意元素xx{x}也是其元素。

    根据皮亚诺公理系统对自然数的描述,此即:存在一个包含所有自然数的集合。

    (ZF7替换公理模式:也就是说,对于任意的函数Fx),对于任意的集合t,当x属于t时,Fx)都有定义(ZF中唯一的对象是集合,所以Fx)必然是集合)成立的前提下,就一定存在一集合s,使得对于所有的x属于t,在集合s中都有一元素y,使y=Fx)。也就是说,由Fx)所定义的函数的定义域t中的时候,那么它的值域可限定在s中。

    (ZF8正则公理:也叫基础公理。所有集都是良基集。说明一个集合的元素都具有最小性质,例如,不允许出现x属于x的情况。

    准确的定义:对任意非空集合xx至少有一元素y使x∩y为空集。

    注:(ZF3)可以由其他公理导出,所以有些场合不出现这条公理,与之类似的是子集公理

    (AC)选择公理:对任意集c存在以c定义域的选择函数g,使得对c的每个非空元集xg(xx

    ZF集合公理系统加上AC就成为ZFC公理系统。

    注:ZFZermeloFraenkel

    替换公理

    编辑

    如果一集合x的元素的元素也都还是x的元素,则称x为传递集。一个集合x是自然数:如果x是传递集,x的全体元素在良序,而且x的每一非空子集对序而言有最大元。这样可以把自然数变成了在ZF内可以定义的一种性质,如把0定义作空集1定义作0{0},2定义作1{1}……等等,则0,1,2,都是自然数,而且只有这些是自然数。

    自然数

    编辑

    x序数是指如果集合x是传递集,而且x良序。令On表示全体序数所成的集合,αβOn,α<αβ。这样,就用定义了序数间的< 关系,每一序数都是由比它自身小的序数所组成的集合

    每一自然数都是序数,全体自然数{0,1,2…}也是序数。对任一集合x,令s(x)=x{x}。则当x是序数时,s(x)亦为序数。一序数α称作后继序数:如果有一序数β,使α=s(β)。不是后继序数的序数称为极限序数,例如0,ω均为

    极限序数

    编辑

    On虽为一真类,但<On,<>;具有性质:On的任一非空子类都有最小元。因此,要想证明每一序数都具有性质φ,即可应用超限归纳原理:对于任给的一序数β,若每一比β小的序数α都具有性质φβ亦具有性质φ,那么对所有的序数都具有性质φ

    在定义序数运算(加、乘、幂)时,需要用超限递归定理:若G是一运算,则有一运算F,使得对每一序数α,都有F(α)=G(α)。而这一定理的证明要用到替换公理。有了替换公理还可以得到极限序数ω+ω的存在性。如果先将正整数从小排到大,再把非正整数从大排到小而成一序列:1,2,30-1,-2。从而全体整数就良序了,其序型即为ω+ω

    事实上,任一良序集〈ω<;〉,都有惟一的序数α使得〈w<;〉序同构于〈α〉。因此,就可以把良序集序同构来分类,并将同属于一类的称为具有同一序型的良序集。而序数就可定义作为同构的良序集的代表。依此,可以定义序数的运算。例如,序数的加法可以定义如下:若α,β为序数,γ极限序数

    β+0=β,β+s(α)=s(β+α),β+γ(β+α),即用关于α的超限归纳原理来定义β+α。同样地可以定义序数的积β.α和幂βα,以及相应的运算性质,如结合律等。 可以证明:替换公理是独立于其他公理的。

    正则公理

    编辑

    正则公理与其他公理不同,它不是断言某些集合的存在,而是限制一些集合的存在。提出它是为了研究ZF的模型。在ZF中可定义的数学对象都不以自身为元素;也未发现有集合x,y,具有xy并且yx的性质或者集合序列x1,x2,满足:。1917 D.米里马诺夫首先提出良基集的概念。1922年弗伦克尔在策梅洛原来的公理系统补充了一条公理名曰限制公理,顾名思义,它是给出某种限制,以排除那些非良基集。1925J.·诺伊曼,称它为正则公理。1930年策梅洛也独立地引入了这条公理,并称它为基础公理。从而完成了ZF

    ·诺伊曼给出了一个分层其中V0=═α为任一序数,F(Vα)表Vα的幂集。这样,正则公理肯定了每一集合必在某一Vα中。若再引进γ

    公理集合论

    ,称为x的秩。从而,即可依秩来作超限归纳。

    AC成立的条件下,每一群都同构于一个在π中的群:每一拓扑空间都同构于一个在Π中的拓扑空间,等等。而在数学讨论中常常是把同构的对象视作同一的;故正则公理并不给讨论带来局限。

    基数

    编辑

    基数概念至为重要。两个集xy称作是等势

     

    若在xy之间能建立一个一一对应。如果集合xy等势,则记作xy。由于AC任一集合x都可以良序化,故有序数α,使得αx,把这种α中最小的那个序数定义作为集合x的基数,并记作x。这样定义的基数x仍然是一个集合;而每一集合x都有一个x作为x的数量大小的一个刻画;并且如果xy,则x│=│y

    这样定义的基数是序数的一部分:即是不能与小于自己的序数等势的那些序数,也就是所谓初始序数。例如012ω等都是初始序数,因而都是基数。而ω+1ω+2ω+ω等都不是初始序数,故都不是基数。所以紧接着基数0,1,2ω的基数是ω1,它也记作堗1

    如果AC不成立,则可利用正则公理来定义任一集合x的基数,记作悯。悯为一集合:

    公理集合论

    。 上述定义系D.S.斯科特于1955年给出的。

    60年代末期A.莱维还证明了在AC与正则公理都不成立的情况下,基数概念是不可定义的。

    构造模型

    编辑

    由哥德尔不完备性定理可知:如果ZF是协调的,则在ZF中不能证明自身的协调性。所以,在公理集合论中只考虑相对协调性问题。如:

    公理集合论

    解决这类问题的常用方法就是构造模型。在公理集合论中构造模型的方法不外三点:内模型法,外模型法(即力迫方法),对称模型法。

    内模型法是从已知的一个模型M 出发,来定义M 的一个子模型M s;使得M s满足ZF的一些公理或者ZF以外的一些公理。 [3]  公理集合论的一个著名成果就是1938K.哥德尔所给出的

    ConZF→Con(ZF+CH)的证明,证明中用的就是内模型法,但是当时尚未如此命名。

    迄至1951J.C.谢泼德森已经把内模型法研究得很完善,并已知道要用此法去证明

    公理集合论

    是不可能的。

    外模型法(即 [4]  力迫法)是P.J.科恩1963年所创,科恩据此而证明了CH的相对于ZF的独立性。

    排列模型的想法始于弗伦克尔,当时他是用来证

     

    及一些弱选择公理的相对协调性,适用于有原子(本元)的集合论。迭经A.莫斯托夫斯基、斯派克等人的改进而形成FMS方法,其与外模型法相结合即可构成对称模型法。

    分支

    编辑

    简介

    在公理集合论的研究中,大量的工作是关于集合论模型的,此外,还继续此前朴素集合论对无穷组合问题的研究即组合集合论的研究。其中的一些问题是来源于柯尼希树引理和 F. P.拉姆齐定理的推广。

    另一分支则为描述集合论(亦称解析集合论),主要是研究划分层次以后的实数子集的结构性质问题。因而,这一部分与分析、实数理论递归论的关系较为密切。

    即使限于上述两个分支的研究,也有许多问题要用到ZF(或ZFC)以外的附加假设才能判定。这里,常用的附加假设有:可构成公理;各种大基数公理,以及与AC不协调的决定性公理等。

    哥德尔在1938年提出了可构成公理,并在60年代末和70年代得到重视和发展。至于大基数的研究由来已久,但其作为附加公理亦是在60年代以后。几乎每一种大基数都是ω的某种性质向不可数基数的推广。可构成性、大基数和力迫法已成为公理化集合论的三大主流,同时它们又是三种研究工具。随着无穷博弈的诞生和博弈论在数学各分支的渗透,以及博弈论与逻辑的关系日益密切,决定性公理也愈受到重视。

    选择公理

    选择公理现代数学中最常用的假设,过去许多人曾不自觉地使用。对这个问题引起注意,是因为康托尔1883年提出任意集合是否都可良序化的问题。希尔伯特也曾把这个问题引入其23问题头一问题的后半部分。1904年,策梅罗提出选择公理,并通过选择公理证明了良序定理。这个公理有极多的等价形式,其中有在代数中常用的造恩引理。这个应用极广、看来正确的选择公理,却可以证明出一些看来荒唐的结果。如1914年的豪斯道夫的分球面定理和U23年的巴拿赫塔尔斯基悖论

    可是选择公理的用途太大,不能忽视,许多学科的基本定理少不了它:泛函分析中的哈恩巴拿赫定理(关于巴拿赫空间上的线性泛函的可扩张性);拓扑学的吉洪诺夫定理(关于任意多紧空间的直积为紧);布尔代数的斯通表示定理,每个布尔代数皆同构于集代数;自由群论的尼尔森定理,自由群的子群也是自由的。

    其他还有许多定理,如果没有选择公理也不行。

    连续统假设

    连续统假设的历史最久,它可以说是随着集合论一起产生的。1883康托尔就提出了这个假设,可数无穷集的基数的后面就是连续统的基。康托尔花了毕生精力去证明,但没有成功。希尔伯特把它列入自己著名的23个问题的头一个。希尔伯特本人也曾经用了许多精力证明它,并且在192—1926年宣布过证明的大纲,但终究未能成功。这个问题终究悬而未决。

    1930年哥德尔完成了他的两大贡献以后,曾说过现在该轮到集合论了。他从1935年起就开始研究连续统假设及广义连续统假设。这一次他又出人意料地证明了ZFGCH是协调一致的,不过当然要假设ZF本身也是协调的,虽然这一点一直没有得到证明。

    哥德尔应用可构造性公理证明ZFCZFC+GCH的相对无矛盾性,他用可构造集的类L作为ZFC的模型。19637月,美国年轻数学家科恩发明了影响极为重大的力迫法,并证明连续统假设的否定命题成立,这样一来CHZF中既不能证明也不能否定。

    可构成性公理

    哥德尔证明选择公理和连续统假设协调性的方法是定义一种类型的集合,叫做可构成集。假如把集合论中集合的概念完全用可构成集合的概念来理解,那么集合论中的一些概念就会有相应的改变。但是有一些概念不会改变,这种概念我们称为绝对的,特别是可构成性这个概念是绝对的。所以一切集合是可构成的,这称为可构成性公理。

    可构成性的概念非常重要,表现在:

    1构成公理ZF的其他公理是协调的;

    2、可构成性公理蕴涵连续统假设和选择公理;

    3、如果可测基数存在,则不可构成集合存在,这是斯科特1961年证明的。随后,罗巴通在他1964年的博土论文中证明可测基数的存在,蕴涵整数不可构成集合的存在性,后来他又证明可测基数的存在蕴涵只有可数无穷多个整数的可构成集合。

    马丁公理

    马丁公理1970年由马丁等人提出来的,它与ZFC的其他公理完全不同,不像一个的公理,但是由它可以推出数学上重要的结果。马丁公理是连续统假设的推论,因此可以看成是弱连续统假设。

    马丁公理在数学上有一系列的重要应用。特别重要的是,舍拉1974年证明怀特海猜想ZFC下是不可判定的。同样,许多拓扑学问题也有类似情况。

    大基数公理

    连续统假设及广义连续统假设反映了最理想的大基数产生的方法,也就是一个接一个由幂集的基数产生出来。但是,这种理想的情况无法证明,而与它不同或矛盾的情形也不可能得到否定。因此,这种种特殊大基数的存在性能得到更加特殊的结果,而且对数学本身产生了不可忽视的影响。

    虽然这些大基数极为玄乎,可是由它们可以推出许多重要的数学结果。因此我们不得不重视它,而它们的存在性作为公理就是大基数公理。可以料到这些大基数公理同原来的一些公理是矛盾的。比如,可构造公理就蕴涵可测基数不存在。

    大基数公理对数学问题的重要性可以由下面问题的解决看出:拓扑学中一个著名的几十年末解决的正规莫尔空间猜想归结为可测基数的存在问题,而象过去局限于ZFC系统的证明是没有希望的。 [5] 

    决定性公理

    决定性公理是与描述集合论密切相关的公理,它涉及到自然数列的集合是否能够通过某种方法决定。

    决定性公里的基本问题是:什么集合是可决定的?经过许多人的努力,马丁在1975年证明,数学中最常用的保莱尔集合是可决定的。下一个猜想是证明所有解析集合(即二维保莱尔集合的射影集合)是可决定的,但这个猜想与哥德尔的可构成性公理相矛盾。上面讲过,可构成性公理是与ZFC是相容的,因此这个猜想无法在集合论中证明。这样一来,它本身可以成为一个公理

    比这个公理更加激进的公理是:R的所有子集合都是决定的。这个公理太过激烈了,以致很难为,因为它首先同选择公理有矛盾。不过,由这个决定性公理却能推出一系列有趣的数学事实;其中最突出的是,由它可推出所有实数集都是勒贝格可测的。这样一来,许多数学成为没有意思的了。因此,数学家还是不太想要这个太强的公理。可是,它带来的一系列问题仍有待解决。

    词条图册更多图册

    数学·学科

    参考资料

     

    附录:

           1.外延公理Axiom of extensionality, 两个集合相等,若它们有相同的元素。? x ? y [ ? z ( z ∈ x ? z ∈ y ) ? x = y ]
            2.正规公理Axiom ofregularity / Axiom of foundation, 每个非空集合x都包含一个成员y,使得x和y不相交。
            3.分类公理(内容复杂,暂时省略)
            4.配对公理Axiom of pairing,  若x和y是集合,则存在一个集合包含x 和y。
            5.联集公理Axiom of union
            6.替代公理Axiom schema ofreplacement
            7.无穷公理Axiom of infinity
            8.幂集公理Axiom of powerset
            9.良序定理 Well-orderingtheorem

            对任一集合X,总存在一个可良好排序X的二元关系R。这意指著,R是X上的全序关系,且X内每个非空子集在R下都有一个最小元素。
     

    展开全文
  • 本文以信息论的视角为切入点去审视并解读科幻小说《三体》中的相关段落与情节。先后列举了:(1)根据自信息量的定义式和理解解释小说中的一句经典台词和一个故事情节。(2)从不确定性的角度和通信系统模型的方法...

    摘要

    本文以信息论的视角为切入点去审视并解读科幻小说《三体》中的相关段落与情节。先后列举了:(1)根据自信息量的定义式和理解解释小说中的一句经典台词和一个故事情节。(2)从不确定性的角度和通信系统模型的方法分别去理解和诠释小说情节中对信息论知识具有直接描写的相关情节。(3)根据博弈论的理论方法将情节中的模型简化后加以演绎,用不同的演绎结果对小说中猜疑链的概念用互信息两面性进行辩证解读。(4)根据平均互信息极值性解释小说中的童话故事解读失误导致人类灭亡。

    关键词:

    《三体》;自信息量;通信系统模型;互信息;熵的不增原理

    正文

    《三体》是刘慈欣创作的系列长篇科幻小说,由《三体》、《三体Ⅱ·黑暗森林》、《三体Ⅲ·死神永生》组成,作品讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。作为当今中国最火热的科幻IP,《三体》三部曲被普遍认为是中国科幻文学的里程碑之作,它将中国科幻推上了世界级高度。
    我在二刷这部作品时恰逢在学习《信息论基础及应用》这门课程,发现小说中许多故事都蕴含了大量与信息论相关的情节,抑或可以用信息论的知识完美地解释书中讲述的设定。也许这和作者刘慈欣本人的职业有关,毕竟作为娘子关火电厂的一名计算机工程师,他不可能不会接触到信息论的相关知识。本文将以小说中的部分情节结合所学信息论知识对故事情节和科幻设定背后的秘密进行分析。

    一.小说梗概

    (一)《三体》

    受到文革迫害的天文学家叶文洁被带到军方绝密计划“红岸工程” ,对人类丧失信心的她向四光年外的三体星系发出呼叫信号,请求三体人救赎人类。与此同时因为受到三个太阳做不规则三体运动 而一次次经历文明毁灭的三体人看到了希望,决定大举进攻地球。
    数十年后第一部的男主人公汪淼眼中突然出现了神秘倒计时字样,就在这时他受到了来自军方的邀请,原来科学界最近出现了许多怪异的事情,在各国军队的协助下经过不断努力后发现了事情的真相,三体人派出“智子” 探测器封锁地球的科技并且监视人类的行踪,汪淼眼中的倒计时就是“智子”所为,同时地球人也衍生出一个叫ETO 的组织专门为三体人服务,专司破坏地球正常秩序。与此同时,庞大的三体舰队正在前往地球的路上。
    后来各国军方通过“古筝计划” 杀死了ETO的一位领导人伊文斯获得了大量关于三体人的信息。[^1 ]

    (二)《黑暗森林》

    为了应对三体危机,人类在组建庞大太空舰队的同时也利用三体人思维的透明性 开展了“面壁计划”,旨在利用各种计谋打败三体人,而三体人借助ETO的力量挑选出破壁人对面壁者的计划进行破解。
    亚洲太空军军官章北海借一场陨石雨杀死了支持飞船采用有工质推进的科学家后干涉飞船推进形式的研究方向。冬眠近二百年后,获选“增援未来”计划 的他在人类舰队被三体人发射的“水滴” 清除殆尽前,成功抢夺战舰逃离,但是在后来的黑暗战役 中牺牲。
    最后“面壁计划”中的一位面壁者罗辑借助叶文洁生前的只言片语推断出了本部最核心的“黑暗森林” 法则,利用这一法则使得三体人的阴谋破产,使其与人类之间达成了恐怖的平衡。[^2 ]

    (三)《死神永生》

    身患绝症的云天明在死前送给大学时暗恋的同学程心一颗星星,但是程心却将其大脑当作探测器发射向三体舰队。数百年后冬眠苏醒的程心被选作掌握地球命运的执剑人 ,但是就在交接“执剑人”权力的那一刻三体人发动了对地球的打击。
    与此同时在黑暗战役中存活下来的“蓝色空间”号飞船借助四维空间的力量打败了前来追击的“水滴”和“万有引力”号飞船 ,并向全宇宙广播了三体星系的坐标。
    随后三体星系便遭到了“黑暗森林”的打击,同样的命运也将降临到人类头上。此时云天明通过三个童话故事向人类透露了躲避打击的方法,但是因人类的误判导致人类受到神级文明的“二向箔”打击,整个太阳系被二维化。程心和闺蜜借助人类唯一可用的光速飞船逃出生天 。[^3]

    二.自信息诠释剧情

    (一)邪乎到家必有鬼

    在《三体》第一部中,有一个有趣的台词可以用信息论中的知识来解释,第一部的主人公汪淼突然眼前出现了神秘的倒计时,在经过了一系列的事件之后他甚至在全宇宙的尺度看到了倒计时,就在他不知所措时,它的好朋友警察史强来安慰他说:
    邪乎到家必有鬼。
    史强对汪淼讲述自己的“理论”  图片来源:哔哩哔哩番剧《我的三体》BV1ox411K7RJ,up主:神游八方

    “邪乎到家必有鬼”这一句台词作为史强的经典语录在《三体》粉丝群体中也广为流传,现在学习过信息论相关知识以后,重新去回顾这句台词会给我们全新的认识。
    离散随机变量 X X X 中事件 x x x, ( x ∈ X ) (x∈X) (xX)的自信息(或自信息量) I ( x ) I(x) I(x)定义为
    I ( x ) = − l o g ⁡ P ( x ) = l o g 1 P ( x ) [ 4 ] I(x)=-log⁡P (x)=log\frac{{1}}{{P(x)}} [^4] I(x)=logP(x)=logP(x)1[4]

    可以这样理解:“邪乎”意味着这一事件发生的概率非常低,因为日常生活中发生概率较高的事件一定不会被定义为是“邪乎”,“邪乎到家”一方面可以理解为这种事件发生的概率已经小到了一定程度可以视作无穷小,另一方面“到家”可以理解为这一事件发生了。“鬼”我们可以理解作非常大的信息量,达到令人难以置信的程度所以可以称其为“鬼”,抑或将其看作一种不确定性,这样可以更让人容易接受,也与生活中所谓的“鬼”有几分相似,总是行踪不定,充满了不确定性。
    把这样的理解带入信息量定义式进行验证,结果是完全吻合的,同时也可以取极限认为“邪乎”是不可能事件,即 P ( x ) → 0 P\left(x\right)\rightarrow0 P(x)0,带入自信息的定义式,那么这一事件既然发生,说明信息量无穷大,即 I ( x ) → ∞ I\left(x\right)→∞ I(x),同样用信息论的知识证明了这句话的合理性。在这里插入图片描述

    在生活中我们同样可以利用这样的思路去理解许多问题,例如古时候人们在面对诸如日食、地震、月食等异常天象时创造出的各种神话传说也可以认为是为了诠释这种异常天象背后蕴含的信息量,毕竟很少会有民族为吃饭睡觉这种人们习以为常的事创造出一个神话来,而地震、日食、雷电这些现象总是被认为天神的震怒。
    古人会怕“鬼”同样也可以理解为是对它带来的一种不确定性的惧怕。同样的,我们当前身边的许多现象用它来解释就非常合理了,比如今年的疫情相对于往常可以看作是一种反常,抑或“邪乎到家”,疫情的爆发提供了大量的信息量,而这就为各种阴谋论提供了市场,这些阴谋论就是像古人试图用神话诠释天象一样试图去诠释这些信息量,然而就像人们最终会知道天象背后的原理一样,疫情的真相最终也会大白于天下。

    (二)梦中情人

    在《三体Ⅱ·黑暗森林》中就在其他三位面壁者泰勒、雷迪亚兹和希恩思在忙于自己的面壁计划时,同样作为面壁者的罗辑在当选后并没有像其他三位面壁者一样去着手筹备针对三体人的“面壁计划”事宜,而是上演了一出出“面壁者迷惑行为”,虽然非常疑惑,但是人们也一直以为这是罗辑“计划的一部分”:继提出要一栋在人间仙境的豪宅 和竞拍沉船中的“美酒” 后,罗辑又提出希望大史能帮他找一位只在自己梦中见过的女孩。
    惊奇的是这个女孩仅仅是罗辑自己臆想出来的,甚至都有可能不在这个世界上。于是罗辑开始描述这个女孩:
    那好,帮我找一个人,一个二十岁左右的女孩儿,这是计划的一部分。
    她是一个,嗯,东方女孩,就设定为中国人吧。
    她来到这个世界上,就像垃圾堆里长出了一朵百合花,那么-那么的纯洁娇嫩,周围的一切都不可能污染她,但都是对她的伤害,是的,周围的一切都能伤害到她!你见到她的第一反应就是去保护她……啊不,呵护她,让她免受这粗陋野蛮的现实的伤害,你愿意为此付出一切代价!
    她在图书馆中的第一次活现,讲述他与她在宿舍里那想象中的壁炉前的相逢,讲她在他课堂上的现身,描述那天晚上壁炉的火光透过那瓶像晚霞的眼睛的葡萄酒在她的脸庞上映出的美丽。他幸福地回忆他们的那次旅行,详细地描述每一个最微小的细节:那雪后的田野、蓝天下的小镇和村庄、像晒太阳的老人的山,还有山上的黄昏和篝火……
    大史在听完罗辑的描述后开始推测这个女孩的基本情况:
    “她的文化程度,应该是大学以上博士以下。
    她应该出生在一个高级知识分子家庭,过的不是富豪的生活,但比一般人家要富裕得多。她从小到大享受着充分的父爱母爱,但与社会,特别是基层社会接触很少。
    她喜欢穿那种,怎么说呢,素雅的衣服,在她这种年龄的女孩子来说,显得稍微素了些。”罗辑呆呆地连连点头,“但总有很洁白的部分,比如衬衣呀领子呀什么的,与其余深色的部分形成挺鲜明的对比。
    最后一点:她个子不高,一米六左右吧,身材很……怎么形容来着,纤细,一阵风就能刮跑的那种,所以这个儿也不显得低……”
    在前面自信息量定义式的基础上引入对自信息量 I ( x ) I(x) I(x)的理解:
    (1)   I ( x ) \ I(x)  I(x)表示事件 x x x是否发生的不确定度的大小。一旦该事件发生,就消除了这种不确定度,带来了信息量。
    (2)   I ( x ) \ I(x)  I(x)表示事件 x x x的发生所带来(或所提供)的信息量的大小。
    (3)   I ( x ) \ I(x)  I(x)表示确定事件 x x x是否发生,所需要的信息量的大小。
    这里再引入信息量强可加性和可加性的公式:
    强可加性: I ( x , y ) = I ( x ) + I ( y ∣ x ) = I ( y ) + I ( x ∣ y ) I(x,y)=I(x)+I(y|x)=I(y)+I(x|y) I(x,y)=I(x)+I(yx)=I(y)+I(xy)
    可加性:随机变量 与 相互独立时 I ( x , y ) = I ( x ) + I ( y ) I(x,y)=I(x)+I(y) I(x,y)=I(x)+I(y)
    我们假设女孩为事件 x 1 x_1 x1 P ( x 1 ) = 1 / 2 P(x_1)=1/2 P(x1)=1/2 ,根据第一部分的自信息量的定义式可知 I ( x 1 ) = 1 b i t I(x_1)=1bit I(x1)=1bit,同理记二十岁左右为事件 x 2 x_2 x2 P ( x 2 ) = 1 / 8 P(x_2)=1/8 P(x2)=1/8 I ( x 2 ) = 3 b i t I(x_2)=3bit I(x2)=3bit ,事件 x 1 x_1 x1与事件 x 2 x_2 x2统计独立,所以根据可加性 I ( x 1 , x 2 ) = I ( x 1 ) + I ( x 2 ) = 4 b i t I(x_1,x_2)=I(x_1)+I(x_2)=\mathrm{4bit} I(x1,x2)=I(x1)+I(x2)=4bit。以此类推,雪后的田野、蓝天下的小镇和村庄、像晒太阳的老人的山,还有山上的黄昏和篝火等等这些都分别记为事件 x 3 , x 4 , x 5 , x 6 x_3,x4,x5,x6 x3x4x5x6……并且计算出它们发生的概率,重复前面的步骤,当最终获得的信息量 I ( x 1 x 2 … x n ) = 33 b i t I(x_1x_2\ldots x_n)=\mathrm{33bit} I(x1x2xn)=33bit( 2 33 = 8589934592 2^{33}=8589934592 233=8589934592,基本接近地球人口,当最终的联合事件概率接近 1 / 2 33 1/2^{33} 1/233时,信息量就达到 33 b i t 33bit 33bit,此时要找的人就可以唯一确定。)时,大史就可以唯一确定罗辑要找的人了。
    一段时间后,大史找到了罗辑的梦中情人——庄颜。
    同样的在侦探小说或者现实生活中,侦探或者警察办案也是在不断地搜集各种线索,然后利用这些线索提供的信息量之和唯一地去确定犯罪嫌疑人,当然了警方断案肯定不会采用这样的定量计算,但是基本的思路时一致的。

    三.蓝天的熵

    汪淼在玩过《三体》游戏 以后感慨道:
    记得在大三的一次信息课中,教授挂出了两幅大图片,一幅是画面庞杂精细的《清明上河图》,另一幅是一张空旷的天空照片,空荡荡的蓝天上只有一缕似有似无的白云。教授问这两幅画中哪一幅所包含的信息量更大,答案是后者要比前者大一至两个数量级!
    汪淼进入“三体”游戏 图片来源:腾讯动漫《三体》漫画

    在《三体》中这段情节是三本书中对信息论知识最直接的描写,对于这段话可以有多种不同的理解:

    (一)从不确定性的角度来理解

    清明上河图虽然是一幅场面非常宏大的图案,但是其上的各个要素,比如人物、舟车、建筑,对于它们来说都是作者张择端经过安排而确定的,相对而言更加地有序,而蓝天以及空中的云朵它们的位置、状态等等都充满了不确定性,更加地无序,同样是一张图片,在它们消除的不确定度上显然是后者要大于前者的。

    (二)用通信系统模型来理解

    接下来给出通信系统的模型:
    在这里插入图片描述

    在观赏画作的过程中,画作是信源,把画布反射光这一过程当作编码过程,将信源画作的信息编码为了光信号,信号经过空气这一信道,在这里把眼球也当作信道,因为除了感光细胞以外部分并没有将光信号转化为大脑能识别的电信号的能力,把感光细胞作为译码器翻译成大脑可以识别的电信号,大脑作为信宿。
    在这个过程中,编码器、信道、译码器和信宿是一样的,不同的只有信源,可能说在经过这样一个过程后信宿接收到的关于两幅图的信息量可能是接近的,但是有可能编码器、信道和译码器自身的编码译码方式的限制,信源实际的熵值有可能差距会很大。
    在这里进一步将该模型简化:
    在这里插入图片描述

    无失真信源编码定理和有噪信道编码定理告诉我们,无论何种信道,只要信息传输率小于信道容量,总能找到一种编码方法,使得在该信道上能以任意小的错误概率和任意接近于信道容量的信息传输率来传输信息。反之则不能使信息的传输差错概率任意小。
    但是首先无失真的编码并非总是必要的。在实际应用中信宿的灵敏度和分辨能力都是有限的,没有必要无失真地传输信息。其次无失真的编码并非总是可能的,实际信源输出常常是连续的消息,所以信源的信息量无限大受到信道容量的限制,不能实现无失真的传输连续信源的消息。既然允许了一定的失真存在也就允许压缩信源输出的信息率。
    对于蓝天的画像,蓝天的图案作为一个连续信源其信源熵是无穷大,所以必须对其进行压缩,比如图案在 1 m m 1mm 1mm上有10个像素点和10000个像素点,这两种压缩方式信源熵差距也会很大,比如在10个像素点的时候某个 1 m m 2 {1mm}^2 1mm2的小方块只是一个暗斑,而在10000个像素点时可以看清是一个飞鸟。当图案分辨率足够高信息传输率 R R R足够大的时候会超过信道的容量 C C C,也超出了信宿(人大脑)的灵敏度和分辨率,即无法也无需进行无失真的传输,这就使得信宿(人大脑)接收到的信息实际上是压缩过的。清明上河图由于其较高的确定性,信源熵比较低,信息传输率 R R R小于信道容量 C C C,信宿(人大脑)可以无失真地接收信息。
    在这里插入图片描述

    在这样的情况下对于两个信源(两幅图片)发送的信息来说可能信宿(人大脑)接收的信息量可能差距并不是很大,但是实际上这两个信源(两幅图片)实际的信息量可能差距不只是一两个数量级。

    四.猜疑链中的互信息两面性

    在《三体》第二部《黑暗森林》中,最重要的一个概念就是猜疑链的概念,书中的原文是这样的:
    如果你认为我是善意的,这并不是你感到安全的理由,因为按照第一条公理(生存是文明的最根本需要),善意文明并不能预先把别的文明也想成善意的,所以,你现在还不知道我是怎么认为你的,你不知道我认为你是善意还是恶意;进一步,即使你知道我把你也想象成善意的,我也知道你把我想象成善意的,但是我不知道你是怎么想我怎么想你怎么想我的,挺绕的是不是?这才是第三层,这个逻辑可以一直向前延伸,没完没了。
    这就像是一个套娃一样,总之到了最后双方都是无法判断对方是否是善意的以及对方如何判断我方是否是善意的。然后根据博弈论的理论,在这种情况下,我方会做出主动攻击对方的举动。
    按照书中的理论我们将模型简化,假设文明甲发现了文明乙,这时它有三种不同的选择以及对应的收益(收益为负即为损失):
    (1)攻击文明乙,收益为0;
    (2)发出和平声明表示愿意合作,在这里我们假设两个事件:在文明甲发现文明乙以后向文明乙发出和平的声明记作事件 y y y,对应概率为 P ( y ) P\left(y\right) P(y),因为发送声明意味着甲的位置暴露,文明乙有可能攻击甲,把文明乙攻击文明甲记作事件 x x x,对应概率为 P ( x ) P\left(x\right) P(x)。事件y的出现给出关于事件 x x x的信息量为互信息,公式为:
    I ( x ; y ) = l o g P ( x ∣ y ) P ( x ) I(x;{y})=log{\frac{P(x\left|y\right.)}{P(x)}} I(x;y)=logP(x)P(xy)
    其含义是:由事件 y y y消除的关于事件 x x x的不确定度。
    然而互信息有一条性质是:互信息可以为正,也可以为负。互信息为正,说明事件 y y y的出现消除了关于事件 x x x的不确定度,有利于事件 x x x的出现,即文明甲发出和平声明促进了文明乙对文明甲发动进攻;反之互信息为负,说明事件 y y y的出现增大了关于事件 x x x的不确定度,不利于事件 x x x的出现,即文明甲发出和平声明阻碍了文明乙对文明甲发动进攻。正是由于互信息具有可正可负的性质,使得文明甲在发出和平声明后既有可能增大了文明乙攻击甲的可能性,也有可能减小这种可能性,这就为猜疑链的形成提供了有力的支持。
    在这种情况下,我们规定若乙发动攻击时甲的收益是-10,乙选择合作时甲的收益是10;
    (3)保持沉默,考虑到黑暗森林理论中的另一重要结论:技术爆炸 ,文明乙有可能在短期内发生技术爆炸后发现文明甲面临同样的问题,若乙日后发动攻击,文明甲的收益就是-10,而发出和平声明同样要面临甲准备发出和平声明时遇到的情况。
    在这里插入图片描述

    显然双方选择合作能得到最大的总收益20,但是按照囚徒困境[^5]的理论每一方还是会选择与之相反的举动,即做出攻击对方的行为,况且在本案例中,是甲先发现了乙,在做出攻击决策的时候并不会有任何的损失,这会使得甲更容易做出攻击决定。
    整部《三体》第二部《黑暗森林》里最重要的“黑暗森林”理论中最重要的概念是猜疑链,正是由于文明之间猜疑链的存在使得三体人大举进攻地球,也正是由于文明内部猜疑链的存在爆发了“黑暗战役”,从某种意义上来说,整本书都是围绕猜疑链而展开的,而猜疑链究其根源还是由于互信息可正可负的性质决定的,所以要是让信息论老师给《三体》第二部起名,那一定是《互信息两面性引发的星际惨案》。
    发现了黑暗森林理论的罗辑向三体世界说话  图片来源:哔哩哔哩短片《三体动画概念宣传视频》BV19x411R7vV,up主:哔哩哔哩国创

    同样的我们也可用互信息两面性的知识来解释我们当下的一些现象,抑或利用好互信息两面性来为我方博取更大的利益。就比如作战行动中的佯攻,我们就可以认为是一种利用互信息可正可负性质,给予我方不希望的敌军动向以负的互信息,给予我方希望的敌军动向以正的互信息,以达到作战目的。以及赛场上的假动作、人际交往中的尔虞我诈等等我们都可以用互信息的理论来解释。

    五.用平均互信息极值性诠释为什么人类最终惨败

    在《三体》第三部死神永生中最为网友们津津乐道的就是在小说中男主云天明给女主程心讲的三个童话故事了。“万有引力”号向宇宙广播三体星系坐标后不久,三体星系就遭到了高级文明的黑暗森林打击,这让人类惶惶不可终日,但是“茶道谈话”结束的时候“智子”对程心说云天明想见她。在智子的安排下,程心在拉格朗日点通过“智子”实时回传的画面见到了云天明,因为三体人不许云天明向人类透露任何关于黑暗森林打击的消息,于是见面中云天明向程心讲了三个童话故事:“王国的新画师 ” “饕餮海 ” “深水王子 ” ,这三个故事蕴含了人类遭到黑暗森林打击的方式和逃避打击的方法,只是由于三体人思想透明看不懂计谋,所以没有猜出来。
    程心返回地球后人类马上开始了对这三个童话故事的解读工作,由于故事充满了各种隐喻,因此破解工作并不顺利,最终由于其中最重要的黑暗森林打击方式没有被人类解读出来,导致人类走上了错误的发展方向,最终整个太阳系被神级文明“歌者”的二向箔二维化。
    正在二维化的地球 图片来源: 二向箔攻击效果 作者:塔语时鬼https://www.zcool.com.cn/work/ZMzQ3NTgxMTY=.html

    在这个故事情节中,我们把云天明要传递的情报作为信源传输的信息,人类解读的情报作为信宿接收到的信息,信息传输率 R = I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) R=I(X;Y)=H(X)-H(X|Y) R=I(X;Y)=H(X)H(XY),根据平均互信息的性质之一——极值性:
    平均互信息 分别小于等于 和 的熵,即
    I ( X ; Y ) ≤ H ( X ) I(X;Y)\le H(X) I(X;Y)H(X) I ( X ; Y ) ≤ H ( Y ) I(X;Y)\le H(Y) I(X;Y)H(Y)

    如下图所示,信源熵有部分成为了损失熵,而非常不幸的是“失真”的部分恰好是最重要的黑暗森林打击方式,正因为没有解读出这部分,导致人类在决策时即使掌握了光速飞船的制造技术依然选择禁止光速飞船的研发,转而根据之前三体星系遭到的光粒打击开始掩体计划,致使人类走上了一条死路。结果令人唏嘘不已,历史给人的唯一教训,就是人们从未在历史中吸取过任何教训。又印证了前部中的那句话:弱小和无知不是生存的障碍,傲慢才是。
    在这里插入图片描述

    六.总结

    除了本文介绍的三个案例,《三体》中还有许多情节涉及信息论相关知识抑或剧情的理解上可以采用信息论的观点,比如《内部参考》红岸工程文件中提到的自解译系统;三体人使用一种强思维电波进行沟通,用思维直接进行展示,说明这种“通信”方式有着比人类对话高得多的信息传输率;刘慈欣在《三体》Ⅲ中描述了四维空间中观察三维物体的景象,借助数字传真编码的知识将其扩展到三维使我更加方便地理解了小说中的设定……
    通过对信息论的学习,我对小说中一些情节产生了许多畅想:叶文洁向三体星系发送信息时编码方式是什么样的?云天明在编童话故事的时候能不能引入前向纠错的方式让人类知道自己漏译了信息从而改变人类的命运?也希望通过对后续课程的学习解答自己的这些疑问,同时也希望《三体》的作者刘慈欣能为读者们带来更多更加精彩的作品。
    叶文洁来到红岸基地 图片来源:来自 《三体艺术插画集》 红岸基地 作者:芒朔 [^1] 刘慈欣.三体[M].重庆:重庆出版社,2008.1
    [^2 ] 刘慈欣.三体Ⅱ·黑暗森林[M].重庆:重庆出版社,2008.5
    [ ^3] 刘慈欣.三体III·死神永生[M].重庆:重庆出版社,2010.11
    [^4 ] 赵晓群.信息论基础及应用[M].北京:机械工业出版社,2015.8
    [^5] 范如国 韩民春.博弈论[M].武汉:武汉大学出版社,2004

    展开全文
  • 纪念"信息论之父"香农的最好方式,莫过于重温一下他怎样定义信息熵的数学思想,去理解现代信息论这个基本概念——仅用初等代数即可推导,令人赏心悦目,流连忘返! 确定性过程在数学里是司空见惯的现象。...

    https://www.toutiao.com/a6685498360318657036/

     

    ​​撰文 | 丁玖(南密西西比大学数学教授)

    纪念"信息论之父"香农的最好方式,莫过于重温一下他怎样定义信息熵的数学思想,去理解现代信息论这个基本概念——仅用初等代数即可推导,令人赏心悦目,流连忘返!

     

    确定性过程在数学里是司空见惯的现象。众所周知,一个函数的迭代过程是确定性的,因为下一个迭代点完全由当前已知的迭代点唯一地确定。譬如混沌学中著名的逻辑斯蒂模型 f(x) = 4x(1-x) ,当x等于0.1时的函数值必为0.36,而不会等于0.35或0.37。同样,一个微分方程初值问题的解也是确定性的:解在任一时刻的值是唯一确定的一个数。

    然而,和确定性现象一样, 随机现象在自然界也是到处可见的。小孩子们喜欢猜硬币正反面的游戏:将一枚五分钱的平整硬币在桌上旋转,然后猛地用手把它拍倒按住,猜猜是钱的正面朝上还是反面朝上。即便旋转过一百次都是正面朝上,第一百零一次旋转后,硬币正面朝上的或然率还是同一个概率值:1/2。这就是典型的随机性,它意味着试验结果是不可确定的。如果历史上英国铸币局(牛顿(1643-1727)曾在这里当了几十年的局长)把钱币故意制成一个圆锥体陀螺形状,那么无论怎样旋转,待它最终停转时总是站在那里,也就是说正面总是朝上,这就是一个确定性的例子——旋转结果是可以预测的。人们认识到随机性的历史也许比数学史本身还要长,甚至可能就等于人类自己的历史——毕竟,孕妇肚子里怀的是儿子还是女儿,本身就是一个不可预测的随机事件问题。

    不确定性作为自然的基本属性,应该怎样用数学的语言去刻画呢?“”就是关于不确定性的一个极好的数学描述。历史上的熵概念起源于热力学。凡是学过热力学、统计物理或物理化学的人对“熵”这一术语都不陌生,但是这一概念发展的初始阶段却跟混沌思想并无任何历史瓜葛。实际上,当熵的名词诞生之时,混沌之祖庞加莱(Henri Poincare, 1854-1912)还只是一个乳臭未干的少年。当熵的触角从宏观的热力学伸展到微观的统计力学之后,才逐渐拉近它和混沌概念的距离。二十世纪中叶的一场信息论革命,无意中在古典熵的旧作坊内又酿造出醇香的新酒。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    十九世纪是物理学家大显身手的世纪。如果说十七世纪是宏观力学的乐园,十九世纪则是微观力学的会所。热力学和统计力学把眼光由外向里地从机械能转向到内能,熵概念的缓慢演化覆盖了那个世纪后半叶的前三十年。1865年,热力学奠基人之一、德国物理学家和数学家鲁道夫 • 克劳修斯(Rudolf Julius Emanuel Clausius, 1822-1888)第一次使用了“熵(entropy) ” (从意指“变换容度”的希腊词τροπή派生而来)作为热力学的专用名词,并赋予其数学形式。他用 “Sadi” 的第一个大写字母 S 作为熵的记号,大概是为了纪念熵理论先驱者之一、法国工程师萨迪 • 卡诺(Nicholas Leonard Sadi Carnot, 1796-1832)。他写道:“按照希腊词τροπή (trope) 的意思,我将 S 这个量称为系统的熵。我特别取熵这个词是为了让它与能量这个词尽可能相像:这两个词所表达的两个量在物理上如此密切相关,把它们的名字写得类似完全是合情合理的。” 他的一句名言 “宇宙之熵趋于无穷” 是热力学第二定律在孤立系统中无能量消耗情形下的推论;他的另一句断言 “宇宙总能量不变” 则是能量守恒定律的通俗说法。

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    第二年,24岁的玻尔兹曼(Ludwig Boltzmann, 1844-1906)在他关于气体动力学的奠基性论文中,给出了熵的另一形式。十一年后的1877年,他在统计热力学中把熵简单地定义为著名的“玻尔兹曼常数”乘上与宏观状态相容的微观状态的个数之对数。与早先把熵和热量传递捆绑在一起的做法不尽相同,玻尔兹曼把熵看成是无序分子运动紊乱程度的一种度量。这种新观点,被杨振宁先生(1922-)十分推崇的美国物理学家、化学家和数学家威拉德 • 吉布斯(Josiah Willard Gibbs, 1839-1903)精雕细琢,成为统计力学理论发展史上的里程碑之一。1995年夏,在中国厦门大学召开的第十九届国际统计物理大会(东道主学者郝柏林(1934-2018)时任会议主席)上,笔者曾听到与会讲话的杨振宁先生建议大家读读二十世纪初吉布斯那本启迪灵感的名著《统计力学的基本原理》(Elementary Principles in Statistical Physics, 1902)。吉布斯于1863年在耶鲁大学获得美国历史上第一个工程博士学位,并在这所老牌大学度过了他的整个学术生涯。他令蒸蒸日上的美国扬名天下,可惜墙内开花墙外香,在科学整体尚欠发达的祖国,吉布斯活着的时候声名未曾显赫,却在去世前两年被大西洋彼岸最强盛时期的英国授予了伦敦皇家学会的考普利奖(Copley Medal of the Royal Society of London)——诺贝尔奖之前全世界科学界名气最大的奖项。

    1. 信息熵

     

    对需要交流的人类而言,通讯犹如吃饭睡觉一样重要。就像人类不断探索水稻增产一样,不断改进通讯质量与速度的科学研究一直是全世界方兴未艾的事业。1948年,博士毕业后就在贝尔实验室里研究通讯技术的电子工程师克劳德 • 香农(Claude Shannon, 1916-2001)在《贝尔系统技术杂志》(Bell System Technology Journal)上分两期发表了他一生中也许是最有名的一篇论文:《通讯的数学理论》(A mathematical theory of communications,1948),引入了一条全新的思路,震撼了整个科学技术界,开启了现代信息论研究的先河。在这一伟大的贡献中,他引进的“信息熵”之一般概念举足轻重:它在数学上量化了通讯过程中“信息漏失”的统计本质,具有划时代的意义。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    克劳德 • 香农(Claude Shannon, 1916-2001)

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    香农生于美国密歇根州,本科毕业于“美国大学之母”密歇根大学。他儿时崇拜的英雄人物是大名鼎鼎的、造福全人类的美国大发明家托马斯 • 爱迪生(Thomas Alva Edison, 1847-1931),后来他发现这位英雄是他家的一个远亲。二十岁本科毕业时,他拿回了电子工程和数学两张学士文凭。而他在密西根大学修课时接触到英国数学家和哲学家乔治 • 布尔(George Boole, 1815-1864)最有名的工作“布尔代数”,成就了他二十一岁在麻省理工学院完成的题为《中继及开关电路的符号分析》(Symbolic analysis of relay and switching circuits,1937)的硕士学位论文。有人说这是二十世纪甚至人类历史上最有价值的硕士论文,因为它用布尔代数的理论首次表明对付真假李逵的“符号逻辑”与对付电路开关的“0-1数字”具有一致性,从而论证了数字计算机和数字线路的逻辑设计之可能性。

    香农最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information(信息)”,但又认为这个名词太过大众化,已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty(不确定性)”,但它却更像抽象名词,缺乏量化的余地,确实难于定夺。终于有一天,他遇见了天才的数学家冯 • 诺依曼(John von Neumann, 1903-1957)。真是找对了人!冯·诺依曼马上告诉他:

    就叫它熵吧,这有两个好理由。一是你的不确定性函数已在统计物理中用到过,在那里它就叫熵。第二个理由更重要:没人真正理解熵为何物,这就让你在任何时候都可能进能退,立于不败之地。

     

    香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说,如果天气预报说“今天中午下雨的可能性是百分之九十”,我们就会不约而同想到出门带伞;如果预报说“有百分之五十的可能性下雨”,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。

    对于一般的不确定事件,我们怎样数学地刻画它的不确定程度呢?设想有n个“基本事件”,各自出现的概率分别为

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    则它们构成一个样本空间,可以简记为所谓的“概率数组”

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    样本空间最简单的例子是我们上面提到的抛硬币游戏,它只有两个基本事件:抛硬币结果是“正面朝上”或“反面朝上”,其中每个事件的概率均为 1/2,其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称,使得抛硬币时正面朝上的概率增加到7/10,而反面朝上的概率减少到3/10,则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度,用数 H(7/10, 3/10) 代表第二个样本空间的不确定度,那么直觉马上告诉我们:数 H(1/2, 1/2) 大于数 H(7/10, 3/10),也就是前者比后者更加不确定。

    更一般地,若用

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    记样本空间

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    所对应的不确定度,运用同样的直觉分析,我们相信当所有的基本事件机会均等,即都有同样的概率1/n时,其不确定度最大。因而,不确定度函数H应该满足如下的基本不等式:对所有的加起来等于1的非负“概率数”

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

     

     

    如果我们不抛硬币,而像澳门赌场的常客那样掷骰子,每掷一次,小立方骰子的每一个面朝上的概率均为1/6。想一想就知道,某个指定面朝上的不确定度应大于玩硬币时正面或反面朝上的不确定度。将这个直观发现一般化,我们就有不确定度函数H 应该满足的单调性要求:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    假设物理系赵教授、数学系钱教授和孙教授竞争理学院的一笔科研基金,他们每人申请成功的概率分别为1/2、1/3、1/6。院长为求公平,让每个系得此奖励的机会均等。若物理系拿到资助,就到了赵教授的名下。如数学系得到了它,钱教授有2/3的概率拿到,孙教授则有1/3的机会到手。通过分析“条件概率”,我们能得出不确定度 H(1/2, 1/3, 1/6) 的数值:这三个教授获得基金的不确定度,等于物理系或数学系拿到这笔基金的不确定度,加上数学系赢得该基金的概率与在数学系拿到基金的条件之下,钱教授或孙教授得到它的不确定度之乘积。换言之,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ½ H(2/3, 1/3)。推而广之,可以得出不确定度与条件概率有关的“加权和”性质:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    既然我们想用一个漂亮的数学公式来表达不确定度这一样本空间概率值函数,我们自然希望这个函数表达式和几乎所有的物理公式一样连续依赖于公式中的所有变元。这样,第四个条件就自然而然地加在了不确定度函数的头上:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    香农无需什么高深的数学,甚至连微积分都可不要,就证明了:任何在所有样本空间上都有定义的函数H,只要它满足以上的“三项基本原则 (2)(3)(4)”,就非如下的表达式莫属:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    其中符号 ln 代表以 e 为底的自然对数函数,C 可以是任意一个常数。并可证明,条件(1)自动满足(有兴趣的读者可用初等微积分证之)。当然,熵公式的证明需要的是一种创造的头脑思维、一手精湛的代数技巧、一个巧妙的极限思想。如果C取成玻尔兹曼常数,它就能和当年吉布斯在统计热力学中得到的“吉布斯熵”一模一样。香农取 C = 1,如此得到了非负函数:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    按照冯 • 诺依曼的建议,该函数被定义为样本空间 (p1, p2, …, pn) 所对应的信息熵。现在,这个数被广称为“香农熵”,以纪念它的创造者、信息论之父——香农。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    现在,为了满足读者追根求源的好奇心,我们在此给出一个高中生也能看懂的简单证明。这是活学活用初等代数的好机会,我们分三步来证明:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

     

    如上证明是我在1989年从我的博士导师李天岩教授于密歇根州立大学所作的公众报告中听到的。细看一下香农熵的公式,除了负号,它是基本函数 x ln x 的有限个函数值之和。这个函数的图像就像大厨师手中侧面看过去的长勺子。向上弯曲的曲线有几何性质:连接上面任意两点的直线段都在这两点之间的曲线段之上。运用初等微分学,读者可以证明,对任意两个正数a和b,有

     

    a – a ln a ≤ b – a ln b。

     

    这就是现在冠以吉布斯大名的初等不等式,在一切与熵有关的数学问题中均有上乘表现,比如说我们在下面的第3节就要用到它。

    当所有的概率值pi都取为1/n时,吉布斯熵就还原成玻尔兹曼熵,它可看成是最大可能的吉布斯熵。同理,这时的信息熵取值最大,等于 ln n。

    2. 柯尔莫果洛夫熵

     

    不到十年,香农熵就在离散动力系统的练武场上大展身手。这主要归功于三十年代就建立了公理化概率论的俄罗斯数学巨人柯尔莫果洛夫(Andrey N. Kolmogorov, 1903-1987)和他在遍历理论领域的最佳弟子西奈依(Yakov G. Sinai)。五十年代中期,柯尔莫果洛夫在考虑遍历理论的“共轭不变量”这一基本问题时开创了“度量熵”的理论,而他的门徒西奈依的工作则使得它日臻完美。度量熵揭示了一般非线性函数迭代最终走向的动态性质,从而和稍迟一点发展的混沌理论融合了起来

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    柯尔莫果洛夫(Andrey N. Kolmogorov, 1903-1987)

     

    柯尔莫果洛夫堪称俄罗斯民族二十世纪的庞加莱,在国际数学界备受尊崇。他的父亲于沙皇时期投身革命,被圣彼得堡当局驱逐,最后消失在内战之中。因母亲在生产过程中不幸去世,他随姨妈在富有的贵族外祖父的庄园中长大,并受到很好的早期教育。比冯 • 诺依曼大八个月的柯尔莫果洛夫一样是一个历史爱好者。十七岁进入莫斯科大学后,他参加了俄罗斯著名历史教授的讨论班,并写出了他一生中的第一篇论文,研究内容不是数学,而是四个世纪前的俄国一个城市的发展史。他颇为得意地问教授,该文可否发表?出乎他意料的回答是:“肯定不行!你的论据只有一个,对历史学而言太少了,起码得有五个论据才行。”这位严谨的教授应该成为国内某些发表论文心切的人文科学工作者的大楷模。但也正是这位打击学生信心的历史教授在无意之中把柯尔莫果洛夫推向了另一个五六岁时就萌芽的至爱,并令他矢志不渝——因为在数学中定理只需一个证明就够了!

    几乎在精心研究俄国历史的同时,年纪轻轻的柯尔莫果洛夫证明了集合论以及三角级数的几个结果。尤其是在1922年,他构造出一个几乎处处不收敛的三角级数,一下子成了令人瞩目的国际数学新星。在那一时刻,他立马决定“把一切献给数学”,他的决心就像兵工英雄吴运铎《把一切献给党》一样坚定。在半个世纪的数学生涯中,柯尔莫果洛夫大大推进了现代数学的许多分支领域的发展,如函数论、概率论、直觉主义数理逻辑、泛函分析、拓扑学、随机过程、经典力学、紊流、遍历理论、计算复杂性等等,被公认为二十世纪全人类最伟大的数学家之一。如果美国数学史家贝尔( Eric Temple Bell, 1883-1960)晚生五十年,也许他那本大作《数学大师:丛芝诺到庞加莱》(Men of Mathematics, 1937)会以柯尔莫果洛夫作为压轴戏,将他称为“最后的全能数学家”,而庞加莱则变成历史上“倒数第二个全能数学家”。

    西方物理学界有伟大的导师费米带出了一大批杰出的学生,甚至有好几个得了诺贝尔奖,可是西方没有哪个数学家会像柯尔莫果洛夫那样培养或影响一个接一个的天才学生。上世纪六十年代初曾让美国数学新星、1966年菲尔兹奖获得者斯梅尔(Stephen Smale, 1930-)惊羡的“动力系统四大才子”中的阿诺德(Vladimir I. Arnold, 1937-2010)和西奈依便是他的弟子。除此之外,柯尔莫果洛夫成果最辉煌、名声最响亮的学生是没有上过高中和大学就直接成为其博士生的犹太人伊斯雷 • 盖尔芳德(Israil Moiseevic Gelfand, 1913-2008)。在与其名Israil只有一个字母之差的犹太国度Israel(以色列) ,盖尔芳德和“物理女王”吴健雄(1912-1997)一同站在了第一届沃尔夫奖的领奖台上,甚至比他的老师还早了两年获此殊荣。按照华东师范大学数学系教授张奠宙 (1933-2019) 在其著作《二十世纪数学经纬》(2002)中所统计的,柯尔莫果洛夫直接指导过的学生有六十七人之多,可媲美孔子“贤弟子七十二”的记录,其中有十四人被选为苏联科学院院士或通讯院士(具体名册可见书本第368页),堪称中国孔圣人的强劲对手。

    东方数学界里,在培养学生方面或许能和柯尔莫果洛夫有“最佳逼近”距离的是中国最伟大的数学家华罗庚(1910-1985)。他门下的数论学家陈景润(1933-1996)证明了离哥德巴赫猜想最近的“1+2”情形,这一传世工作让二十世纪六七十年代的世界数学界再次对中国刮目相看。华罗庚的其他杰出弟子,如解析数论的王元(1930-)、多复变函数论的陆启铿(1927-2015)和龚升(1930-2010)、抽象代数学的万哲先(1927-)等,都是在国际上颇有影响的纯粹数学家。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    让我们再回到玩硬币的游戏,来经历一次柯尔莫果洛夫开发度量熵的思想之旅。但是,这一次我们不只注意抛一次硬币正面朝上或反面朝上的结果,而是一口气抛上好几次看看有多少种可能性发生。比如连续上抛两次,就有四种可能结果出现:正正、正反、反正、反反。因为第一次抛硬币结果对第二次结果毫无影响,它们是相互独立的,因而四种结果的每一次可能性均为四分之一。

    国外硬币的正面通常是本国名人头像,如美国放的就是历史上最伟大的几个总统。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    一分硬币(左)上面是亚伯拉罕 • 林肯(Abraham Lincoln, 1809-1865),五分硬币(下)上面马斯 • 杰弗逊(Thomas Jefferson, 1743-1826),一角硬币(上)上面是弗兰克 • 罗斯福(Franklin Delano Roosevelt, 1882-1945),一元硬币(右)上面乔治 • 华盛顿(George Washington, 1732-1799)。

     

    为简化书写,我们用英文字母H(Head,头)代表正面朝上,T(Tail,尾)代表反面朝上,这样两次抛硬币的所有可能性可以简记成:HH, HT, TH, TT。更一般地,若连续地抛上n次硬币,则有2n个可能结果,每一个结果的概率均为

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    ​每一个结果都是一个基本事件,我们就有了一个包含2n个基本事件的样本空间

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    其香农熵的值为 n ln 2。

    我们的直觉是,无论抛了多少次,对下一次的结果我们仍然心中无数。作为一个极端例子,假如抛了一百万次都是头像朝上,第一百万零一次呢?头像朝上还是尾巴朝上?阁下打赌的胜率如何?柯尔莫果洛夫对下面的问题大感兴趣:倘若已知连续抛了n次硬币的结果,接下来抛第n+1次的结果的不确定度到底是什么?

    让我们再来一点数学思维吧。数学家爱数字胜于爱符号。正如美国物理学家费恩曼(Richard Feynman, 1918-1988)生前所经常回忆到的,他那善于培养孩子好奇心的父亲很早就告诉他:知道事物的名称并不重要,重要的是知道其内容。熵在英文里叫entropy,在德文或法文里都是entropie,在俄文里是eнтропия。即便认得一百种语言的名词“熵”,却对它的意义知之甚少或一无所知,甚至不以为然,这只有孔乙己才可能做得到,或培养出孔乙己的私塾先生喜欢这样做。可是目前我们学校的一些教育方式本质上就是在这么做。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    我们用数字0代替H,数字1代替T。然后连续n次抛硬币的结果可用小数

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    来代表,其中小数点后面的每个数字非0即1。而这个数实际上可看成是0和1之间的一个数x的“二进制表示”。我们的双手有十个指头,日常生活中,我们最喜欢十进制了,它是如此的方便,不懂算术者也可扳扳指头计算。但是,如果一位学过计算机原理的人告诉我们11可以表示“周期三意味着混沌”中的那个数3,我们可能以为他是瞎说。不,他是对的,因为他用的是计算机中央处理器内运算所用的二进制!二进制最早在莱布尼兹(Gottfried Wilhelm Leibniz, 1646-1716)的著作中出现,他可称为人类历史上首位计算机科学家!十进制中,我们“逢十进一”,而在二进制中,就要“逢二进一”了。这样,在二进制中,自然数从小到大排列的前几个数是 1,10,11,100,101,它们分别是我们习以为常的十进制数 1,2,3,4,5。我们从小学的算术熟知,在十进制中小数0.31416可以被展开成“有限项级数”形式:

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    以此类推,在二进制中小数0.10011有展开式

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    这样,每一个二进制小数 x = 0.a1a2…an 都可以写成

     

     

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    现在我们把区间 [0,1] 一分为二:左边的半个区间 [0,1/2) 和右边的半个区间 [1/2,1]。注意,为了叙述严格起见,这两个子区间前一个是“左闭右开”的,后一个是“双边都闭”的,它们的交集为空集,亦即没有共同的元素。显而易见,若

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    则x属于 [0,1/2),若

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    1,则x位于 [1/2, 1] 之中。想想看

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    怎样确定x的位置?

    我们可以借用把 [0,1] 区间映到自身上的一个逐段线性的“加倍函数”来解释连续抛硬币的数学游戏。这个函数的定义是:当x大于或等于0并且小于1/2时函数值为2乘上x,而当x大于或等于1/2并且小于或等于1时函数值为2乘上x再减去1。更简单地说,这个函数就是将自变量加倍,再丢掉结果的整数部分。它的简洁表达式就是 f(x) = 2x (mod 1),其函数图像是两条斜率是2、彼此平行的斜线段。它是保持长度的,意思是任何子区间和它在 f 下的逆像都有相等的长度。一个区间在函数下的逆像是函数定义域中所有那些数的全体,这些数的函数值都落在该区间内,它可以通过函数图像画水平、垂直线得到。这个加倍函数不是处处连续的,在区间的中点1/2处有个跃度为1的跳跃性间断,这从图像上一眼就知。用更专业的术语讲,它是一个“勒贝格可测函数”。加倍函数和逻辑斯蒂模型一样,都是混沌学家教书时宠爱的混沌例子。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    f(x) = 2x (mod 1),x∈[0,1]

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    动力系统寻找的是过程的终极行为。当自然数n走向无穷大时,上述不确定度的极限值就被称为函数 f 关于划分 P 的熵。这个熵值依赖于函数定义域区间 [0,1] 的划分。该定义域可以被划分为任意有限多个彼此互不相交的子集之并,而不同的划分一般给出不同的熵值。定义域的所有划分所对应的熵的“最大值”(更严格地说,是对应于所有的有限划分的熵值之“最小上界”,因为无穷个数放在一起可能找不到最大数,比如所有比3小的正数没有最大值,但其最小上界为3)就叫做 f 的柯尔莫果洛夫熵又称为测度熵或度量熵,因为它用的是勒贝格所开创的一般测度论工具来度量保测函数迭代最终性态的混乱程度。

    我们用来描绘硬币游戏的这个加倍函数的度量熵等于2的自然对数:ln 2 。请注意,这是一个正数。如今动力学家们都已知道,具有正熵的确是混沌动力系统的一个典型性质。同法可知,将自变量增加六倍后再丢掉结果整数部分的“六倍函数”(数学上这个函数可写成 6x(mod 1)的形式,图像是六根斜率为6的平行斜线,其不连续点为 1/6, 1/3, 1/2, 2/3, 5/6),它的测度熵则为 ln 6。六倍函数可以看成是掷六面骰子(有六种均等机会出现)结果之不确定度。“十倍函数” 10x(mod 1) 的熵是 ln 10,而“百倍函数” 100x(mod 1) 的熵则跳到 ln 100了,依次类推。倍数越提高,熵值越变大,不确定度就越可观,这就是为何在无线通讯中,工程师们常用高度混沌的“高倍函数”参与信号的传输。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    二倍函数f(x) = 2x(mod 1)(左)与十倍函数f(x) = 10x(mod 1)(右)的图像对比。

    柯尔莫果洛夫熵是遍历理论中的一个极其有用的共轭不变量,即彼此共轭的保测函数共享同一熵值。事实上,早在1943年,人们就已经知道以概率论先驱雅各布 • 伯努利(Jacob Bernoulli, 1654-1705)名字命名的、定义在0、1两个符号构成的双向序列符号空间上的“(1/2,1/2)-双边移位”和定义在0、1、2三个符号构成的双向序列符号空间上的“(1/3,1/3,1/3)-双边移位”都具有数目和自然数一样多的“勒贝格谱点”,因而它们两兄弟是谱同构的。但数学家们一直弄不清楚它们是否也共轭,即:这两个符号空间之间是否存在一个保测同构,使得一个位移与它的复合运算和它与另一个位移的复合运算结果完全是一码事?1958年,正当遍历理论家们为这个基本的未决问题绞尽脑汁之时,柯尔莫果洛夫刚刚产下了的“熵”马上派上了大用场:他经过计算发现这两个伯努利双边移位具有不同的熵值,前一个为 ln 2,后一个则为 ln 3,故它们不可能是共轭等价的。

    大数学家的手一旦扭转乾坤,共轭难题的一旦解决,熵马上成了动力系统行家们争相一抱的宠儿。很快,基于紧拓扑空间有限开覆盖概念、用于探索连续函数迭代渐近性态的“拓扑熵”在柯尔莫果洛夫熵的思想指引下由西方数学铺子的三大“铁匠” R. Adler, A. Konhein 和 M. McAndrew 锻造出炉,并和柯尔莫果洛夫基于测度概念的“度量熵”密切相关,成为研究拓扑动力系统混沌性质的好工具。只要把紧拓扑空间的有限开覆盖中的每个开子集看成所谓的波雷尔可测集,拓扑熵和柯尔莫果洛夫测度熵的数学推导过程颇为类似;文末参考文献[1]给出了一个初等的推导。举一个简单的例子,著名的混沌映射之一“帽子函数”有拓扑熵 ln 2,它也等于其柯尔莫果洛夫熵。

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    Hat function

    3. 玻尔兹曼熵

     

    玻尔兹曼熵可以看成是离散形式的香农熵在连续形式下的对等物。让我们回忆一下,对应于有限样本空间

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    ​的香农熵为

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    它看上去像某个被积函数的黎曼和。这引导我们走向定义一般密度函数的玻尔兹曼熵。为避免使用高深的测度论语言,我们只考虑 [0,1] 区间上的可积函数全体,用符号

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    表示。这里的积分应该指的是数学系大三或大四才学的实变函数论里的勒贝格积分,但低年级的大学生可以把它想象成初等微积分中的黎曼积分;至少对连续的函数,这两种积分是一样的。可积的非负函数并且积分值为1则称为密度函数

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    1957年,美国物理学家埃德温 • 杰恩斯(Edwin T. Jaynes, 1922-1998)在他分两次发表、至今已被引用了将近12000次的论文《信息论与统计物理》[2] 中首次提出了“最大熵原则”。这个原则大致是说,当一个未知的概率密度函数的某些“可试验信息”(例如有限多个的矩量或期望值)已知但却不能唯一地确定该密度函数时,合理采用的未知密度函数最佳逼近应是具有最大玻尔兹曼熵的那个密度函数,因它最不带有“偏见” (least biased)。根据最大熵定理,这个具有最大熵的密度函数不光是存在的,而且它可以通过矩量函数的某个线性组合与指数函数的复合函数,再标准化成一个密度函数来得到,只要这个特殊形式的密度函数具有和未知密度函数一模一样的那些已知矩量值。

    这样一来,杰恩斯的最大熵原则成就了数值重获未知密度函数的一个叫做“最大熵方法”的计算程式。事实上,六十年来,这是数学物理学家和工程师经常采用的一种“密度计算法”。杰恩斯终生在美国圣路易市华盛顿大学任教,1984年,物理系浓厚的最大熵氛围熏陶出一位名叫劳伦斯 • 米德(Lawrence R. Mead, 1948-)的博士。退休前他和笔者在同一所大学执教并合写过文章,是个很会教书、获得过两次校级教学奖的物理教授。米德一生中最有名的研究工作大概就是获得博士学位那年在《数学物理杂志》上发表的一篇合作论文[3],至今为止每年都有不少人引用。在这篇题为《矩量问题中的最大熵》的文章里,作者证明了最大熵方法的弱收敛性,而这种收敛性对于物理学家考虑的许多问题来说已经是绰绰有余了。数学家则感到不够劲,于是就有两位加拿大的数学家乔纳森 • 博旺(Jonathan M. Borwein, 1951-)和艾德里安 • 刘易斯(Adrian S. Lewis, 1962-)在九十年代初严格证明了最大熵方法的强收敛。

    在最大熵方法中,传统的做法基本上是用单项式

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

     

     

    来计算密度函数的对应矩量,但在计算数学家的眼里,这是代价极大的数值处理,因为算法极不稳定,用数值代数学家的行话说就是“条件数太大了”。难怪物理学家们能用到十来个矩量就感觉不得了了。对孜孜以求数值收敛性的计算数学家们来说,这怎么能过瘾呢。于是,一个新的想法[4]应运而生:把有限元的逐段多项式思想与最大熵原则相结合。这个算法借用了有限元空间基底函数“一的分解”的好性质,第一次用到与混沌有关的“不变密度函数”的数值计算上,条件数出奇地小,并且用到一百个甚至一千个矩量值也不在话下。

    如今,五花八门的熵:信息熵、度量熵、拓扑熵、玻尔兹曼熵,加上定量刻画“对初始条件敏感性”的李亚普洛夫(Alexandre Mikhailovich Liapunov, 1857-1918, 俄国数学家,以微分方程稳定性理论著称于世)指数,再加上遍历性、混合性、可递性等用统计观点看混沌的基本概念,一起组成了混沌、分形领域里克敌制胜的十八般兵器。

    参考文献

    [1] “Entropy - an introduction,” Jiu Ding and Tien-Yien Li, NankaiSeries in Pure and Applied Mathematics and Theoretical Physics, Volume 4, WorldScientific, 26-53, 1993.

    [2] Information theory and statistical physics, Physics Review 106(4), 620-630, 1957; Information theory and statistical physics, Physics Review 108(2), 171-190, 1957

    [3] L.R. Mead and N. Papanicolaou, Maximum entropy in the problem of moments, J. Math. Phys. 25, 2404–2417, 1984.

    [4] J. Ding, C. Jin, N. Rhee, and A. Zhou, ``A maximum entropy method based on piecewise linear functions for the recovery of a stationary density of interval mappings,’’ J. Stat. Phys. 145, 1620-1639, 2011.

     

     

    信息熵是怎样炼成的 | 纪念信息论之父香农

    展开全文
  • 分析了传统多属性优选方法的不足,利用公理设计论中的信息公理将模糊数学与香农信息论相结合,对网格资源进行定量评价,以选出最佳资源。同时引入粗集理论中的依赖度确定各属性指标的权重。最后以实例阐述了信息公理...
  • 作者建立了一种基于能量方法的辩证逻辑K模型公理系统。 辩证逻辑K模型为机器提供了... 辩证逻辑K模型将为机器提供一个计算思想,以便机器能够通过辩证逻辑方法进行思考,因此,一种重要的信息处理方法可能是辩证逻辑。
  • 粗糙本体是处理不精确性信息的一种基础性工具,其存在形式是由粗糙概念和粗糙关系构成的树形结构。粗糙本体的具体形式因为参与构建的领域专家的不同而呈现多样性,然而同样也是由粗糙概念和粗糙关系构成的粗糙概念格...
  • 混合不确定条件下基于信息公理的方案评价研究,陈东萍,褚学宁,基于信息公理的方案评价中,有一类评价指标的系统范围是随机变量,设计范围是模糊变量,其信息量计算涉及上下界为模糊数的积分,
  • 其次,为提高算法计算效率,考虑采用层次结构关联规则,构建语义图像分类器,利用概念之间的本体信息,提高并行分类能力;最后,通过对算法参数及横向对比实验,显示所提算法具有较高的计算精度和计算效率。
  • 概率论与信息论 1.概率论 概率论用于表示不确定性声明的数学框架,不仅提供量化不确定的方法,提供用于导出新的不确定声明的公理。 作用:①设计算法计算或估算由概率论导出的表达式;②用概率与统计从理论上分析AI...

    概率论与信息论

    1.概率论

    概率论用于表示不确定性声明的数学框架,不仅提供量化不确定的方法,提供用于导出新的不确定声明的公理。

    作用:①设计算法计算或估算由概率论导出的表达式;②用概率与统计从理论上分析AI系统的行为。

    不确定性的三种可能来源:

    ①、被建模系统内在的随机性。

    ②、不完全观测;不能观测到所有驱动系统行为的变量时,该系统会变得随机。

    ③、不完全建模。使用必须舍弃某些观测信息的模型时,舍弃的信息会导致预测出现不确定性。

    1.1随机变量

    随机变量只是对可能状态该的描述;必须伴随一个概率分布来指定某个状态的可能性。

    1.2 概率分布

    概率分布:用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性的大小。

    1.2.1 概率质量函数

    概率质量函数将随机变量能取得的每个状态映射到随机变量取得该状态的概率。PMF可同时作用于多个随机变量,称为联合概率分布。

    函数p是随机变量x的概率质量函数满足以下条件:

    ①、P的定义域是随机变量x所有可能状态的集合;

    ②、 ∀ x ∈ x , 0 ≤ P ( x ) ≤ 1 \forall x \in {\bf x}, 0 \leq P(x)\leq 1 xx,0P(x)1

    ③、 ∑ x ∈ x P ( x ) = 1 \sum_{x \in {\bf x}} P(x)=1 xxP(x)=1归一化性质。

    1.2.2 概率密度函数

    概率密度函数满足以下条件:

    ①、p的定义域必须是 x {\bf x} x所有可能状态的集合;

    ②、 ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in {\bf x}, p(x) \geq 0 xx,p(x)0,并不要求 p ( x ) ≤ 1 p(x) \leq 1 p(x)1;

    ③、 ∫ p ( x ) d x = 1 \int p(x) dx=1 p(x)dx=1

    概率密度函数并未直接给出特定状态的的概率,而是落在面积为 δ x \delta x δx的无限小区域内的概率为 p ( x ) δ x p(x)\delta x p(x)δx

    1.3 边缘概率

    已知联合概率,对其中某一随机变量的所有状态求和,即可得到该分布的边缘概率分布。
    ∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) p ( x ) = ∫ p ( x , y ) d y \forall x \in {\bf x}, P(x={\bf x})=\sum_yP(x={\bf x},y={\bf y}) \\ p(x)=\int p(x,y) dy xx,P(x=x)=yP(x=x,y=y)p(x)=p(x,y)dy

    1.4 条件概率

    某个事件给定的情况下,其他事件发生的概率。
    P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(y={\bf y} |x={\bf x})=\dfrac{P(x={\bf x},y={\bf y})}{P(x={\bf x})} P(y=yx=x)=P(x=x)P(x=x,y=y)

    注意:避免混淆条件概率和干预查询。干预查询是指计算一个行动的后果,属于因果模型的范畴。

    1.4.1 条件概率的链式法则

    P ( x ( 1 ) , ⋯ &ThinSpace; , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( i ) ∣ x ( 1 ) , ⋯ &ThinSpace; , x ( i − 1 ) ) P({\bf x}^{(1)},\cdots ,{\bf x}^{(n)})=P({\bf x}^{(1)})\prod_{i=2}^nP({\bf x}^{(i)}|{\bf x}^{(1)},\cdots ,{\bf x}^{(i-1)}) P(x(1),,x(n))=P(x(1))i=2nP(x(i)x(1),,x(i1))

    1.5 独立性和条件独立性

    两随机变量相互独立是指其概率分布可以表示为因子乘积的形式。

    ∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x \in {\bf x}, y \in {\bf y},p(x={\bf x},y={\bf y})=p(x={\bf x})p(y={\bf y}) xx,yy,p(x=x,y=y)=p(x=x)p(y=y)
    条件独立是指

    p ( x = x , y = y ∣ z ∈ z , ) = p ( x = x ∣ z ∈ z ) p ( y = y ∣ ∣ z ∈ z ) ∀ x ∈ x , y ∈ y , z ∈ z p(x={\bf x},y={\bf y}|z \in {\bf z},)=p(x={\bf x}|z \in {\bf z})p(y={\bf y}||z \in {\bf z}) \\ \forall x \in {\bf x}, y \in {\bf y},z \in {\bf z} p(x=x,y=yzz,)=p(x=xzz)p(y=yzz)xx,yy,zz

    1.6 期望、方差和协方差

    期望
    E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) E x ∼ p [ f ( x ) ] = ∫ p ( x ) f ( x ) d x \mathbb E_{\bf {x} \sim P[f(x)]}=\sum_x P(x)f(x) \\ \mathbb E_{\bf {x} \sim p[f(x)]}=\int p(x)f(x)dx ExP[f(x)]=xP(x)f(x)Exp[f(x)]=p(x)f(x)dx
    期望的线性性质
    E x [ α f ( x ) + β g ( x ) ] = E x [ α f ( x ) ] + E x [ β g ( x ) ] \mathbb E_{\bf {x}}[\alpha f(x)+\beta g(x)]=\mathbb E_{\bf {x}}[\alpha f(x)]+\mathbb E_{\bf {x}}[\beta g(x)] Ex[αf(x)+βg(x)]=Ex[αf(x)]+Ex[βg(x)]

    方差:是衡量对x依据概率分布进行采样时,随机变量x的函数会呈现多大的差异。
    V a r ( x ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(x)=\mathbb E[(f(x)-\mathbb E[f(x)])^2] Var(x)=E[(f(x)E[f(x)])2]
    方差很小时, f ( x ) f(x) f(x)的值形成的簇接近其期望值。

    协方差:给出两个变量线性相关性的强度以及变量的尺度:

    C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x),g(y))=\mathbb E[(f(x)-\mathbb E[f(x)])(g(y)-\mathbb E[g(y)])] Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]
    协方差绝对值很大,意味着变量的变化值很大,并且距离各自的均值很远。协方差为正表明两个变量倾向于同时取得较大的值;若为负,表明一个变量倾向取得较大的值,另一个变量取得较小的值。

    随机变量的协方差矩阵是 n × n n \times n n×n矩阵,满足
    C o v ( x ) i , j = C o v ( x i , x j ) Cov({\bf x})_{i,j}=Cov({\bf x}_i,{\bf x}_j) Cov(x)i,j=Cov(xi,xj)
    协方差的对角元素是方差:
    C o v ( x i , x j ) = V a r ( x i ) Cov({\bf x}_i,{\bf x}_j)=Var({\bf x}_i) Cov(xi,xj)=Var(xi)
    当缺乏对某个实数分布的的先验知识,通常选择正态分布,原因如下:

    ①、建模的很多分布的真实情况是比较接近正态分布的。中心极限定理表明很多独立随机变量的和近似服从正态分布。很多复杂系统可以被成功建模成正态分布的噪声,即使系统被分解为更结构化的部分。

    ②、具有相同方差的所有可能概率分布中,正态分布在实数上具有最大不确定性,可以认为正态分布对模型加入先验知识量最小的分布。

    隐藏变量:不能直接观测的随机变量,隐藏变量的分布以及关联隐藏变量和观测变量的条件分布共同决定 P ( x ) P(x) P(x)的形状。

    高斯混合模型组件是高斯分布,每个组件具有各自的参数,均值和协方差矩阵。高斯混合模型会限制每个组件的协方差矩阵为对角或各向同性的。

    任何平滑的概率密度可以用足够多的高斯混合模型以任意精度逼近。

    1.7贝叶斯规则

    贝叶斯定理:
    P ( x ∣ y ) = P ( x ) P ( y ∣ x ) ∑ x &ThickSpace; P ( y ∣ x ) P ( x ) P(x|y)=\dfrac{P(x)P(y|x)}{\sum_x \; P(y|x)P(x)} P(xy)=xP(yx)P(x)P(x)P(yx)

    1.8 连续型变量的技术细节

    连续型变量落在某个集合 S \mathbb S S的概率是用过 p ( x ) p(x) p(x)对集合 S \mathbb S S积分得到。但是对于集合 S \mathbb S S的选择会引起概率的悖论。这些集合大量使用实数的无限精度构造。

    零测度:零测度集在度量空间中不占有任何体积。多个零测度集的并仍然是零测度(所有有理数构成的集合的测度为零)

    几乎处处某个性质是几乎处处成立的,那么在整个空间中除了一个测度为零的集合外都是成立的。

    连续型随机变量的另一技术细节是:相互之间具有确定性处理关系的连续型随机变量。存在函数关系的两随机变量并不具有概率之间的函数关系,可能在映射过程中会造成空间变形。

    高维空间中,微分运算扩展为Jacobian矩阵的行列式——矩阵的每个元素为 J i , j = ∂ x i ∂ y j J_{i,j}=\dfrac{\partial x_i}{\partial y_j} Ji,j=yjxi。对于实值向量,
    p x ( x ) = p y ( g ( x ) ) ∣ d e t ( ∂ g ( x ) ∂ x ) ∣ p_x(\boldsymbol x)=p_y(g(\boldsymbol x))\left| det\biggl(\dfrac{\partial g(\boldsymbol x)}{\partial \boldsymbol x}\biggr) \right| px(x)=py(g(x))det(xg(x))

    2.信息论

    机器学习中主要利用信息论的思想描述概率分布或量化概率分布的相似性。

    ①、非常可能发生的时间信息量比较少;

    ②、较不可能发生的事件具有更高的信息量;

    ③、独立事件应具有增量的信息;

    熵: H ( p ) = − ∑ x p ( x ) l o g 2 p ( x ) H(p)=-\sum_x p(x)log_2 p(x) H(p)=xp(x)log2p(x)熵衡量事件不确定性的大小,表示传输一个随机变量状态所需比特位的下界。

    KL散度、相对熵

    对于随机变量的两个概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x),用KL散度衡量两个分布之间的差异

    D K L ( P ∣ ∣ Q ) = E [ l o g P ( x ) Q ( x ) ] = − ∫ P ( x ) l n &ThickSpace; Q ( x ) d x − ( − ∫ P ( x ) l n &ThickSpace; Q ( x ) d x ) = − ∫ P ( x ) l n &ThickSpace; Q ( x ) P ( x ) d x \begin {aligned} D_{KL}(P||Q) &amp;=\mathbb E \left[ log \dfrac{P(x)}{Q(x)}\right] \\ &amp;=-\int P(x)ln \;Q(x) dx-\biggl(-\int P(x)ln \; Q(x)dx\biggr) \\ &amp;=-\int P(x)ln \;\dfrac{Q(x)}{P(x)}dx \end {aligned} DKL(PQ)=E[logQ(x)P(x)]=P(x)lnQ(x)dx(P(x)lnQ(x)dx)=P(x)lnP(x)Q(x)dx

    3 结构化概率模型

    机器学习算法涉及在非常多的随机变量上的概率分布,其相互之间的直接作用是结余非常少的变量之间的。利用单个函数描述整个联合概率分布是非常低效的;因此将概率分布分解成许多因子乘积的形式。这种分解极大减少用来描述分布的参数数量;一般而言利用图模型描述这种分解。图模型使用图 G \mathcal G G,图的每个节点对应对应一个随机变量,连接两个随机变量意味着概率分布可以表示为两个随机变量之间的直接作用。

    有向图用条件概率分布描述分解;其中对于分布的每一个随机变量 x i x_i xi包含一个影响因子称为当前节点的父节点 P a G ( x i ) Pa_{\mathcal G}(x_i) PaG(xi)

    p ( x ) = ∏ i p ( x i ∣ P a G ( x i ) ) p(x)=\prod_ip(x_i|Pa_{\mathcal G}(x_i)) p(x)=ip(xiPaG(xi))

    无向图将分解表示为一组函数,这些函数通常不是任何类型的概率分布。 G \mathcal G G中任何满足两两之间有边连接的顶点的集合称为。无向模型的每个团 C ( i ) \mathcal C^{(i)} C(i)都伴随着一个因子 ϕ ( i ) ( C ( i ) ) \phi^{(i)}(\mathcal C^{(i)}) ϕ(i)(C(i)),因子的输出是非负的,但并不要求因子的和或积分为1.

    随机变量的联合概率与所有因子的乘积成比例:这意味着因子取值越大,可能性越大。

    p ( x ) = 1 z ∏ i ϕ ( i ) ( C ( i ) ) p(x)=\dfrac{1}{z}\prod_i \phi^{(i)}(\mathcal C^{(i)}) p(x)=z1iϕ(i)(C(i))

    展开全文
  • 这些区域可以与附加信息一起呈现给从业者,以帮助从业者探索数据集。 这种方法的一个优点是它不依赖于数据的集群结构。 我们正式定义了这个问题,并提出了衡量代表质量的函数应该满足的公理。 我们提供满足所有这些...
  • 信息论笔记—熵

    千次阅读 2017-06-25 22:17:12
    信息论笔记—熵
  • 针对传统方法在方案决策时需给出各评价指标权重的局限性,将物理规划方法和信息公理引入到产品性能评价决策中,提出了基于物理规划与信息公理的评价方法。该方法在决策时无需给出各评价指标的权重,只需决策者设定各...
  • 3.概率论与信息论

    2019-09-03 17:16:28
    概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性 声明...概率论使我们能够提出不确定的声明以及在不确定性存在的情况下进行推理,而信息论使我们能够量...
  • 概率论 概率 概率的统计定义 频率 事件A在n次重复随机试验中出现的次数与n的...概率的公理化定义 设E是随机试验,Ω是E的样本空间,对于E 的每一个事件A赋予一个实数值, 表示事件发生的可能性(记为P(A)P(A)P(A))...
  • 机器学习中的概率和信息论

    千次阅读 2017-01-12 22:19:15
    在本文中,我们讨论概率和信息论。概率论是用于表示不确定性陈述(statement) 的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性陈述的公理。在人工智能领域,我们主要以两种方式来使用...
  •   香农最初对“信息”进行定量化研究时是把“信息”限于“通信的消息”,并以此为出发点研究了通信的数学理论,形成了狭义的香农信息论。   “信源”,指的是消息的来源。若信源输出的消息是以取值离散的符号...
  • 香农将布尔的逻辑运算引入计算机,以及他提出的信息论这些都与数学相关。 专注于人工智能、读书与感想、聊聊数学、计算机科学、分布式、机器学习、深度学习、自然语言处理、算法与数据结构、Java深度、Tomcat...
  • 本篇是学习信息论的入门笔记,希望能与各位分享进步!这是第一章:熵、相对熵与互信息~
  • 标题:Java继承,常量池,计算机的软件系统,运行和直言三段公理和规则; 内容: A.刚刚右下角突然出现天猫广告的弹窗,不知道是那个流氓软件干的,下次把它找出来; B.今天尝试了一下建立个人博客,是通过...
  • 概率论用于表示不确定性声明的数学框架,提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。 在人工智能领域,概率论主要有两种用途: ...信息论能使我们能够量化概率分布中...
  • 本期内容一览:JSON的“噪音”与“信噪比”噪音量的理论上限、逆波兰表达式信息论与压缩技术:字符串vs字节串最优二叉树、FPS/2.0Huffman编码...
  • 本系列全部章节一览:JSON的“噪音”与“信噪比”噪音量的理论上限、逆波兰表达式信息论与压缩技术:字符串vs字节串最优二叉树、FPS/2.0Huffma...
  • 花书-概率与信息论

    2020-06-04 14:56:58
    它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。在人工智能领域,概率论主要有两种用途:首先,概率论法则告诉我们AI系统如何推理,据此我们设计一些算法来计算或者估算由概率论导出的...
  • 本篇是《信息论》的读书笔记,欢迎各位路过指正!今天十章全部更新完毕啦~
  • UA MATH636 信息论5 信道编码简介 通讯的过程可以用下面这个流程图表示。信源发送一个随机信号WWW给信源编码器,编码器将信号WWW编码为XXX后发送到噪声信道进行传输,传输到接收端的解码器,解码器接受到的码记为YYY...
  • 这样,信息论的基本思想撇开了物质与能量的具体运动形态,系统有目的的运动被抽象为信息变换过程,系统的控制过程通过信息传递完成。 “三论”的关系 编辑 系统论、 控制论 、信息论三门学科密切相关,...
  • 我又回来了本系列内容一览:JSON的“噪音”与“信噪比”噪音量的理论上限信息论与压缩技术:字符串vs字节串最优二叉树Huffman编码Message P...
  • 统计自然语言处理——预备知识2.1 概率论基本概念2.1.1 概率概率的三个公理 (1) 非负性: P(A)≥0P(A)\geq0 (2) 规范性: P(Ω)=1P(\Omega)=1 (3) 可列可加性: 事件A1,A2,...,Ai,...A_1,A_2,...,A_i,...互不...
  • 《Deep Learning》(3)-概率和信息论

    千次阅读 2016-09-10 16:37:49
    介绍概率的一些基础,还有一点信息论知识。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,016
精华内容 1,606
关键字:

信息论公理