精华内容
下载资源
问答
  • 读书笔记-信息简史

    2018-08-31 13:30:23
    作者:【美】詹姆斯·格雷克推荐序一当对话取代听讲,当个性取代共性,当封闭转向开放,人的思想力得到了空前的释放,信息成为了社会的第一生产力。推荐序二即信息是宇宙固有的组成部分,就和力、运动等概念一样。而...

    作者:【美】詹姆斯·格雷克

    推荐序一

    当对话取代听讲,当个性取代共性,当封闭转向开放,人的思想力得到了空前的释放,信息成为了社会的第一生产力。

    推荐序二

    即信息是宇宙固有的组成部分,就和力、运动等概念一样。而世界上几乎任何事物都可以用信息的方式量化,或者说就是“万物皆比特”。

    引子

    每一种新出现的媒介,都会对人类思维的性质加以改造。长远来看,所谓历史,就是信息逐步从自发到自觉的一个过程。

    第2章 持久的文字(心智中并无词典)

    在回头审视文字出现以前的岁月时,我们现代人就是翁神父所说的那些无可救药的、满脑子只有汽车的家伙。文字成了我们获取知识的机制和组织思维的手段。我们希望采用历史和逻辑的方法来理解文字的起源,可是历史和逻辑本身就是文字思维的产物。

    但当词语被具象化在一张纸或一块石头上时,它就成了一种独立存在的人工品。它是工具的产物,同时本身又是一种工具。正如很多后来出现的技术那样,它因此立刻招惹来不少非议。

    借助文字,一个人可以向众多人说话,死者可以向生者说话,生者可以向未生者说话。

    借助文字,我们开始像撒面包屑般在身后留下踪迹,以符号存储下记忆,供后来人追寻。

    特勒这样完成了对口语和文字之间区别的阐述:“书写符号的作用范围可以在时间和空间上无限延续,在其作用范围内,人们可以相互沟通思想;它赋予写作者的思想以生命,这种生命仅受墨水、纸张和读者的存续时间的限制,而免于写作者肉体存续时间的限制。”

    文字的力量不仅体现在知识的保存和传承上,这自然很有价值,也体现在所用的方法论上,比如对视觉指示物加以编码、转换,利用符号替代实物,进而利用符号替代符号。

    即从表示实物向表示口语的转换:也就是说,中间隔了两层。这个渐进的过程始于象形文字(书写形象),再到表意文字(书写意象),最终到语标文字(书写字词)。

    将荷马史诗书写下来这件事意义不可谓不重大,正如继承了帕里观点的英国古典学者艾里克·哈夫洛克所说:“它犹如人类历史中的一声惊雷,口口相传的吟诵变成了桌面上的纸页窸窣声。它侵入口语文化,造成了不可逆转的后果。事实上,它为口语文化的生活方式和思维方式的毁灭奠定了基础。”

    鲁利亚在不识字与哪怕识一点字的人们之间发现了惊人的差异——不在于他们掌握知识的多少,而在于他们的思维方式。逻辑直接涉及符号系统:万物各属其类,而类各有经抽象和概括而来的属性。

    现在信息摆脱了个人经验的束缚,而存在于一个个文字当中。口语同样可以传递信息,但它不会像书面文字那样给人带来某种自觉意识。会读写的人将他们对于文字的意识视为完全理所当然,类似的还有相关的一系列机制,如分类、引用和定义等。然而在文字出现以前,这些技术却完全不为人知。鲁利亚曾这样问道:“请给我解释一下什么叫树。”一位农奴回答说:“为什么要解释呀?所有人都知道树是什么,他们不需要我来告诉他们。”

    语言和推理配合得是如此之好,以至于使用它们的人往往看不出其中的瑕疵和不足。不过,任何一种文化中只要出现了逻辑,悖论也就接踵而至。

    名与实不相符,类与子类不相容,导致原本看起来没什么问题的推理进行不下去,比如“某人不喜欢白马”竟不能推论出“某人不喜欢马”。

    杰恩斯评论说:“征服和影响之所以能够层层推进,正是借助了前所未有众多的字母、泥板和石碑。文字是进行社会控制的新方法,实际上,其模式也是今天我们基于备忘录进行沟通的政府的开端。”

    在书面文化所收获的诸多能力中,内省的力量不可小觑。作家们热衷于讨论文字,这远比吟游诗人讨论说话的意愿要大得多。他们能够看见媒介及其所传递的讯息,将对它们进行学习和分析,甚至他们还可以对文字进行批判。从一开始,这项能力就伴随着一股挥之不去的失落感,这是一种怀旧的表现。

    事实证明,柏拉图所担心的那种“善忘”并未成为现实。而它之所以没有成为现实,正是因为柏拉图与其导师苏格拉底、其高徒亚里士多德定义了思想的基本概念,将种种观念分门别类归入不同范畴,并确立了各种逻辑规则。这样他们实现了文字技术的最大潜能,使知识得以更为持久。

    第3章 两本词典(我们文字的不确定性以及我们拼写的随意性)

    随着印刷书的出现和普及,人们逐渐产生了这样一种感觉,即单词的书写形式理应是确定的。也就是说,只有一种拼法正确,其他的都是错误的。起初,这种感觉是潜意识的,但后来就进入了众人的意识当中。出版商于是自告奋勇担当起规范化的责任来。

    在考德里看来,定义针对的是物,而非单词本身:“define,清楚地说明某物为何物。”需要定义的是这个丰富多样的现实。而解释(interpret)的意义是“打开,简化,以揭示某物的含义和意义”。对他而言,物与词的关系,就好比物体与其影子的关系。

    词典为文字的持久性提供了正式认定,它表明一个字词的意义来自于其他的字词。这意味着,所有的字词聚集到一起,就可以形成一种互相关联的结构,因为所有的字词都是由其他的字词来定义的。这种现象在口语文化中并不存在,因为在那里语言是不可见的

    这种不同之处在于,它不带偏见地涵盖了从最大到最小的尺度:既能向百万之众广播,也能向小组窄播,还能收发一对一的即时讯息。

    第4章 将思想的力量注入齿轮机械(喔,欣喜若狂的算术家啊!)

    但即便如此,巴贝奇会想到要把这种强大的力量应用到一种了无重量的领域,将蒸汽应用到思考和算术上,仍是件奇怪的事情。这时,数就是原料,之后支架滑行、齿轮转动,大脑的工作就这样完成了。

    直到17世纪,一些数学家才构想出第一批真正称得上机器的计算设备,它们可以用来做加法,并通过重复做加法来实现乘法。

    在本质上,帕斯卡和莱布尼茨的原型机仍然更接近于算盘,一种反映存储状态的被动型寄存器,而不是一种活动机器。在巴贝奇看来,它们都称不上是自动化的。

    他认识到,计算员手工计算的方式已经没有前途:“唯有通过机械生成的数表,才能使此类错误无处容身。”

    差分机是在当时技术条件下精密工程所能达到的极致。无论是合金的成分构成、尺寸的精确程度,还是零件的可替换性,这部究竟未能完成的机器的已实现部分在当时都是无与伦比的。尽管如此,这个实验品毕竟仅能成为一件异乎寻常的赏玩之物。而这也是巴贝奇所能达到的极致了。

    为此她设计了一个过程、一组规则以及一系列运算。在一个世纪后,这会被称为一种算法,或一个计算机程序,可是在当时,要解释这个概念还颇费周章。最不容易理解的一点是,她的算法是递归的。它循环运行,一次迭代的结果将成为下一次迭代的输入。巴贝奇曾将这种方式称为“机器咬尾巴——团团转”。爱达解释道:“显而易见,既然每个函数前后相继,并遵循相同的规则,那么就会出现循环的循环的循环……这个问题极其复杂,恐怕很少有人能得跟上……尽管如此,这对该机器而言是一种非常重要的情形,并且体现出某些独特的思想。因此,如果我们对此完全避而不谈的话,难免会有些遗憾。”

    这其中的关键就是她和巴贝奇称为变量的实体。变量,体现在硬件上,就是机器的一根根轮轴上的数轮。但除此之外,还有“变量卡片”。

    因此体现在软件上,变量类似于容器或封套,能够用来表示或存储多位数。

    即便机器造出来,谁又会用这台机器呢?既非公司职员,也非商店店员,巴贝奇的儿子在多年以后这样说道。日常的算术计算从来就不是它的目标,否则“这就像是用蒸汽锤砸坚果”。他借用了莱布尼茨的说法:“它的用户不是那些卖菜或卖鱼的,而是天文台,或私营的计算机构,或其他轻易可以负担得起费用并需要大量计算的人。

    当然,巴贝奇机器的神奇之处也会遭到诟病。一些批评家就害怕机械机制与人的智力之间的竞争。

    而当他展望未来时,他预见有一条真理将高于一切,那就是“知识就是力量”。他是从字面上理解这句话的,认为知识“本身是物理作用力的发生器”。科学给世界带来了蒸汽,他猜想,不久以后科学将转向不那么有形的电力,“它几乎已经可以控制这种以太流体”。他还望向了更远的未来:

    我们必须记住另一门更高级的科学……也在大步前进……那就是计算的科学,它在我们前进的每一步中。

    第5章 地球的神经系统(就那么几根破电线,我们能指望它什么呢?)

    神经系统的确传递着讯息,而电报和电话也确实开始第一次将人类社会转变成了某种整合的有机体。

    即使讯息成功抵达,也仍然不能完全采信。中继信号塔很多,这就意味着出错的几率很大。世界各地玩过传话游戏的孩子都知道这个道理,在英国这个游戏叫做中国悄悄话(Chinese Whispers),在中国叫做以讹传讹,在土耳其叫做咬耳朵(From Ear to Ear),而在现代美国则直接叫做打电话(Telephone)。对于许多人忽视错误校正的问题,伊尼亚斯·沙普抱怨道:“他们大概从来没有用超过两三座信号塔做实验。”

    正是在这样的背景下,美国的塞缪尔·摩尔斯和阿尔弗雷德·韦尔,以及英国的威廉·库克(William Cooke)和查尔斯·惠特斯通(Charles Wheatstone)将电报变成了一个现实和一桩生意。所有这些人后来都以这种或那种方式宣称是自己“发明”了电报。

    诗人罗伯特·弗罗斯特写道:“他们在苍穹下架设线路,字词不论是敲出来还是说出来/在上面奔走时都将如思绪般静寂无声。”

    《纽约先驱报》说:“一个由铁线构成的神经网络,从作为大脑中枢的纽约开始分叉,伸向远端的四肢。”而《哈泼斯》杂志则写道:“电流在整个电线网络中律动,传递着人类智慧的信号。”

    在多种意义上,使用电报就意味着用编码(code)书写。

    韦尔自己就在1847年写道:“如果不能辅之以某种保密字母表的话,电报所具有的巨大优势(以闪电般的速度传递讯息,消弭时间和空间)在实用性上就会大打折扣。”

    所有这些系统都要求发送方和接收方之间要有事先的约定:讯息需要通过双方都知道的、预先约定的知识而加以增补或变换。这种知识比较方便的存放地点,就是一个码本。

    这样人们可以不用词语,而改用数字来发送他们的讯息,或者部分用数字、部分用词语。”

    密码术一度是门隐秘的技术,其奥秘通过私人手稿的方式传播,就和炼金术一样。但如今,编码制作通过印刷术被放到了光天化日之下,激起大众无尽的想象。在随后的几十年间,人们设计和出版了其他很多方案,从不过一便士的口袋本到印得密密麻麻的多卷本,不一而足码本最终演变成了短语手册。它们把讯息压缩并封装起来,这样既可避人耳目,又适于有效传输。当然,在接收端,它们则用来解压缩。

    那些使用电报编码的用户慢慢发现,编码虽然高效而简洁,但它也有始料未及的副作用,那就是极易受到哪怕是最微小的错误的破坏。

    保密文字和文字一样古老。事实上,在文字诞生之初,它对除了少数人之外的所有人来说,都是无法读解的。而随着文字的神秘性逐渐消退,人们又找到了各种新方法来试图让自己的字词显得与众不同、隐秘难懂:用字母变位法来重写单词,用镜子反转文本,或是发明密码进行加密。

    对于威尔金斯来说,密码学事关通信的基本问题。在他看来,文字和保密文字在本质上是一回事。但暂时撇开保密的问题不谈,他是这样来表述通信的基本问题的:“一个人如何以最迅速、最快捷的方式将自己的意图传递给另一个相距遥远的人。”

    布尔设想的体系是一种不包含数的数学。他写道:“逻辑学的公理,即仅靠它们就可以构建出逻辑科学的那些定律,其形式和表达都是数学的,尽管不是计量的数学:这是一个事实。”其中允许使用的数只有0和1,用以表示全无和全有:“符号0和1在逻辑体系中的相应解释是空类(Nothing)和全类(Universe)。”

    在此之前,逻辑学一直从属于哲学;而现在,布尔要代表数学将逻辑学收入麾下。为此,他设计了一种全新的编码形式,其码本融合了两套抽象的符号体系:一套是从数学的形式主义中借用的字符,如P和q、+和-,以及大小括弧等;另一套则是通常用含糊多变的日常语言表达的运算、命题和关系,如表示真和伪、类的个体、前提和结论等的字词,以及各种“小品词”,如if、either、or等。

    记号和符号并不仅仅是占位符,还是运算符,就如同机器中的齿轮和杠杆一般。语言,说到底,也是一种工具。

    语言至此被视作服务于两种独立的功能,既是表达的工具,也是思维的工具。人们一般假定,其中思维在先。对于布尔来说,逻辑就是思维,是思维经过打磨和提纯的结果。

    第6章 新电线,新逻辑(没有别的什么东西比它更严密地为未知所包裹)

    农有着一颗爱发明、爱玩耍的心,成年之后也依然保持着那份童真。终其一生,他都在玩游戏和发明游戏。他爱摆弄各种小机械和小装置。

    在第一次世界大战后,麻省理工学院成为了美国电气工程应用科学的三大孵化中心之一,另两个是贝尔电话实验室和通用电气。

    文字的发明一度催化了逻辑学的发展,因为文字使得对于逻辑推理的分析成为可能——借助文字,成串的思维过程将呈现在人们眼前,供人审视。而许多个世纪之后,随着人类发明了能够操作符号的机器,逻辑学再度被赋予了新的活力。在逻辑学和数学这两种推理的最高形式中,一切似乎都开始相融合。

    要想理解什么是鲸鱼,什么是大,人们需要具备对于真实事物的知识和经验。但要想操作1和数,以及与之相关的全部算术运算,如果用精练的符号妥当地加以表示的话,这个过程应该是可以自动完成的。

    哥德尔证明了,一个自洽的形式体系必定是不完全的,不可能存在完全且而之所以会出现这些错误判断,原因之一是人们在面对一种全新技术时通常会遭遇的想象力失灵。

    当时,美国电话电报公司正在日渐巩固其垄断地位,其工程师也在努力缩短寻呼时间。与此同时,虽然本地的电话交换已经自动化,但跨网的长途呼叫在一开始还是需要先打给另一个“长途”接线员,然后等待接线员回电告知连接已经准备完毕。

    同一符号集内的符号之间没有差别,讯息的信息量应该正比于符号数:多一倍符号数,就多一倍信息量。这一点在直觉上似乎不言而喻。但一个点或划携带的信息量比字母表中的一个字母要少,比从一本含有一千个单词的词典中选取的一个单词就更少了。

    当时的通信工程师所谈论的不仅是电线,还有空气(“以太”),甚至打孔纸带。他们所关注的不仅是文字,还有声音和影像。他们正试图用符号来表示整个世界,将万物化身为电。而香农感觉到了一丝将这一切统一起来的希望。

    第7章 信息论(我想要的不过只是一颗寻常的大脑)

    建立一套有关信息及其处理的理论,有点儿像建造一条横贯大陆的铁路。你可以从东海岸出发,先试着理解信息是如何处理的,然后向西迈进。或者你也可以从西海岸出发,先试着理解信息到底是什么,然后向东深入。我们希望的是,两条铁轨能在中间会合。

    ——乔恩·巴怀斯(1986)

    而现在,阿兰·图灵迈出了前所未闻的一步:他首先设想了一种机器,它在思维领域具备无与伦比的力量;然后他证明了,这样的机器不能做什么。他的机器在当时并未变成现实(不过现如今,它已是无处不在),与机器能做什么的问题密切相关的是另一个问题,即什么样的任务是机械的?

    阿兰·图灵,当时只有二十二岁,他对于大部分的相关文献都不熟悉,工作也喜欢独来独往,有时他的教授甚至都担心他会变得“习惯于孤独”。在论文中,他提出了一个(表面上看)完全不同的问题:所有的数都是可计算的吗?这是个出人意料的问题,毕竟几乎没有什么人考虑过不可计算的数。大多数人所使用或考虑的数,根据定义都是可计算的。

    图灵还设定了另一个限制:机器每次只能“感知”(使用这样拟人化的用语也是别无选择)一个符号,也就是在机器内的方格上的那个符号。

    图灵机具有有限多个状态。在任何给定状态下,机器会根据当前符号的不同,执行一个或多个操作。

    用图灵的话来说,“另外一些[符号]则仅是临时笔记,以‘帮助记忆’”。而无穷无尽的纸带为此提供了无限的记录空间。

    图灵的确证明了有些数是不可计算的。(事实上,绝大多数的数都是不可计算的。)

    图灵在听说这个原理后,采用自指的说法对此进行了表述:“过去我们一直假定,在科学中,只要知道宇宙在某一时刻的全部状态,我们就能把宇宙所有的未来状态都预测出来……但更为现代的科学却认为,当我们面对原子和电子时,我们无法知道它们的全部确切状态,因为我们所用的仪器本身就是由原子和电子构成的。”

    图灵和香农都在使用编码,只是图灵是把指令编码成数,将十进制数编码成0和1,而香农是对基因、染色体、继电器和开关编码。他们的灵思巧智都应用在了如何将一类事物映射到另一类事物(例如,代数函数与机器指令,逻辑运算符与电路),也就是找出两类事物之间严格的对应关系上。在他们心智的武器库中,符号运算以及映射的思想占据着举足轻重的地位。

    当时所有的密码系统都有一个共同点,那就是它们都要使用密钥。密钥可能是一个单词、一个短语、一整本书或甚至更复杂的东西。但不管是什么,它都是发送者和接收者都知道的一个字符的来源,是除了讯息之外双方所共享的知识。

    在完美密码中,所有密钥的出现概率必须相等,这样生成的实际上是一串随机的字符流,同时每个密钥只能使用一次,而且最糟糕的是,每个密钥都必须与整条讯息一样长。

    也是在这篇机密报告中,几乎是不经意的,香农使用了一个自己之前从未用过的说法:“信息论”。

    要想为信息建立理论,香农首先要做的是去除其“意义”。这里的引号是香农自己的做法。他曾不无兴奋地提出:“对于信息论的研究而言,讯息的‘意义’基本上无关。”

    “信息与不确定性密切相关。”反过来,不确定性可以通过统计可能讯息的数量加以度量。如果仅有一条可能讯息,那么这其中就不存在不确定性,因而也就不包含信息了。

    有一些讯息出现的可能性比其他讯息要大,而信息意味着出人意料。出人意料其实讲的是概率。

    其中重要的是,将讯息从一点传送到另一点的困难程度。”这或许听上去有点同义反复,就像用移动物体所需的力来定义质量一样。不过换个角度看,质量的确可以用这种方式定义。

    信息是熵。这是各个说法当中最奇怪也最强大的一个。熵的概念早已有之,在研究热量和能量的热力学中,它被用来度量系统的无序程度。但对于这个概念,一直以来人们的理解有限。

    这些讯息往往都带有意义,也就是说,根据某种体系,它们指向或关联了特定的物理或概念实体。但通信的这些语义因素,与其工程学问题无关。

    一个通信系统必须包含以下要素:

    信源是指产生讯息的人或机器。这里的讯息可以简单如一个字符序列,就像在电报或电传中的情形;也可以表达成时间及其他变量的数学函数,比如f(x,y,z)。香农指出,在彩色电视这个复杂情形中,讯息就是由三维连续统定义的三个函数表示的。

    发送器“对讯息执行某种操作”(也就是,对讯息编码)以得到适当的信号。电话机将声压转换成模拟电流,电报将字符编码成点、划和停顿。更复杂的讯息可能会经过采样、压缩、量化和交错等操作。

    信道:“传输信号所使用的媒介。”

    接收器执行发送器的逆操作,对讯息解码,或从信号中提取出讯息。

    信宿是位于另一端的“人(或物)”。

    在香农的示意图中,还有一个方格与其他要素同样显著,那就是噪声,毕竟这对工程师来说避无可避。

    香农将种种各不相同的通信系统大致分成了三类,一类是连续的,一类是离散的,还有一类是混合的。在离散系统中,讯息和信号由分立的个体符号组成,比如字符、数字或点划。但除了电报,当时的电气工程师每天面对的大多是连续系统,其中的讯息和信号是被视为连续函数。如果要想在一个信道上传递更多信息,工程师通常的做法是,增大信源的输出功率。不过,这个方法在远距离通信中会失效,因为一次又一次地放大信号,只会导致噪声的逐渐积累。

    他还考虑到了一点:把讯息视为离散的,这不仅可以应用在传统通信领域,还可以应用于另一个新兴的小众的领域,计算机器理论。

    在香农看来,一条讯息就像一个动力系统,它的未来走向会受到过去历史的影响。

    如果有充足的时间,香农还可以实现更高阶的近似,只是其中所需的工作量会变得异常繁重。但这已经足以说明问题,即可以把一条讯息看成一个随机过程的结果,其中这个过程借助一组离散的概率生成了一系列事件。

    他还在论文中得出了一系列惊人的基本结论。其中一项发现是关于信道容量的一个公式,信道容量是任何信道的信息传输速率的上限(现在也直接被称为香农限)。他的另一项发现是,只要信息传输速率没有超出该上限,那么总是存在一种纠错编码方案,可以克服任何程度的噪声,使得错误概率任意小。虽然发送者可能需要越来越多的比特用来纠错,并使传输速率越来越慢,但讯息最终总能完成传送。不过,香农并未指出如何设计这样的编码方案,只是证明了这种方案是可能的,因而也开辟了后来计算机科学一个新的分支。

    第8章 信息转向(形成心智的基本要素)

    将信息论应用于超出其原本意图的领域,很可能是件危险的事情,但我想危险恐怕也阻止不了人们这样做的热情。

    ——J. C. R. 利克里德(1950)

    维纳的控制论适逢其时,因为当时一样新事物正开始进入公众的视线,那就是计算机器。

    香农早在1937年的硕士论文中就已经回答了这个问题,而现在维纳也给出了相同的答案:

    逻辑代数,又称布尔代数。与二进制算术一样,这种算法也是基于二分法,即是或否的选择,属于某类或不属于某类的选择。

    世界的构成材料再一次被证明是德谟克利特的原子:“在虚空中随意晃荡的不可分之物、最小之物。”

    一大批科学几乎在同时进入了成熟阶段:其中有些是所谓社会科学,如人类学和心理学,它们正试图为自己寻找新的数学基础;有些是有着混合名称的医学分支,如神经生理学;还有一些则还不完全称得上是科学,如精神分析。麦卡洛克邀请了所有这些领域的专家,当然还有数学家和电气工程学专家。他创立了一种诺亚方舟原则,即从每个领域邀请两名专家,这么一来,主讲者的行话就总有在场的人能完全领会。

    信息可被认为是从无序中夺得的有序。

    社会心理学家亚历克斯·巴弗拉斯(Alex Bavelas)就评论道:“如果我们同意把信息定义为任何能改变概率或降低不确定性的东西,那么很容易从这个角度来看待比如情绪安全感的变化。情绪安全感的变化可被定义为个体对于自己属不属于某类人或自己被爱或不被爱的主观概率的变化。

    然后香农将触头移回起点,重新运行一次。这回,它直抵终点,没有转错弯,也没有撞到隔板。它已经“学会”了如何走这个迷宫。如果把它放到先前走过的方格中,它也能直接抵达终点。但如果把它放入先前未探索过的区域,那么它需要重新开始试错,直到最终,“它建立起了完整的信息模式,可以直接从任何位置抵达终点”。

    不过,香农早有准备,他设计了一种“抗神经症电路”:一个计数器,用来在机器重复同样的序列六次时跳出循环。伦纳德·萨维奇认为,这不免有作弊之嫌。“它没有办法意识到自己‘发疯’了,只是意识到自己走得距离太长了?”萨维奇问道。“是的。”香农也承认这一点。

    大脑的基本单位是一个选择,并且是一个二元选择。“这是或为真、或为假的最小的事件。”

    图灵清晰地阐明了数字计算机的本质和特性,而这一点是香农没有做到的。冯·诺伊曼在建造埃尼阿克的后续机型时,同样也做到了这一点。图灵认为,数字计算机包括三个部分:一个“信息仓库”,相当于人类计算员的记忆或纸张;一个“执行单元”,负责完成一个个操作;以及一个“控制器”,管理一个指令列表,以确保各指令按照正确顺序被执行。这些指令被编码成数,它们有时被称为一个“程序”,而构建这样一个列表的工作通常被称为“编程”。

    图灵无法装作能证明这一点。他的主旨其实是试图澄清在这场他看来略显愚蠢的论辩(“机器能思考吗?”)中所使用的一些术语,比如数字计算机。他还对未来半个世纪作出了一些预测:计算机的存储容量将达到109比特。

    在20世纪中叶,计算机科学家想了解计算机究竟能做什么事,心理学家也想了解大脑是不是计算机,或者说,大脑是不是仅仅是计算机。在当时,计算机科学还是门新兴学科,而心理学作为一门科学也同样非常年轻。

    人的心智,一些人认为是物质的,另一些人认为是精神的,还有些人认为是由两者神秘混合而成的,但它始终不为人的感官和理性所理解。它有如一块在北风恣虐下的荒原,每位路过的思想者都在上面撒下自己的心灵杂草种子,生生扼杀了那些原本可能萌发成熟的好种子。

    华生认为,心理学的全部目的在于预测某个特定的刺激会引发怎样的反应,以及某个特定的行为要源自怎样的刺激。在刺激与反应之间是一个黑箱,人们只知道它由感官、神经通道和运动机能组成,却无法通过科学方法对其进行分析。

    行为主义只研究可观察对象的前提变成了教条,它对心理状态的一概排斥成了束缚自身发展的牢笼,而心理学家依然渴望理解心智到底是什么。

    第9章 熵及其妖(你无法通过搅拌将果酱和布丁区分开来)

    思维干涉了可能事件的发生概率,从而从长期来看,也干涉了熵。

    ——戴维·L. 沃森(1930)

    熵成为了一个图腾般的概念。有了它,热力学“定律”能被简洁地加以表达:

    第一定律:宇宙的能量守恒。

    第二定律:宇宙的熵恒增。

    宿命:宇宙在走下坡路,一条不断衰退的不归路。我们的最终结局,就是熵最大化的状态。

    威廉·汤姆森,即开尔文男爵,通过描述这番暗淡的前景,使得热力学第二定律吸引了公众的想象力。他在1862年宣称:“虽然机械能不灭,但一个普遍趋势是机械能会耗散,导致在整个物质宇宙内,运动会停止,势能会耗竭,而热能则会逐渐增加和扩散。这样最终整个宇宙会归于一个静止和死寂的状态。

    秩序是主观的,因人而异。秩序和混乱似乎并不是数学家会尝试去定义或度量的一类东西。但他们真会就此束手吗?如果无序对应于熵,那么或许它也可以进行科学处理。

    每一分子个体都必定遵守牛顿运动定律,因而在理论上,每个动作、每次碰撞都是可度量、可计算的。可是分子的数量实在太多了,无法一一加以度量和计算。但借助概率,新出现的统计力学在微观细节与宏观行为之间架起了桥梁。

    法国物理学家莱昂·布里卢安在1949年就说道:“时间一去不返,这一事实让物理学家感到大惑不解,毕竟所有基础物理定律都是可逆的。

    如果这个世界是个纯粹的动力系统,并且如果你能精确地将该系统中所有粒子的运动在同一刹那反转,那么所有事物就会回到它们的起点,雨滴会从地面升起,飞回云里,如此等等。人们会看见自己的朋友从坟墓回到摇篮,直到自己也来到出生之前,尽管谁也不知道那是种怎样的状态。

    所有的不可逆过程都必须用同样的原因来解释,这一点物理学家花了很长时间才算接受

    寓意。热力学第二定律等同于真理的程度与下述命题等同于真理的程度相同:把一杯水倒入大海以后,就不可能再取回同一杯水。

    计算一个系统的所有可能组合,可以发现其中无序的状态要远多于有序的状态。在大多数组合或“状态”中,分子全乱作一团;只有在极少数状态中,分子是整齐有序的。

    热力学第二定律揭示的是,宇宙从可能性较小的(有序的)宏观状态演化为可能性较大的(无序的)宏观状态的趋势。

    不同事物会彼此混合。但要将它们筛选出来,就需要信息。

    热力学第二定律只是在统计意义上成立,而不是由某种物理原因所决定的。事实上,在分子水平,这条定律就会被随机地违背。

    而这个妖则是用具有目的性的行为替代了这种随机性。它用信息降低了熵。

    其实不妨说,这个妖统治的是一道大门,一道从物理世界进入信息世界的大门。

    在物理学中,个体分子仍然无法为我们所控制。

    地球上的生命,作为一个整体,其过程是可逆的。“因此,我们必须寻找证据,证明生物体能够控制个体分子原本缺乏协调的运动。

    麦克斯韦妖还引发了另一个悖论。在一个封闭系统中,对这个能够区分较快分子和较慢分子并控制其通过的妖来说,它无异于拥有了一个源源不绝的有用的能量来源。又或者不是这个想象的小恶魔,而是其他“智能生命”呢?

    齐拉特指出:“神经系统本身的存在,就是依赖于能量的持续耗散。

    在统计力学中,熵度量的是一个物理系统的微观状态的不确定程度,即处于所有可能微观状态中的一种的概率。

    而在信息论中,熵度量的是一条讯息的不确定程度,即身为由信源发出的所有可能讯息中的一条的概率。

    自然对相似问题本当给出相似答案。

    当一个无生命的系统孤立地处于均匀一致的环境中时,其中的运动最终会静止下来,温度会最终达到均匀一致,化学反应也会最终停止——“整个系统沦为一团静止的、惰性的物质”,热力学第二定律得到了遵循,而熵达到了最大化。然而,生物体却可以保持不稳定的状态。

    他认为,生命必然是基于更高程度的复杂度,其结构必定不是通过可预测的重复而成,而每个原子或原子团的作用也并不是完全等同的。

    他注意到,晶体具有一定的自我修复能力,比如受到一定压力挤压时,其原子会调整到新的位置,以维持晶体结构的稳定。但这种自我修复是有限的,相较之下,生物体的自我修复能力就高超得太多了:“活的生物体能自己愈合伤口、治愈病症,甚至能再生因意外受损的大块结构。这是生物体最引人注目、也最令人意外的属性。”跟薛定谔一样,布里卢安也用熵来联系起最小的和最大的尺度。

    第10章 生命的编码(关于生物体的完整描述都已写在了卵里)

    处于所有生物核心的不是火,不是热气,也不是所谓的“生命火花”,而是信息、字词以及指令。如果你想为生命找个隐喻,那就别把它想象成火、火花或气息之类。相反,可以把它想象成数以亿计的离散数字字符刻在了一片片晶片上。

    生物体所传递的是某种更抽象、更潜藏于潜能的本质当中的东西。

    基因也一定采用了某种编码:“只要有了基因的分子图景,我们便不再无法设想,如此微型的编码如何既能对应一个高度复杂而又具体明确的发育计划,又能以某种方式包含执行计划所需的方法。”

    整条染色体构成了一条“讯息”。该讯息可以细分成亚单位,它们或可称为“段落”或“单词”等。最小的讯息单位可能是某种触发器,它们能作出或是或否的选择。

    他们的发现,即DNA的双螺旋结构,很快成了一种象征符号,见于杂志封面甚至雕塑作品。DNA由两条长长的碱基序列构成(它就像使用一张四字母码表写成的密码),两者互补并相互缠绕。分离开后,每条序列都可以作为复制的模板。

    DNA分子有点不同,它的唯一功能就是携带信息。因此,微生物学家在意识到这点后,便将注意力转向了编码破解问题。

    复制DNA,就是复制信息;制造蛋白质,就是转移信息,发送讯息。生物学家之所以现在能够清晰地认识到这一点,是因为讯息已经有了明确的定义,并脱离了任何特定的载体。如果讯息能够加载在声波或电脉冲上,那为什么不会是通过化学过程呢?

    到了20世纪60年代初,遗传编码最终被破解时,人们才发现这种编码充满了冗余。核苷酸三联体与氨基酸之间的映射关系大多不是一一对应,不像伽莫夫先前所设想的那般井井有条。有些氨基酸只对应于一个密码子,而有些则对应着两个、四个甚至六个密码子。被称为核糖体的细胞器读取RNA上的遗传信息,每次三个碱基,并对其进行翻译。有些密码子是冗余的,有些则用作起始或终止信号。正如信息理论家所预想的,冗余提供了容错能力。生物学中的讯息同样会受到噪声影响,DNA中的错误(误植)就是所谓的突变。

    一旦“信息”传入了蛋白质,它就无法再传出。具体而言,信息可以从核酸传到核酸,或从核酸传到蛋白质,但不可能从蛋白质传到蛋白质,或从蛋白质传到核酸。这里的“信息”,是指序列的精确次序。

    因此,遗传讯息是独立、刺不透的:没有来自外部事件的信息可以改变它。

    信息从未在如此微小的尺度上书写过。这是在埃米尺度上写成的文字,出版于无人可见的地方——一本针眼里的生命之书。

    用比较专业但简洁的话说就是:“基因,其实就是DNA核苷酸的一段线性排列,它决定了蛋白质氨基酸的一段线性排列。”

    因此,自然选择的基本单位不是生物体,而是基因。它们的起源是“复制子”(replicator),某种在原生汤中意外结成的分子,拥有自我复制的特殊能力。

    这些远古的复制子并没有灭绝,毕竟它们是生存艺术的大师。不过现在你不会找到它们在海洋中四处漂流,因为它们很早便已经放弃了这种随波逐流的自由。它们如今聚集在一块块巨大的殖民地当中,藏身于笨重的机器人内,与外部世界相隔离,只是通过复杂的间接途径与其沟通,并通过远程控制对其进行操控。它们就在你我体内。它们创造了我们,包括身体和心智,而我们存在的终极目的只是为保全它们。这些复制子不断在完善着自己。现在它们被称为基因,而我们不过是它们的生存机器。

    每种生物都有权以自己的方式“完成”自己的发育。蛋的做法可能看起来是绕了大弯,但那正是它自己的方式,我们人类没有多少理由对此说三道四。凭什么认为鸡比蛋更鲜活?又凭什么说是鸡生蛋而不是蛋生鸡?这些无法用哲学解释的问题,或许从另一个角度就可以解答,那就是考虑到人类的自负及其长久以来的、忽略一切不像自己的事物的习惯。

    正如爱德华·奥斯本·威尔森在一百年后所说的,“人类中心主义是人类智识的一大残疾”

    地球上的生命史始于复制子的偶然出现。复制子是一种信息载体,它通过自我复制而生存和传播。副本必须自洽且可靠,但无需完美。相反,为了实现进化,错误倒是必不可少。复制子可以先于DNA甚至蛋白质而存在。

    单独一个基因无法制造一个生物体。昆虫、植物和动物是大量基因集体共用的载具,这些基因相互合作,在生物体的发育过程中各司其职。这是一种复杂的系综,其中每个基因都与成千上万的其他基因进行交互,产生的种种效应在时间和空间里延伸。生物体的身体是基因的殖民地分子生物学的标志性成就之一就是,把基因确定为一段包含蛋白质编码的DNA片断。但这只是基因的硬件定义,其软件定义则要更悠久也更含糊:遗传的基本单位,某种表现型差异的根源。当人们还在使用这两个定义时,道金斯则尝试超越它们。

    如果把基因视为生存大师,那它们就不太可能是一些核酸片断,毕竟这些东西无法长久。而说一个复制子成功地延续了亿万年时间,也就意味是将其所有副本视而为一,以此定义这个复制子。因此,道金斯宣称,基因不会“衰老”。

    第11章 跃入模因池(它其实就是寄生在了我的大脑里)

    生物圈是一个实体,它由地球上所有或简单或复杂的生命形态组成,其中充满了信息、复制和进化,以及将一种抽象转化为另一种抽象的编码等。

    莫诺提出了一个类比:正如在无生命世界之上有生物圈,在生物圈之上也有个“抽象王国”。那么这个王国的居民又是什么呢?是思想。

    思想保留了生物体的某些属性。与生物体一样,思想也倾向于维持其结构并繁衍生息;它们也可以融合、重组或分离其内容;事实上,它们还可以进化,而在这个过程中,选择淘汰必定扮演着重要角色。

    我们人类是模因的载具和助手。在人类历史的大部分时间里,它们的存在稍纵即逝,主要是通过“口口相传”进行传播。但到了晚近,它们得以依附于实物之上,比如泥板、岩穴洞壁以及纸张等。它们借助我们的笔墨、印刷机、磁带和光盘等而经久不息,并经由广播塔和数字网络而传播开去。模因可以是故事、食谱、技能、传说或时尚等典型的回应:请注意,遗传学家定义的自私,指的是提升自身相对于竞争者的存活几率的倾向。)

    H. L. 门肯就曾写道:“为理想而牺牲固然可贵,但为了正确的理想而牺牲,则更为可贵!”

    当你把一个会繁殖的模因植入我的心智时,它其实就是寄生在了我的大脑里,把我的大脑变成了传播自己的载具,这正和病毒寄生在宿主细胞里,利用其遗传机制复制自己一样。并且这并不只是一种说法而已——比如“相信后世”这个模因便是一次又一次地在数以百万计的人类个体当中具化为其神经系统里的一个实体结构。

    模因的研究吸引了从计算机科学到微生物学领域的众多学者。连锁信甚至成了生物信息学的一个研究对象。连锁信是一种模因,有着自己的进化史。自我复制是它唯一的目的,无论信中写了别的什么内容,有一个讯息是必不可少的:照样复写。

    然而,文化的大多数元素毕竟太易变动,相互边界也太易模糊,因而很难称得上是稳定的复制子。它们很少像DNA那样形成整齐的序列。

    基因起码还有物质实体作为基础,模因却是抽象、无形、不可度量的。基因的复制有着近乎完美的保真度,这也正是进化所仰赖的:一定程度的变体至关紧要,但突变绝不能多。模因却很少精确地复制,相互边界也总是模糊的。

    生物圈的大多数成员并无法见到信息圈;对它们而言,后者是个不可见的平行宇宙,其中的成员好似飘荡的游魂。但对我们来说,它们却不是游魂,或者说不再是了。在地球上的所有有机生物当中,我们人类是唯一一种同时生活在两个世界中的物种。

    第12章 认识随机性(僭越之罪)

    而当蔡廷读到图灵的不可计算性证明时,他认为这肯定是关键所在。他还读到了香农和韦弗合著的《通信的数学理论》,并惊喜于其中对熵的重新表述:基于比特的熵,一方面度量信息量,另一方面则度量无序程度。蔡廷突然意识到,这当中一个共同的元素是随机性。香农打破常规,将随机性与信息联系了起来。而物理学家则在原子内部发现了随机性,虽然爱因斯坦对这种随机性表示强烈不满(“上帝不掷骰子”)。所有这些科学界的英雄人物都在谈论随机性,或与之相关的话题。

    惠勒至少还有所表述:“概率,正如时间一样,都是人类创造的概念,所以人类也必须对与之相关的晦涩之处负责。

    无知是主观的,它是观察者的一种属性。而随机性,如果它真实存在的话,应当是事物本身的性质。这样的话,排除掉人为因素,我们就可以说,一个事件、一次选择、一个分布、一次博弈,或者最简单的,一个数是随机的。

    冯·诺伊曼承认:“当然,任何考虑用算术方法来生成随机数的人都犯下了僭越之罪。因为,正如已经被多次指出的,不存在一个随机数这样的东西——有的只是生成随机数的方法,而一种严格的算术方法显然不属于其中之一。

    人类直觉在预测随机性和识别随机性上都毫无助益。无论愿意与否,人类总是偏好模式。纽约公共图书馆便将《一百万个随机数字》归入了心理学。2010年,该书在亚马逊书店上仍然有售,售价八十一美元。

    但我们为什么说π不是随机的呢?蔡廷给出了一个明确的回答:一个数只要是可计算的,即它能够被一个可定义的计算机程序生成,那它就不是随机的。因此,可计算性是随机性的一种量度。

    蔡廷为随机性给出的算法定义,同样也适用于信息:算法的长短度量了给定字符串里含有多少信息。

    在混乱中找出秩序,找出模式,这也正是科学家的工作。

    但如果这位科学家能发现一种算法可以生成同样的序列,长度却短得多,那他就可以确信这个事件不是随机的。而他也会说,自己发现了一种理论。这正是科学所一直寻求的:一种更简单的理论,既可以解释大量已知的现象,也能预测尚未发生的事件。这就是著名的奥卡姆剃刀原理,正如牛顿所说:“寻求自然事物的原因,不得超出真实且足以解释其现象者……因为自然喜欢简单。”牛顿对质量和力加以了量化,但对简单程度(simplicity)的量化则留给了后人。

    用柯尔莫哥洛夫的话来说:

    人们在很早以前就直观地意识到了“简单”对象与“复杂”对象之间的差异。但在准备将这种差异形式化时,人们会碰到一个明显的障碍:一样东西在一种语言里能够给出简单描述,但在另一种语言里可能就不能给出简单描述,并且人们也不知道应该选用哪一种描述方法才是。

    这个障碍在采用计算机语言后就迎刃而解了:无论是哪一种计算机语言,它们其实都是等价的,都能归约到通用图灵机的语言。

    然而,拉马努金的心智毕竟是有限的,维基百科乃至人类的所有知识也是有限的。因此,有意思的数的列表终究会在某处终结,一定存在某个没有任何特别之处的数。但无论那个数是多少,它都摆脱不了一个悖论,因为它总是可以被称为“最小的没意思的数”。

    蔡廷此后一直在IBM研究中心工作,可以说他属于最后一批受到企业倾力支持而其研究却对资助者没有直接实用价值的伟大科学家。他有时会说,自己是个“藏身”在物理学系的数学家,反正传统的数学家也会认为他不过是个“空谈物理学家”。他的研究将数学视为某种经验科学,也就是说,数学不是借以抵达绝对真理的通道,而是实实在在的研究项目,受制于这个世界的偶然性和不确定性。他在一次采访时说道:“即便面对不完全性、不可计算性甚至算法随机性,数学家依然不肯放弃绝对确定性。为什么?因为对他们来说,绝对确定性就好比上帝。”

    总结蔡廷的观点大致如下:

    绝大部分数是随机的,但其中只有极少数能被证明是随机的。

    一个混沌的信息流中可能隐含着一个简单算法,但要想从混沌中逆推出该算法也许是不可能的。

    柯尔莫哥洛夫-蔡廷复杂性之于数学,就如同熵之于热力学:它打破了企图追求完美的幻想。

    某些数学事实的成立是没有理由的。它们纯属偶然,并无背后的原因或深层的意义。

    从一种角度看,以最短程序的长度来定义复杂性看上去可谓完美,称得上是香农信息论发展的巅峰。但从另一种角度看,这个定义仍然远不能令人满意,尤其是涉及一些重大问题(如关于艺术、生物学或智能等的人文问题)时。

    我们关注的东西大都是居于两个极端之间,处于模式与随机彼此交织的地带。

    第13章 信息是物理的(万物源自比特)

    能量越多,比特翻转得越快。土、气、火、水,归根究底,都是由能量构成,但其不同形态却由信息决定。无论做任何事都需要能量,而要明确说明做了什么也需要信息。

    ——塞思·劳埃德(2006)

    有关量子力学的争论有时看上去更像是宗教争论而非科学争论。

    惠勒多有格言警句传世,“黑洞无毛”就是他的名言之一。这指的是,从黑洞外部能够观察到的只有黑洞的质量、电荷和自旋,其他信息(“毛”)都观察不到。

    黑洞给我们的启示是,空间可以像纸那样压缩成一个无穷小的点,时间可以像被扑灭的火焰那样消亡,而我们视为‘神圣’不可侵犯的物理定律则被证明并非如此。

    1989年,惠勒提出了他最后一个流行语:万物源自比特。这是种极端的观点,完全不唯物:信息第一性,物质第二性。

    只要丢失的信息存在于事件视界之内而不为我们所知,物理学家就不会为其所困扰。他们可以说,这些信息不可获得,但也并未消失。诚如弗兰西斯·培根在1625年所说:“在黑暗中,所有颜色看上去都一样。”

    霍金就说道:“上帝不仅掷骰子,有时还掷到我们看不见的地方。

    霍金也提出了一个:“信息可能是进入了另一个宇宙,但我现在还不能给出数学证明来。”

    直至2004年,时年六十二岁的霍金才收回成见,愿赌服输。他宣布,自己已经找到了一种方法证明量子引力遵循幺正性,以及信息是守恒的。

    他写道:“并没有什么分枝的子宇宙,就像我过去认为的那样。信息始终存在于我们这个宇宙中。我很遗憾要让科幻迷们失望了。

    1961年,兰道尔尝试证明冯·诺伊曼给出的信息处理能耗公式,却发现大多数逻辑操作其实不增加熵。当一比特信息从零翻转为一,或相反时,该信息是守恒的。这个过程是可逆的,这时熵没有改变,也没有热量需要耗散。兰道尔提出,只有不可逆的操作,才会导致熵增加。

    随着通信工程师和芯片设计师越来越接近原子层次,他们就越发担心量子效应会干扰到在经典物理学中原本可以明确区分的零和一的状态。不过,换个角度看,挑战与机遇并存——也正是在这里,量子信息科学诞生了。本内特及其他科学家意识到,量子效应或许可以为我所用。

    物理学家称量子比特是一种态叠加,是不同概率幅的线性组合。它是确定性的,但内部又弥漫着不确定性的密云。不过,量子比特并不是一团糟:态叠加不是一锅大杂烩,而是概率元素的组合,遵循着一套清晰优雅的数学原理。

    第14章 洪流过后(一本宏大的巴别相册)

    图灵在1950年这样描述了该现象:

    在“整个宇宙”这样的系统中,初始条件中的微小误差会在后来产生可观的效应。一个电子在某一时刻的十亿分之一厘米的位置偏差,可能会影响到一年后某人在一场雪崩中的生死存亡。

    另一个更常见的隐喻就是云。所有的信息,所有的信息容量,都悬浮在我们头上,看不见摸不着,却又极其真实;没有定形,幽如鬼魅;总在我们身边,却又居无定所。

    第15章 每天都有新消息(或者诸如此类)

    “洪流”也成为后来人们描述信息过量时的常用隐喻。信息犹如翻腾高涨的洪流,将人淹没。或者它又仿佛炮弹,以不及反应的速度从四面八方一波波袭来,不断轰炸着人们的头脑。对刺耳声音的恐惧可以有一种宗教解读,即害怕世俗的噪声可能会淹没真理。

    在“信息论”一词问世后,相继又出现了“信息过载”、“信息过量”、“信息焦虑”、“信息疲劳”等说法。作为当下的一种综合征,“信息疲劳”一词便在2009年被OED收录:“由于暴露在过量信息当中而引致的漠然、冷淡或心力交瘁,尤指(在晚近用法中)由于试图从媒体、Internet或工作中吸收过量信息而引致的压力。”有时,信息焦虑会与无聊感同时出现,一种相当令人困惑的组合。

    另一种谈论焦虑的方式是区分信息与知识。一大堆数据往往并不能告诉我们所需的知识。反过来,知识也并不能确保带来启示或智慧。

    信息过量不仅会导致困惑和挫败感,还会导致视野受限和不诚实行为。

    遗忘是需要付出代价才能做到的事情。遗忘也许与记忆一样重要。

    当然,各种应对策略也随之出现。方法多种多样,但归根结底,本质上可归为两类:要么是过滤,要么是搜索。不胜其扰的信息消费者纷纷求助于各种过滤器以期区分精华和糟粕。这些过滤器包括博客和聚合器——但过滤器的选择难免会引发信任和口味的争议。过滤器的问题,是任何描绘了丰富信息带来美好前景的思想实验所无法回避的。

    当信息变得廉价时,注意力就变得昂贵了。

    同样地,各种搜索机制(在赛博空间里叫做搜索引擎)也在帮助人们大海捞针。我们现在认识到了,信息仅仅存在是不够的,它还必须为人所知。

    对于随便一本书来说,图书馆并不比废纸仓库好到哪里去。

    甚至非营利的维基百科也是两者结合的产物:主要由Google驱动的强大的搜索机制,以及通过相互协作努力做到去伪存真的大量过滤器。搜索和过滤是保护这个世界免于落入巴别图书馆境地的仅有力量。

    新的信息技术在改造了现有世界景观的同时,也带来了混乱,这就像是新的河道和水坝改变了原来灌溉和航运的水道。信息创造者与消费者(比如作者与读者、说者与听者)之间的平衡已被颠覆。

    贝托尔特·布莱希特就对其既充满希望,又害怕恐惧,还十分着迷。他把这种感受精致地表达了出来:“一个有话想说却找不到听众的人是很不幸的,但更不幸的是那些找不到人有话想说给他们听的听众。”但对此的权衡判断也总是在变化。不信可以问问现在的那些博客和Twitter作者:太多嘴说或太多耳听,究竟哪个更糟糕?

    尾声 (意义的回归)

    不可避免地,意义将顽强回归。

    ——让-皮埃尔·迪皮伊(2000)

    现在我们知道,真正造就大脑的并不是知识量,甚至也不是知识的分布,而是其中的互连通性现如今,网络被视为一种抽象事物,其涵盖的是信息。

    无论有没有上帝,完美的语言都不存在。

    网络具有某种结构,但这种结构却是基于一个悖论:其中的每一样东西之间同时既接近又遥远。这正是为何赛博空间给人感觉既拥挤不堪又孤单无助的原因。你可能往井里扔了一块石头,却永远听不见溅起的水花声。

    译后记(我们是谁,我们来自哪里,我们去向何方)

    正是因为信息已经真正地变得无所不在,所以人们往往会忽略它的存在。就像自然数,就像空气,就像语言,就像时间,人类在蒙昧未开的时代就已经先入为主地被它们所占领。

    很多时候,真理和真相不是没有近在眼前,甚至变换着各种表现想引起我们的注意,我们却对其视而不见。

    《信息简史》就是这样的一本书。它的前半部分描写了人类饱含着艰辛,又照耀着智慧光芒的一部历史。这里面包括非洲部落的原始通信工具、人类口语从神话传说到哲学论证的演化进程、作为符号固定剂的书写运动和通信标准化的辞书和码本、机械时代的巨匠先驱打造的工程奇迹,直至逐渐将信息的意义外壳彻底剥离,建立近代和现代的通信系统,并通过数学和理性将无关紧要的细节去除,洞察到信息的本质。作为承前启后的历史人物,克劳德·香农终于发表出了一篇宏论:《通信的数学理论》。这是人类第一次系统、全面、理性地认识信息,也是第一次赋予了“信息”一词精准的定义,从此奠定了一门新的学科——信息学。而几乎与此同时,图灵和哥德尔也分别达到了密码学和形式系统的巅峰,这真是信息史上的英雄时代!接下来,我们就看到信息学犹如一股洪流,在一个又一个的领域里掀起了颠覆性的革命:心理学、热力学、遗传学、传播学、量子力学,不一而足。每一门学科在经受了信息学洗礼后,面貌都焕然一新,不仅在技术上有了长足的进步,而且更重要的是在哲学思辨上大大地深化了。书的收尾用了浓墨重彩,讲述了信息学如何通过建立“全球知识”和全人类范围内的关系连接,深刻地改造了人类的社会形态和生活方式。全书以意义的解构和重新建构为线索,在几乎一切细节上都铺陈了大量精确到位、有血有肉的史实。可以说,关于信息学前世今生的全部主要内容,在本书中都可以找到权威、详尽的参考。原书的副标题是“一部历史,一个理论,一股洪流”,可以说是史中有论,论中有情,情中有理。这确实是一部科学传播读物中的上佳之作。


    更多精彩内容请关注微信下方公众号:

    qrcode_for_gh_7159fb337d37_258.jpg


    展开全文
  • 信息简史》读后感

    千次阅读 2019-01-02 16:35:59
    为此,我觉得需要构建起对 信息(information) 的一个清晰认识,詹姆斯⋅\cdot⋅格雷克著作《信息简史》很好的满足了我的需求。特地花了一个星期的时间把这本书看完,感触颇深,写下这篇读后感,一来对全书做一个总结...

    本博客简叙了詹姆斯 ⋅ \cdot 格雷克著作《信息简史》的主要内容以及本人的一些感受。
    全书都在围绕逻辑以及信息(information),也主要从这两个方面给我带来了很深的体会:

    1. 人类(现在基本指智人)的口语相较于其他物种是非常灵活的,能表示没有历经的事物,但其稍纵即逝的缺点也很明显,于是人类发明了文字。文字具有持久性,也正是这种持久性使得信息,准确地说是人类在生活经验中积累的知识得以持久保存和传承,不再受制于个体的经验。更大的意义是文字重构了人类的思维。其一,体现在方法论上,即用符号替代实物,进而用符号替代符号;其二,文字的持久使人得以长时间审视字词并追索其中的含义(毕竟口语稍纵即逝,而人类的记忆有限),久而久之成为了哲学家。实际上,在这一过程中,人类发展出最一般的概念,即范畴,并尝试以范畴而非单纯的事件来组织生活中的经验,自觉地接受抽象化的训练。亚里士多德更是通过严密地组织各种范畴和关系,发展了一套推理符号系统:逻辑学。然而逻辑必然伴随悖论,例如“白马非马”悖论,哲学家们认为这是由于字词的含混不清造成的,转而采用严格而纯粹的符号,即求助于数学。然而,即便是严谨的数学也无法摆脱悖论,哥德尔不完备性定理最终告诉我们相容与完备无法同时存在。我总想起海森堡的不确定性原理,我们无法同时测量出物体的位置和动量,因为测量仪器本身就是物质构成的,或许在另一个宇宙中的“生命”能用他们的仪器测出来。任何体系就像一个瓶子,瓶子内的事物及其关系都能完美澄清,然而瓶子之外是无法知晓的,是不可证的。不完备性定理似乎并未阻碍数理逻辑的应用与发展,严谨的数理逻辑与有条不紊运转的机器一拍即合,加之人们对计算能力的需求,机器计算得以快速发展,图灵机的诞生就是一个里程碑事件。机器计算也促进了数理逻辑的发展,促进了人们对信息本质的理解。

    2. 物质 的构成形态由信息决定,信息的增删必然涉及能量的改变。根据兰道尔原理,信息的擦除是需要消耗能量的。例如蛋白质拥有复杂的空间构型,就是因为从DNA再到RNA获得了信息,当然还有细胞环境的信息。物质、信息以及能量都满足守恒定律。能量存在各种形式,能量的转化伴随信息的转移,发射电磁波信号就体现了这一过程。能量看不见摸不着,信息也一样,所以需要借助物质来显现。物体运动时,我们认为其具有动能并用 1 2 m v 2 \frac12mv^2 21mv2来度量,同样地,一串特定的01字符蕴藏着信息,又该如何度量信息的大小呢?香农借助了物理学中的随机过程,可以认为一串特定的01字符串是由一个随机过程(参考博文)产生的,该随机过程拥有的状态越多,或者说生成一串字符的不确定性越高,那么蕴含的信息越多。香农采用熵 H = − ∑ p i l o g 2 p i H=-\sum p_ilog_2p_i H=pilog2pi来度量这一不确定性,其中 p i p_i pi就是状态i生成的概率(香农在论文中给出了这一公式详细的推导过程以及理由,感觉数学的力量很强大,能将人类对信息的直觉感受度量得这么精准),通俗的理解是假设只允许回答是或否,那么猜测出一条未知讯息所需问题的平均数目就是H。香农熵似乎在度量出乎意料的程度,想象从越多的状态中挑出特定的一个,出乎意料的程度越大,我们直观的感受就是信息量好大啊!(好比狗咬人不是新闻,人咬狗才是新闻),显然用香农熵来定义信息的大小是合理的。总之,信息就是一个随机过程的一个特定结果,信息的大小就是该随机过程的不确定性程度。

    我不赞成万物皆比特(it from bit)的说法。在我看来物质始终是第一性的,能量也好,信息也罢,脱离物质都将是不存在的。信息告诉物质该处于什么样的形态,能量则驱使物质达到相应形态。例如发送电磁信号,本质就是输入能量,调节电磁波的振幅以及频率处于特定的形态。另外发现许多文章将信息和讯息(message)混用,我认为有必要说明下,讯息无非是信息的一种特殊形式的载体,讯息本来就是物质,电磁波、纸带等都是具有特定形态的物质。人在捕获到讯息中的信息后,在自身知识的基础上,再还原出讯息关联的物体。

    接下来简单说说这本书各章的内容,全书共15章,大致如下:
    第1章讲叙了非洲古老的鼓语,即通过不同音高的鼓声传递信息,这看似一种非常原始的编码。传递信息的容量较小,容易混淆,当然鼓语也引入了 冗余 (为了克服歧义,额外引入的讯息)。
    第2章讲叙了人类的文字。这一章写得很精彩,主要讲叙了从实物,文字,范畴,逻辑最后到数学的一个曲折的发展过程。
    第3章讲叙了文字的不确定性和书写的随意性造成的一些问题以及一些应对措施。
    第4章讲叙了人类开始尝试将数当作商品,用机器操作符号去生产想要的数。本章大篇幅书写了巴贝奇的工作,即尝试用机器来做运算。
    第5章讲叙了从信号塔(视觉信号)到电报(电脉冲信号)的发展历史。
    第6章讲叙了由电报编码引出的一系列逻辑问题。克劳德 ⋅ \cdot 香农首次用布尔代数来描述电路,推动能够操作符号的机器的发展,而这使得逻辑学再度赋予新的活力,逻辑学与数学也开始融合,创建出由公理、符号、公式和证明构建的体系。然而这个体系并非坚不可摧,悖论引发了危机。哥德尔基于元数学给出了哥德尔不完备性定理,表明一个算术体系不可能同时完备和相容。但是悖论似乎并未阻碍新的电信号传输技术–电话的出现!这一技术的出现引发了人们对信息传输容量的研究,同时人们急需准确定义信息一词,并准确度量它。奈奎斯特和哈特利提出排除心理因素,讯息含有的信息量应该正比于讯息包含的符号数。
    第7章讲叙了信息论的诞生。这一章讲得非常精彩。阿兰 ⋅ \cdot 图灵提出可计算数(小数表达式可在有限步骤内计算出来的数)的概念,并进一步提出了著名的图灵机这一思想机器。香农借鉴物理学中随机过程的方法论和术语给出了信息的定义,其论文《通信的数学理论》标志着信息论的诞生。香农同哈特利一样,剔除了讯息的意义来研究信息,他将一条讯息视为随机过程的一个结果。
    第8章讲叙了信息论引发的其他科学领域的变革。
    第9章讲叙了熵以及麦克斯韦妖引发的“悖论”。齐拉特提出信息不是免费的,解决了麦克斯韦妖引发的“悖论”。接下来的研究进一步表明物理学中的熵与信息没有本质的区别。
    第10章讲叙了信息论引发对生命的编码的研究。
    第11章讲叙了道金斯的模因。
    第12章对随机性进行了探讨。蔡廷提出一个数如果是可计算的就不是随机的,也就是说可计算性是随机性的一种度量。柯尔莫哥洛夫提出复杂度的概念,并基于算法对其进行了度量。实际上,信息、随机性与复杂度本质是一样的。然而,由于哥德尔的不完备性定理,蔡廷与柯尔莫哥洛夫提出的算法信息论同样是无法避免悖论的。
    第13章讲叙了量子信息论。当量子力学的发展遭遇危机之时,富克斯另起炉灶,提出量子信息论
    第14、15章主要讲叙了信息社会的一些问题以及展望。

    信息产业蓬勃发展的大背景下,我认为每个从业者都需要构建起一个对信息全面而清晰的认识,从豆瓣中看到这本书评价很高,特地花了一个星期把这本书看完,感触颇深,写下这篇博客,其中有些内容是我个人感受。一千个人就有一千个哈姆雷特,不同的时间段阅读同一本书也会有不同的感受,暂且写这么多了,以后还会重新阅读这本书的。

    展开全文
  • 中文信息处理技术发展简史张华平(中国科学院计算技术研究所软件实验室北京100080)E-mail: zhanghp@sof〔ware?Homepage: ; hMp://pipy_ 摘要:真正意义上的中文信息处理迄今已经有20余年的历史了,随着计算机的普及和...

    中文信息处理技术发展简史

    张华平

    (中国科学院计算技术研究所软件实验室北京100080)

    E-mail: zhanghp@sof〔ware?

    Homepage: ; hMp://pipy_ 摘要:真正意义上的中文信息处理迄今已经有20余年的历史了,随着计算机的普及和 Internet的蓬勃发展,中文信息处理技术实实在在的改变了人们的生活。本文根据目前所能 收集的文献资料,集中整理了中文信息处理技术发展的简史,并从自身专业的角度,针对重 大的研究工作做了粗浅的评述,旨在提供一个中文信息处理技术发展的脉络,达到“以史为 鉴”或者“温故而知新”的效果。

    关 键词:中文信息处理技术,简史

    1\引言

    在我国,中文信息处理己经不是什么新鲜事物了,随着科学技术的发展,中文信息处理 技术已经深入到了社会生活的各个方面。所谓“屮文信息处理”,指的是用计算机对汉语(包 括口语和书面语)进行转换、传输、存贮、分析等加工的科学。它是一门与语言学、计算机 科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性 学科,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对屮文 信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及 其他少数民族的语言;但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、 触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负爛。 所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、 模拟、分析、转换和传输。严格意义上讲,“汉语计算机自动分析”比“中文信息处理”更 加确切,为表述的习惯,在这里,我们依然沿袭这一称呼。

    2002年9月,笔者有幸参加了在台北市举行的第十九届国际计算语言学学术会议(The 19,h International Conference on Computational Linguistics) SIGHAN (Special Interest Group on HAN)研究兴趣组关于“十年后的中文处理”的讨论,台北“中研院”的黄居仁教授详尽 的冋顾了中文信息处理在台北的二十年发展史。实际上,祖国大陆的中文信息处理历史更加 悠久、而且取得了许多实实在在的、改变了人们生活的成就,然而境外的研究群体、我们国 家非屮文信息处理领域的人员、乃至从事这一方向研究的人员也知Z甚少。因此,笔者依据 目前所能收集的文献资料,整理出中文信息处理二十年的科学发展史,并从自己专业的角度 出发,予以评述,希望能对投身这一领域的研究人员或者工程技术人员提供一些历史参考资 料,并盼望有心人能够“以史为鉴”或者“温故而知新”。

    本文的第一部分将综述中文信息处理的难点,第二部分按照发展的各个阶段,阐述中文 信息处理的发展史,最后探讨目前屮文信息处理的问题及应对方案。

    2、中文信息处理的难点

    汉语在世界上属于汉藏语系,是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜 卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分⑴。其主要特点有:

    汉语的独一无二的特色是:完全使用由象形文字演化而来的方块汉字;

    词语没有形态标记;

    汉语是以字为基本单位,词之问没有明显的标记,词本身也没有明显的形态标志。 所以屮文信息处理的基础课题和特有的问题就是屮文分词,分词本身的也有一定的错误 率⑵,这无疑降低了后续处理的实际效果。

    结构松散,比如:我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌, 脸都肿了。

    语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意 合”,三靠虚词。⑶

    语义灵活,一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达 不同的意思,同一意思可以用不同结构表达。⑶

    另外?现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起來的.而汉 语无论在语音、文字表示,还是在词汇,语法,语义及其语用等各个层面上都与之存在着很 人的差异?这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达 的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。

    3、中文信息处理发展史

    从我国早在1956年的开始了俄汉机译研究,并于1959年取得成功,至今差不多有50年的 历史,但当时的技术主要是词与词翻译和模式匹配,缺乏句法和语义分析⑷,儿乎谈不上 真正的中文信息处理。下面笔者依据时间顺序,根据当时的主流研究方法和研究的主要问题, 将屮文信息处理技术的发展史分为如下6个阶段进行阐述。

    3.1学习和理论探索的萌芽阶段

    这一阶段以介绍国外计算语言学领域的理论方法为主。

    对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范 继淹⑸、徐志敏

    展开全文
  • 前端发展简史

    万次阅读 多人点赞 2018-04-13 12:20:15
    前端发展简史 起源 1990 HTML 1990 年,Tim 以超文本语言 HTML 为基础在 NeXT 电脑上发明了最原始的 Web 浏览器。 1991 年,Tim 作为布道者在 Internet 上广泛推广 Web 的理念,与此同时,美国国家超算...

    前端发展简史

    起源

    这里写图片描述

    • 1990 HTML

    1990 年,Tim 以超文本语言 HTML 为基础在 NeXT 电脑上发明了最原始的 Web 浏览器。

    1991 年,Tim 作为布道者在 Internet 上广泛推广 Web 的理念,与此同时,美国国家超算应用中心(National Center for Supercomputer Applications)对此表现出了浓厚的兴趣,并开发了名为 Mosaic 的浏览器,于 1993 年 4 月进行了发布。

    1994 年 5 月,第一届万维网大会在日内瓦召开。

    • 1994.7 HTML 2.0 规范发布

    1994 年 9 月,因特网工程任务组(Internet Engineering Task Force)设立了 HTML 工作组。

    1994 年 11 月,Mosaic 浏览器的开发人员创建了网景公司(Netscape Communications Corp.),并发布了 Mosaic Netscape 1.0 beta 浏览器,后改名为 Navigator。

    • 1994 万维网联盟(World Wide Web Consortium)成立,简称 W3C

    1994 年底,由 Tim 牵头的万维网联盟(World Wide Web Consortium)成立,这标志着万维网的正式诞生。

    此时的网页以 HTML 为主,是纯静态的网页,网页是“只读”的,信息流只能通过服务器到客户端单向流通,由此世界进入了 Web 1.0 时代。

    • 1995 网景推出 JavaScript

    1995 年,网景工程师 Brendan Eich 花了10天时间设计了 JavaScript 语言。起初这种脚本语言叫做 Mocha,后改名 LiveScript,后来为了借助 Java 语言创造良好的营销效果最终改名为 JavaScript。网景公司把这种脚本语言嵌入到了 Navigator 2.0 之中,使其能在浏览器中运行。

    与此相对的是,1996 年,微软发布了 VBScript 和 JScript。JScript 是对 JavaScript 进行逆向工程的实现,并内置于 Internet Explorer 3 中。但是 JavaScript 与 JScript 两种语言的实现存在差别,这导致了程序员开发的网页不能同时兼容 Navigator 和 Internet Explorer 浏览器。 Internet Explorer 开始抢夺 Netscape 的市场份额,这导致了第一次浏览器战争。

    第一次浏览器战争

    1996 年 11 月,为了确保 JavaScript 的市场领导地位,网景将 JavaScript 提交到欧洲计算机制造商协会(European Computer Manufacturers Association)以便将其进行国际标准化。

    • 1996.12 W3C 推出了 CSS 1.0 规范

    • 1997.1 HTML3.2 作为 W3C 推荐标准发布

    • 1997.6 ECMA 以 JavaScript 语言为基础制定了 ECMAScript 1.0 标准规范

    1997 年 6 月,ECMA 以 JavaScript 语言为基础制定了 ECMAScript 标准规范 ECMA-262。JavaScript 是 ECMAScript 规范最著名的实现之一,除此之外,ActionScript 和 JScript 也都是 ECMAScript 规范的实现语言。自此,浏览器厂商都开始逐步实现 ECMAScript 规范。

    • 1997.12 HTML 4.0 规范发布

    • 1998 W3C 推出了 CSS 2.0 规范

    • 1998.6 ECMAScript 2 规范发布

    1998 年 6 月,ECMAScript 2 规范发布,并通过 ISO 生成了正式的国际标准 ISO/IEC 16262 。

    • 1999.12 ECMAScript 3 规范发布

    1999 年 12 月,ECMAScript 3 规范发布,在此后的十年间,ECMAScript 规范基本没有发生变动。ECMAScript 3 成为当今主流浏览器最广泛使用和实现的语言规范基础。

    第一次浏览器战争以 IE 浏览器完胜 Netscape 而结束,IE 开始统领浏览器市场,份额的最高峰达到 2002 年的 96%。随着第一轮大战的结束,浏览器的创新也随之减少。

    这里写图片描述

    XHTML

    • 1999 W3C 发布 HTML 4.01 标准,同年微软推出用于异步数据传输的 ActiveX,随即各大浏览器厂商模仿实现了 XMLHttpRequest(AJAX 雏形)。
    • 2000: W3C 采用了一个大胆的计划,把 XML 引入 HTML,XHTML1.0 作为 W3C 推荐标准发布
    • 2001.5 W3C 推出了 CSS 3.0 规范草案
    • 2002-2006 XHTML 2.0 最终放弃
    • 2009 W3C 宣布 XHTML2.0 不再继续,宣告死亡

    动态页面的崛起

    JavaScript 诞生之后,可以用来更改前端 DOM 的样式,实现一些类似于时钟之类的小功能。那时候的JavaScript 仅限于此,大部分的前端界面还很简单,显示的都是纯静态的文本和图片。这种静态页面不能读取后台数据库中的数据,为了使得 Web 更加充满活力,以 PHP、JSP、ASP.NET 为代表的动态页面技术相继诞生。

    PHP(PHP:Hypertext Preprocessor)最初是由 Rasmus Lerdorf 在 1995 年开始开发的,现在PHP 的标准由 PHP Group 维护。PHP 是一种开源的通用计算机脚本语言,尤其适用于网络开发并可嵌入 HTML 中使用。PHP 的语法借鉴吸收 C 语言、Java 和 Perl 等流行计算机语言的特点,易于一般程序员学习。PHP 的主要目标是允许网络开发人员快速编写动态页面。

    JSP(JavaServer Pages)是由 Sun 公司倡导和许多公司参与共同创建的一种使软件开发者可以响应客户端请求,从而动态生成 HTML、XML 或其他格式文档的 Web 网页的技术标准。JSP 技术是以 Java 语言为基础的。1999 年,JSP 1.2 规范随着 J2EE 1.2 发布。

    ASP(Active Server Pages)1.0 在 1996 年随着 IIS 3.0 而发布。2002 年,ASP.NET 发布,用于替代 ASP。

    随着这些动态服务器页面技术的出现,页面不再是静止的,页面可以获取服务器数据信息并不断更新。以 Google 为代表的搜索引擎以及各种论坛相继出现,使得 Web 充满了活力。

    随着动态页面技术的不断发展,后台代码变得庞大臃肿,后端逻辑也越来越复杂,逐渐难以维护。此时,后端的各种 MVC 框架逐渐发展起来,以 JSP 为例,Struct、Spring 等框架层出不穷。

    从 Web 诞生至 2005 年,一直处于后端重、前端轻的状态。

    • AJAX 的流行

    在 Web 最初发展的阶段,前端页面要想获取后台信息需要刷新整个页面,这是很糟糕的用户体验。

    Google 分别在 2004 年和 2005 年先后发布了两款重量级的 Web 产品:Gmail 和 Google Map。这两款 Web 产品都大量使用了 AJAX 技术,不需要刷新页面就可以使得前端与服务器进行网络通信,这虽然在当今看来是理所应当的,但是在十几年前AJAX却是一项革命性的技术,颠覆了用户体验。

    随着 AJAX 的流行,越来越多的网站使用 AJAX 动态获取数据,这使得动态网页内容变成可能,像 Facebook 这样的社交网络开始变得繁荣起来,前端一时间呈现出了欣欣向荣的局面。

    AJAX 使得浏览器客户端可以更方便地向服务器发送数据信息,这促进了 Web 2.0 的发展。

    这里写图片描述

    Google Trend: AJAX 从 2005 年开始得到开发人员的广泛关注。

    • 2006 XMLHttpRequest 被 W3C 正式纳入标准。

    第二次浏览器大战

    • 前端兼容性框架的出现

    IE 在第一次浏览器大战中击败 Netscape 赢得胜利,垄断了浏览器市场。作为独裁者,IE 并不遵循 W3C 的标准,IE 成了事实标准。

    Netscape 于 1998 年被 AOL 收购前创建了 Mozilla 社区,Firefox 于 2004 年 11 月首次发布,并且 9 个月内下载量超过 6000 万,获取了巨大的成功,IE 的主导地位首次受到了挑战, Firefox 被认为是 Netscape 的精神续作。

    之后 Firefox 浏览器一路奋起直追,逐渐蚕食 IE 市场份额,这引发了第二次浏览器战争。在 2008 年底时,Firefox 的市场份额达到了 25% 以上,IE 则跌至 65% 以下。

    第二次浏览器战争中,随着以 Firefox 和 Opera 为首的 W3C 阵营与 IE 对抗程度的加剧,浏览器碎片化问题越来越严重,不同的浏览器执行不同的标准,对于开发人员来说这是一个恶梦。

    为了解决浏览器兼容性问题,Dojo、jQuery、YUI、ExtJS、MooTools 等前端 Framework 相继诞生。前端开发人员用这些 Framework 频繁发送 AJAX 请求到后台,在得到数据后,再用这些 Framework 更新 DOM 树。

    其中,jQuery 独领风骚,几乎成了所有网站的标配。Dojo、YUI、ExtJS 等提供了很多组件,这使得开发复杂的企业级 Web 应用成为可能。

    这里写图片描述

    Google Trend: 蓝色 jQuery,红色 Dojo,绿色 YUI,紫色 ExtJS,黄色 MooTools

    HTML 5

    1999年,W3C发布了 HTML 4.01 版本,在之后的几年,没有再发布更新的 Web 标准。随着Web的迅猛发展,旧的Web标准已不能满足 Web 应用的快速增长。

    2004 年 6 月,Mozilla 基金会和 Opera 软件公司在万维网联盟(W3C)所主办的研讨会上提出了一份联合建议书,其中包括 Web Forms 2.0 的初步规范草案。建议举行一次投票,以表决 W3C 是否应该扩展 HTML 和 DOM,从而满足 Web 应用中的新需求。研讨会最后以 8 票赞成,14 票反对否决此建议,这引起一些人的不满,不久后,部分浏览器厂商宣布成立网页超文本技术工作小组(WHATWG),以继续推动该规范的开发工作,该组织再度提出 Web Applications 1.0 规范草案,后来这两种规范合并形成 HTML5。2007 年,获得 W3C 接纳,并成立了新的 HTML 工作团队。2008 年 1 月 22 日,第一份正式草案发布。

    • 2008.12 Chrome 发布,JavaScript 引擎 V8

    HTML5 草案发布不久,Google 在 2008 年 12 月发布了 Chrome 浏览器,加入了第二次浏览器大战当中。Chrome 使用了 Safari 开源的 WebKit 作为布局引擎,并且研发了高效的 JavaScript 引擎 V8。

    尽管 HTML5 在网络开发人员中非常出名了,但是它成为主流媒体的一个话题是在 2010 年的 4 月,当时苹果公司的 CEO 乔布斯发表一篇题为“对 Flash 的思考”的文章,指出随着 HTML5 的发展,观看视频或其它内容时,Adobe Flash 将不再是必须的。这引发了开发人员间的争论,包括 HTML5 虽然提供了加强的功能,但开发人员必须考虑到不同浏览器对标准不同部分的支持程度的不同,以及 HTML5 和 Flash 间的功能差异。

    在第二次浏览器大战中,各个浏览器厂商都以提升 JavaScript 运行效率和支持 HTML5 各种新特性为主要目标,促进了浏览器的良性竞争。在这一场战争中,Chrome 攻城略地,抢夺 IE 市场份额。2013 年,Chrome 超过 IE,成为市场份额最高的浏览器。2016 年,Chrome 占据了浏览器市场的半壁江山。

    这里写图片描述

    全球浏览器市场份额(2009-2017)

    自 2008 年以来,浏览器中不断支持的 HTML5 新特性让开发者激动不已:WebWorker 可以让 JavaScript 运行在多线程中,WebSocket 可以实现前端与后台的双工通信,WebGL 可以创建 Web3D 网页游戏…

    这里写图片描述

    桌面浏览器对 HTML5 支持程度(2009-2017)

    • 2009.12 ECMAScript 5.0 规范发布

    • 2011.6 ECMAScript 5.1 规范发布

    • 2012.10 微软发布 TypeScript 公开版

    TypeScript 是一种由微软开发的自由和开源的编程语言。它是 JavaScript 的一个超集,而且本质上向这个语言添加了可选的静态类型和基于类的面向对象编程。

    TypeScript 扩展了 JavaScript 的语法,所以任何现有的 JavaScript 程序可以不加改变的在 TypeScript 下工作。TypeScript 是为大型应用之开发而设计,而编译时它产生 JavaScript 以确保兼容性。

    • 2013.6.19 TypeScript 0.9 正式版

    • 2014.10.28 W3C 正式发布 HTML 5.0 推荐标准

    2014 年 10 月 28 日,W3C 正式发布 HTML 5.0 推荐标准。

    Node.js 的爆发

    早在 1994 年,Netspace 就公布了其 Netspace Enterprise Server 中的一种服务器脚本实现,叫做 LiveWire,是最早的服务器端 JavaScript,甚至早于浏览器中的 JavaScript。对于这门图灵完备的语言,Netspace 很早就开始尝试将它用在后端。

    微软在 1996 年发布的 IE 3.0 中内嵌了自己的 JScript语言,其兼容 JavaScript 语法。1997 年年初,微软在它的服务器 IIS 3.0 中也包含了 JScript,这就是我们在 ASP 中能使用的脚本语言。

    1997 年,Netspace 为了用 Java 实现 JavaScript 而创建了 Rhino 项目,最终 Rhino 演变成一个基于 Java 实现的 JavaScript 引擎,由 Mozilla 维护并开源。Rhino 可以为 Java 应用程序提供脚本能力。2006 年 12 月,J2SE 6 将 Rhino 作为 Java 默认的脚本引擎。

    SpiderMonkey 是 Mozilla 用 C/C++ 语言实现的一个 JavaScript 引擎,从 Firefox 3.5 开始作为 JavaScript 编译引擎,并被 CouchDB 等项目作为服务端脚本语言使用。

    可以看到,JavaScript 最开始就能同时运行在前后端,但时在前后端的待遇却不尽相同。随着 Java、PHP、.Net 等服务器端技术的风靡,与前端浏览器中的 JavaScript 越来越流行相比,服务端 JavaScript 逐渐式微。

    2008 年 Chrome 发布,其 JavaScript 引擎 V8 的高效执行引起了 Ryan Dahl 的注意。2009 年,Ryan 利用 Chrome 的 V8 引擎打造了基于事件循环的异步 I/O 框架 —— Node.js 诞生。

    Node.js 具有以下特点:

    • 基于事件循环的异步 I/O 框架,能够提高 I/O 吞吐量
    • 单线程运行,能够避免了多线程变量同步的问题
    • 使得 JavaScript 可以编写后台代码,前后端编程语言统一。

    Node.js 的出现吸引了很多前端开发人员开始用 JavaScript 开发服务器代码,其异步编程风格也深受开发人员的喜爱。Node.js 的伟大不仅在于拓展了 JavaScript 在服务器端的无限可能,更重要的是它构建了一个庞大的生态系统。

    2010 年 1 月,NPM 作为 Node.js 的包管理系统首次发布。开发人员可以按照 CommonJS 的规范编写 Node.js 模块,然后将其发布到 NPM 上面供其他开发人员使用。目前 NPM 具有 40 万左右的模块,是世界上最大的包模块管理系统。

    这里写图片描述

    2016 年常见包管理系统模块数量,NPM 高居榜首

    Node.js 也催生了 node-webkit 等项目,用 JavaScript 开发跨平台的桌面软件也成为可能。Node.js 给开发人员带来了无穷的想象,JavaScript 大有一统天下的趋势。

    前端 MV* 架构

    随着 HTML5 的流行,前端不再是人们眼中的小玩意,以前在 C/S 中实现的桌面软件的功能逐步迁移到了前端,前端的代码逻辑逐渐变得复杂起来。

    以前只用于后台的 MV* 等架构在前端逐渐使用起来,以下列举了部分常用的 MV* 框架。

    这里写图片描述

    随着这些 MV* 框架的出现,网页逐渐由 Web Site 演变成了 Web App,最终导致了复杂的单页应用( Single Page Application)的出现。

    移动 Web 和 Hybrid App

    随着 iOS 和 Android 等智能手机的广泛使用,移动浏览器也逐步加强了对 HTML5 特性的支持力度。

    这里写图片描述

    移动浏览器对 HTML5 支持程度(2009-2017)

    移动浏览器的发展,导致了流量入口逐渐从 PC 分流到移动平台,这是 Web 发展的新机遇。移动 Web 面临着更大的碎片化和兼容性问题,jQuery Mobile、Sencha Touch、Framework7、Ionic 等移动 Web 框架也随之出现。

    相比于 Native App,移动 Web 开发成本低、跨平台、发布周期短的优势愈发明显,但是 Native App的性能和 UI 体验要远胜于移动 Web。移动 Web 与 Native App 孰优孰劣的争论愈演愈烈,在无数开发者的实践中,人们发现两者不是替代关系,而是应该将两者结合起来,取长补短,Hybrid 技术逐渐得到认同。

    Hybrid 技术指的是利用 Web 开发技术,调用 Native 相关 API,实现移动与 Web 二者的有机结合,既能体现 Web 开发周期短的优势,又能为用户提供 Native 体验。

    根据实现原理,Hybrid 技术可以分为两大类:

    1. 将 HTML 5 的代码放到 Native App 的 WebView 控件中运行,WebView 为 Web 提供宿主环境,JavaScript 代码通过 WebView 调用 Native API。典型代表有 PhoneGap(Cordova) 以及国内的 AppCan 等。

    2. 将 HTML 5 代码针对不同平台编译成不同的原生应用,实现了 Web 开发,Native 部署。这一类的典型代表有 Titanium 和 NativeScript。

    Hybrid 一系列技术中很难找出一种方案适应所有应用场景,我们需要根据自身需求对不同技术进行筛选与整合。

    ECMAScript 6

    JavaScript 语言是 ECMAScript 标准的一种实现,截止 2017 年 2 月,ECMAScript 一共发布了 7 个版本。

    1997 年 6 月, ECMAScript 1.0 标准发布。

    1998 年 6 月,ECMAScript 2.0 发布。

    1999 年 12 月,ECMAScript 3.0 发布。

    2007 年 10 月,Mozilla 主张的 ECMAScript 4.0 版草案发布,对 3.0 版做了大幅升级,该草案遭到了以 Yahoo、Microsoft、Google 为首的大公司的强烈反对,JavaScript 语言的创造者 Brendan Eich 和 IE 架构师 Chris Wilson 甚至在博客上就ES4向后兼容性问题打起了口水仗,最后由于各方分歧太大,ECMA 开会决定废弃中止 ECMAScript 4.0 草案。经各方妥协,在保证向下兼容的情况下,将部分增强的功能放到 ECMAScript 3.1 标准中,将原有 ECMAScript 4.0 草案中激进的功能放到以后的标准中。不久,ECMAScript 3.1 就改名为 ECMAScript 5。

    2009 年 12 月,本着’Don’t break the web’原则,ECMAScript 5 发布。新增了 strict 模式、属性 getter 和 setter 等。

    2011 年 6 月,ECMAScript 5.1 发布。

    2015 年 6 月,ECMAScript 6.0 发布。该版本增加了许多新的语法,包括支持 let、const、Arrow function、Class、Module、Promise、Iterator、Generator、Set、Map、async、Symbol、Proxy、Reflect、Decorator 等。TC39 委员会计划以后每年都发布一个新版本的 ECMAScript,所以 ECMAScript 6.0 改名为 ECMAScript 2015。

    2016 年 6 月,在 ECMAScript 2015 的基础上进行了部分增强,发布了 ECMAScript 2016。

    在 ECMAScript 的各个版本中,ECMAScript 6.0 无疑最受人瞩目的,它增加了许多新特性,极大拓展了 JavaScript 语法和能力,以至于许多浏览器都只能支持部分 ES6 中的新特性。随之,Babel 和 TypeScript 逐渐流行起来,编写 ES6 代码,然后用 Babel 或 TypeScript 将其编译为 ES5 等浏览器支持的 JavaScript。

    ECMAScript 以后每年将会发布一个新版本,这无疑将持续促使浏览器厂商不断为 JavaScript 注入新的功能与特性,JavaScript走上了快速发展的正轨。

    参考资料

    更多文章

    https://github.com/jeanboydev/Android-ReadTheFuckingSourceCode

    我的公众号

    欢迎你「扫一扫」下面的二维码,关注我的公众号,可以接受最新的文章推送,有丰厚的抽奖活动和福利等着你哦!?

    如果你有什么疑问或者问题,可以 点击这里 提交 issue,也可以发邮件给我 jeanboy@foxmail.com

    同时欢迎你 Android技术进阶:386463747 来一起交流学习,群里有很多大牛和学习资料,相信一定能帮助到你!

    展开全文
  • 信息简史(读后感)

    2013-11-18 08:52:03
    本文摘自豆瓣,作者:peter什么是“信息”?“信息”的本质是什么?“信息”将会带领我们走向何方?在这本书里面,或许你会找到答案。 在不算很久以前,人类是通过各种声音手势来比划沟通的,那时候还没有文字,所有...
  • 纵观计算机简史初中信息技术新课本中国地图出社..ppt第*页 * 模拟CD音频输入接口(CD-IN):使用CD音源线将来自CD/DVD光驱的模拟音频信号接入。 辅助设备接口(AUX-IN):用于将电视卡,解压卡等设备的声音信号输入...
  • 数据库简史

    千次阅读 2020-02-27 09:47:49
    数据库简史 ● 一、RDBMS(关系数据库,Relational DBMS) ● 数据库 早期史 1961年,GE(通用电气公司,General Electric Company)的Charles Bachman ,开发了IDS(集成数据存储,Integrated Data Store),这是...
  • 测序简史

    2019-04-03 19:53:54
    测序简史 一代 二代测序 三代测序 一文从一代到最新的测序技术,希望能够帮助你。 序 这几天天气很热,热的人心惶惶。因此一直提上日程的所谓的测序简史,也没有时间去好好的落实。中途找过一个行业内的颇...
  • Linux简史

    2019-09-20 07:57:12
    Linux简史 Linux 操作系统的诞生 创始人林纳斯·托瓦兹 、发展和成长过程始终依赖着五个重要支柱:UNIX操作系统、MINIX操作系统、GNU计划、POSIX标准和Internet 网络。 1981 年IBM公司推出微型计算机IBM PC。 ...
  • 纵观计算机简史初中信息技术新课本中国地图出社课件.ppt第*页 * 模拟CD音频输入接口(CD-IN):使用CD音源线将来自CD/DVD光驱的模拟音频信号接入。 辅助设备接口(AUX-IN):用于将电视卡,解压卡等设备的声音信号输入...
  • COBOL简史

    2019-04-26 16:42:04
    和现在流行的java,c#等比起来,COBOL可以算化石级的语言...问世40多年来,COBOL主要在IBM大型机等平台上支撑商业应用。估计大多数人也只是在大学里学习c语言时,才会在教材上提到有一种适合商业应用的语言COBOL。C...
  • 时间简史

    万次阅读 2011-11-06 16:52:29
    想找时间简史简史,没有找到,暂时把这个发表上来吧~ 关于版权问题~在中国好像没有什么问题,哈哈,只是和大家分享一下,希望有兴趣的人能看一看~ 哈哈~ 喜欢蓝色,有颜色的比没有颜色感觉看...
  • Vue简史

    千次阅读 2019-03-04 03:48:47
    用过1.0版本的同学可能还有印象,如果你使用了Moustache语法来展示内容,会在页面上看到一闪而过的”{{…}}” 2.0借鉴了React的做法,先将template编译为render函数,render函数返回Virtual DOM对象,然后再交由...
  • eBPF 简史

    千次阅读 2018-06-11 11:23:21
    当然,LSF 和 BPF 除了名字上的差异以外,还是有些不同的,首当其冲的分歧就是接口:传统的 BSD 开启 BPF 的方式主要是靠打开open /dev/bpfX 设备,之后利用 ioctl 来进行控制;而 linux 则选择了利用套接字选项...
  • 区块链简史

    2018-03-20 11:09:00
     区块头的元信息主要是区块生成时间,实际数据(即区块体)的Hash;上一个区块的Hash(哈希运算值)。  一个区块不等于一个节点:一个节点实际上就是一台接入区块链的计算机(服务器),任何联网的计算机都...
  • Web发展简史

    2019-04-07 20:47:08
    第一阶段的Web,主要是用于静态Web页面的浏览。用户使用客户机端的Web浏览器,可以访问Internet上各个Web站点,在每一个站点上都有一个主页(Home Page)作为进入一个Web站点的入口。每一Web页中都可以含有信息及超文本...
  • HTTP发展简史

    2019-06-01 14:18:00
    HTTP发展简史 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于... ...它不涉及数据包(packet)传输,主要规定了客户端和服务器之间的通信格式,默认使用80端口。 HTTP/0.9版本 1991年发布0....
  • WEB发展简史

    2019-04-07 15:26:41
    随着 AJAX 的流行,越来越多的网站使用 AJAX 动态获取数据,这使得动态网页内容变成可能,像 Facebook 这样的社交网络开始变得繁荣起来,前端一时间呈现出了欣欣向荣的局面。 AJAX 使得浏览器客户端可以更方便地向...
  • 数字视网膜演化简史

    千次阅读 2020-04-04 18:07:45
    文章也对不久前安博会上报告内容做了更为严谨的描述,同时也首次提出了数字视网膜所必须满足的五个条件:(a)使用全网统一的时间;(b)提供精确地理位置;(c)提供视频数据的高效编码功能;(d)提供视频数据的紧凑特征...
  • 中国CDN简史

    2019-05-06 02:55:10
    CDN的全称是(Content Delivery Network),即内容分发网络。CDN是构建在网络之上的内容...CDN的关键技术主要内容存储和分发技术。说到CDN不得不提传统CDN,那要从Akamai开始讲起。传统CDN服务商时间轴回到二十四...
  • DB2 简史

    2008-09-03 16:51:00
    Codd 发表了一篇开创了计算机管理信息新方法的论文。他的论文“A Relational Modelof Data for Large Shared DataBanks”提出了用于存储、管理和交互操作数据的新体系结构。这一新的关系模型使应用程序开发人员从...
  • 产品读书《人类简史

    千次阅读 2018-01-18 13:14:54
    上个月看了有关人工智能技术在当今社会的应用与广大的应用前景,不禁让我想起了最近读过的一本尤瓦尔·赫拉利的《人类简史》,事实上之前已经读过尤瓦尔·赫拉利的《人类简史》和《未来简史》,不知道你听说了吗,...
  • web发展简史

    2019-04-07 22:12:00
    Web定义 从技术层面上看,Web架构的精华有三处:用超文本技术(HTML)实现信息信息的连接,用统一资源定位...第一阶段的Web,主要是用于静态Web页面的浏览。用户使用客户机端的Web浏览器,可以访问Internet上各个W...
  • 人工智能 60 年技术简史

    千次阅读 2019-07-09 08:31:58
    作者 | 李理,环信人工智能研发中心 VP 封图 | CSDN 付费下载自视觉中国 出品 | CSDN AI 科技大本营(ID:rgznai100) ...从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代,我们...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,299
精华内容 2,519
关键字:

信息简史主要内容