精华内容
下载资源
问答
  • 信息论与编码技术知识要点及其总结,适合于考前复习
  • 信息论与编码——密码史的发展

    千次阅读 2016-11-22 18:27:01
    密码学是一个即古老又新兴的学科。密码学(Cryptology)一字源自希腊文"krypto... 第一阶段为从古代到1949年。  这一时期可以看作是科学密码学的前夜时期,这阶段的密码技术可以说是一种艺术,而不是一种科学,密码学专
            密码学是一个即古老又新兴的学科。密码学(Cryptology)一字源自希腊文"krypto's"及"logos"两字,直译即为"隐藏"及"讯息"之意。密码学有一个奇妙的发展历程,当然,密而不宣总是扮演主要角色。所以有人把密码学的发展划分为三个阶段:
    

    第一阶段为从古代到1949年。

            这一时期可以看作是科学密码学的前夜时期,这阶段的密码技术可以说是一种艺术,而不是一种科学,密码学专家常常是凭知觉和信念来进行密码设计和分析,而不是推理和证明。

            古典密码编码方法归根结底主要有两种,即置换和代换。把明文中的字母重新排列,字母本身不变,但其位置改变了,这样编成的密码称为置换密码。最简单的置换密码是把明文中的字母顺序倒过来,然后截成固定长度的字母组作为密文。代换密码则是将明文中的字符替代成其他字符。
    1844年,萨米尔·莫尔斯发明了莫尔斯电码:用一系列的电子点划来进行电报通讯。电报的出现第一次使远距离快速传递信息成为可能,事实上,它增强了西方各国的通讯能力。
            20世纪初,意大利物理学家奎里亚摩·马可尼发明了无线电报,让无线电波成为新的通讯手段,它实现了远距离通讯的即时传输。马可尼的发明永远地改变了密码世界。由于通过无线电波送出的每条信息不仅传给了己方,也传送给了敌方,这就意味着必须给每条信息加密。
      第一次世界大战前,重要的密码学进展很少出现在公开文献中。直到1918年,二十世纪最有影响 的密码分析文章之一¾¾William F. Friedman的专题论文《重合指数及其在密码学中的应用》作为私立的“河岸(Riverbank)实验室”的一份研究报告问世了,其实,这篇著作涉及 的工作是在战时完成的。一战后,完全处于秘密工作状态的美国陆军和海军的机要部门开始在密码学方面取得根本性的进展。但是公开的文献几乎没有。
      然而技术却在飞速的发展,简单的明文字母替换法已经被频率分析法毫无难度地破解了,曾经认为是 完美的维吉耐尔(Vigenere)密码和它的变种也被英国人Charles Babbage破解了。顺便说一句,这个Charles Babbage可不是凡人,他设计了差分机Difference Engine和分析机Analytical  Engine,而这东西就是现在计算机的先驱。这个事实给了人们两个启示:第一,没有哪种“绝对安全”的密码是不会被攻破的,这只是个时间问题;第二,破 译密码看来只要够聪明就成。在二次大战中,密码更是扮演一个举足轻重的角色,许多人认为同盟国之所以能打赢这场战争完全归功於二次大战时所发明的破译密文 数位式计算机破解德日密码。
      1918年,加州奥克兰的Edward H.Hebern申请了第一个转轮机专利,这种装置在差不多50年里被指定为美军的主要密码设备,它依靠转轮不断改变明文和密文的字母映射关系。由于有了 转轮的存在,每转动一格就相当于给明文加密一次,并且每次的密钥不同,而密钥的数量就是全部字母的个数――26个。
      同年,密码学界的一件大事“终于”发生了:在德国人Arthur Scherbius天才的努力下,第一台非手工编码的密码机――ENIGMA密码机横空出世了。密碼機是德軍在二戰期間最重要的通訊利器,也是密碼學發展 史上的一則傳奇。當時盟軍借重英國首都倫敦北方布萊奇利公園的「政府電碼與密碼學院」,全力破譯德軍之「謎」。雙方隔著英吉利海峽鬥智,寫下一頁精彩無比 的戰史,後來成為無數電影與影集的主要情節,「獵殺U571」也是其中之一。
      随着高速、大容量和自动化保密通信的要求,机械与电路相结合的转轮加密设备的出现,使古典密码体制也就退出了历史舞台。

    第二阶段为从1949年到1975年。
      1949年仙农(Claude Shannon)《保密系统的通信理论》,为近代密码学建立了理论基础。从1949年到1967年,密码学文献近乎空白。许多年,密码学是军队独家专有的 领域。美国国家安全局以及前苏联、英国、法国、以色列及其它国家的安全机构已将大量的财力投入到加密自己的通信,同时又千方百计地去破译别人的通信的残酷 游戏之中,面对这些政府,个人既无专门知识又无足够财力保护自己的秘密。
      1967年,David Kahn《破译者》(The CodeBreaker)的出现,对以往的密码学历史作了相当完整的记述。《破译者》的意义不仅在于涉及到相当广泛的领域,它使成千上万的人了解了密码 学。此后,密码学文章开始大量涌现。大约在同一时期,早期为空军研制敌我识别装置的Horst Feistel在位于纽约约克镇高地的IBM Watson实验室里花费了毕生精力致力于密码学的研究。在那里他开始着手美国数据加密标准(DES)的研究,到70年代初期,IBM发表了 Feistel和他的同事在这个课题方面的几篇技术报告。
      
    第三阶段为从1976年至今。
        1976年diffie 和 hellman 发表的文章“密码学的新动向”一文导致了密码学上的一场革命。他们首先证明了在发送端和接受端无密钥传输的保密通讯是可能的,从而开创了公钥密码学的新纪元。
      1978年,R.L.Rivest,A.Shamir和L.Adleman实现了RSA公钥密码体制。
      1969年,哥伦比亚大学的Stephen Wiesner首次提出“共轭编码”(Conjugate coding)的概念。1984年,H. Bennett 和G. Brassard在次思想启发下,提出量子理论BB84协议,从此量子密码理论宣告诞生。其安全性在于:1、可以发现窃听行为;2、可以抗击无限能力计算 行为。
      1985年,Miller和Koblitz首次将有限域上的椭圆曲线用到了公钥密码系统中,其安全性是基于椭圆曲线上的离散对数问题。
      1989年R.Mathews, D.Wheeler, L.M.Pecora和Carroll等人首次把混沌理论使用到序列密码及保密通信理论,为序列密码研究开辟了新途径。
      2000年,欧盟启动了新欧洲数据加密、数字签名、数据完整性计划NESSIE,究适应于21世纪信息安全发展全面需求的序列密码、分组密码、公开密钥密码、hash函数以及随机噪声发生器等技术。
    展开全文
  • 数据挖掘技术 知识点整理

    千次阅读 多人点赞 2019-12-31 16:35:01
    数据仓库数据的粒度组织 数据的粒度是指数据仓库的数据单元中所保存数据的综合程度 数据的综合程度越高,其粒度越粗 数据仓库存储的数据粒度越细,则占用的存储空间越大,但提供的更细节的查询 Q3. 知识发现...

    ch01 绪论

    课内重点

    Q1. 数据仓库的四个特征
    • 面向主题
    • 集成的
    • 不可修改
    • 随时间变化
    Q2. 数据仓库数据的粒度与组织
    • 数据的粒度是指数据仓库的数据单元中所保存数据的综合程度
    • 数据的综合程度越高,其粒度越粗
    • 数据仓库存储的数据粒度越细,则占用的存储空间越大,但提供的更细节的查询
    Q3. 知识发现概念
    • 定义:知识发现(KDD)就是采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有用乃至最终可理解的模式(Pattern)的非平凡过程
    • 过程:
      • 数据采集
      • 数据预处理
      • 数据挖掘
      • 知识评价
      • 知识应用
    • 知识发现过程中一个特定关键的步骤:数据挖掘
    Q4. 数据挖掘的数据来源
    • 数据库
      • 传统数据库(DB)
      • 数据仓库(DW)
      • 空间数据库(Spatial Database)
      • 时态数据库和时间序列数据库(Temporal Database and Time-Series Database)
      • 多媒体数据库(Multimedia Database)
      • 文本数据库(Text Database)
    • 非数据库
      • 数据流(Data Stream)
      • Web数据
    Q5. 数据挖掘的步骤
    • 问题定义
    • 数据准备
      • 数据抽取
      • 数据预处理
      • 数据存储
    • 挖掘实施
    • 评估解释
    • 知识应用
      在这里插入图片描述
    Q6. 数据仓库与数据挖掘的区别

    在这里插入图片描述

    • 结论:数据仓库不是为数据挖掘而生的,反过来数据挖掘也不是为数据仓库而活。它们是支持决策的两个相对独立的知识体系
    Q7. 数据仓库与数据挖掘的联系

    一个中心(决策支持),两个基本点(DW,DM)

    • DW为DM提供了更好的、更广泛的数据源
    • DW为DM提供了新的数据支持平台
    • DW为DM提供了方便
    • DM为DW提供了更好的决策支持工具
    • DM为DW的数据组织提出了更高的要求
    • DM为DW提供了广泛的技术支持

    课后练习题

    4. 简述数据仓库的定义

    答: 数据仓库是一个面向主题的集成的不可修改的随时间变化的,支持管理决策的数据集合

    5. 简述数据库与数据仓库的关系

    答:数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成的

    相关:
    数据库与数据仓库的区别:

    • 数据库是面向事务设计的,数据仓库是面向主题设计的
    • 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据
    • 数据库是为捕获数据而设计,数据仓库是为分析数据而设计
    • 事务系统是实时的,而分析系统是事后
    6. 简述数据仓库特征

    答:

    • 面向主题
    • 集成的
    • 不可修改
    • 随时间变化
    11. 简述数据挖掘的主要步骤

    答:

    • 问题定义
    • 数据准备
    • 挖掘实施
    • 评估解释
    • 知识应用

    ch02 数据仓库原理

    课内重点

    Q1. 多数据源的问题
    • 数据不一致:数据之间的矛盾性和不相容性。如职务升迁了,但工资数据却没有改变
    • 属性差异:性别属性有的取“男”/“女”,长度为2;有的取“1”/“0”,长度为1
    • 数据重复:数据源中存在两条或多条完全相同的记录,或者同一个数据冗余地存在于多个数据源中
    • 数据不完整:某些属性的值可能是缺失的,甚至是错误的数据
    • 数据噪声:测量数据时遇到的随机或其它不确定因素,导致被测量的数据产生了偏差或错误
    • 高维数据:为较全面的描述实体,原始数据通常都使用了较多属性
    • 模式不统一:将集成为单一数据集的多个数据源的模式不同。如“常住人口数据”和“暂住人口数据”两张表,前者有128个属性,后者也有98个属性
    • 数据不平衡:数据集中某一类样本的数量明显少于其他类型样本的数量
    Q2. 数据预处理
    • 定义:在多数据源集成为统一数据集之前进行的数据清洗数据变换数据规约等数据处理过程
    • 目的:清除多数据源集成存在的问题,为数据仓库或数据挖掘提供一个完整、干净、准确、且有针对性的数据集合
    Q3. 数据清洗

    定义:发现并纠正数据源,即原始数据中存在的问题或错误的过程,包括检查数据一致性处理无效值填补缺失值、以及过滤掉那些不符合要求的数据

    • 属性的处理:
      • 重命名属性
      • 统一属性
      • 处理主键属性
      • 派生新属性
      • 选择相关属性
    • 空值的处理:
      • 人工填补
      • 忽略记录
      • 忽略属性
      • 使用默认值
      • 使用平均值
      • 使用预测值
    • 数据噪声处理
      • 等深分箱法
      • 等宽分箱法
      • 用户自定义区间
        • 按平均值平滑
        • 按边界值平滑
        • 按中值平滑
    • 不平衡数据处理
      • 过抽样
      • 欠抽样
    Q4. 等深分箱法

    计算思路:
    把数据集中的数据按照排列顺序分配到k个箱子中(k=1,2,…,k)

    • 当k 整除 n时,令p=n/k,则每个箱子都有p个数据,即
      第1个箱子的数据为:a1,a2,…,ap
      第2个箱子的数据为:ap+1,ap+2,…,a2p
      ……
      第k个箱子的数据为:an-p+1,an-p+2,…,an
    • 当k 不能整除 n时,令p=n/k [向下取整],q=n-k*p,则可让前面q个箱子有p+1个数据,后面k-q个箱子有p个数据,即
      第1个箱子的数据为:a1,a2,…,ap+1
      第2个箱子的数据为:ap+2,ap+3,…,a2p+2;;
      ……
      第k个箱子的数据为:an-p+1,an-p+2,…,an
      也可让前面k-q个箱放p个数,后面q个箱放p+1个数据

    例题:
    设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据,请用等深分箱法将其分成k=4个箱子
    在这里插入图片描述

    Q5. 等宽分箱法

    计算思路:
    把数据集最小值最大值形成的区间分为k个左闭右开的子区间(最后一个除外)I1,I2,…,Ik。如果ai 属于 Ij就把数据ai放入第j个箱子

    例题:
    设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据,请用等深分箱法将其分成k=4个箱子
    在这里插入图片描述

    Q6. 数据变换
    • 数据聚集:对数据按照管理或挖掘需要进行汇总
    • 数据概化:用较高层次的数据代替较低维度层次的数据
    • 数据规范化:将原始数据按照一定的比例缩放,使之落入一个特定的区间
      • 最小—最大规范化
        在这里插入图片描述
      • 零—均值规范化
        在这里插入图片描述
      • 小数定标规范化
        在这里插入图片描述
    Q7. 数据规约

    定义:用精简数据表示原始数据的方法,且归约后数据量通常比原始数据小很多,但具有接近甚至等价于原始数据表达的信息

    • 维归约:减少描述问题的随机变量个数
    • 属性归约:减少描述问题的数据集的属性个数
    • 数量归约:用较少的数据表示形式替换原始数据
    • 数据压缩:使用变换方法得到原数据的归约或“压缩”表示,图像压缩技术就是一种典型的数据压缩方法
    Q8. 数据仓库的概念模型
    • 定义:对现实管理决策中各个主题及其特征的数据抽象表示
    • 特点:
      • 能够比较真实地模拟或抽象表示用户的决策主题
      • 表示方法简单直观且易于用户理解
      • 与计算机系统支持的具体数据模型无关
      • 易于向数据仓库的逻辑数据模型转换
    Q9. 星型模型
    • 特点
      • 星型模型由一个事实表和多个维度表的连接表示多维数据模型,矩形:事实表,凹圆角矩形表示维度表,并用直线表示其间的主键-外键联系
        在这里插入图片描述
      • 星型模型是多维数据模型在关系数据库中的组织和存储结构描述,即它是多维数据模型的关系模型表示方法。因此,星型模型是多维数据模型的一种逻辑模型
    • 优势
      • 星型模型围绕一个确定的主题,体现了数据仓库对数据结构和组织的要求
      • 星型模型表达直观,易于理解且设计相对容易
      • 星型模型维度表包含了用户经常查询和分析的属性,优化了对数据库的浏览,在维度表和事实表之间没有任何“迷宫”,使查询的过程变得简单而直接
      • 星型模型为OLAP提供了良好的工作条件,使OLAP能通过星形连接和星形索引,显著提高查询性能
      • 设计相对较为简单
    • 不足
      • 维度表通常是非规范化的,造成很大的数据冗余
      • 由于星型模型中各个维度表主键的组合构成事实表的主键,导致维度的变化非常复杂、费时
      • 维度属性的复杂形成的大维度问题
      • 处理维的层次关系比较困难
      • 无法表达“多对多”的联系
    Q10. 雪花模型

    概念

    • 雪花模型是星形模型按照关系数据库规范化理论对维度表进行分解的结果
    • 目的:消除数据冗余,同时增加更多对事实进行细节描述的信息,提高查询分析的灵活性
    • 其查询效率通常比星型模型表示的多维数据集要低一些

    优势:

    • 减少了一定数据冗余量,节约了许多存储空间
    • 处理复杂维度和更新维度更加容易
    • 表示“多对多”的联系方便
    • 查询分析更具灵活性

    不足:

    • 事实表与维度表、详细类别表联系比较复杂,用户不易理解
    • 浏览查询多维数据内容相对困难
    • 额外的详细类别连接操作导致查询性能下降
    Q11. 位图索引模型
    • 重要实用:在数据仓库的存储结构中,位图索引是一项非常重要且实用的索引模型
    • 索引条件:对于那种只取少量几个离散值的属性列(属性取值种类在1%以下)来说,位图索引就是用一个二进制串,替代基本表中某一列的取值
    • 索引效果:使我们在不触及数据记录的情况下,直接通过位图索引快速地获得查询结果

    课后练习题

    5.试述对一个数据集采用分箱技术包含的主要步骤
    • 对数据集的数据进行排序
    • 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行分箱
    • 选定处理箱子数据的方法,并对其重新赋值
      • 常用分箱方法:等深分箱、等宽分箱、自定义区间、最小熵分箱法
    6. 设数据集A={1,1,3,3,4,5,5,5,6,7,7,7,9,10,12,15},请用等深分箱法将其分成k=4个箱子

    在这里插入图片描述

    7. 设数据集A={1,1,3,3,4,5,5,5,6,7,7,7,9,10,12,15},请用等宽分箱法将其分成k=4个箱子

    在这里插入图片描述

    16. 数据仓库有哪几种逻辑模型?
    • 多维模型
    • 星型模型
    • 雪花模型

    ch03 数据仓库的设计开发应用

    课内重点

    Q1. 数据仓库设计的特点及含义

    “数据驱动”的设计

    • 数据仓库是从已有数据出发的设计方法,即从数据源抽取数据,经转换形成面向主题,支持决策的数据集合
    • 以全面了解并利用现有数据为出发点

    “分析驱动”的设计

    • 从决策分析需求出发的设计
    • 从已有数据源出发,按照决策分析主题对数据源中数据及其之前的联系重新考察,并重新组织形成数据仓库分析需要的主题数据

    “需求模糊”的设计

    • 数据仓库设计的数据分析处理需求更加灵活,也没有固定的模式,有时用户自己对所要进行的分析处理也不能事先确定
    • 数据仓库的分析需求在设计初期往往是模糊或不明确的,通常只有在数据仓库设计过程中,或后来数据仓库的决策支持过程中逐渐明确

    “螺旋周期”的设计

    • 数据仓库系统的开发是一个动态反馈启发式的循环过程,也称为螺旋上升的周期性开发过程,即“螺旋周期”
    • 数据仓库的数据内容、结构、粒度、分割以及其他物理设计,需要根据用户使用数据仓库所反馈的意见和建议进行调整,以提高系统的效率和性能
    • 用户在使用数据仓库进行决策过程中,不断提出新的决策分析需求,增加新的主题,使数据仓库进入新一轮的设计周期,数据仓库进一步完善,为用户提供更准确、更有效的决策信息
    Q2. 数据仓库系统开发过程

    5个时期划分方式

    • 规划时期
    • 设计时期(需求分析、概念分析、逻辑设计、物理设计)
    • 实施时期
    • 开发时期
    • 应用时期

    在这里插入图片描述
    3个阶段划分方式

    • 规划设计阶段(规划时期、设计时期)
    • 实施开发阶段(实施时期、开发时期)
    • 使用维护阶段(应用时期)
    Q3. 了解虚拟数据仓库与数据集市
    • 虚拟数据仓库:决策支持功能直接在事务处理数据库上实现
    • 单纯数据仓库:从数据源中抽取、转换和加载到一个统一的数据仓库之中,各部门的查询和分析功能都从这个统一的数据仓库中进行
    • 单纯数据集市:一个部门使用的数据仓库,因为企业中的每个职能部门都有自己的特殊管理决策需要,而统一的数据仓库可能无法同时满足这些部门的特殊要求
    • 完整数据仓库:数据仓库从企业各种数据源抽取数据,部门数据集市从企业数据仓库中获取数据
    Q4. ETL

    数据抽取、转换和装载(Extraction-Loading-Transformation,ETL)


    课后练习题

    4. 数据仓库系统开发需要经历哪几个时期?

    若划分为5个时期

    • 规划时期:项目规划
    • 设计时期:需求分析、概念设计、逻辑设计、物理设计
    • 实施时期:DW创建,ETL
    • 开发时期:应用开发
    • 应用时期:决策支持、维护评价

    若划分为3个时期

    • 规划设计阶段(规划时期、设计时期)
    • 实施开发阶段(实施时期、开发时期)
    • 使用维护阶段(应用时期)
    5. 简述数据仓库设计时期的主要工作内容
    • 决策需求调查、数据仓库环境分析,数据仓库开发需求确定
    • 各种模型的建立,包括多维数据模型、星型模型、雪花模型和物理模型等,特别是数据源的属性列与数据仓库目标列的映射关系等,并根据选择的数据仓库管理系统,完成相应的物理设计

    ch04 警务数据仓库的实现

    课内重点

    Q1. SSIS包后缀是什么

    .dtsx

    ch05 联机分析处理(OLAP)技术

    课内重点

    Q1. OLAP的12条准则
    • 多维概念的视图(multidimensional conceptual view)
      从用户的角度来看,整个企业的数据视图本质是多维的(时间,地点,品种),因此OLAP的概念模型也应该是多维的
    • 透明性(transparency)
      • 用户不必关心表格或图显的数据的来源,只用OLAP工具查询数据
      • OLAP系统应该是开放系统架构的一个部分,当按用户需要将OLAP系统嵌入到架构的任何地方都不影响 OLAP分析工具的性能
    • 存取能力 (accessibility)
      • OLAP系统应该有能力利用自有的逻辑结构访问异构数据源,并且进行必要的转换以提供给用户一个连贯的展示
      • 还能提供高效的存取策略
    • 稳定的报表性能(consistent reporting performance)
      当数据的维度和数据综合层次增加时,OLAP系统为最终用户提供报表的能力和相应速度不应该有明显的降低和减慢
    • 客户/服务器体系结构(client/server architecture)
      OLAP系统应该是一种客户/服务器(C/S)应用结构,并有足够的智能保证多维数据服务器能被不同的客户应用工具以最小的代价访问
    • 维的等同性(generic dimensionality)
      每个数据维度应该具有等同的层次结构和操作能力,比如对每个维度都可以进行“切片”、“切块”和“旋转”等相同的操作
    • 动态的稀疏矩阵处理能力(dynamic sparse matrix handling)
      • 多维数据集的稀疏特性,即大多数单元格的值都是零
      • 若存储所有这些零值数据就会占用大量的存储空间
      • OLAP系统应该为这种具有稀疏性的多维数据集的存储和查询分析提供一种“最优”处理能力,既尽量减少零值单元格的存储空间,又保证动态查询分析的快速、高效
    • 多用户支持能力(multi-user support)
      OLAP应提供并发获取和更新访问,保证完整性和安全性的能力
    • 非受限的跨维操作(unrestricted cross-dimensional operations)
      多维数据之间存在固有的层次关系,这就要求OLAP工具能自己推导出而不是最终用户明确定义出相关的计算
    • 直观的数据操作(intuitive data manipulation)
      OLAP工具应为数据的分析操纵提供直观易懂操作界面,比如“下钻”、“上卷”、“切片”等多维数据分析方法都可以通过直观、方便的点击操作完成
    • 灵活的报表生成(flexible reporting)
      OLAP提供的报表功能应该以用户需要的任何方式展现信息,以充分反映数据分析模型的多维特征
    • 非受限维与聚集层次(unlimited dimensions and aggregation levels)
      • OLAP工具不应该为多维数据的维度数量和维度层次数量设置任何限制
      • 说明:这个要求对系统要求有点高,可以适当降低要求。因为在实际应用中,多维数据集的维度数量很少超过15个,维度层次也通常在6个以内

    说明
    联机分析处理(On-Line Analysis Processing,OLAP):针对特定问题的联机多维数据快速访问和分析处理的软件技术、能帮助决策者对数据进行深入的多角度观察

    Q2. OLAP的简要准则

    联机分析处理(OLAP)就是共享多维信息的快速分析,即FASMI(Fast Analysis of Shared Multidimensional Information)

    • 快速性(Fast)
      • 用户对OLAP系统的快速反应能力有很高的要求,希望系统能在5秒内对用户的大部分分析要求做出反应
      • 快速性需求必须在线响应才能完成,故又称为在线性
      • 快速性还需要一些专门的技术支持,如专门的数据存储结构、大量数据的预先计算、还有硬件特别设计等
    • 分析性(Analysis)
      • OLAP系统应能处理与应用有关的任何逻辑分析和统计分析
      • 例如,连续时间序列分析、成本分析、意外报警等
      • 此外,还应使用户无须编程就可以定义新的计算,并作为查询分析的一部分,以用户理想的方式给出报告
    • 共享性(Shared)
      • OLAP系统必须提供并发访问控制机制,让多个用户共享同一OLAP数据集的查询分析,并保证数据完整性和安全性
    • 多维性(Multidimensional)
      • OLAP系统必须提供对数据分析的多维视图,包括对层次维多重层次维的完全支持
      • 事实上,多维分析是分析企业数据最有效的方法,是OLAP系统的灵魂和关键特性
    • 信息性(Information)
      • 无论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且能管理大容器信息

    关键特征:快速性和多维性

    Q3. OLAP的多维分析操作
    • 切片(slice)
    • 切块(dice)
    • 下钻(drill-down)
    • 上卷(roll-up)
    • 旋转(pivot)
    Q4. 切片
    • 在n(>=3)维数据集的某一维上,指定一个维成员的选择操作
    • 若对一个n维数据集进行切片操作,则将得到一个n-1维的数据集
    • 多维数据集的维度越高,人们对其理解就越困难
    • 切片操作是对多维数据集进行降维处理,方便用户理解多维数据蕴藏的决策信息
    • 从n(>=2)维数据集中选择一个2维子集的操作称为局部切片操作
    • 对任意n(>=2)维数据集,其局部切片操作结果永远是2维数据集
    Q5. 切块
    • 在n(>=3)维数据集的某一维上指定若干维成员的选择操作
    • 对于n(>=3)维数据集,如果某一维上指定的维度成员数大于等于2,则切块操作的结果仍然是一个n维数据集(仅当指定一个维度成员时,其切块操作的结果是一个切片)
    Q6. 旋转
    • 在多维数据集展示的时候,对其改变维的显示方向的操作
    • 多维数据集的旋转结果仍然是原先的多维数据集,它仅仅改变了数据集展示的方位,方便用户观察数据
    Q7. 钻取
    • 多维数据集的钻取就是改变数据所属的维度层次,变换数据分析的粒度,它是下钻和上卷这两个相反操作的统称
    • 目的:方便用户从不同维度的不同层次观察多维数据

    上卷

    • 对多维数据选定的维度成员,按照其上层次维度对数据进行求和计算并展示的操作
    • 它是在某一维度上,将低层次的细节数据概括为高层次的汇总数据,以增大数据的粒度,并减少了数据单元格个数或数据的维度

    下钻

    • 对多维数据选定的维度成员,按照其下层次维度对数据进行分解的操作
    • 它从由当前的汇总数据深入到其下一层次的细节数据,以便用户观察到更为细粒度的数据
    Q8. OLAP、DW与DM的联系
    • OLAP(联机分析处理)、DW(数据仓库)与DM(数据挖掘)是相互独立而又相互联系的3个概念
    • 相互独立:它们在不同的时间,由不同的学者或组织分别提出,因此它们在基本内涵,解决的主要问题和使用的基本技术上都有很大的区别
    • 相互联系:它们都是为了支持企业的管理决策这一中心任务,即共同目标而提出的。因此,我们可以用“一个中心,三个基本点”来形容DW、OLAP、DM之间关系
      在这里插入图片描述
    Q9. OLAP、DW与DM的区别

    在这里插入图片描述

    课后练习题

    4. 写出FASMI的英文短语,并简述其含义
    • fast:快速性,指用户对OLAP系统的快速反应能力要求很高
    • analysis:分析性,指OLAP系统应能处理与应用有关的任何逻辑分析和统计分析
    • shared:共享性,指OLAP系统必须提供并发访问控制机制,让多个用户共享同一OLAP数据集的查询分析,并保证数据完整性和安全性
    • multidimensional:多维性,指OLAP系统必须提供对数据分析的多维视图
    • information:信息性,指OLAP系统应能及时获得信息,并且能管理大容量信息
    5. 在OLAP的5个特征FASMI中,哪两个是OLAP的关键特性?
    • 快速性
    • 多维性
    6. 多维数据分析有哪几种基本分析操作?
    • 切片
    • 切块
    • 下钻
    • 上卷
    • 旋转
    7. 简述多维数据集“切片”(slice)操作的含义,并举例说明切片操作的结果
    • 含义:在数据集的某一维上,指定一个维成员的选择操作
    • 举例:若对一个3维数据集进行切片,会得到一个2维的数据集
    8. 简述多维数据集“下钻”(drill down)操作的含义,并举例说明下钻操作的结果
    • 含义:对多维数据选定的维度成员,按照其下层次维度对数据进行分解的操作
    • 举例:“1季度”这个数据集,将其下钻到下层次“月”,则得到“1月”、“2月”、“3月”
    9. 简述多维数据集“上卷”(roll up)操作的含义,并举例说明上卷操作的结果
    • 含义:对多维数据选定的维成员,按照其上层次维度对数据进行求和计算并展示的操作
    • 举例:将时间维“1月”、“2月”、“3月”上卷恰好为“季度”的层次,即“1季度”
    10. 简述多维数据集“切块”(dice)操作的含义,并举例说明切块操作的结果
    • 含义:在数据集的某一维上指定若干维成员的选择操作
    • 举例:对于一个3维数据集进行切片,还是得到3维的数据集

    ch07 数据的属性与相似性

    课内重点

    Q1. 数据集的结构
    • 二维表
      在这里插入图片描述
    • 数据矩阵
      在这里插入图片描述
    Q2. 属性的类型
    • 连续属性:通常在一个实数区间内取值,因此其取值个数理论上是无穷个
    • 离散属性:该属性可以取有限或可数无限个不同的值
    • 分类属性:
      • 特殊的离散属性,即离散属性的一个细分类别
      • 取值是一些符号或事物的名称,每个值代表某种类别、编码或状态,并且这些值之间不存在大小或顺序关系
      • 例如:单身、已婚、离异、丧偶
    • 二元属性
      • 分类属性的一种特殊情况
      • 这种属性只取两种可能的值或只能处于两个状态之一
      • 例如:1或0,布尔属性
    • 序数属性
      • 离散属性的一种
      • 它所有可能的取值之间可以进行排序,虽然任意两个相距值之间的差值是未知的
      • 例如:其他<学士<硕士<博士
    • 数值属性
      • 一种定量属性,也看作是一种连续属性
      • 它的取值是可以度量的,一般用整数或实数值表示
      • 数值属性可以是区间标度或比率标度属性
        • 区间标度属性:用相等的单位尺度度量。区间属性的值是有序的,可正、0、负
        • 比率标度属性:具有固有零点的数值属性,它弥补了区间标度无固定0点的不足,故可有一个值是另一个的倍数(或比率)
    Q3. 相似度与相异度

    相似度
    在这里插入图片描述

    • 非负有界性:0<=s(Xi,Xj)<=1,当Xi=Xj时,s(Xi,Xj)=1
    • 对称性

    相异度
    在这里插入图片描述

    关系: 当d(X,Y) != 0时,s(X,Y) = 1/d(X,Y)

    Q4. 数值属性的距离

    明可夫斯基距离
    在这里插入图片描述
    当r取不同的值时,上述距离公式就特化为一些常用的距离公式

    • 若r=1,则得绝对值距离公式,就称曼哈坦距离
      在这里插入图片描述
    • 若r=2,则得欧几里得距离,也简称为欧氏距离
      在这里插入图片描述
    • 若r->∞,称切比雪夫距离
      在这里插入图片描述

    二次型距离
    设A是n阶非负定矩阵,则向量Xi与Xj的二次型距离定义为:
    在这里插入图片描述

    Q5. 分类属性的相似度

    简单匹配系数相似度(二元相似度)
    在这里插入图片描述
    Jaccard系数相似度(非对称的二元相似度)
    在这里插入图片描述
    Rao系数相似度(非对称的二元相似度)
    在这里插入图片描述


    例子:试计算smc(X1,X2),sjc(X1,X2)和src(X1,X2)
    在这里插入图片描述
    在这里插入图片描述

    Q6. 序数属性的相似度

    序数属性的值之间具有实际意义的顺序或排位,但相继值之间的差值是未知的,可用mk表示第k个属性的可能取值有状态

    计算方式:例子
    假设某校用考试成绩奖学金月消费 3个属性来描写学生在校的信息(下表)。其中第1个属性考试成绩取m1=5个状态,其 顺序排位为优秀>良好>中等>及格>不及格;第2个属性奖学金取m2=3个状态,其 顺序排位为甲等>乙等>丙等 ;第3个属性月消费取m3=3个状态,其顺序排位为高>中>低
    在这里插入图片描述

    序数属性的数据对象之间相异度计算的基本思想是将其转换为数值型属性,并用距离函数来计算,主要分为三个步骤:

    • 将第k个属性的域映射为一个整数的排位集合,即将每个数据对象Xi对应分量的取值xik用其对应排位数代替并仍记为xik
    • 将整数表示的数据对象Xi的每个分量映射到[0, 1]实数区间之上,其映射方法为 zik=(xik-1)/(mk-1)
    • 根据实际情况选择一种距离公式,计算任意两个数值型数据对象Xi和Xj的相异度

    答:
    考试成绩的域为 {优秀, 良好, 中等, 及格, 不及格} ,其整数排位集合为{5, 4, 3, 2, 1},同理可得下图
    在这里插入图片描述
    将其映射到0~1区间内
    在这里插入图片描述
    选用欧几里得距离函数计算任意两点之间的相异度
    在这里插入图片描述
    同理可得:d(X1,X3)=1.22, d(X2,X3)=0.56

    所以 从计算结果可知d(X2,X3)的值是最小的,即X2与X3的差异度最小

    Q7. 余弦相似度

    对数值型或属性值用数字表示的数据集中任意两个数据对象Xi=(xi1,xi2,…,xin)和Xj=(xj1,xj2,…,xjn),其余弦(cosine)相似度定义为:
    在这里插入图片描述

    • Xi*Xj表示两个向量的内积
    • ||Xi||表示向量Xi欧几里得范数,即Xi到坐标原点的距离,也就是向量Xi的长度

    当scos(Xi,Xj)=0,即向量Xi和Xj呈90°夹角,也就是说它们是相互垂直的,亦即它们是不相似
    当scos(Xi,Xj)=1,即向量Xi和Xj的方向是一致的,它们的方向是完全相似

    余弦相似度常常用来评价文档间的相似性。每一个文档通常用一个词频向量(term-frequency vector)来表示,每个属性为文档中可能出现的特定词或短语,属性取值为该词或短语在文档中出现的频度

    在这里插入图片描述

    Q8. 混合属性的相异度

    若数据集S={X1 ,X2, …Xm}的属性既有数值属性,又有离散属性时,称S为混合属性数据集
    处理方法:

    • 假设S有d个属性
    • 根据第k属性的类型,计算S关于第k属性的相异度矩阵D(k)(S) (k=1,2,…,d)
    • 将其集成为S的相异度矩阵D(S),公式如下:
      在这里插入图片描述
      • 相异度d(k)(Xi,Xj)的取值都在 [0, 1]内
      • 第k属性是分类或二元属性时,比较Xi和Xj在第k属性的取值
        • 如果xik=xjk,则d(k)(Xi,Xj)=0,否则d(k)(Xi,Xj)=1
      • 当第k属性是数值属性时,先求出S第k属性所有非缺失值的最大值maxk和最小值mink,则有
        在这里插入图片描述
      • 当第k属性是序数属性
        • 先将Xi的第k属性值转换为[0,1]区间的实数zik=(xik-1)/(mk-1),其mk是X第k属性排位数的最大值,xik是Xi的第k属性值对应的排位数
        • 用zik和zjk代替上述公式中的xik和xjk即可

    注意:
    在这里插入图片描述


    例题:设有下表所示的混合属性数据集S,试计算其相异度矩阵
    在这里插入图片描述
    从上表可知,数据集S除顾客id外,共有4个属性。下面分别计算S关于第1、第2、第3和第4属性的相异度矩阵

    第1属性“性别”是二元属性,其的相异度矩阵
    在这里插入图片描述
    第2属性“婚姻状况”是分类属性,其相异度矩阵
    在这里插入图片描述
    第3属性“当月消费额”是数值属性,其相异度矩阵
    在这里插入图片描述
    第4属性“学位”是序数属性

    • 首先转换成排位数
      在这里插入图片描述
    • 再将排位数转换为[0,1]区间的实数
      在这里插入图片描述
    • 得其相异度矩阵
      在这里插入图片描述

    最后
    在这里插入图片描述

    提醒:若有null值,则在计算相异度时 该项直接忽略即可

    课后练习题

    4. 设有5个分类属性,3个属性对象的数据集,试计算s(X1, X2)和s(X1, X3)和s(X2, X3)

    在这里插入图片描述
    注意:第一个s(X1, X2)=1/5,上图错写成2/5了

    5. 设某校用考试成绩、奖学金和月消费 3个属性来描写学生在校的信息(见表7-15)。其中第1个属性考试成绩取m1=5个状态,其 顺序排位为优秀>良好>中等>及格>不及格;第2个属性奖学金取m2=3个状态,其顺序排位为甲等>乙等>丙等;第3个属性月消费取m3=3个状态,其顺序排位为高>中>低,试按照序数属性相似度计算方法求s(X1, X2)和s(X1, X3)和s(X2, X3)

    在这里插入图片描述

    7. 设有混合属性数据集(见表7-16),试计算S的相异度矩阵

    在这里插入图片描述

    ch08 关联规则挖掘

    课内重点

    Q1. 关联规则挖掘的概念

    支持度
    在这里插入图片描述


    最小支持度
    在这里插入图片描述


    关联规则
    在这里插入图片描述


    关联规则X ⇒ \Rightarrow Y的支持度
    在这里插入图片描述


    频繁项集
    在这里插入图片描述


    最大频繁项集
    在这里插入图片描述


    置信度
    在这里插入图片描述


    最小置信度
    在这里插入图片描述


    强关联规则
    在这里插入图片描述

    Q2. 四个重要定理
    • 定理1(频繁项集性质1):如果X是频繁项集,则它的任何 非空子集X’ 也是频繁项集,即频繁项集的子集必是频繁项集
    • 定理2(频繁项集性质2):如果X是非频繁项集,那么它的所有超集都是非频繁项集,即非频繁项集的超集也是非频繁项集
    • 定理3(关联规则性质1)
      在这里插入图片描述
    • 定理4(关联规则性质2)
      在这里插入图片描述
    Q3. 关联规则的Apriori算法

    步骤:

    • 发现频繁项集
      根据用户给定的最小支持度MinS,寻找出所有的频繁项集,即满足支持度Support不低于MinS的所有项集。由于这些频繁项集之间有可能存在包含关系,因此,我们可以只关心所有的最大频繁项集,即那些不被其他频繁项集所包含的所有频繁项集
    • 生成关联规则
      根据用户给定的最小可信度MinC,在每个最大频繁项集中,寻找置信度Confidence不小于MinC的关联规则

    计算:发现频繁项集
    在这里插入图片描述

    计算:生成关联规则
    在这里插入图片描述

    Q4. FP-增长算法的背景

    Apriori算法存在两方面的不足

    • 产生大量的候选项集
      例如,当事务数据库有104个频繁1-项集时,Apriori算法就需要产生多达107个候选2-项集,即对存储空间要求会影响算法的执行效率
    • 多次重复地扫描事务数据库
      对每个k=1,2,3,…,m,为了计算候选k-项集的支持度,都需要扫描一次事务数据库,才能确定候选k-项集的支持度,其计算时间开销很大
    Q5. FP-增长算法的计算过程

    用FP-增长(Frequent-Pattern Growth,FP-Growth)算法来发现频繁项集。算法只需扫描事务数据库两次,其计算过程主要由以下两步构成:

    • 构造FP-树
    • 生成频繁项集

    举例说明:构造FP-树
    对下表所示的事务数据库T,假设最小支持数MinS=2,试构造它的FP-树
    在这里插入图片描述

    冒号后面的数字代表有多少个事务含有该商品,例如 a:8,代表有8个事务中含有商品a
    在这里插入图片描述
    注意:上图仅仅是了解如何构造fp树,对于该题并没有做完,还需要进行剪枝(即满足最小支持数为2)

    Q6. 提升度
    • 提升度(lift) 是一种简单的相关性度量
    • 对于项集A和B,如果概率P(A ⋃ \bigcup B) = P(A)P(B),则A和B是相互独立的,否则它们就存在某种依赖关系
    • Lift(A,B)=P(A ⋃ \bigcup B)/(P(A)) × \times ×P(B))=(P(A ⋃ \bigcup B)/P(A))/P(B)
    • Lift(A,B)=Confidence(A ⇒ \Rightarrow B)/Support(B)
    • 如果Lift(A,B)的值大于1表示二者存在正相关,而小于1表示二者存在负相关。若其值等于1,则表示二者没有任何关系

    课后练习题

    8. 设有交易数据库如表8-17所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集 + 9. 对如表8-17所示的交易数据库,令MinC=0.6,试在习题8所得频繁项集的基础上,求出所有的强关联规则

    在这里插入图片描述

    10. 设有交易数据库如表8-18所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集 + 11. 对如表8-18所示的交易数据库,令MinC=0.6,试在习题10所得频繁项集的基础上,求出所有的强关联规则

    在这里插入图片描述

    ch09 分类规则挖掘

    课内重点

    Q1. 数据分类的目的

    从历史数据记录中自动地推导出已知数据的趋势,使其能够对未来的新数据进行预测

    Q2. 分类规则挖掘
    • 通过对由分类标号的训练集进行分析处理(称为有监督的学习),找到一个数据分类函数或分类模型(也称为分类器)
    • 对训练集以外的、没有分类标号的任意样本点Zu,该模型都能够将其映射到给定类别集合中的某一个类别,即给出Zu可能的类别标号
    Q3. 分类分析的三个步骤
    • 挖掘分类规则(建立分类器或分类模型)
    • 分类规则评估
    • 分类规则应用

    具体内容:
    挖掘分类规则

    • 先将一个已知类别标号的数据样本集(也称为示例数据库)随机地划分为训练集S(通常占2/3)测试集T两部分
    • 通过分析S中的所有样本点(数据对象),为每个类别做出准确的特征描述,或建立分类模型,或挖掘出分类规则。这一步也称为有监督的学习,即 在模型建立之前就被告知每个训练样本
    • 定义:对于给定的训练样本数据集S和分类属性C= { \lbrace {C1,C2,…,Ck } \rbrace },如果能找到一个函数f 满足以下条件,则称函数f为分类器,或分类规则,或分类方法,器寻找过程称为分类规则挖掘
      • f: S → \rightarrow C,即f是S到C的一个映射;
      • 对于每个Xi ∈ \in S存在唯一Cj使f(Xi)=Cj,并记Cj= { \lbrace { Xi | f(Xi)=Cj,1 ≤ \leq j ≤ \leq k,Xi ∈ \in S } \rbrace }

    分类规则评估

    • 对测试集T中的样本点,若有N个样本点被分类模型正确地分类,则分类模型在测试集T上的准确率定义为 “正确预测数/预测总数”,即准确率=N/|T|
    • 由于T中的样本点已有分类标识,很容易统计分类器对T中样本进行正确分类的准确率,加之T中样本是随机选取的,且完全独立于训练集S,其测试准确率高就说明分类模型是可用的
    • 若直接使用训练集S进行评估,则其评估结果完全可能是乐观的,即准确率很高,但因为分类模型是由S学习而得到的,它会倾向于过分拟合训练集S,而对S以外的其他数据对象进行分类却可能很不准确。因此,交叉验证法来对模型进行评估是更合理的方法

    分类规则应用

    • 如果评估分类模型的准确率可以接受,接下来就是利用这个分类器对没有类别标号的数据集Z进行分类
      在这里插入图片描述
    • 即从Z中任意取出一个样本点Zu,将其输入分类器,得到的类别标号就是Zu所属的类别集合
    Q4. k-最近邻分类法
    • k-最近邻(k-Nearest Neighbour,KNN)分类法是一种基于距离的分类算法,它既不需要事先建立分类模型,也无需对分类模型进行评估,而仅利用有类别标号的样本集,直接对没有类别标号的数据对象Zu进行分类,即确定其类别标号
    • 假定样本集S中每个数据点都有一个唯一的类别标号,每个类别标识Cj中都有多个数据对象。对于一个没有标识的数据点Zu,k-最近邻分类法遍历搜索样本集S,找出距离Zu最近的k个样本点,即k-最近邻集N,并将其中多数样本的类别标号分配给Zu

    例题
    设某公司现有15名员工的基本信息,包括其个子为高个、中等、矮个的分类标识
    在这里插入图片描述

    公司现刚招进一位名叫刘萍的新员工Z1,令k=5,试采用k-最近邻分类算法判断员工刘萍的个子属于哪一类
    在这里插入图片描述
    解:

    • 只有身高才是与个子高矮相关的属性,因此用Xi表示第i个员工的身高
    • 首先从X中选择5个员工作为初始k-最近邻集N。不失一般性,取N={X1=1.60,X2=2.00,X3=1.90,X4=1.88,X5=1.70}
    • 对S的X6=1.85,身高X2=2.00是N中与身高Z1=1.62 差距最大的员工且有d(Z1,X2)>d(Z1,X6),因此,在N中用X6 替换 X2得到N={X1=1.60,X6=1.85 ,X3=1.90,X4=1.88,X5=1.70}
    • 同理,用S中X7=1.59 替换 N中身高距离Z1=1.65最大的员工X3=1.90,得到N={X1=1.60,X6=1.85,X7=1.59,X4=1.88,X5=1.70}
    • 用X8=1.70 替换 N中距离Z1最大的员工X6=1.85,得到N={X1=1.60,X8=1.70,X7=1.59,X4=1.88,X5=1.70}
    • 因为S中的X9=2.20和X10=2.10,故根据算法,N 不需要改变
    • 用X11=1.8 替换 N中X4=1.88得N={X1=1.60,X8=1.70,X7=1.59,X11=1.80,X5=1.70};
    • 因为S中的X12=1.95,X13=1.90,X14=1.80,故N 不需要改变
    • 用X15=1.75 替换 N中X11=1.8得N={X1=1.60,X8=1.70,X7=1.59,X15=1.75,X5=1.70};
    • 由上所得N中,有5个身高最接近Z1=1.62的员工,且其X1=1.60,X8=1.70,X7=1.59, X5=1.70这4个员工的类别都是“矮个”,仅有X15=1.75的类别是“中等”;因此,新员工Z1=刘萍的个子为矮个
    Q5. 决策树的概念

    在这里插入图片描述
    决策树是一棵有向树,也称为根树,它由矩形结点、椭圆型结点和有向边构成。

    • 根结点(root node),用矩形表示,如“天气”结点,它没有入边,但有零条或多条出边。其中的字串“天气”是样本集属性名称
    • 内部结点(internal node),用矩形表示。如“温度”结点,它恰有一条入边,但有两条或多条出边。“温度”是样本集属性名称
    • 叶结点(leaf node)或终结点(terminal node),用椭圆表示,如“是”结点,恰有一条入边,但没有出边。椭圆形里的“是”等字符串是样本集的一个类别标号
    • 每条有向边都用其出点的属性值标记,如“晴天”,“多云”、“雨天”是其出点“天气”属性的三种取值

    通常,一个属性有多少种取值,就从该结点引出多少条有向边,每一条边代表属性的一种取值

    Q6. Hunt算法

    Hunt算法是Hunt等人1966年提出的决策树算法,它在选择划分训练集的属性时采用贪心策略,将训练集相继划分成较纯(包括更少类别)的子集,以递归方式建立决策树,并成为许多决策树算法的衍生框架,包括ID3C4.5

    假设结点h对应的样本集用Sh表示,而C= { \lbrace {C1,C2,…,Ck } \rbrace }是其类别属性,则Hunt算法的递归定义如下:

    • 如果Sh中所有样本点都属性同一个类Ch,则h为叶结点,并用分类标号Ch标记该结点
    • 如果Sh包含多个类别的样本点,则选择一个 “好” 的属性A,以属性A命名h并作为一个内部结点
    • 按照属性A的取值将Sh划分为较小的子集,并为每个子集创建A的子结点
    • 把A的每个子结点作为h结点,递归地调用Hunt算法

    Hunt算法的停止

    • 简单策略:分裂结点直到所有的记录都属于同一个类,或者所有的记录都具有相同的属性值
    • 其他策略:在实际过程中还可能出现其他情况,应该考虑其它的标准来提前终止决策树的生长过程,如下所示:
      • 子结点为空
      • 训练集Sh属性值完全相同,但类别标号却不同
    Q7. ID3分类方法
    • ID3分类算法以信息论的信息熵为基础,以信息增益度为“属性测试条件”,并选择信息增益最大的属性对训练集进行分裂,从而实现数据的归纳分类
    • 熵:最早来源于统计热力学,它是热力学系统混乱程度的一种度量。系统的混乱程度越低,其熵值就越小
    • 优点
      • 模型理解容易:可方便地提取“如果-则”形式的分类规则
      • 噪声影响较小:信息增益计算使用当前的所有训练样本,可以降低个别错误样本点带来的影响
      • 分类速度较快,对未知类别标号的样本Zu,只需从树根开始搜索一条分裂属性值与Zu对应属性值相等的一条路径,即可对Zu分类
    • 缺点
      • 只能处理离散属性数据
      • 不能处理有缺失的数据
      • 仅是局部最优的决策树:ID3采用贪心算法,结果非全局最优
      • 偏好取值种类多的属性:ID3采用信息增益作为选择分裂属性的度量标准,但大量的研究分析与实际应用发现,信息增益偏向于选择属性值个数较多的属性,而属性取值个数较多的属性并不一定是最优或分类能力最强的属性
    Q8. C4.5算法

    C4.5算法不仅继承了ID3算法的优点,并增加了对连续型属性和属性值空缺情况的处理,对树剪枝也使用了当时更为成熟的方法

    Q9. 贝叶斯分类方法

    贝叶斯(Bayes)分类方法是以贝叶斯定理为基础的一系列分类算法的总称。贝叶斯定理就是以研究者Thomas Bayes的姓氏命名的,他是一位英国牧师,也是18世纪概率论和决策论的早期研究者之一

    • 朴素贝叶斯分类器
    • 树扩展的朴素贝叶斯分类器
    • 贝氏增强网络朴素贝叶斯分类器
    • 贝叶斯多网分类器
    • 一般贝叶斯网络分类器
    展开全文
  • 信息论基础(学习笔记整理)

    万次阅读 多人点赞 2019-06-08 13:24:12
    整理信息论基础的知识点

    在这里插入图片描述
    信源:产生消息或消息序列的来源。
    信宿:消息传送的终点(人或机器)。
    信道:信号由发送端传输到接收端的媒介。

    通信系统理论模型

    在这里插入图片描述

    如何提高信息系统的可靠性、有效性、保密性、认证性

    信息论是将通信技术、概率论、随机过程、数理统计等学科相结合逐步发展而形成的一门新兴科学。

    奠基人:美国数学家香农 (C. E. Shannon),1948年发表了著名的论文 “通信的数学理论” ,为信息论奠定了理论基础。

    半个世纪以来,以通信理论为核心的经典信息论,以“信息技术”为物化手段向高精尖方向发展,神奇般的把人类推向信息时代,已经超越了狭义的通信工程的范畴,进入了信息科学这一更广阔、更新兴的领域。

    在香农信息论的指导下,人们在信源编码和信道编码两个领域进行了卓有成效的研究,在提高通信系统信息传输的有效性和可靠性上取得了丰硕成果。

    作为科学术语,最早是哈特莱(R. V. Hartley)在1928年发表的《信息传输》一文中提出:“发信者所发出的信息,就是他在通信符号表中选择符号的具体方式”。定义不涉及到信息的价值和具体内容,只考虑选择的方式,但没有考虑各种可能选择方法的统计特性。
    1948年,维纳 (N. Wiener)首次将信息与物质、能量相提并论。信息就是信息,不是物质也不是能量。将“信息”上升到“最基本概念”的位置。
    从维纳的观点,物质、能量和信息是相互有区别的,是人类社会赖以生存、发展的三大基础:世界由物质组成,能量是一切物质运动的动力,信息是人类了解自然及人类社会的凭据。

    信息的一般概念

    信息是信息论中最基本、最重要的概念,既抽象又复杂。而在日常生活中,信息常常被认为是“消息”、“知识”、“情报”等。

    “信息”不同于情报

    情报是人们对于某个特定对象所见、所闻、所理解而产生的知识,其含义比“信息”窄的多。情报 (intelligence) 与信息(information) 有着严格的区别,情报是指经过慎密分析得到的特殊的信息,可作为决策的依据,它只是一类特定的信息,不是信息的全体。

    “信息”不同于知识

    知识是人们根据需要,从自然界收集得来的数据中提取得到的有价值的信息,它们是对客观事物规律性的概括,是一种具有普遍性和概括性的高层次的信息。

    信息的一般概念

    区分消息、信号、信息

    消息

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    信号

    在这里插入图片描述
    在这里插入图片描述

    信息

    在这里插入图片描述

    信息、消息和信号

    1. 消息是信息的载体,不同的消息可以包含相同的信息。同一信息,可以采用不同的消息形式(比如文字、语言、图象等)来载荷。例如球赛进展情况可用电视图像、广播语言、报纸文字等不同消息来表述。
    2. 信号携带着消息,它是消息的运载工具。同一信号形式,比如“0”与“1”,可以表达不同形式的信息,如无与有、断与通、低与高(电平)等等。
    3. 信息是由具体的物理信号、数学描述的消息的内涵。可理解为消息中包含的有意义的内容。

    信息量化

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    香农信息定义:

    信息是事物运动状态或存在方式的不确定性的描述。

    分析

    通信的过程是传输消息,消息的传递过程具有不确定性:
    收信者在收到消息之前,并不知道消息的具体内容;
    收信者在收到消息之后,由于干扰的存在,并不一定能确定所收到的消息是否正确与可靠。

    通信过程是一种消除上述不确定性的过程。

    原先的不确定性全部被消除了,就获得了全部的信息;若原先的不确定性没有任何消除,就没有获得任何信息。

    如果不确定性的大小能够度量,那么信息也是可以测度的。

    在这里插入图片描述
    概率越小——不确定性越大——信息量大

    通信系统的模型——信息论的研究对象

    1. 各种通信系统的本质都是信息传输系统。将他们具有共同特性的部分抽取出来,概括成一个统一的理论模型,通常称为通信系统模型。
    2. 通信系统模型正是信息论的研究对象。通过对系统中消息的传输和处理来研究信息传输和处理过程的共同规律,以提高信息传输的可靠性、有效性、保密性和认证性。

    编码器

    把消息变换成信号

    信源编码器

    将信源的输出进行适当的变换,以提高信息传输的有效性

    信道编码器

    对信源编码器的输出进行变换,用增加冗余度的方法提高信道的抗干扰能力,以提高信息传输的可靠性

    信道

    信号由发送端传输到接收端的媒介。典型的传输信道有明线、电缆、高频无线信道、微波通道和光纤通道等;典型的存储媒介有磁芯、磁鼓、磁盘、磁带等。

    干扰源

    对传输信道或存储媒介构成干扰的来源的总称。干扰或噪声往往具有随机性,所以信道的特征也可以用概率空间来描述;而噪声源的统计特性又是划分信道的依据。

    加性干扰:它是由外界原因产生的随机干扰,它与信道中传送的信号的统计特性无关,因而信道的输出是输入和干扰的叠加;

    乘性干扰:信道的输出信号可看成输入信号和一个时变参量相乘的结果。

    在这里插入图片描述

    调制器

    将信道编码器输出的数字序列变换为振幅、频率或相位受到调制控制的形式,以适合在信道中进行较长距离的传输。

    解调器

    从载波中提取信号,是调制的逆过程。

    信道译码器

    利用信道编码时所提供的冗余度,检查或纠正数字序列中的错误。

    信源译码器

    把经过信道译码器核对过的信息序列转换成适合接收者接收的信息形式。转换过程与信源编码方式相关。

    通信的结果

    通信的结果是消除或部分消除传递过程中的不确定性,从而获得准确的信息。

    数学期望

    在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
    在这里插入图片描述
    E[码元]=1×1/2 +2×1/4 +3×1/8×2=1+3/4

    信息论研究目的

    找到信息传输过程的共同规律,提高信息传输的可靠性、有效性、保密性和认证性,以达到信息传输系统的最优化。

    可靠性

    使信源发出的消息经过信道传输以后,尽可能准确地、不失真地再现于接收端。

    有效性

    用尽可能短的时间和尽可能少的设备来传送一定数量的信息。

    保密性

    隐蔽和保护通信系统中传送的消息,使它只能被授权接收者获取,而不能被未授权者接收和理解。

    认证性

    接收者能正确判断所接收的消息的正确性,验证消息的完整性,而不是伪造的和被窜改的。

    研究内容

    狭义信息论

    (经典信息论):主要研究信息的测度、信道容量、信源编码和信道编码等问题。这部分内容是信息论的基础理论,又称为香农信息论。

    一般信息论

    (工程信息论): 主要研究信息传输和处理问题,除了香农理论外,还包括编码理论、噪声理论、信号滤波和预测、统计检测和估计理论、调制理论、信息处理理论、保密理论等。

    广义信息论

    是现代信息科学理论,它是一门新兴的综合性学科,不仅包括上述两方面的内容,而且包括所有与信息有关的领域,如模式识别、计算机翻译、心理学、遗传学、生物学、神经生理学、语言学、语义学等,甚至包括了社会、人文、经济等学科中有关信息的问题。

    本课程主要研究香农信息理论。

    信息的度量(测度)

    样本空间、概率空间 、先验概率 、后验概率 、自信息 、互信息等。

    样本空间

    某事物所有可能选择的消息的集合(即该事物所有可能出现的不同状态)构成该事物的样本空间。每个可能选择的消息(或称一个事件)是这个空间的一个元素。

    概率测度

    对于一个离散的消息空间,为其中每一个可能选择的消息指定一个概率,构成这个样本空间的一个概率测度。

    概率空间

    一个样本空间和它的概率测度称为一个概率空间。
    一个样本空间 X={a1, a2, …, aq} 和它的概率测度P(X)={P(a1), P(a2), …, P(aq)}统称为一个概率空间,可用 [X, P] 来表示:
    在这里插入图片描述

    先验概率

    选择符号 ai 作为消息的概率 P(ai) 称为先验概率。

    后验概率

    接收端收到的消息(符号)为 bj ,而发送端发的是 ai 的概率 P(ai | bj) 称为后验概率。后验概率反映了在接收端收到的消息(符号)为 bj 后,对于发送端发送的是 ai ,尚存在不确定性。类似地,这种不确定性描述为:
    在这里插入图片描述

    自信息

    在接收端,选择 ai 作为消息(猜测事件 ai 发生)的不确定性(与 ai 作为消息的先验概率成反比),表示为 :
    在这里插入图片描述
    称为 ai 的自信息。自信息描述了 ai 本身携带的信息量,与接收端无关。

    互信息

    收信者收到消息(符号) bj 后,将事件 ai 先验的不确定性(自信息)减去尚存在的不确定性定义为互信息:
    在这里插入图片描述
    互信息被认为是此时收信者获得的信息量。

    离散信源及信息熵

    在这里插入图片描述
    在这里插入图片描述

    离散信源

    在这里插入图片描述
    信源输出的消息用随机矢量描述
    信源输出的消息用随机过程描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    数学表示

    P(x,y)= P(x) P(y|x)
    在这里插入图片描述
    数学表示:
    P(x,y)= P(x) P(y|x)
    联合概率 条件概率:在x的前提下,y的概率。

    无记忆

    P(x,y)=P(x) P(y)
    在这里插入图片描述若记忆长度为m+1,则称这种有记忆信源为m阶马尔可夫信源。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    自信息、自信息量

    自信息量的度量方法

    消息ai 发生所含有的信息量称为消息ai 的自信息量。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    自信息量相减——确定的部分——获得的信息量

    不确定度 、自信息量,具有相同的量纲

    获得的信息量=之前—之后的不确定度
    在这里插入图片描述
    假设一条电线上串联8个灯泡,这8个灯泡损坏的可能性是等概率的,现假设这8个灯泡有一个且只有1个已经损坏,让我们检查判断哪一个灯泡损坏并分析信息获取的过程。
    在这里插入图片描述
    用万用表进行检查判断(二分法)
    在这里插入图片描述
    第一次获得的信息量
    在这里插入图片描述
    第二次获得的信息量
    在这里插入图片描述
    第三次获得的信息量
    在这里插入图片描述

    结论

    收到某消息获得的信息量
    =不确定性减少的量
    =(收到消息前某事件发生的不确定性)
    -(收到消息后关于该事件的不确定性)

    自信息是指某一消息所含有的信息量,消息不同,所含有的信息量也不同,不能用它作为整个信源的信息测度。

    几种概率

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    贝叶斯公式

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    互信息量

    在这里插入图片描述

    收到yi,获得xi的信息量是多少?

    在这里插入图片描述
    在这里插入图片描述

    互信息量的性质

    对称性

    在这里插入图片描述

    值域为实数

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    不大于其中任一事件的自信息量

    在这里插入图片描述

    信息熵

    在这里插入图片描述
    单位:比特/符号。(底数不同,单位不同)
    信源的信息熵H考虑的是整个信源的统计特性。它是从平均意义上来表征信源的总体信息测度。

    对于某特定的信源(概率空间给定),其信息熵是个确定的数值。
    不同的信源因统计特性不同,其熵也不同。
    在这里插入图片描述

    信源熵的物理意义

    1. 信源熵H(X)表示信源输出后,每个消息(或符号)所提供的平均信息量。
    2. 信源熵H(X)表示信源输出前,信源的平均不确定性。
    3. 信源熵H(X)反映了变量X的随机性。

    在这里插入图片描述

    在这里插入图片描述

    重要公式

    在这里插入图片描述
    在这里插入图片描述

    联合自信息量

    在这里插入图片描述
    在这里插入图片描述

    条件自信息量

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    信息熵

    信源发出的消息可能有很多个,每个消息的自信息不一样,因此,我们对整个信源进行度量的时候,需要进行统计平均。这个统计平均的过程,也就是求离散消息自信息量的数学期望,——信源的平均自信息量,也就是信息熵
    在这里插入图片描述
    单位:比特/符号。(底数不同,单位不同)

    信源的信息熵H考虑的是整个信源的统计特性。它是从平均意义上来表征信源的总体信息测度。

    考虑的不是单个符号,而是信源的整体测度,是表示该信源每输出一个符号,平均给出多少信息量,不考虑具体输出哪个符号。

    信源平均每个符号或者每个消息含有多少信息量。

    在这里插入图片描述

    联合熵

    定义:联合离散符号集XY上的每个元素对 xiyj的联合自信息量的数学期望,用H(XY)表示。

    两个随机变量X和Y既可以表示两个单符号离散信源的输出,也可以表示一个离散信源输出的两个符号,还可以表示信道输入和信道输出(信源、信宿)。

    在这里插入图片描述
    在这里插入图片描述
    意义:表示联合离散符号集XY上的每个元素对平均提供的信息量或平均不确定性,单位为比特/符号对。

    信源熵(信源的平均自信息量):信源每个消息(或符号)所提供的平均信息量,或者信源的平均不确定性(度)。

    在这里插入图片描述

    条件熵

    在这里插入图片描述

    条件熵 H(X|Y)、H(Y|X)

    在这里插入图片描述
    在这里插入图片描述
    (1) 事件和集合的条件熵(先对X取平均)在这里插入图片描述
    在这里插入图片描述
    推导:
    在这里插入图片描述
    2) 集合和集合的条件熵(再对Y取平均)在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    两个随机变量X和Y既可以表示两个单符号离散信源的输出,也可以表示一个离散信源输出的两个符号,还可以表示信道输入和信道输出(信源、信宿)。

    物理意义

    在Y已知条件下,符号X提供的平均信息量;
    在Y已知条件下,仍然对X存在的平均不确定性;
    信宿Y平均每收到一个消息,对信源X的平均不确定度(由传输失真造成)。
    信道提供的平均信息量

    各类熵之间的关系

    1. 条件熵不大于无条件熵

    在这里插入图片描述
    已知Y时X的不确定性应小于或等于对于Y一无所知时X的不确定性。

    如果X和Y有关联性,从Y得到了一些关于X的信息,从而使X的不确定性降低;

    如果X和Y相互独立,则等号成立。

    在这里插入图片描述

    2. 可加性

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    联合熵永远小于或等于信源熵+信宿熵, X和Y相互独立时相等。

    在这里插入图片描述

    平均互信息量的三个表达式:

    在这里插入图片描述
    在这里插入图片描述

    转移概率

    一般通信模型:
    在这里插入图片描述
    由于信道中存在噪声干扰,因此符号在传输中会产生错误,这种信道干扰对传输信号的影响可用条件概率来描述。这个条件概率就集中体现了信道对符号的传递作用。
    (信道的)转移概率(m×n个):
    在这里插入图片描述
    P(xi)概率分布 反映信源的特性
    转移概率分布反映信道的特性
    为方便记录,用转移矩阵表示一般信道的转移概率:
    (信道的)转移概率:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    1. 已知信源概率和转移概率
    2. 已知联合概率

    在这里插入图片描述
    从Y中获得的关于X的信息量,与从X中获得的关于Y的信息量,二者是相等的。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    上凸性表明:

    当固定某信道时,选择不同概率分布的信源与信道连接,在信道输出端接收到每个符号后,获得的信息量是信源概率分布的上凸函数。

    转移概率固定,即p(yj|xi)固定
    即:有一个信源分布,就对应一个平均互信息量

    因此,
    平均信息量存在极大值。
    对于每一个固定信道,一定存在某种概率分布的信源,使得输出端获得的平均信息量最大!
    也就是说,对于固定的信道,在传输信息时信道能否提供其最大的传输能力,取决于信源的概率分布

    N重扩展信源 (第二章 )

    离散无记忆信源
    离散有记忆信源

    离散信源的信源编码(第五章 )

    信息传输速率、编码效率、单义可译定理

    一、 发出单符号消息的离散无记忆信源

    在这里插入图片描述
    在这里插入图片描述                                                        在这里插入图片描述
    在这里插入图片描述

    二、离散无记忆信源的扩展信源

    1、二次(重)扩展信源

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2、三次扩展信源

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3、N 次扩展信源

    在这里插入图片描述

    4、任意 n 进制离散无记忆信源的N次扩展信源

    在这里插入图片描述

    二次(重)扩展信源的熵 (无记忆)

    在这里插入图片描述
    在这里插入图片描述

    N次(重)扩展信源的熵 (前提:无记忆)

    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述

    三、离散有记忆信源的扩展信源

    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    或:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    第三章 离散信源的信源编码(无失真信源编码)

    通信的实质是信息的传输。 高效率、高质量地传送信息却又是信息传输的基本问题! 这就需要解决两个问题:

    第一,在不失真或允许一定失真的条件下,如何用尽可能少的符号来传送信源信息;

    第二,在信道受干扰的情况下,如何增加信号的抗干扰能力,同时又使得信息传输率最大。

    为了解决这两个问题,就要引入信源编码和信道编码。
    信源编码的主要任务就是减少冗余,提高编码效率。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    单义可译定理

    平均码长界定定理

    无失真信源编码定理(香农第一定理)

    编码:霍夫曼编码、费诺编码

    如果在接收端收到一个完整的码字后,就能立即进行译码,这样的码叫做即时码;
    而在接收端收到一个完整的码字后,还需等下一个码字接收后才能判断是否可以译码,这样的码叫做非即时码。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    单义可译? 即时码?
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    编码:霍夫曼编码、费诺编码

    在这里插入图片描述
    在这里插入图片描述
    概率接近,码长应该接近;
    基本符合概率小,码长长。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    霍夫曼编码得到的码并非唯一。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 计算机网络技术知识点

    千次阅读 2019-06-04 17:16:47
    计算机网络 (连接分散计算机设备以实现信息传递的系统) 本词条由“科普中国”科学百科词条编写应用工作项目 审核 。 计算机网络是指将地理...中文名 计算机网络 使用领域 互联网 功 能 信息的传输共享 类 别 ...

    计算机网络 (连接分散计算机设备以实现信息传递的系统)
    本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。
    计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和 [1] 信息传递的计算机系统。
    中文名 计算机网络 使用领域 互联网 功 能 信息的传输与共享 类 别 网络操作系统
    目录
    1 定义分类
    ▪ 按广义
    ▪ 按连接
    ▪ 按需求
    2 发展历程
    ▪ 早期年代
    ▪ 分组交换
    ▪ 因特网时代
    3 组成分类
    4 主要网络
    ▪ 局域网
    ▪ 城域网
    ▪ 广域网
    ▪ 无线网
    5 性能
    6 体系结构
    7 无线网络
    8 认证协议
    9 协议分层
    10 常用网络
    ▪ 以太网
    ▪ 令牌环网
    ▪ FDDI网
    ▪ ATM网
    ▪ 无线局域网
    11 划分方式
    12 相关应用
    定义分类编辑
    按广义
    计算机网络也称计算机通信网。关于计算机网络的最简单定义是:一些相互连接的、以共享资源为目的的、自治的计算机的集合。若按此定义,则早期的面向终端的网络都不能算是计算机网络,而只能称为联机系统(因为那时的许多终端不能算是自治的计算机)。但随着硬件价格的下降,许多终端都具有一定的智能,因而“终端”和“自治的计算机”逐渐失去了严格的界限。若用微型计算机作为终端使用,按上述定义,则早期的那种面向终端的网络也可称为计算机网络。 [2]
    另外,从逻辑功能上看,计算机网络是以传输信息为基础目的,用通信线路将多个计算机连接起来的计算机系统的集合,一个计算机网络组成包括传输介质和通信设备。
    从用户角度看,计算机网络是这样定义的:存在着一个能为用户自动管理的网络操作系统。由它调用完成用户所调用的资源,而整个网络像一个大的计算机系统一样,对用户是透明的。
    一个比较通用的定义是:利用通信线路将地理上分散的、具有独立功能的计算机系统和通信设备按不同的形式连接起来,以功能完善的网络软件及协议实现资源共享和信息传递的系统。
    从整体上来说计算机网络就是把分布在不同地理区域的计算机与专门的外部设备用通信线路互联成一个规模大、功能强的系统,从而使众多的计算机可以方便地互相传递信息,共享硬件、软件、数据信息等资源。简单来说,计算机网络就是由通信线路互相连接的许多自主工作的计算机构成的集合体。
    最简单的计算机网络就只有两台计算机和连接它们的一条链路,即两个节点和一条链路。
    按连接
    计算机网络就是通过线路互连起来的、自治的计算机集合,确切的说就是将分布在不同地理位置上的具有独立工作能力的计算机、终端及其附属设备用通信设备和通信线路连接起来,并配置网络软件,以实现计算机资源共享的系统。
    按需求
    计算机网络就是由大量独立的、但相互连接起来的计算机来共同完成计算机任务。这些系统称为计算机网络(computer networks) [3]
    发展历程编辑
    中国计算机网络设备制造行业是改革开放后成长起来的,早期与世界先进水平存在巨大差距;但受益于计算机网络设备行业生产技术不断提高以及下游需求市场不断扩大,我国计算机网络设备制造行业发展十分迅速。近两年,随着我国国民经济的快速发展以及国际金融危机的逐渐消退,计算机网络设备制造行业获得良好发展机遇,中国已成为全球计算机网络设备制造行业重点发展市场。
    2010年我国计算机网络设备制造行业规模以上企业有171家,全年实现销售收入385.70亿元,同比增长15.64%;实现利润总额39.83亿元,同比增长24.93%;产品销售利润为72.18亿元,同比增长44.34%。2011年,在国内宏观经济向好的环境及电信产业投资高速增长产生的需求带动下,计算机网络设备制造行业将继续保持较好发展。2011年1-5月,计算机网络设备制造行业销售收入较上年同期增长19.78%;利润总额较上年同期增长48.61%;产品销售利润则较上年同期增长42.36%。
    我国计算机网络设备制造企业主要分布在华东和华南地区,其中又以广东、江苏、浙江三地企业分布最为集中,且是全国计算机网络设备制造行业发展领先的地区,2010年行业销售收入均在84亿元以上。与此同时,四川、湖北及上海地区的计算机网络设备制造行业也得到了快速发展,2010年销售收入增长率均在30%以上。
    第一代计算机网络—远程终端联机阶段;
    第二代计算机网络—计算机网络阶段;
    第三代计算机网络—计算机网络互联阶段;
    第四代计算机网络—国际互联网与信息高速公路阶段;
    早期年代
    过去人们开始将彼此独立发展的计算机技术与通信技术结合起来,完成了数据通信与计算机通信网络的研究,为计算机网络的出现做好了技术准备,奠定了理论基础。
    分组交换
    网络符号
    网络符号
    20世纪60年代,美苏冷战期间,美国国防部领导的远景研究规划局ARPA提出要研制一种崭新的网络对付来自前苏联的核攻击威胁。因为当时,传统的电路交换的电信网虽已经四通八达,但战争期间,一旦正在通信的电路有一个交换机或链路被炸,则整个通信电路就要中断,如要立即改用其他迂回电路,还必须重新拨号建立连接,这将要延误一些时间。这个新型网络必须满足一些基本要求:
    1:不是为了打电话,而是用于计算机之间的数据传送。
    2:能连接不同类型的计算机。
    3:所有的网络节点都同等重要,这就大大提高了网络的生存性。
    4:计算机在通信时,必须有迂回路由。当链路或结点被破坏时,迂回路由能使正在进行的通信自动地找到合适的路由。
    5:网络结构要尽可能地简单,但要非常可靠地传送数据。
    根据这些要求,一批专家设计出了使用分组交换的新型计算机网络。而且,用电路交换来传送计算机数据,其线路的传输速率往往很低。因为计算机数据是突发式地出现在传输线路上的,比如,当用户阅读终端屏幕上的信息或用键盘输入和编辑一份文件时或计算机正在进行处理而结果尚未返回时,宝贵的通信线路资源就被浪费了。
    分组交换是采用存储转发技术。把欲发送的报文分成一个个的“分组”,在网络中传送。分组的首部是重要的控制信息,因此分组交换的特征是基于标记的。分组交换网由若干个结点交换机和连接这些交换机的链路组成。从概念上讲,一个结点交换机就是一个小型的计算机,但主机是为用户进行信息处理的,结点交换机是进行分组交换的。每个结点交换机都有两组端口,一组是与计算机相连,链路的速率较低。一组是与高速链路和网络中的其他结点交换机相连。注意,既然结点交换机是计算机,那输入和输出端口之间是没有直接连线的,它的处理过程是:将收到的分组先放入缓存,结点交换机暂存的是短分组,而不是整个长报文,短分组暂存在交换机的存储器(即内存)中而不是存储在磁盘中,这就保证了较高的交换速率。再查找转发表,找出到某个目的地址应从那个端口转发,然后由交换机构将该分组递给适当的端口转发出去。各结点交换机之间也要经常交换路由信息,但这是为了进行路由选择,当某段链路的通信量太大或中断时,结点交换机中运行的路由选择协议能自动找到其他路径转发分组。通讯线路资源利用率提高:当分组在某链路时,其他段的通信链路并不被通信的双方所占用,即使是这段链路,只有当分组在此链路传送时才被占用,在各分组传送之间的空闲时间,该链路仍可为其他主机发送分组。可见采用存储转发的分组交换的实质上是采用了在数据通信的过程中动态分配传输带宽的策略。
    因特网时代
    Internet的基础结构大体经历了三个阶段的演进,这三个阶段在时间上有部分重叠。
    因特网
    因特网
    1:从单个网络ARPAnet向互联网发展:1969年美国国防部创建了第一个分组交换网ARPAnet只是一个单个的分组交换网,所有想连接在它上的主机都直接与就近的结点交换机相连,它规模增长很快,到70年代中期,人们认识到仅使用一个单独的网络无法满足所有的通信问题。于是ARPA开始研究很多网络互联的技术,这就导致后来的互联网的出现。1983年TCP/IP协议称为ARPAnet的标准协议。同年,ARPAnet分解成两个网络,一个进行试验研究用的科研网ARPAnet,另一个是军用的计算机网络MILnet。1990,ARPAnet因试验任务完成正式宣布关闭。
    2:建立三级结构的因特网:1985年起,美国国家科学基金会NSF就认识到计算机网络对科学研究的重要性,1986年,NSF围绕六个大型计算机中心建设计算机网络NSFnet,它是个三级网络,分主干网、地区网、校园网。它代替ARPAnet成为internet的主要部分。1991年,NSF和美国政府认识到因特网不会限于大学和研究机构,于是支持地方网络接入,许多公司的纷纷加入,使网络的信息量急剧增加,美国政府就决定将因特网的主干网转交给私人公司经营,并开始对接入因特网的单位收费。
    3:多级结构因特网的形成:1993年开始,美国政府资助的NSFnet就逐渐被若干个商用的因特网主干网替代,这种主干网也叫因特网服务提供者ISP,考虑到因特网商用化后可能出现很多的ISP,为了使不同ISP经营的网络能够互通,在1994创建了4个网络接入点NAP分别由4个电信公司经营,本世纪初,美国的NAP达到了十几个。NAP是最高级的接入点,它主要是向不同的ISP提供交换设备,使它们相互通信。因特网已经很难对其网络结构给出很精细的描述,但大致可分为五个接入级:网络接入点NAP,多个公司经营的国家主干网,地区ISP,本地ISP,校园网、企业或家庭PC机上网用户。
    组成分类编辑
    计算机网络的分类与一般的事物分类方法一样,可以按事物所具有的不同性质特点(即事物的属性)分类。计算机网络通俗地讲就是由多台计算机(或其它计算机网络设备)通过传输介质和软件物理(或逻辑)连接在一起组成的。总的来说计算机网络的组成基本上包括:计算机、网络操作系统、传输介质(可以是有形的,也可以是无形的,如无线网络的传输介质就是空间)以及相应的应用软件四部分。
    要学习网络,首先就要了解主要网络类型,分清哪些是我们初级学者 [3] 必须掌握的,哪些是的主流网络类型。
    主要网络编辑
    虽然网络类型的划分标准各种各样,但是从地理范围划分是一种大家都认可的通用网络划分标准。按这种标准可以把各种网络类型划分为局域网、城域网、广域网和互联网四种。局域网一般来说只能是一个较小区域内,城域网是不同地区的网络互联,不过在此要说明的一点就是这里的网络划分并没有严格意义上地理范围的区分,只能是一个定性的概念。下面简要介绍这几种计算机网络。
    局域网
    局域网
    局域网
    (Local Area Network;LAN) 通常我们常见的“LAN”就是指局域网,这是我们最常见、应用最广的一种网络。局域网随着整个计算机网络技术的发展和提高得到充分的应用和普及,几乎每个单位都有自己的局域网,有的甚至家庭中都有自己的小型局域网。很明显,所谓局域网,那就是在局部地区范围内的网络,它所覆盖的地区范围较小。局域网在计算机数量配置上没有太多的限制,少的可以只有两台,多的可达几百台。一般来说在企业局域网中,工作站的数量在几十到两百台次左右。在网络所涉及的地理距离上一般来说可以是几米至10公里以内。局域网一般位于一个建筑物或一个单位内,不存在寻径问题,不包括网络层的应用。
    这种网络的特点就是:连接范围窄、用户数少、配置容易、连接速率高。目前局域网最快的速率要算现今的10G以太网了。IEEE的802标准委员会定义了多种主要的LAN网:以太网(Ethernet)、令牌环网(Token Ring)、光纤分布式接口网络(FDDI)、异步传输模式网(ATM)以及最新的无线局域网(WLAN)。这些都将在后面详细介绍。
    城域网
    城域网示意图
    城域网示意图
    (Metropolitan Area Network;MAN) 这种网络一般来说是在一个城市,但不在同一地理小区范围内的计算机互联。这种网络的连接距离可以在10 ̄100公里,它采用的是IEEE802.6标准。MAN与LAN相比扩展的距离更长,连接的计算机数量更多,在地理范围上可以说是LAN网络的延伸。在一个大型城市或都市地区,一个MAN网络通常连接着多个LAN网。如连接政府机构的LAN、医院的LAN、电信的LAN、公司企业的LAN等等。由于光纤连接的引入,使MAN中高速的LAN互连成为可能。
    城域网多采用ATM技术做骨干网。ATM是一个用于数据、语音、视频以及多媒体应用程序的高速网络传输方法。ATM包括一个接口和一个协议,该协议能够在一个常规的传输信道上,在比特率不变及变化的通信量之间进行切换。ATM也包括硬件、软件以及与ATM协议标准一致的介质。ATM提供一个可伸缩的主干基础设施,以便能够适应不同规模、速度以及寻址技术的网络。ATM的最大缺点就是成本太高,所以一般在政府城域网中应用,如邮政、银行、医院等。
    广域网
    广域示意图
    广域示意图
    (Wide Area Network;WAN) 这种网络也称为远程网,所覆盖的范围比城域网(MAN)更广,它一般是在不同城市之间的LAN或者MAN网络互联,地理范围可从几百公里到几千公里。因为距离较远,信息衰减比较严重,所以这种网络一般是要租用专线,通过IMP(接口信息处理)协议和线路连接起来,构成网状结构,解决循径问题。这种城域网因为所连接的用户多,总出口带宽有限,所以用户的终端连接速率一般较低,通常为9.6Kbps ̄45Mbps 如:邮电部的CHINANET,CHINAPAC,和CHINADDN网。
    上面讲了网络的几种分类,其实在现实生活中我们真正遇得最多的还要算是局域网,因为它可大可小,无论在单位还是在家庭实现起来都比较容易,应用也是最广泛的一种网络,所以在下面我们有必要对局域网及局域网中的接入设备作一个进一步的认识。
    无线网
    随着笔记本电脑(notebook computer)和个人数字助理
    无线网
    无线网
    ( Personal Digital Assistant,PDA)等便携式计算机的日益普及和发展,人们经常要在路途中接听电话、发送传真和电子邮件阅读网上信息以及登录到远程机器等。然而在汽车或飞机上是不可能通过有线介质与单位的网络相连接的,这时候可能会对无线网感兴趣了。虽然无线网与移动通信经常是联系在一起的,但这两个概念并不完全相同。表1 - 2给出了它们之间的对比。例如当便携式计算机通过P C M C I A卡接入电话插口,它就变成有线网的一部分。另一方面,有些通过无线网连接起来的计算机的位置可能又是固定不变的,如在不便于通过有线电缆连接的大楼之间就可以通过无线网将两栋大楼内的计算机连接在一起。
    无线网特别是无线局域网有很多优点,如易于安装和使用。但无线局域网也有许多不足之处:如它的数据传输率一般比较低,远低于有线局域网;另外无线局域网的误码率也比较高,而且站点之间相互干扰比较厉害。用户无线网的实现有不同的方法。国外的某些大学在它们的校园内安装许多天线,允许学生们坐在树底下查看图书馆的资料。这种情况是通过两个计算机之间直接通过无线局域网以数字方式进行通信实现的。另一种可能的方式是利用传统的模拟调制解调器通过蜂窝电话系统进行通信。在国外的许多城市已能提供蜂窝式数字信息分组数据( Cellular Digital Packet Data,C D P D)的业务,因而可以通过C D P D系统直接建立无线局域网。无线网络是当前国内外的研究热点,无线网络的研究是由巨大的市场需求驱动的。无线网的特点是使用户可以在任何时间、任何地点接入计算机网络,而这一特性使其具有强大的应用前景。当前已经出现了许多基于无线网络的产品,如个人通信系统( Personal CommunicationS y s t e m,P C S)电话、无线数据终端、便携式可视电话、个人数字助理( P D A)等。无线网络的发展依赖于无线通信技术的支持。无线通信系统主要有:低功率的无绳电话系统、模拟蜂窝系统、数字蜂窝系统、移动卫星系统、无线L A N和无线WA N等。
    性能编辑
    计算机网络的性能一般是指它的几个重要的性能指标。但除了这些重要的性能指标外,还有一些非性能特征,它们对计算机网络的性能也有很大的影响。
    1.计算机网络的性能指标
    性能指标从不同的方面来度量计算机网络的性能。
    (1)速率
    计算机发送出的信号都是数字形式的。比特是计算机中数据量的单位,也是信息论中使用的信息量的单位。英文字bit来源于binary digit,意思是一个“二进制数字”,因此一个比特就是二进制数字中的一个1或0。网络技术中的速率指的是连接在计算机网络上的主机在数字信道上传送数据的速率,它也称为数据率(data rate)或比特率(bit rate)。速率是计算机网络中最重要的一个性能指标。速率的单位是bit/s(比特每秒)(即bit per second)。现在人们常用更简单的并且是很不严格的记法来描述网络的速率,如100M以太网,它省略了单位中的bit/s,意思是速率为100Mbit/s的以太网。
    (2)带宽
    “带宽”有以下两种不同的意义。
    ① 带宽本来是指某个信号具有的频带宽度。信号的带宽是指该信号所包含的各种不同频率成分所占据的频率范围。例如,在传统的通信线路上传送的电话信号的标准带宽是3.1kHz(从300Hz到3.4kHz,即话音的主要成分的频率范围)。这种意义的带宽的单位是赫(或千赫,兆赫,吉赫等)。
    ② 在计算机网络中,带宽用来表示网络的通信线路所能传送数据的能力,因此网络带宽表示在单位时间内从网络中的某一点到另一点所能通过的“最高数据率”。这里一般说到的“带宽”就是指这个意思。这种意义的带宽的单位是“比特每秒”,记为bit/s。
    (3)吞吐量
    吞吐量表示在单位时间内通过某个网络(或信道、接口)的数据量。吞吐量更经常地用于对现实世界中的网络的一种测量,以便知道实际上到底有多少数据量能够通过网络。显然,吞吐量受网络的带宽或网络的额定速率的限制。例如,对于一个100Mbit/s的以太网,其额定速率是100Mbit/s,那么这个数值也是该以太网的吞吐量的绝对上限值。因此,对100Mbit/s的以太网,其典型的吞吐量可能也只有70Mbit/s。有时吞吐量还可用每秒传送的字节数或帧数来表示。
    (4)时延
    时延是指数据(一个报文或分组,甚至比特)从网络(或链路)的一端传送到另一端所需的时间。时延是个很重要的性能指标,它有时也称为延迟或迟延。网络中的时延是由以下几个不同的部分组成的。
    ① 发送时延。
    发送时延是主机或路由器发送数据帧所需要的时间,也就是从发送数据帧的第一个比特算起,到该帧的最后一个比特发送完毕所需的时间。
    因此发送时延也叫做传输时延。发送时延的计算公式是:
    发送时延=数据帧长度(bit/s)/信道带宽(bit/s)
    由此可见,对于一定的网络,发送时延并非固定不变,而是与发送的帧长(单位是比特)成正比,与信道带宽成反比。
    ② 传播时延。
    传播时延是电磁波在信道中传播一定的距离需要花费的时间。传播时延的计算公式是:
    传播时延=信道长度(m)/电磁波在信道上的传播速率(m/s)
    电磁波在自由空间的传播速率是光速,即300000km/s。电磁波在网络传输媒体中的传播速率比在自由空间要略低一些。
    ③ 处理时延。
    主机或路由器在收到分组时要花费一定的时间进行处理,例如分析分组的首部,从分组中提取数据部分,进行差错检验或查找适当的路由等,这就产生了处理时延。
    ④ 排队时延。
    分组在经过网络传输时,要经过许多的路由器。但分组在进入路由器后要先在输入队列中排队等待处理。在路由器确定了转发接口后,还要在输出队列中排队等待转发。这就产生了排队时延。
    这样,数据在网络中经历的总时延就是以上四种时延之和:
    总时延=发送时延+传播时延+处理时延+排队时延
    (5)时延带宽积
    把以上讨论的网络性能的两个度量—传播时延和带宽相乘,就得到另一个很有用的度量:传播时延带宽积,即时延带宽积=传播时延×带宽。
    (6)往返时间(RTT)
    在计算机网络中,往返时间也是一个重要的性能指标,它表示从发送方发送数据开始,到发送方收到来自接收方的确认(接受方收到数据后便立即发送确认)总共经历的时间。
    当使用卫星通信时,往返时间(RTT)相对较长。
    (7)利用率
    利用率有信道利用率和网络利用率两种。信道利用率指某信道有百分之几的时间是被利用的(有数据通过),完全空闲的信道的利用率是零。网络利用率是全网络的信道利用率的加权平均值。
    2.计算机网络的非性能特征
    这些非性能特征与前面介绍的性能指标有很大的关系。
    (1)费用
    即网络的价格(包括设计和实现的费用)。网络的性能与其价格密切相关。一般说来,网络的速率越高,其价格也越高。
    (2)质量
    网络的质量取决于网络中所有构件的质量,以及这些构件是怎样组成网络的。网络的质量影响到很多方面,如网络的可靠性、网络管理的简易性,以及网络的一些性能。但网络的性能与网络的质量并不是一回事,例如,有些性能也还可以的网络,运行一段时间后就出现了故障,变得无法再继续工作,说明其质量不好。高质量的网络往往价格也较高。
    (3)标准化
    网络的硬件和软件的设计既可以按照通用的国际标准,也可以遵循特定的专用网络标准。最好采用国际标准的设计,这样可以得到更好的互操作性,更易于升级换代和维修,也更容易得到技术上的支持。
    (4)可靠性
    可靠性与网络的质量和性能都有密切关系。速率更高的网络,其可靠性不一定会更差。但速率更高的网络要可靠地运行,则往往更加困难,同时所需的费用也会较高。
    (5)可扩展性和可升级性
    网络在构造时就应当考虑到今后可能会需要扩展(即规模扩大)和升级(即性能和版本的提高)。网络的性能越高,其扩展费用往往也越高,难度也会相应增加。
    (6)易于管理和维护
    网络如果没有良好的管理和维护,就很难达到和保持所设计的性能。
    体系结构编辑
    要想让两台计算机进行通信,必须使它们采用相同的信息交换规则。我们把在计算机网络中用于规定信息的格式以及如何发送和接收信息的一套规则称为网络协议(network protocol)或通信协议(communication protocol)。
    为了减少网络协议设计的复杂性,网络设计者并不是设计一个单一、巨大的协议来为所有形式的通信规定完整的细节,而是采用把通信问题划分为许多个小问题,然后为每个小问题设计一个单独的协议的方法。这样做使得每个协议的设计、分析、编码和测试都比较容易。分层模型(layering model)是一种用于开发网络协议的设计方法。本质上,分层模型描述了把通信问题分为几个小问题(称为层次)的方法,每个小问题对应于一层。
    在计算机网络中要做到有条不紊地交换数据,就必须遵守一些事先约定好的规则。这些规则明确规定了所交换的数据格式以及有关的同步问题。这里所说的同步不是狭义的(即同频或同频同相)而是广义的,即在一定的条件下应当发生什么事件(如发送一个应答信息),因而同步含有时序的意思。这些为进行网络中的数据交换而建立的规则、标准或约定称为网络协议,网络协议也可简称为协议。网络协议主要由以下三个要素组成。
    ① 语法,即数据与控制信息的结构或格式。
    ② 语义,即需要发出何种控制信息,完成何种动作以及做出何种响应。
    ③ 同步,即事件实现顺序的详细说明。
    网络协议是计算机网络的不可缺少的组成部分。
    协议通常有两种不同的形式。一种是使用便于人来阅读和理解的文字描述,另一种是使用计算机能够理解的程序代码。
    对于非常复杂的计算机网络协议,其结构应该是层次式的。分层可以带来许多好处。
    ① 各层之间是独立的。某一层并不需要知道它的下一层是如何实现的,而仅仅需要知道该层通过层间的接口(即界面)所提供的服务。由于每一层只实现一种相对独立的功能,因而可将一个难以处理的复杂问题分解为若干个较容易处理的更小一些的问题。这样,整个问题的复杂程度就下降了。
    ② 灵活性好。当任何一层发生变化时(例如由于技术的变化),只要层间接口关系保持不变,则在这层以上或以下各层均不受影响。此外,对某一层提供的服务还可进行修改。当某层提供的服务不再需要时,甚至可以将这层取消。
    ③ 结构上可分割开。各层都可以采用最合适的技术来实现。
    ④ 易于实现和维护。这种结构使得实现和调试一个庞大而又复杂的系统变得易于处理,因为整个的系统已被分解为若干个相对独立的子系统。
    ⑤ 能促进标准化工作。因为每一层的功能及其所提供的服务都已有了精确的说明。
    分层时应注意使每一层的功能非常明确。若层数太少,就会使每一层的协议太复杂。但层数太多又会在描述和综合各层功能的系统工程任务时遇到较多的困难。
    我们把计算机网络的各层及其协议的集合,称为网络的体系结构。换种说法,计算机网络的体系结构就是这个计算机网络及其构件所应完成的功能的精确定义。需要强调的是:这些功能究竟是用何种硬件或软件完成的,则是一个遵循这种体系结构的实现的问题。体系结构的英文名词architecture的原意是建筑学或建筑的设计和风格。但是它和一个具体的建筑物的概念很不相同。我们也不能把一个具体的计算机网络说成是一个抽象的网络体系结构。总之,体系结构是抽象的,而实现则是具体的,是真正在运行的计算机硬件和软件。
    图5.8所示是计算机网络体系结构示意图。
    图5.8 计算机网络体系结构表示图
    图5.8 计算机网络体系结构表示图
    其中图5.8(a)是OSI的七层协议体系结构图、图5.8(b)是TCP/IP四层体系结构、图5.8(c)是五层协议的体系结构。五层协议的体系结构综合了前两种体系结构的优点,既简洁又能将概念阐述清楚。
    无线网络编辑
    近年来,无线蜂窝电话通信技术得到了飞速发展。人们也希望能够在移动通信中使用计算机网络。随着便携机和个人数字助理(PDA)的普遍使用,无线计算机网络也逐渐流行起来。
    1.无线局域网(WLAN)
    无线局域网提供了移动接入的功能,这就给许多需要发送数据但又不能坐在办公室的工作人员提供了方便。当大量持有便携式电脑的用户都在同一个地方同时要求上网时,若用电缆连网,那么布线就是个很大的问题。这时若采用无线局域网则比较容易。
    无线局域网可分为两大类。第一类是有固定基础设施的,第二类是无固定基础设施的。所谓“固定基础设施”是指预先建立起来的、能够覆盖一定地理范围的一批固定基础。大家经常使用的蜂窝移动电话就是利用电信公司预先建立的、覆盖全国的大量固定基站来接通用户手机拨打的电话。
    另一类无线局域网是无固定基础设施的无线局域网,它又叫做自组网络。这种自组网络没有上述基本服务集中的接入点(AP),而是由一些处于平等状态的移动站之间相互通信组成的临时网络。
    自组网络通常是这样构成的:一些可移动的设备发现在它们附近还有其他的可移动设备,并且要求和其他移动设备进行通信。随着便携式电脑的大量普及,自组网络的组网方式已受到人们的广泛关注。由于在自组网络中的每一个移动站都要参与到网络中的其他移动站的路由的发现和维护,同时由移动站构成的网络拓扑有可能随时间变化得很快,因此在固定网络中行之有效的一些路由选择协议对移动自组网络已不适用。这样,在自组网络中路由选择协议就引起了特别的关注。另一个重要问题是多播。在移动自组网络中往往需要将某个重要信息同时向多个移动站传送。这种多播比固定节点网络的多播要复杂得多,需要有实时性好而效率又高的多播协议。在移动自组网络中,安全问题也是一个更为突出的问题。
    移动自组网络在军用和民用领域都有很好的应用前景。在军事领域中,由于战场上往往没有预先建好的固定接入点,其移动站就可以用临时建立的移动自组网络进行通信。这种组网方式也能够应用到作战的地面车辆群和坦克群,以及海上的舰艇群、空中的机群。由于每一个移动设备都具有路由器转发分组的功能,因此分布式的移动自组网络的生存性非常好。在民用领域,持有笔记本电脑的人可以利用这种移动自组网络方便地交换信息,而不受便携式电脑附近没有电话线插头的限制。当出现各种自然灾害(如地震、洪水、森林火灾等)时,在抢险救灾时利用移动自组网络进行及时的通信往往也是很有效的,因为这时事先已建好的固定网络基础设施(基站)可能已经都被破坏了。
    近年来,移动自组网络中的一个子集—无线传感器网络引起了人们广泛的关注。无线传感器网络是由大量传感器节点通过无线通信技术构成的自组网络。无线传感器网络的应用就是进行各种数据的采集、处理和传输,一般并不需要很高的带宽,但是在大部分时间必须保持低功耗,以节省电池的消耗。
    无线传感器网络中的节点基本上是固定不变的,这点和移动自组网络有很大的区别。无线传感器网络的应用领域主要有以下方面。
    ① 环境监测与保护(如洪水预报、动物栖息的监控)。
    ② 战争中对敌情的侦查和对兵力、装备、物资等的监控。
    ③ 医疗中对病房的监测和对患者的护理。
    ④ 在危险的工业环境(如矿井、核电站等)中的安全监测。
    ⑤ 城市交通管理、建筑内的温度/照明/安全控制等。
    2.无线个人区域网(WPAN)
    无线个人区域网(WPAN)就是在个人工作地方把属于个人使用的电子设备(如便携式电脑、掌上电脑、便携式打印机以及蜂窝电话等)用无线技术连接起来自组网络,不需要使用接入点AP,整个网络的范围为10m左右。WPAN可以是一个人使用,也可以是若干人共同使用。WPAN是以个人为中心来使用的无线个人区域网,它实际上就是一个低功率、小范围、低速率和低价格的电缆替代技术。
    3.无线城域网(WMAN)
    我们已经有了多种有线宽带接入因特网的网络,然而人们发现,在许多情况下,使用无线宽带接入可以带来很多好处,如更加经济和安装快捷,同时也可以得到更高的数据率。近年来,无线城域网(WMAN)又成为无线网络中的一个热点。WMAN可提供“最后一英里”的宽带无线接入(固定的、移动的和便携的)。许多情况下,WMAN可用来替代现有的有线宽带接入,所以可称无线本地环路。
    认证协议编辑
    网络身份认证协议VIeID
    全称:(Virtual identity electronic identification) 通用账户协议,是俗称的网络身份证。它是一种互联网身份认证协议,其具有唯一性和信息不可否认性。其概念与OpenID相似,并具有开放、分散、自由等特性。
    协议分层编辑
    为了减少网络设计的复杂性,绝大多数网络采用分层设计方法。所谓分层设计方法,就是按照信息的流动过
    网络协议分层示意图
    网络协议分层示意图
    程将网络的整体功能分解为一个个的功能层,不同机器上的同等功能层之间采用相同的协议,同一机器上的相邻功能层之间通过接口进行信息传递。为了便于理解接口和协议的概念,我们首先以邮政通信系统为例进行说明。人们平常写信时,都有个约定,这就是信件的格式和内容。首先,我们写信时必须采用双方都懂的语言文字和文体,开头是对方称谓,最后是落款等。这样,对方收到信后,才可以看懂信中的内容,知道是谁写的,什么时候写的等。当然还可以有其他的一些特殊约定,如书信的编号、间谍的密写等。信写好之后,必须将信封装并交由邮局寄发,这样寄信人和邮局之间也要有约定,这就是规定信封写法并贴邮票。在中国寄信必须先写收信人地址、姓名,然后才写寄信人的地址和姓名。邮局收到信后,首先进行信件的分拣和分类,然后交付有关运输部门进行运输,如航空信交民航,平信交铁路或公路运输部门等。这时,邮局和运输部门也有约定,如到站地点、时间、包裹形式等等。信件运送到目的地后进行相反的过程,最终将信件送到收信人手中,收信人依照约定的格式才能读懂信件。如图所示,在整个过程中,主要涉及到了三个子系统、即用户子系统,邮政子系统和运输子系统。各种约定都是为了达到将信件从一个源点送到某一个目的点这个目标而设计的,这就是说,它们是因信息的流动而产生的。可以将这些约定分为同等机构间的约定,如用户之间的约定、邮政局之间的约定和运输部门之间的约定,以及不同机构间的约定,如用户与邮政局之间的约定、邮政局与运输部门之间的约定。虽然两个用户、两个邮政局、两个运输部门分处甲、乙两地,但它们都分别对应同等机构,同属一个子系统;而同处一地的不同机构则不在一个子系统内,而且它们之间的关系是服务与被服务的关系。很显然,这两种约定是不同的,前者为部门内部的约定,而后者是不同部门之间的约定。
    在计算机网络环境中,两台计算机中两个进程之间进行通信的过程与邮政通信的过程十分相似。用户进程对应于用户,计算机中进行通信的进程(也可以是专门的通信处理机〕对应于邮局,通信设施对应于运输部门。为了减少计算机网络设计的复杂性,人们往往按功能将计算机网络划分为多个不同的功能层。网络中同等层之间的通信规则就是该层使用的协议,如有关第N层的通信规则的集合,就是第N层的协议。而同一计算机的不同功能层之间的通信规则称为接口( i n t e r f a c e),在第N层和第(N+ 1)层之间的接口称为N /(N+ 1)层接口。总的来说,协议是不同机器同等层之间的通信约定,而接口是同一机器相邻层之间的通信约定。不同的网络,分层数量、各层的名称和功能以及协议都各不相同。然而,在所有的网络中,每一层的目的都是向它的上一层提供一定的服务。协议层次化不同于程序设计中模块化的概念。在程序设计中,各模块可以相互独立,任意拼装或者并行,而层次则一定有上下之分,它是依数据流的流动而产生的。组成不同计算机同等层的实体称为对等进程( peer process)。对等进程不一定非是相同的程序,但其功能必须完全一致,且采用相同的协议。分层设计方法将整个网络通信功能划分为垂直的层次集合后,在通信过程中下层将向上层隐蔽下层的实现细节。但层次的划分应首先确定层次的集合及每层应完成的任务。划分时应按逻辑组合功能,并具有足够的层次,以使每层小到易于处理。同时层次也不能太多,以免产生难以负担的处理开销。计算机网络体系结构是网络中分层模型以及各层功能的精确定义。对网络体系结构的描述必须包括足够的信息,使实现者可以为每一功能层进行硬件设计或编写程序,并使之符合相关协议。但我们要注意的是,网络协议实现的细节不属于网络体系结构的内容,因为它们隐含在机器内部,对外部说来是不可见的。现在我们来考查一个具体的例子:在图1 - 11所示的5层网络中如何向其最上层提供通信。在第5层运行的某应用进程产生了消息M,并把它交给第4层进行发送。第4层在消息M前加上一个信息头(h e a d e r),信息头主要包括控制信息(如序号)以便目标机器上的第4层在低层不能保持消息顺序时,把乱序的消息按原序装配好。在有些层中,信息头还包括长度、时间和其他控制字段。在很多网络中,第4层对接收的消息长度没有限制,但在第3层通常存在一个限度。因此,第3层必须将接收的入境消息分成较小的单元如报文分组( p a c k e t),并在每个报文分组前加上一个报头。在本实例中,消息M被分成两部分:M 1和M 2。第3层确定使用哪一条输出线路,并将报文传给第2层。第2层不仅给每段消息加上头部信息,而且还要加上尾部信息,构成新的数据单元,通常称为帧( f r a m e),然后将其传给第1层进行物理传输。在接收方,报文每向上递交一层,该层的报头就被剥掉,决不可能出现带有N层以下报头的报文交给接收方第N层实体的情况。要理解图1 - 11示意图,关键要理解虚拟通信与物理通信之间的关系,以及协议与接口之间的区别。比如,第4层的对等进程,在概念上认为它们的通信是水平方向地应用第四层协议。每一方都好像有一个叫做“发送到另一方去”的过程和一个叫做“从另一方接收”的过程,尽管实际上这些过程是跨过3 / 4层接口与下层通信而不是直接同另一方通信。抽象出对等进程这一概念,对网络设计是至关重要的。有了这种抽象技术,网络设计者就可以把设计完整的网络这种难以处理的大问题,划分成设计几个较小的且易于处理的问题,即分别设计各层。
    常用网络编辑
    虽然我们所能看到的局域网主要是以双绞线为代表传输介质的以太网,那只不过是我们所看到都基本上是企、事业单位的局域网,在网络发展的早期或在其它各行各业中,因其行业特点所采用的局域网也不一定都是以太网,在局域网中常见的有:以太网(Ethernet)、令牌网(Token Ring)、FDDI网、异步传输模式网(ATM)等几类,下面分别作一些简要介绍。
    以太网
    (EtherNet)
    以太网最早是由Xerox(施乐)公司创建的,在1980年由DEC、Intel和Xerox三家公司联合开发为一个标准。以太网是应用最为广泛的局域网,包括标准以太网(10Mbps)、快速以太网(100Mbps)、千兆以太网(1000 Mbps)和10G以太网,它们都符合IEEE802.3系列标准规范。
    (1)标准以太网
    最开始以太网只有10Mbps的吞吐量,它所使用的是CSMA/CD(带有冲突检测的载波侦听多路访问)的访问控制方法,通常把这种最早期的10Mbps以太网称之为标准以太网。以太网主要有两种传输介质,那就是双绞线和同轴电缆。所有的以太网都遵循IEEE 802.3标准,下面列出是IEEE 802.3的一些以太网络标准,在这些标准中前面的数字表示传输速度,单位是“Mbps”,最后的一个数字表示单段网线长度(基准单位是100m),Base表示“基带”的意思,Broad代表“宽带”。
    ·10Base-5 使用粗同轴电缆,最大网段长度为500m,基带传输方法;
    ·10Base-2 使用细同轴电缆,最大网段长度为185m,基带传输方法;
    ·10Base-T 使用双绞线电缆,最大网段长度为100m;
    ·1Base-5 使用双绞线电缆,最大网段长度为500m,传输速度为1Mbps;
    ·10Broad-36 使用同轴电缆(RG-59/U CATV),最大网段长度为3600m,是一种宽带传输方式;
    ·10Base-F 使用光纤传输介质,传输速率为10Mbps;
    (2)快速以太网
    (Fast Ethernet)
    随着网络的发展,传统标准的以太网技术已难以满足日益增长的网络数据流量速度需求。在1993年10月以前,对于要求10Mbps以上数据流量的LAN应用,只有光纤分布式数据接口(FDDI)可供选择,但它是一种价格非常昂贵的、基于100Mpbs光缆的LAN。1993年10月,Grand Junction公司推出了世界上第一台快速以太网集线器FastSwitch10/100和网络接口卡FastNIC100,快速以太网技术正式得以应用。随后Intel、SynOptics、3COM、BayNetworks等公司亦相继推出自己的快速以太网装置。与此同时,IEEE802工程组亦对100Mbps以太网的各种标准,如100BASE-TX、100BASE-T4、MII、中继器、全双工等标准进行了研究。1995年3月IEEE宣布了IEEE802.3u 100BASE-T快速以太网标准(Fast Ethernet),就这样开始了快速以太网的时代。
    快速以太网与原来在100Mbps带宽下工作的FDDI相比它具有许多的优点,最主要体现在快速以太网技术可以有效的保障用户在布线基础实施上的投资,它支持3、4、5类双绞线以及光纤的连接,能有效的利用现有的设施。
    快速以太网的不足其实也是以太网技术的不足,那就是快速以太网仍是基于载波侦听多路访问和冲突检测(CSMA/CD)技术,当网络负载较重时,会造成效率的降低,当然这可以使用交换技术来弥补。
    100Mbps快速以太网标准又分为:100BASE-TX 、100BASE-FX、100BASE-T4三个子类。
    ·100BASE-TX:是一种使用5类数据级无屏蔽双绞线或屏蔽双绞线的快速以太网技术。它使用两对双绞线,一对用于发送,一对用于接收数据。在传输中使用4B/5B编码方式,信号频率为125MHz。符合EIA586的5类布线标准和IBM的SPT 1类布线标准。使用同10BASE-T相同的RJ-45连接器。它的最大网段长度为100米。它支持全双工的数据传输。
    ·100BASE-FX:是一种使用光缆的快速以太网技术,可使用单模和多模光纤(62.5和125um) 多模光纤连接的最大距离为550米。单模光纤连接的最大距离为3000米。在传输中使用4B/5B编码方式,信号频率为125MHz。它使用MIC/FDDI连接器、ST连接器或SC连接器。它的最大网段长度为150m、412m、2000m或更长至10公里,这与所使用的光纤类型和工作模式有关,它支持全双工的数据传输。100BASE-FX特别适合于有电气干扰的环境、较大距离连接、或高保密环境等情况下的适用。
    ·100BASE-T4:是一种可使用3、4、5类无屏蔽双绞线或屏蔽双绞线的快速以太网技术。它使用4对双绞线,3对用于传送数据,1对用于检测冲突信号。在传输中使用8B/6T编码方式,信号频率为25MHz,符合EIA586结构化布线标准。它使用与10BASE-T相同的RJ-45连接器,最大网段长度为100米。
    (3)千兆以太网
    (GB Ethernet)
    随着以太网技术的深入应用和发展,企业用户对网络连接速度的要求越来越高,1995年11月,IEEE802.3工作组委任了一个高速研究组(HigherSpeedStudy Group),研究将快速以太网速度增至更高。该研究组研究了将快速以太网速度增至1000Mbps的可行性和方法。1996年6月,IEEE标准委员会批准了千兆位以太网方案授权申请(Gigabit Ethernet Project Authorization Request)。随后IEEE802.3工作组成立了802.3z工作委员会。IEEE802.3z委员会的目的是建立千兆位以太网标准:包括在1000Mbps通信速率的情况下的全双工和半双工操作、802.3以太网帧格式、载波侦听多路访问和冲突检测(CSMA/CD)技术、在一个冲突域中支持一个中继器(Repeater)、10BASE-T和100BASE-T向下兼容技术千兆位以太网具有以太网的易移植、易管理特性。千兆以太网在处理新应用和新数据类型方面具有灵活性,它是在赢得了巨大成功的10Mbps和100Mbps IEEE802.3以太网标准的基础上的延伸,提供了1000Mbps的数据带宽。这使得千兆位以太网成为高速、宽带网络应用的战略性选择。
    1000Mbps千兆以太网主要有以下三种技术版本:1000BASE-SX,-LX和-CX版本。1000BASE-SX 系列采用低成本短波的CD(compact disc,光盘激光器) 或者VCSEL(Vertical Cavity Surface Emitting Laser,垂直腔体表面发光激光器)发送器;而1000BASE-LX系列则使用相对昂贵的长波激光器;1000BASE-CX系列则打算在配线间使用短跳线电缆把高性能服务器和高速外围设备连接起来。
    (4)10G以太网
    10Gbps的以太网标准已经由IEEE 802.3工作组于2000年正式制定,10G以太网仍使用与以往10Mbps和100Mbps以太网相同的形式,它允许直接升级到高速网络。同样使用IEEE 802.3标准的帧格式、全双工业务和流量控制方式。在半双工方式下,10G以太网使用基本的CSMA/CD访问方式来解决共享介质的冲突问题。此外,10G以太网使用由IEEE 802.3小组定义了和以太网相同的管理对象。总之,10G以太网仍然是以太网,只不过更快。但由于10G以太网技术的复杂性及原来传输介质的兼容性问题(只能在光纤上传输,与原来企业常用的双绞线不兼容了),还有这类设备造价太高(一般为2 ̄9万美元),所以这类以太网技术还处于研发的初级阶段,还没有得到实质应用。
    令牌环网
    令牌环网是IBM公司于20世纪70年代发展的,这种网络比较少见。在老式的令牌环网中,数据传输速度为4Mbps或16Mbps,新型的快速令牌环网速度可达100Mbps。令牌环网的传输方法在物理上采用了星形拓扑结构,但逻辑上仍是环形拓扑结构。结点间采用多站访问部件(Multistation Access Unit,MAU)连接在一起。MAU是一种专业化集线器,它是用来围绕工作站计算机的环路进行传输。由于数据包看起来像在环中传输,所以在工作站和MAU中没有终结器。
    在这种网络中,有一种专门的帧称为“令牌”,在环路上持续地传输来确定一个结点何时可以发送包。令牌为24位长,有3个8位的域,分别是首定界符(Start Delimiter,SD)、访问控制(Access Control,AC)和终定界符(End Delimiter,ED)。首定界符是一种与众不同的信号模式,作为一种非数据信号表现出来,用途是防止它被解释成其它东西。这种独特的8位组合只能被识别为帧首标识符(SOF)。由于以太网技术发展迅速,令牌网存在固有缺点,令牌在整个计算机局域网已不多见,原来提供令牌网设备的厂商多数也退出了市场,所以在局域网市场中令牌网可以说是“昨日黄花”了。
    FDDI网
    (Fiber Distributed Data Interface)
    FDDI的英文全称为“Fiber Distributed Data Interface”,中文名为“光纤分布式数据接口”,它是于80年代中期发展起来一项局域网技术,它提供的高速数据通信能力要高于当时的以太网(10Mbps)和令牌网(4或16Mbps)的能力。FDDI标准由ANSI X3T9.5标准委员会制订,为繁忙网络上的高容量输入输出提供了一种访问方法。FDDI技术同IBM的Tokenring技术相似,并具有LAN和Tokenring所缺乏的管理、控制和可靠性措施,FDDI支持长达2KM的多模光纤。FDDI网络的主要缺点是价格同前面所介绍的“快速以太网”相比贵许多,且因为它只支持光缆和5类电缆,所以使用环境受到限制、从以太网升级更是面临大量移植问题。
    当数据以100Mbps的速度输入输出时,在当时FDDI与10Mbps的以太网和令牌环网相比性能有相当大的改进。但是随着快速以太网和千兆以太网技术的发展,用FDDI的人就越来越少了。因为FDDI使用的通信介质是光纤,这一点它比快速以太网及100Mbps令牌网传输介质要贵许多,然而FDDI最常见的应用只是提供对网络服务器的快速访问,所以在FDDI技术并没有得到充分的认可和广泛的应用。
    FDDI的访问方法与令牌环网的访问方法类似,在网络通信中均采用“令牌”传递。它与标准的令牌环又有所不同,主要在于FDDI使用定时的令牌访问方法。FDDI令牌沿网络环路从一个结点向另一个结点移动,如果某结点不需要传输数据,FDDI将获取令牌并将其发送到下一个结点中。如果处理令牌的结点需要传输,那么在指定的称为“目标令牌循环时间”(Target Token Rotation Time,TTRT)的时间内,它可以按照用户的需求来发送尽可能多的帧。因为FDDI采用的是定时的令牌方法,所以在给定时间中,来自多个结点的多个帧可能都在网络上,以为用户提供高容量的通信。
    FDDI可以发送两种类型的包:同步的和异步的。同步通信用于要求连续进行且对时间敏感的传输(如音频、视频和多媒体通信);异步通信用于不要求连续脉冲串的普通的数据传输。在给定的网络中,TTRT等于某结点同步传输需要的总时间加上最大的帧在网络上沿环路进行传输的时间。FDDI使用两条环路,所以当其中一条出现故障时,数据可以从另一条环路上到达目的地。连接到FDDI的结点主要有两类,即A类和B类。A类结点与两个环路都有连接,由网络设备如集线器等组成,并具备重新配置环路结构以在网络崩溃时使用单个环路的能力;B类结点通过A类结点的设备连接在FDDI网络上,B类结点包括服务器或工作站等。
    ATM网
    ATM的英文全称为“asynchronous transfer mode”,中文名为“异步传输模式”,它的开发始于70年代后期。ATM是一种较新型的单元交换技术,同以太网、令牌环网、FDDI网络等使用可变长度包技术不同,ATM使用53字节固定长度的单元进行交换。它是一种交换技术,它没有共享介质或包传递带来的延时,非常适合音频和视频数据的传输。ATM主要具有以下优点:
    1.ATM使用相同的数据单元,可实现广域网和局域网的无缝连接。
    2.ATM支持VLAN(虚拟局域网)功能,可以对网络进行灵活的管理和配置。
    3.ATM具有不同的速率,分别为25、51、155、622Mbps,从而为不同的应用提供不同的速率。
    ATM是采用“信元交换”来替代“包交换”进行实验,发现信元交换的速度是非常快的。信元交换将一个简短的指示器称为虚拟通道标识符,并将其放在TDM时间片的开始。这使得设备能够将它的比特流异步地放在一个ATM通信通道上,使得通信变得能够预知且持续的,这样就为时间敏感的通信提供了一个预QoS,这种方式主要用在视频和音频上。通信可以预知的另一个原因是ATM采用的是固定的信元尺寸。ATM通道是虚拟的电路,并且MAN传输速度能够达到10Gbps。
    无线局域网
    (Wireless Local Area Network;WLAN)
    无线局域网是目前最新,也是最为热门的一种局域网,特别是自Intel推出首款自带无线网络模块的迅驰笔记本处理器以来。无线局域网与传统的局域网主要不同之处就是传输介质不同,传统局域网都是通过有形的传输介质进行连接的,如同轴电缆、双绞线和光纤等,而无线局域网则是采用空气作为传输介质的。正因为它摆脱了有形传输介质的束缚,所以这种局域网的最大特点就是自由,只要在网络的覆盖范围内,可以在任何一个地方与服务器及其它工作站连接,而不需要重新铺设电缆。这一特点非常适合那些移动办公一簇,有时在机场、宾馆、酒店等(通常把这些地方称为“热点”),只要无线网络能够覆盖到,它都可以随时随地连接上无线网络,甚至Internet。
    无线局域网所采用的是802.11系列标准,它也是由IEEE 802标准委员会制定的。这一系列主要有4个标准,分别为:802.11b(ISM 2.4GHz)、802.11a(5GHz)、802.11g(ISM 2.4GHz) 和802.11z,前三个标准都是针对传输速度进行的改进,最开始推出的是802.11b,它的传输速度为11MB/s,因为它的连接速度比较低,随后推出了802.11a标准,它的连接速度可达54MB/s。但由于两者不互相兼容,致使一些早已购买802.11b标准的无线网络设备在新的802.11a网络中不能用,所以在正式推出了兼容802.11b与802.11a两种标准的802.11g,这样原有的802.11b和802.11a两种标准的设备都可以在同一网络中使用。802.11z是一种专门为了加强无线局域网安全的标准。因为无线局域网生辰八字起名字的“无线”特点,致使任何进入此网络覆盖区的用户都可以轻松以临时用户身份进入网络,给网络带来了极大的不安全因素(常见的安全漏洞有:SSID广播、数据以明文传输及未采取任何认证或加密措施等)。为此802.11z标准专门就无线网络的安全性方面作了明确规定,加强了用户身份认证制度,并对传输的数据进行加密。所使用的方法/算法有:WEP(RC4-128预共享密钥,WPA/WPA2(802.11 RADIUS集中式身份认证,使用TKIP与/或AES加密算法)与WPA(预共享密钥)
    划分方式编辑
    一,根据网络的覆盖范围与规模
    1,局域网
    2,城域网
    3,广域网 [1]
    二,按传输介质划分
    1,有线网:指采用双绞线来连接的计算机网络。
    2,光纤网:采用光导纤维作为传输介质。
    3,无线网:采用一种电磁波作为载体来实现数据传输的网络类型。
    三,按数据交换方式划分
    1,电路交换网
    2,报文交换网
    3,分组交换网
    四,按通信方式划分
    1,广播式传输网络
    2,点到点式传输网络
    五,按服务方式划分
    1,客户机,服务器网络
    2,对等网
    相关应用编辑
    21世纪人类将全面进入信息时代。信息时代的重要特征就是数字化、网络化和信息化。要实现信息化就必须依靠完善的网络,因为网络可以非常迅速地传递信息。因此网络现在已经成为信息社会的命脉和发展知识经济的重要基础。网络对社会生活的很多方面以及对社会经济的发展已经产生了不可估量的影响。
    这里所说的网络是指“三网”,即电信网络、有线电视网络和计算机网络。这三种网络向用户提供的服务不同。电信网络的用户可得到电话、电报以及传真等服务;有线电视网络的用户能够观看各种电视节目;计算机网络则可使用户能够迅速传送数据文件,以及从网络上查找并获取各种有用资料,包括图像和视频文件。这三种网络在信息化过程中都起到十分重要的作用,但其中发展最快的并起到核心作用的是计算机网络。随着技术的发展,电信网络和有线电视网络都逐渐融入了现代计算机网络(也称计算机通信网)的技术,这就产生了“网络融合”的概念。
    自从20世纪90年代以后,以因特网(Internet)为代表的计算机网络得到了飞速的发展,已从最初的教育科研网络逐步发展成为商业网络,并已成为仅次于全球电话网的世界第二大网络。因特网正在改变着我们工作和生活的各个方面,它已经给很多国家带来了巨大的好处,并加速了全球信息革命的进程。因特网是人类自印刷术发明以来在通信方面最大的变革。现在,人们的生活、工作、学习和交往都已离不开因特网了。
    计算机网络向用户提供的最重要的功能有两个,即连通性和共享。
    为什么会建立这么多的计算机网络,主要还是因为计算机网络的运用受到个人和公司的青睐。
    一、商业运用。
    1、主要是实现资源共享(resource sharing)最终打破地理位置束缚(tyranny of geography),主要运用客户-服务器模型(client-server model)。
    2、提供强大的通信媒介(communication medium)。如:电子邮件(E-mail)、视频会议。
    3、电子商务活动。如:各种不同供应商购买子系统,然后在将这些部件组装起来。
    4、通过Internet与客户做各种交易。如:书店、音像在家里购买商品或者服务。
    二、家庭运用
    1、访问远程信息。如:浏览Web页面获得艺术、商务、烹饪、政府、健康、历史、爱好、娱乐、科学、运动、旅游等等信息。
    2、个人之间的通信。如:即时消息(instant messaging)运用<QQ、MSN、YY>、聊天室、对等通信(peer-to-communication)<通过中心数据库共享,各大网盘,但是容易造成侵犯版权>。
    3、交互式娱乐。如:视频点播、即时评论及参加活动<电视直播网络互动>、网络游戏。
    4、广义的电子商务。如:电子方式支付账单、管理银行账户、处理投资。
    三、移动用户
    以无线网络为基础。
    1、可移动的计算机:笔记本计算机、PDA、3G手机。
    2、军事:一场战争不可能靠局域网设备通信。
    3、运货车队、出租车、快递专车等应用。
    四、社会问题
    网络的广泛运用已经导致了新的社会、伦理和政治问题。

    展开全文
  • 不知为不知--信息论和最大熵原则

    万次阅读 多人点赞 2018-01-01 08:44:04
      大学通信课学的那些排队论,信息论这些,在很多人看来也是索然无味,却再也没有人去为之付出了,为什么?因为大多数公司的面试题中都不会把这些包含在考查范围内。  2018年第一天,写一篇随笔吧,就想写一个...
  • 无线网络技术导论知识点

    千次阅读 2019-06-21 22:58:59
    无线网络技术导论 主讲教师:张亮老师 https://blog.csdn.net/Wjwstruggle/article/details/93243754 目录 无线网络技术导论 第一讲 无线网络概述 1、计算机网络的协议体系 2、TCP/IP模型 3、无线网络:从...
  • 信息论笔记(需要编辑格式)

    千次阅读 2021-01-02 00:27:06
    主要来源:吴军·信息论40讲 信息论介绍 世界上任何一个探索者都需要清楚三件事:我们现在的位置,我们的目标,以及通向目标的道路。 哲学是一门生活的艺术,它帮助我们认清自己,它回答了第一个问题。至于每一个人的...
  • 网络原理知识点总结

    千次阅读 多人点赞 2019-06-16 12:19:48
    香农用信息论的理论推导出了带宽受限且有高斯白噪声干扰的信道的极限、无差错的信息传输速率( 香农公式 )。 信道的极限信息传输速率 C 可表达为:C = W log2(1+S/N) (bit/s) 其中:W 为信道的带宽(以 Hz ...
  • 香农信息论与毒药称球问题

    千次阅读 2014-01-20 11:29:33
    如果从‘信息’的角度来分析某些问题,可以使你更登高望远,对问题能有更深层的理解,更容易融合各学科的间隙,达到借他山之石而攻玉的效果。 作者:张天蓉 老鼠检测毒药瓶 我出过一道有关用老鼠检测毒药瓶...
  • 希人人来支持、和关注汉语汉字!合力宏扬现今已经处于互联弱势,同全球某一些大语种一样,出现了相当大的虚拟空间生存危机的,世界上最大语种的,中华民族拥有数... 中文汉字编码技术的探索、突破拓展 (欧码工作室 19
  • 块截断编码图像压缩技术

    千次阅读 2020-10-04 03:20:19
    论文先介绍了当前流行的图像压缩技术,重点介绍块截断编码技术,先从理论上介绍块截断编码原理,块截断编码是一种有效、快速的数字图像压缩技术,作为一种经典的图像压缩编码,块截断编码技术的实时性很强。...
  • 本文整合了高项第一章关于信息系统的重点内容。...包含网络知识信息化和信息系统的介绍以及考试的重点和易错;希望大家可以学习到相关知识。 另对本文有更好建议可私信我哦~一起进步,开心每一天hh
  • 机器学习知识点

    千次阅读 2019-03-14 10:38:48
    机器学习知识点 转载自https://blog.csdn.net/v_july_v/article/details/78121924整理:July、元超、立娜、德伟、贾茹、王剑、AntZ、孟莹等众人。本系列大部分题目来源于公开网络,取之分享,用之分享,且在撰写答案...
  • 《数据库原理》知识点整理+习题

    万次阅读 多人点赞 2019-06-29 19:52:17
    数据库基本知识点整理,面试、考研、刷题必备~
  • AlexNet论文翻译解读

    万次阅读 多人点赞 2017-05-08 00:30:21
    AlexNet论文翻译解读
  • Java基础知识点

    千次阅读 2020-11-30 15:05:33
    参照了当时JDK最新版本(Java7)给出了题目的答案和相关代码,去掉了EJB2.x、JSF等无用内容或过时内容,补充了数据结构和算法、大型网站技术架构、设计模式、UML、Spring MVC等内容并对很多知识点进行了深入的剖析,...
  • 物联网工程知识点

    千次阅读 2020-10-07 20:04:07
    如传感网、射频标签阅读装置、条码二维码设备、仪表、全球定位系统和其它基于物一物通信模式的短距无线自组织网络,通过各种接入网互联网、广电网或电信网结合起来所形成的一个巨大的实时信息收集、传输、控制及...
  • 知识图谱最新权威综述论文解读:开篇部分 今天分享一个自己从数据爬取到d3可视化的中式菜谱知识图谱可视化系统的搭建流程。 Github项目地址:https://github.com/ngl567/CookBook-KG 访问可视化系统GithubPage地址:...
  • 计算机科学与技术本科知识体系

    千次阅读 多人点赞 2016-05-16 23:59:56
    每一门领域中,又各自有它自己的数学作为基础:比如人工智能需要形式逻辑,数字信号处理需要信息论、积分变换和采样理论,计算机网络对概率论的应用较多等等。因此,计算机应用可以分为两层,下层是数学,上层则是...
  • 信息论的简单应用

    千次阅读 2013-04-10 15:31:58
    刚才我说‘信息论’,实际上,我们完全用不上什么信息论的任何高深理论,用的只不过是由香农定义的计算信息量的一个公式而已。牛刀杀鸡虽然太大,但用它锋利的小尖给开个小口也未尝不可。   不仅仅是这道题,...
  • 知识提取的一个重要途径是从自由文本中抽取,而文本信息抽取是自然语言处理的核心问题之一。 知识图谱构建好之后通常可以用作支撑自然语言理解的背景知识知识图谱数据库的关系: 知识图谱在构建好之后和进入...
  • 大数据&算法工程师知识点大全

    千次阅读 2018-04-04 10:53:08
    下面内容为自己找工作的过程中,自己整理的知识点以及从别人面经中整理的知识点大全,对其中的大部分问题,我都会给出我认为最优答案的csdn链接(ps:本篇博客正在整理过程中,会不定期更新一些新的知识点的答案,希望...
  • 北京百分点信息科技有限公司认知智能实验室在实践探索中,通过利用自然语言处理技术获取结构化的信息抽取能力,探索出了一套行业知识图谱构建流程方法。尤其是基于深度迁移学习,帮助构建法律百科词条、公安文本知识...
  • 知识点目录 考试内容(考试大纲) 基本要求 考试内容 一、计算机基础知识 二、Word 的功能和使用 三、Excel 的功能和使用 四、PowerPoint 的功能和使用 考试方式 上机考试,考试时长 120 ...
  • Android知识点大扫描

    千次阅读 2011-07-27 17:29:05
    Android知识点大扫描什么是3G3G,全称为3rd Generation,中文含义就是指第三代数字通信。所谓3G,是指将无线通信国际互联网等多媒体通信结合的新一代移动通信系统。 3G只是一种通信技术标准,符合这个标准的技术有...
  • ACM-ICPC 知识点 经验

    千次阅读 2016-08-03 16:31:05
    一:知识点数据结构: 1,单,双链表及循环链表 2,树的表示存储,二叉树(概念,遍历)二叉树的 应用(二叉排序树,判定树,博弈树,解答树等) 3,文件操作(从文本文件中读入数据并输出到文本文 件中) ...
  • 在过去的四个月里(2020三月开始的),和朋友一起对着...keras前置知识: 浅谈AI和ML1:http://burningcloud.cn/article/55/index.html 浅谈AI和ML2:http://burningcloud.cn/article/56/index.html keras知识结构:htt
  • 无线传感器网络知识点

    千次阅读 2019-06-18 23:33:39
    1.目前最常见的短距离无线通信技术有IrDA/红外,蓝牙、WIFI(802.11标准)和Zigbee技术 2.传感器节点由五部分构成,即能量供应模块、传感器模址、处理器模块、无线通信模块和嵌入式软件系统。 3.传感器节点具有的...
  • ...我需要宏观的关于视频编码的指导,最好...如帧间预测编码过程,帧内预测编码过程,熵编码过程。细节可不详细,但求有宏观的流程概念,不胜感激! 关注者 707 被浏览 14507

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,988
精华内容 10,795
关键字:

信息论与编码技术知识点