精华内容
下载资源
问答
  • 【二】网络空间安全综述
    千次阅读
    2021-07-21 17:28:58

    本篇介绍张焕国等人的《网络空间安全综述》,作者是张焕国,韩文报,来学嘉,林东岱,马建峰,李建华,发表于2016年《中国科学》杂志。

    摘要

    网络空间是所有信息系统的集合,是人类生存的信息环境。本文从网络空间的概念,网络空间安全学科,密码学,网络安全,信息系统安全信息内容安全这六个方面进行介绍。

    目录

    目录

    第一章:概念

    1.1 网络空间的概念

    1.2 网络空间安全的概念

    第二章:网络空间安全学科

    2.1 网络空间安全学科的内涵

    2.2 网络空间安全学科的主要研究方向和研究内容

    2.3 网络空间安全学科的理论基础

    2.4 网络空间安全学科的方法论基础

    第三章:密码学

    3.1 密码算法

    3.2 密码协议

    3.3 密码实现安全

    3.4 密钥管理

    3.5 研究热点

    第四章:网络安全

    4.1 网络安全需求

    4.2 网络安全机制

    4.2.1 安全协议

    4.2.2 网络攻击防护

    4.2.3 访问控制

    4.2.4 隐私控制

    4.3 未来网络安全研究方向

    第五章:信息系统安全

    5.1 可信计算的新发展

    5.1.1 中国可信计算的新发展

    5.1.2 TCG可信计算的新发展

    5.2 云计算系统的安全

    5.2.1 IaaS层的安全

    5.2.2 PaaS层的安全

    5.2.3 SaaS层的安全

    5.3 软件安全

    5.3.1 软件安全威胁

    5.3.2 软件安全威胁的防御

    5.4 嵌入式系统安全

    5.4.1 工业控制系统安全

    5.4.2 TrustZone

    第六章:信息内容安全

    6.1 信息内容安全威胁

    6.2 网络信息内容获取

    6.2.1 网络媒体信息获取流程

    6.2.2 网络媒体信息获取典型工具

    6.3 信息内容特征抽取和选择

    6.4 信息内容分析和处理

    6.5 网络舆情监测与预警

    6.6 网络信息内容综合管控


    第一章:概念

    1.1 网络空间的概念

    (1)网络空间是信息环境中的一个整体域,它由独立且相互依存的信息基础设施和网络组成。包括互联网,电信网,计算机系统,嵌入式处理器和控制器系统。

    (2)它是信息时代人们赖以生存的信息环境,是所有信息系统的集合。

    1.2 网络空间安全的概念

    (1)由于信息技术和产业的不断发展,敌对势力的破坏,黑客攻击,恶意软件侵扰等对信息安全构成极大威胁;

    (2)此外,科技进步也对信息安全提出新挑战。由于量子和DNA计算机具有并行性,从而使得许多现有公钥密码(RSA,ECC等)在量子和DNA计算机环境下不再安全;

    (3)我国再CPU芯片操作系统等核心芯片和基础软件方面依赖外国产品,使我国网络安全失去自主可控的基础。

    总结:

    第一章讲了网络空间的概念,即信息基础设施和网络组成的一个域。其次从三个方面讲了网络空间安全,分别为黑客和恶意软件侵扰等信息产业,量子和DNA计算机出现导致密钥安全,我国CPU和OS等基础软件安全。

    第二章:网络空间安全学科

    2.1 网络空间安全学科的内涵

    (1)传统的信息安全强调信息(数据)本身的安全性,其包括:

              ——信息的秘密性,信息的完整性,信息的可用性

    (2)由于信息不能脱离载体独立存在,所以我们应从信息系统的方面考虑信息安全。因此,我们把信息系统安全划分为四个层次,分别为设备安全,数据安全,内容安全,行为安全

               ——设备安全:设备安全是首要问题,包括设备的稳定性,可靠性,可用性;

               ——数据安全:一种静态安全,应该防止数据泄露,篡改和毁坏,包括数据的秘密性,完整性,可用性;(即传统的信息安全)

               ——内容安全:内容在政治上是健康的,符合国家法律,有中华民族优良道德规范;

               ——行为安全:动态安全,包括行为的秘密性,完整性,可控性。

    (3)网络空间安全学科的定义:网络空间安全学科是研究信息获取,信息存储,信息传输和信息处理领域中信息安全保障的一门新兴学科。

    2.2 网络空间安全学科的主要研究方向和研究内容

    主要研究方向有:密码学,网络安全,信息系统安全,信息内容安全信息对抗

    (1)密码学:密码学由密码编码学(对信息编码实现信息隐蔽)和密码分析学(研究密文获取对应明文信息)组成。研究主要内容有:

              ——对称密码,公钥密码,Hash函数,密码协议,密钥管理,密码应用,新型密码(生物,量子密码)

    (2)网络安全:即在网络的各个层次和范围内采取保护措施,以便对网络安全威胁进行检测和发现,并采取相应措施以确保信息安全。研究主要内容有:

              ——网络安全威胁,通信安全,协议安全,网络防护,入侵检测,入侵相应,可信网络;

    (3)信息系统安全:信息系统是信息的载体,信息系统安全是从系统级的整体上考虑信息安全的威胁与防护。研究内容包括:

              ——信息系统的安全威胁,信息系统的硬件/软件系统安全,访问控制,可信计算,信息系统安全等级保护,信息系统安全测评认证,应用信息系统安全;

    (4)信息内容安全:信息内容安全指信息安全符合政治,法律,道德层次上的要求。研究内容有:

              ——信息内容的获取,分析与识别,管理和控制,信息内容安全的法律保障;

    (5)信息对抗:是为消弱,破坏对方电子信息设备和信息的使用效能,保障己方信息设备和信息能正常发挥作用而采取的综合技术措施。其实质是斗争双方利用电磁波和信息的作用来争夺电磁谱和信息的有效使用和控制权。研究内容包括:

               ——通信对抗,雷达对抗,光电对抗,计算机网络对抗;

    2.3 网络空间安全学科的理论基础

    (1)数学是一切自然科学的理论基础

              ——密码分为两类:基于数字和非数字的密码,基于数字的密码就是设计一个数学函数,所以代数,数论,概率统计,组合数学等是密码学的理论基础;

              ——协议是网络的核心,协议的基础是逻辑学;

              ——博弈论,应用于网络攻防,密码加密与破译,信息对抗等;

    (2)信息论,控制论和系统论是现代科学的基础

              ——信息论解决通信问题,控制论解决自动控制技术问题,系统论解决项目的组织管理问题;

    (3)计算理论,如可计算性理论和计算复杂性理论等

              ——可计算性理论判断哪些问题是可计算或者可判定的,哪些是不可计算或不可判断的;

              ——计算复杂性理论对资源的耗费做定量分析;

    (4)访问控制理论是网络空间安全学科的理论基础

    (5)密码学理论是网络空间安全学科的理论基础

    2.4 网络空间安全学科的方法论基础

    网络空间安全的方法论既包括分而治之的传统方法论(分而治之,忽视了各部分之间的关联),也包括综合治理的系统工程方法论(整体的思想和方法处理)。具体概括为:理论分析,逆向分析,实验验证,技术实现

    总结:

    本章首先讲了网络空间安全学科的内涵。网络空间安全,实际上是保障网络中信息的安全,网络的价值就在于信息传递和共享嘛,所以所有的价值就在于信息,那么此学科就是保障信息安全的一门学科,信息安全包括很多方面,数据本身的数据安全,还要其他的比如设备安全,行为安全等都是信息安全的一部分。

    其次讲了此学科中的研究内容,主要分为密码学,网络安全,信息系统安全,信息内容安全和信息对抗五个方面。其中密码学密码分析学和密码编码学组成,是相反的两方面;网络安全研究在网络各个层次上采取措施,以保护信息安全;信息系统安全是在系统级上考虑信息的安全;信息内容安全就是内容要合法合理合乎道德;信息对抗就是破坏对方功能保障自己功能。

    最后讲了理论基础和方法论基础,理论基础有一堆,包括数学,控制论,系统论,计算理论,密码学理论等巴拉巴拉,方法论就是分而治之的传统论加改进的整体联系思想的工程论。

    第三章:密码学

    密码算法,密码协议,密码实现,密钥安全四个方面介绍,并介绍研究热点。

    3.1 密码算法

    (1)密码算法主要包括分组密码,流密码,Hash函数及MAX,公钥密码以及新兴的认证加密算法等。

    (2)认证加密目标是利用单一密码同时提供机密性,完整性与认证功能

    (3)shor量子算法,抗量子计算密码,分为三类:基于物理学/生物学/数字的抗量子密码

    3.2 密码协议

    (1)密码协议指两方或者更多方,为完成某种信息系统安全功能而执行的一系列规定步骤

    (2)涵盖了:身份认证,密钥交换,秘密共享,数字签名,零知识证明,多方安全计算等基本工具,也包括电子选举,电子投票等复杂功能。

              ——秘密共享:希望一个秘密交给多人掌管,只有秘密持有人数达到设定人数时,秘密才能被恢复。Lagrange插值实现。

              ——零知识证明:指证明者向验证者证明他知道某个秘密而同时又不泄露秘密的一种方法。

              ——安全多方计算:一个多方参与的分布式计算协议,每个参与者参与计算并得出计算结果,但计算结束后不知道其他参与者输入信息。

    3.3 密码实现安全

    (1)密码算法分数学形态,软件形态硬件形态。数字形态安全的密码的应用必须以软件或硬件的形式实现。

    (2)侧信道攻击是利用与密码实现有关的物理特性来获取秘密参数的密码攻击方法。

              ——抗泄露密码,将泄露的信道信息重新抽象为数学上的泄露函数,将物理实现问题重新归纳为数学问题,解决了这个问题;

    (3)白盒攻击:攻击者侵入系统获取密码系统的密钥。

              ——白盒实现:将密钥做成查询表分发到整个网络结构中,使得每个块看起来独立于密钥,攻击者无法直接获得密钥数据。但没有安全高效的白盒密码实现

              ——基于密码混淆技术的白盒密码。

    3.4 密钥管理

    (1)密钥管理的目标是保证密钥的全生命周期的安全。包括密钥的产生,分配,存储,使用,恢复,更新,撤销和销毁等环节的安全。

    (2)产生:利用随机数产生器随机生成。

             ——真随机数发生器和伪随机数发生器两类。

    (3)物理不可克隆技术(PUF)是一种保护设备私钥的技术,其利用物理芯片本身的结构指纹,结合密钥生成算法进行生成私钥,所以断电后无法通过物理手段读取密钥。

    3.5 研究热点

    包括抗量子计算密码,格密码,全同态密码,程序混淆密码,属性及函数密码,密码设计与分析自动化等。

    总结:

    本章从密码算法,密码协议,密码实现安全和密钥管理四个方面介绍。

    首先密码算法,即实现密码的算法有哪些,介绍了包括分组密码,流密码,Hash函数及MAX,公钥密码以及新兴的认证加密算法等几种密码算法,但没一一解释它们是啥,只说了Hash函数是变长映射到定长的一种函数,又说了认证加密是用一个密码提供认证和加密两种功能,以及新兴的抗量子计算密码。

    其次介绍密码协议即安全交换信息所遵循的规矩,涵盖了很多比如身份认证,密钥交换,秘密共享,数字签名,零知识证明,多方安全计算等,详细说了秘密共享和零知识证明以及安全多方计算,没有什么知识点。

    密码实现安全主要介绍了两种攻击方法:侧信道攻击和白盒攻击,介绍了它们的原理。侧信道攻击还是需要看一下的。

    密钥管理说了密钥需要在其整个从生成到销毁的生命周期得到保护,且说明其是随机数发生器产生的。重点是物理不可克隆技术(PUF),这个是物理芯片的结构指纹结合随机生成数字对设备进行保护的一种手段,还是比较重要的。

    研究热点说了好多,但我都看不懂。

    第四章:网络安全

    4.1 网络安全需求

    随着新兴技术的发展,网络形态出现层次化,虚拟化,服务化的特点,面临挑战加大。针对不同层次的安全需求,通过设计安全协议,构建攻击防护,访问控制隐私保护等安全机制来实现信息保护和服务。

    4.2 网络安全机制

    4.2.1 安全协议

    (1)感知层中,密钥分发协议的设计是实现节点认证,加密通信的基础协议。有若干方案:

              ——预分发密钥是主流方案。比较典型的协议有BROSK协议,ZigBee协议等,易于部署但安全性较差;

              ——任意两个传感器节点共享不同密钥的方案。安全性高,但存储代价大。

              ——密钥链方式。每个节点存储多个密钥,减少密钥规模。

              ——基于哈希链的改进方案,多路径的改进方案等。

    (2)传输层中,安全协议的设计包括接入认证,安全路由,端到端安全传输,异构网络安全切换及漫游

    (3)汇聚层和应用层中,网络攻击主要针对于数据和应用软件,系统通过攻击防护,访问控制和隐私保护来保证信息安全,协议则作为载体用来部署和实施提出的安全机制。

    4.2.2 网络攻击防护

    根据攻击对象不同,可分为针对网络协议和针对服务应用的攻击两种。

    (1)针对网络协议的攻击集中在感知层和传输层。感知层中,针对传感器节点能量受限,安全机制弱等缺陷,可以实施射频干扰,虚假路由信息攻击,黑洞攻击,虫洞攻击等,防御有使用认证,加密,监听,发送冗余数据包以及采用多径路由。传输层中,攻击有SYN洪泛和TCP会话劫持等,前者采用防火墙,后者采用SSL等安全通信协议来防御。

    (2)针对服务应用的攻击集中在汇聚层和应用层。主要包含针对应用服务器的网络攻击和恶意软件入侵。针对应用服务器的攻击包括DoS攻击,以及针对特定协议的攻击,可通过部署防火墙,配置安全策略等防御。恶意软件包括病毒,木马,僵尸网络等,可通过恶意软件检测技术保护:基于异常/规则/特征的检测技术。

    4.2.3 访问控制

    由于不同用户对不同资源有不同操作权限。

    (1)感知层和传输层中,访问控制通常与安全认证协议及用户身份管理结合,主要用于用户接入认证方面;

    (2)汇聚层和应用层中,访问控制根据相应安全策略对用户访问数据和服务资源的权限进行验证。根据策略不同,常见的访问控制模型包括基于角色的访问控制模型RBAC,基于任务和行为的访问控制模型TBAC。

    4.2.4 隐私控制

    一类是针对网络链路信息的保护,一类是针对网络中敏感数据的保护

    (1)网络链路信息保护针对感知层和传输层。通过涉及安全路由协议保护用户隐私,即随即路由策略。

    (2)敏感数据保护贯穿整个网络。方法主要有两类:通过修改或隐藏原始信息的敏感信息,如k匿名,差分隐私等;以及通过加密技术对信息进行保护,如同态加密技术,安全多方计算等。

    4.3 未来网络安全研究方向

    五个方面:移动终端安全,网络设备安全,SDN安全,CPS安全,5G网络安全

    (1)移动终端安全:主要攻击方式有:无线攻击,入侵攻击,面向基础设施的攻击,蠕虫攻击,僵尸网络和基于用户的攻击。

    (2)网络设备安全:安全威胁包括DDOS攻击,中间人攻击,TCP重置攻击,针对OSPF的攻击。

    (3)SDN安全:其将逻辑控制和数据转发进行分离,减少网络设备负载,提高网络新技术和新协议的灵活性和可操作性。其安全需求有两个方面:应用的授权认证隔离,以及策略冲突的消解。

    (4)CPS安全:即信息物理融合系统。由于其跨层,异构,高度互联等特点,所以有很多安全问题。

    (5)5G网络安全:5G网络是多种无线接入技术的集成方案,是一个真正意义上的融合网络。所以其安全挑战来自其组成部分,比如SDCN安全,无线网络融合安全,D2D,M2M安全等。

    总结:

    本章将网络安全。首先讲网络安全需求,随着科技发展当然网络安全需求增加了,主要通过设计安全协议,构建攻击防护,访问控制隐私保护等安全机制来实现网络中信息保护。其次讲网络安全机制,其分为四个方面,不同层的安全协议是怎么设计的以及有哪些安全协议,针对网络协议和服务应用的两种网络攻击防护的攻击方式和防护方式,不同层的访问控制策略,针对链路信息和敏感数据的隐私控制。最后讲未来网络安全研究方向,有5个方面。

    第五章:信息系统安全

    5.1 可信计算的新发展

    5.1.1 中国可信计算的新发展

    中国的3个可信计算技术标准:

    (1)可信平台主板功能接口(GB/T 29827-2013)

              ——可信平台主板功能接口标准的核心创新是,改进了TCG(可信计算组织)的TPM(可信平台模块),设计了我国可信平台控制模块TPCM。

    (2)可信连接架构(TCA)(GB/T 29828-2013)

              ——可信网络连接(TNC)的一个重要规范。目的是把平台的可信性向网络延伸,确保网络的可信。

    (3)可信计算密码支撑平台功能与接口规范(GB/T 29829-2013)

              ——TSS软件栈是上层软件和TPM之间的软件中间件,为上层软件使用TPM芯片提供了桥梁。TSS具有安全性较好,效率高等优点,总体上是成功的。

    中国的TCM/TPM 2.0芯片:于2012年研究出,支持中国商用密码算法,得到广泛应用;

    中国的麒麟操作系统:主要技术特征有:

            ——支持中国TCM/TPM 2.0芯片,支持中国商用密码,实现了从TCM/TPM到VM的完整信任链,支持Intel的TXT技术和OAT技术,实现了基于OAT的平台远程证明,实现了可信云管理。

    5.1.2 TCG可信计算的新发展

    从TPM 1.2到TPM 2.0:

            ——密码配置更合理;提高了密码性能;密钥管理更合理;支持虚拟化;提高了密钥使用的安全性;统一授权框架;

    5.2 云计算系统的安全

    云计算是一种面向服务的计算,通常划分为基础设施即服务(IaaS),平台即服务(PaaS),软件即服务(SaaS)。由于其面向服务,所以其必然采取资源共享的工作方式,这就导致信息安全问题。因为可信计算适合用于提高信息系统的基础设施层和平台层的可信性,因此采用可信计算增强云计算可信性是一种必然选择。

    5.2.1 IaaS层的安全

    基于可信计算增强云计算系统基础设施层的安全,体现在以下4个方面:

    (1)云计算系统的信任模型:分析云计算系统的启动和运行过程各部件的相互关系,进而研究信任传递和度量方法,在此基础上建立云计算系统的信任模型;

    (2)云计算系统的可信计算基(TCB):分析云计算系统的安全威胁,核心问题是分析其安全基础的可信计算基的构造;

    (3)可信云计算系统的构建:特别考虑云计算的动态虚拟性给云计算系统构建带来一些特殊安全问题;

    (4)云计算系统的安全监控:特别是适应虚拟化和多租户任务执行环境下的安全监控方法;

    5.2.2 PaaS层的安全

    云操作系统和数据库等基础软件成为确保云计算安全的重要基础,毫无疑问这些基础软件是支持可信计算的。

    构造云可信执行环境,为用户提供一个安全可靠的云平台是平台层的核心问题。

    5.2.3 SaaS层的安全

    数据安全和软件安全是SaaS层安全的两个最重要的问题。

    数据安全的主要技术手段是密码技术和纠错编码技术。密码的应用需要密钥管理,新型的非对称密钥协商协议很好的实现了这个问题。

    软件安全的确保方法主要有3种:编写安全代码,对软件进行安全测试以发现和修复缺陷,对软件运行实施安全监控

    5.3 软件安全

    软件行为是指软件运行时表现出的状态演变过程,可以从不同层次来刻画。软件在黑客攻击或不可信环境下会偏离与其行为,软件安全就是保证软件行为在软件的生命周期中都是预期的

    5.3.1 软件安全威胁

    软件安全威胁包括拒绝服务,隐私泄露,权限提升,恶意代码执行,功能误用等。

            ——拒绝服务攻击以耗尽系统的资源实施攻击,如CPU资源,内存,网络带宽等;

            ——功能误用指攻击者可以随意调用限制使用的开放API函数,如浏览器插件的开放等。

    5.3.2 软件安全威胁的防御

    (1)根据容错原理,N版本软件技术通过软件冗余可达到软件容错的目的,因而可以抵抗某些攻击;

    (2)通过改变指令和数据的位置和顺序,使程序多样化,实现了缓冲区溢出攻击的检测。

    (3)常见的安全检测方法从Shellcode生命周期:传输,加载和执行三个阶段进行。

    5.4 嵌入式系统安全

    5.4.1 工业控制系统安全

    需要考虑的问题有:

            ——对安全性要求高,对可靠性要求更高;

            ——对适时性要求高;

            ——工业控制系统长久不关机,对可信计算提出了可多次度量的要求,而非开机度量一次;

    5.4.2 TrustZone

    整体安全思想是:通过系统结构将其软硬件资源划分为相互隔离的两个区域:安全区和普通区,每个区的工作模式包含用户模式和特权模式。两区之间设置监控模式来实现两区切换

    普通区用户需要获取安全区服务时,首先进入普通区的特权模式,该模式下执行安全监控调用指令,处理器进入监控模式,根据普通区上下文,进入安全区特权模式,此后进入到安全区用户模式,得到相应的安全服务。

    总结:

    第五章信息系统安全,首先讲了可信计算,因为可信计算是实现信息系统安全的方法,正是利用可信计算才实现云计算安全和工业控制系统安全等信息系统安全的。首先讲了中国可信计算的发展(显然我不懂讲了个啥),即技术标准,芯片和操作系统,其次讲TCG(只学到了这个叫可信计算组织)的新发展,换了一个架构(从TPM 1.2到TPM 2.0,只知道这是一个牛逼哄哄的模块)。

    其次讲用可信计算实现云计算系统的安全,从基础设施即服务(IaaS),平台即服务(PaaS),软件即服务(SaaS)三个方面。基础设施(IaaS)从信任模型的建立,可信计算基的构建,系统构建和安全监控四个方面讲。平台即服务(PaaS)说了构建一个安全平台很重要。软件即服务(SaaS)从数据安全和软件安全上说,数据安全提出非对称密钥协商协议,软件安全从编写安全代码,对软件进行检测及修复,实施过程中监控三个方面。

    接着讲软件安全。提出软件行为和软件安全的概念,说了软件安全威胁的种类,包括拒绝服务,隐私泄露,权限提升,恶意代码执行,功能误用。再讲了防御方法有软件冗余,程序多样化,代码执行过程检测等。

    最后讲嵌入式系统安全。讲了工业控制系统安全需要注意的点,即适时性,安全性和可多次度量。其次讲了一个点TrustZone,对应的是安全区和普通区以及环境切换,还是比较重要的一点。

    第六章:信息内容安全

    信息内容安全技术是研究利用计算机从包括海量信息且迅速变化的网络中,对特定安全主题的信息进行自动获取,识别和分析的技术。具有重要意义。

    6.1 信息内容安全威胁

    面临的威胁有泄露,欺骗,破坏和篡改等。

            ——网络中有大量公开信息,会被有心之人加以利用,造成信息泄露,进行诈骗等;

            ——网络的开放心和自主性导致信息共享,欺骗等行为;

            ——信息非法传播,侵犯知识产权;

            ——传播过程中被篡改和伪造;

    6.2 网络信息内容获取

    6.2.1 网络媒体信息获取流程

    (1)从预先设定的,包含一定数量URL的初始网络地址集合出发,获取初始集合中每个网络地址发布的内容;

    (2)进一步提取已获取信息内嵌的超链接网络地址,将其加入待获取地址队列;

    (3)以先入先出方式逐一提取队列中每个网络地址发布的信息;

    (4)同时进行判重与信息存储;

    6.2.2 网络媒体信息获取典型工具

    网络爬虫:

            ——第一类是服务于搜索引擎等搜索类应用的网络爬虫,规则是尽可能覆盖多的网站,深度要求不高;

            ——第二类是针对性进行信息搜集,有路径追溯爬虫和主题爬虫;

    6.3 信息内容特征抽取和选择

    特征抽取是很重要的一个环节,他把从信息中抽取出来的特征词进行量化来表示文本信息,将无结构的原始内容信息转变为结构化的信息方便计算机处理。

    (1)文本信息而言,将非结构化的文本信息转换为可处理的结构化形式。特征选择对文本内容的过滤和分类,聚类处理,自动摘要以及用户兴趣模式发现有很重要的影响。特征选择有很多方法,包括信噪比方法,信息增益,卡方统计法。同时单纯的特征选择无法满足要求时需要特征重构

    (2)音频信息内容而言,一般提取物理特征(频谱等),听觉特征(响度,音色)和语义特征(语音关键词,节奏旋律)。音频信号的特征抽取指音频的时域和频域特征,进行区分。同时抽取时常划分为等长片段,这样,特征抽取所采用的特征包括基于帧的特征基于片段的特征两种。

    (3)数字图像而言,特征抽取和选择主要有以下方面:

              ——图像颜色特征提取,即能够表示图像颜色分布特点的特征向量,如颜色直方图,颜色矩等;

               ——数字纹理特征提取:即表示图像纹理(亮度变化)特点的特征向量,如灰度共生矩阵等;

               ——其他图像特征:边缘特征和轮廓特征

    6.4 信息内容分析和处理

    一般处理环节为:匹配,分类和过滤

    信息过滤是指从动态信息流中将满足用户兴趣的信息挑出来,用户信息一般在一段较长时间内不会改变(静态)。通常是在输入数据流中移除数据,而非找到数据。

    6.5 网络舆情监测与预警

    网络舆情检测技术的发展趋势:

    (1)针对信息源的深入信息采集:采用队列和递归的大搜索技术

    (2)异构信息的融合分析:即不同的信息编码,数据格式等不同。方法有采用高度扩展性的数据格式如XML整合,或者彩玉基于语义等应用层上层信息的抽象融合分析如RDF

    (3)非结构信息的结构化表达:结构化信息利于分析;

    6.6 网络信息内容综合管控

    大型网络管理需要建立网络信息内容安全综合管控平台进行管理,综合管理才能发现新的或者更深层次的问题。

    总结:

    信息内容安全讲了信息内容安全威胁,信息内容获取,信息特征抽取和选择,信息分析和处理,网络舆情检测,网络信息内容综合管控六个方面。

    信息内容安全威胁指信息有可能被泄露,篡改等滥用;信息内容获取通过爬虫技术,按照一定的规则和流程获取;信息特征选择和抽取,针对文本,音频和图像不同的信息,有不同的特征选择方法;信息分析和处理一般为匹配,分类和过滤;网络舆情检测讲了其发展趋势,重点为异构信息的融合分析;网络信息内容综合管控没讲啥。

    更多相关内容
  • 主题词消防安全防火墙工程方案.doc
  • 消防安全主题班会主持.docx
  • 消防安全主题班会主持.doc
  • 小学生消防安全主题教育主持3篇.pdf
  • 20XX年消防安全主题班会主持.doc
  • 主题班会之消防安全班会主持.pdf
  • 精品课件
  • 安全主题班会设计主持,开班会用的,word文档
  • 学习主题班会主持怎么写.docx
  • 学雷锋主题班会主持正文开始.docx
  • 学习雷锋好榜样的主题班会主持.docx
  • 保护环境爱我校园主题升旗仪式主持.docx
  • 活动开幕 [班级主题活动开幕]
  • 互联网主题分析中经常...在食品安全和旅游领域主题模型标注的实验表明,与最大概率主题词标记方法相比,提出的方法能够明显提高标注的准确性,并且解决了多标签标记中语义类别单一的问题,能够以较少数量的标签表达更为丰
  • 安全人员会把所有大和陌生的首字母缩略混淆吗? 我从朋友和家人那里得到的一个普遍评论是,复杂的安全主题使他们头痛。 他们想简单地知道如何在互联世界中保持安全。 像我这样的人和我的同龄人都选择从事黑客...
  • 校园晚会 [校园主题晚会报幕]
  • LDA主题词模型

    万次阅读 2016-06-07 17:55:28
    最终确定去360做安全网关部分的自然语言处理环节,...LDA主题词模型探析 参考博主:http://www.tuicool.com/articles/E7RVFzU 内容再自行整理得来,侵权删。 LDA是什么?  LDA(Latent Dirichlet Allocation 文档

    最终确定去360做安全网关部分的自然语言处理环节,在此感谢360和马主管的赏识!未来2个月的学习内容应该跟NLP和C++密切相关。


    LDA主题词模型探析

    参考博主:http://www.tuicool.com/articles/E7RVFzU  内容再自行整理得来,侵权删。


    LDA是什么?

        LDA(Latent Dirichlet Allocation 文档主体生模型)是一种文档主体生成模型,也成为一个三层贝叶斯概率模型,包含词、主体、文档这三层结构。所谓生成模型,就是说,一篇文章的每个词都是通过以一定的概率选择了一个主题,并从这个主题中以一定的概率选择这个词语这个一个过程得到的。

        LDA是一种非监督学习技术,可用来识别海量文档中潜藏的主题信息。它采用了词袋(bag of words)的方法,这个方法将一个文档识别成一个词频向量,将文字信息转化成数学信息。


    LDA作用

        传统判断两个文档相似性的办法是查看两个文档共同出现的单词的多少,如TF-IDF等,但这种办法没有考虑到文字背后的语义关联,有可能两个文档说的是相似的内容但并没有词语上的交集,举个例子:

        “今天大盘挺不错啊”

        “我买进了一万股”

        可以看到上面的两个文本并没有任何词语交集,但是他们却说的都是“股票”这个话题,如果按照传统的方法看着两个文档,肯定是毫无关联的,所以在判断文档相关性的时候需要考虑一下文档的语义,主题模型是语义挖掘中比较好的手段,而LDA又是其中比较有效的模型。

        “主题”又是什么的,形象来说,主题像是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。这些单词是依据条件概率放进这个桶中的。

        怎样才能生成主题,对文章的主题应该如何分析,这是主题模型应该探讨的问题。

        生成模型是说,我们认为一篇文档的每个词都是通过一定概率选择了一个主题,并从这个主题中以一定概率选择某个词语,那么在某个文档中出现该词语的概率为:

     

        这个概率公式可以用矩阵来表示:

        文档-词语矩阵表示某个词语出现在某个文档中的概率;主题-词语矩阵表示某个词语在某个主题中出现的概率;文档-主题矩阵表示某个主题中出现某个文档的概率。

        给定一个文档,通过对文档进行分词,计算各个文档中每个词的词频,就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵的。

        主题模型有两种,pLSA(Probabilistic Latent Semantic Analysis)和LDA,我这次主要讲LDA。


    LDA算法

    目标:生成M份包含N个单词的文档,Latent Dirichlet Allocation这篇文献中主要介绍了三种方法:


    方法一:unigram model

        该模型使用下面这种方法生成一个文档:for each of the N words w_n: choose a word w_n~p(w)

        其中N表示要生成文档中的单词个数,w_n表示生成的第n个单词w,p(w)表示单词w的分布,可以通过预料进行统计学习得到,比如给一本书,统计各个单词在书中出现的概率。

        这种方法通过训练语料获得一个单词的概率分布函数,然后根据这个概率分布函数每次生成一个单词,使用这种方法M次生成M个文档,图模型如下所示:


    方法二:Mixture of unigram

        unigram模型方法缺点是生成的文本没有文本主题,过于简单,mixture of unigram对其进行了改进,该模型使用下面方法生成一个文档:

    choose a topic z ~ p(z);

    for each of the N words w_n;

    choose a word w_n ~ p(w|z)

        其中z表示一个主题,p(z)表示主题的概率分布,z通过p(z)按概率产生;N和w_n同方法一;p(w|z)表示给定z时w的分布,可以看成是一个k×V的矩阵,k为主题个数,V为单词个数,每行表示这个主题对应的单词的概率分布,即主题z所包含的各个单词的词频,通过这个概率分布按一定概率生成每个单词。

        这个方法先选择一个主题z,主题z对应一个单词的条件概率分布p(w|z),每次按这个分布生成一个单词,使用M次生成M个文档,图模型如下:

        从图中可以看到,一个文档只允许一个主题,这显然不符合常规,因为一个文档很可能有多个主题。


    方法三:LDA(Latent Dirichlet Allocation)

        LDA方法生成的文档可以包含多个主题,该模型使用下面的方法生成一个文档:

    Chooseparameter θ ~ p(θ);

    For each ofthe N words w_n:

    Choose a topic z_n ~ p(z|θ);

    Choose a word w_n ~ p(w|z);

        其中θ是主题向量,向量的每一列表示每个主题在文档中出现的概率,该向量为非负的归一化向量;p(θ)是θ的分布,具体为Dirichiket分布,即分布的分布(这个没懂是啥意思啊,有空借本书看看,留个坑);N和w_n同上;z_n表示选择的主题,p(z|θ)表示给定θ是主题z的概率分布,具体为θ的值,即p(z=i|θ)=θ_i;p(w|z)同上。

        先选定一个主题向量θ,确定每个主题被选择的概率。然后生成每个单词的时候,从主体分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。图模型如下:

    LDA的联合概率为:

    拆解一下:

    LDA的三层被三种颜色表示了出来:

    1. corpus-level(红色):α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。

    2.document-level(橙色):θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ。

    3. word-level(绿色):z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个 单词w对应一个主题z。

    通过上面对LDA生成模型的讨论,可以知道LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:

    α:分布p(θ)需要一个向量参数,即Dirichlet分布的参数,用于生成一个主题θ向量;

    β:各个主题对应的单词概率分布矩阵p(w|z)。

    把 w当做观察变量,θ和z当做隐藏变量,就可以通过EM算法学习出α和β,求解过程中遇到后验概率p(θ,z|w)无法直接求解,需要找一个似然函数下界来 近似求解,原文使用基于分解(factorization)假设的变分法(varialtional inference)进行计算,用到了EM算法。每次E-step输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到 收敛。  (EM算法目前还没有学习,留坑,后续补上









    展开全文
  • 并进一步采用Word2Vec寻找主题词的同义词和关联词,扩展主题词集合。在邮件分类中,对训练数据集进行统计学习得到词语的先验概率;基于扩展的主题词集合及其概率,通过贝叶斯公式推导得到某个主题和某封邮件的联合...
  • PAGE 安全生产安全档案管理软件 经济效益证明 附1大同煤矿...主要完成单位 同煤集团同家梁矿 申报单位意见 (盖章) 同意 申报奖励等级 项目可否公布 主题词 安全档案管理软件 专业一级 分类 信息 专业二级 分类 任务来源
  • 网络安全与信息安全是互为补充的,两个角色都可以保护数据免于窃取、访问、更改或删除,主要区别在于他们关注的广度。

     网络安全和信息安全是一回事吗?还是说信息安全是网络安全的一个子集? 今天我们就来搞懂他们之间的异同。

    我们先看看网络安全和信息安全是如何定义的。根据美国国家标准与技术研究院的说法,网络安全是保护网络空间的使用免受网络攻击的能力。该组织将信息安全定义为保护信息和信息系统免受未经授权的访问、使用、披露、中断、修改或破坏,以提供机密性、完整性和可用性。换句话说,区别在于范围。

    网络安全与信息安全

    关于网络安全和信息安全是否意义相同的辩论仍在继续,但将网络安全视为一种信息安全形式是有意义的。将信息安全视为一个保护伞,其下包含网络安全和其他安全主题,如密码学和移动计算。

    不过,鉴于因地域不同可能产生的影响,很难做出明确的区分。例如,网络安全一词在美国被广泛使用,但在世界其他国家/地区,它也通常被称为信息安全。这些因素也导致了网络安全与信息安的争论。

    网络安全与信息安全讨论中还有其他区别。网络安全涉及保护网络空间中的信息,而信息安全则意味着保护网络空间内外的数据。换句话说,互联网或端点设备可能只是大局的一部分。两者都涉及保护网络空间免受黑客攻击,其中可能包括勒索软件、间谍软件、恶意软件和其他类型的有害软件,这些软件可能会造成各种破坏。然而,网络安全专业人员的关注范围更窄。

     网络安全人士通过发现漏洞和错误配置,保护服务器、端点、数据库和网络。换句话说,他们有责任防止违规。最有才华的人像黑客一样思考,甚至​​可能曾经是黑客。当然,信息安全专业人士也关心数据丢失的预防。他们与网络同行一起工作,但可能更关注优先处理最敏感的数据,并制定从漏洞中恢复的计划。

    从更基本的层面上考虑数据和信息之间的差异也很有帮助。数据可以是任何东西——例如一系列数字——但并非所有数据都是相等的。这些数据代表什么以及它的敏感程度,完全属于信息安全专业人员的职责范围。例如,如果一系列数字是客户的信用卡号,则信息安全团队有责任确保它们符合政府法规。同样,他们与网络安全的同事密切合作,以确保最关键的数据是安全的。但信息安全人士要对组织的整体安全性承担更大的责任。

    Cyber Security网络安全

    Information Security信息安全

    Focuses solely on online threats

    关注网络威胁

    Takes a mile-high view of the security landscape

    从更高的角度审视安全形势

    Learns to think like a hacker

    像黑客一样思考

    Deals with the protection of data from any threat

    保护数据免受一切威胁

    Develops a deep understanding of malicious software 深入了解恶意软件

    Oversees unauthorized access/modification/disruption监督未经授权的访问/修改/中断

    结论

    最后,网络安全与信息安全是互为补充的,两个角色都可以保护数据免于窃取、访问、更改或删除,主要区别在于他们关注的广度。

    想要获得网络安全或信息安全方面的认证?圣普伦提供各种认证培训,包括认证网络安全专家(CEH)CISSPCISACompTIA Security+CISM、风险和信息系统控制认证 (CRISC)CCSP、认证网络防御者 (CDN)COBIT 2019、和计算机入侵调查取证认证(CHFI)。您还可以完成圣普伦网络安全专家硕士课程,争取在职业生涯中取得进步。

    展开全文
  • 数据安全与灾难修复研究 摘要针对企业与个人用户忽视数据安全状况分析了数据安全的现状以及...主题词数据信息数据安全数据恢复软件 目录 TOC \o "1-5" \h \z \o "Current Document" 引言 1 \o "Current Document" 1数
  • 基于CiteSpace的国内外公共安全研究可视化分析,王春雪,吕淑然,为了解国内外公共安全研究热点,利用中国知网(CNKI)及Web of Science数据库以公共安全(public safety and health)为主题词,检索了2010-2014年出�
  • 数据安全分类分级剖析

    千次阅读 2021-09-15 00:04:46
    数据分类分级对于数据的安全管理至关重要,安全分类分级是一个“硬核课题”,从数据治理开始,除了标准化和价值应用,重要的课题就是质量+安全安全是底线,是价值应用的前提和基础。数据分类可以为数据资产结构化...

    概述

    **本人博客网站 **IT小神 www.itxiaoshen.com

    数据分类分级管理不仅是加强数据交换共享、提升数据资源价值的前提条件,也是数据安全保护场景下的必要条件。《数据安全法》规定国家建立数据分类分级保护制度,对数据实行分类分级保护,数据分类分级工作是基础和核心,数据分类分级是数据使用管理和安全防护的基础,为数据尤其是重要数据制定分类分级制度并依规管理,是实现数据安全目标的重要工作;数据分类分级不仅是数据安全治理的第一步,也是当前数据安全治理的痛点和难点,数据分类分级是非常有挑战性的工作。总结数据分类分级的基本流程包括4个重要的方面

    image-20210913172423347

    该流程具有科学的方法论指导作用,但其问题在于缺乏实践过程中的具体方法。数据分类分级的行业差异性很大,不同行业数据具有不同的属性和业务处理目标,在开展数据分类分级时,需要深入理解行业业务需求,研究设计具有针对性的方法和工具。

    数据分类分级对于数据的安全管理至关重要,安全分类分级是一个“硬核课题”,从数据治理开始,除了标准化和价值应用,重要的课题就是质量+安全。安全是底线,是价值应用的前提和基础。数据分类可以为数据资产结构化管理、UEBA(用户及实体行为分析)、个人信息画像等数据治理工作提供有效支撑;数据分级通过对不同级别的数据设置相应访问权限、加密规则、脱敏规则等,可大大提升数据安全管控效率,是数据安全精细化管理的重要一步

    政务数据分类分级的痛点问题和挑战

    数据分类面临的痛点问题和挑战

    • 如何选择分类维度的问题

    对于数据进行分类可以有很多维度,包括基于数据形式数据内容等。基于数据形式可以按照数据的存储方式、数据更新频率、数据所处地理位置、数据量等进行分类;数据内容可以根据数据所涉及的主体、业务维度等多个维度进行分类。

    不同维度各有价值,如何选择一个维度对数据进行分类需要考虑数据分类的目的,但很多时候大家都希望通过一个分类维度实现多个目标,或者将两个分类维度混合进行分类。分类维度的不清晰会导致后续基于分类的很多操作都存在问题

    • 单一分类维度下的类别划分问题

    例如,基于内容进行分类的维度,面临数据可能分类不全、类别不清晰的问题。主要原因是大范围内的内容分类是一个很复杂的问题,甚至可能涉及知识分类的问题,这在目前还是一个较为难以解决的问题。类别划分有问题会导致有些数据无法分到一个分类下,而有些数据又同属于两个分类

    数据分级面临的痛点问题和挑战

    • 定性到定量的问题

    针对信息资源的分级,需要根据信息内容确定。目前尚无科学的方法和范式支撑构建信息内容的数学模型,因此很难准确定量地进行数据内容描述。

    举个例子,我国目前已有一些针对政务信息资源的安全级别描述,其中有按损害影响程度进行的数据定级,但没有关于影响程度定量的描述,所谓针对公民的损害,是造成财产损失还是身体伤害?造成什么量级的财产损失?这样的描述难以在实际操作过程中给定级的人员准确的依据去判断政务信息资源属于哪一个级别

    • 分级的级数问题

    在政府部门进行政务信息资源分级时,需要找到一个合适的级数,使得在使用过程中达到效率和安全管控的平衡。过多的分级会给实际使用带来困难,太少的分级又会使得管控难以准确地约束数据。

    目前针对不涉密的政务信息资源主要分为非密内部两级,但是在实际使用过程中这两个级别并不能满足对于数据处理的需求,并不是所有非密的数据都适合让公众知晓,也不是所有内部数据都只能政府部门使用,因此将不涉密的的政务信息资源只简单的分为两级是不合适的。

    • 分级的粒度问题

    在进行分级的时候,分级的粒度是影响分级效果的主要因素之一。以什么样的粒度进行分级才可以既达到分级防护的目的,同时不影响正常的业务仍是一个有待进一步研究明确的问题。

    政府部门的信息资源涉及各行各业,数据存储的格式众多,有文件、表、行列、字段等不同的数据粒度。不同行业中影响信息资源级别的属性要素也不一,例如地理信息资源地图的比例尺和所包含的地图元素是影响信息资源的级别的关键因素。

    • 分级的有效落实问题

    有些地方政府专门成立了大数据管理部门,来规范政府部门对信息资源的共享使用,也出台了相关的数据共享条例、数据安全保障条例等,但是还缺乏完整的流程和环节来完成从数据梳理、数据分类分级到数据存储保护、数据共享使用。

    现有的数据使用模式,是以部门为单位,各自负责自己所拥有的数据,因此相应的规章制度更多注重部门内部,缺乏跨部门的数据使用规范。目前相对成熟的跨部门的具体数据规范主要是公安部门的人口库信息,但是其他部门相对较弱。

    • 数据的升降级方法问题

    政务信息资源是动态变化的,因此数据会发生合并、摘抄等简单操作,也会进行分析融合等复杂操作。这些操作会对已经进行了分级的政务信息资源的级别产生变化。而由于政务信息资源众多,不同部门对信息资源的使用方式、需求粒度都不统一,信息资源的级别发生变化时,人工重新判定的标准难以统一,也无法完全以自动化的方式进行。

    数据安全分类分级

    基础理念

    • 数据资产和元数据关联,是数据安全最终的落脚点;
    • 数据定级,这个是数据安全定级的操作标准,从数据标准引申到定级标准,然后为后续的技术性措施提供指引;
    • 安全策略,这个是数据分类分级的真正核心,就是当有了一套所谓的管理制度和规范后,具体如何衔接到纯粹的技术措施和方法,从制度到方法,中间需要一个“实施策略”。
      • 这里的安全策略,是一个基于数据环境,同时主要从数据环境的变更作为“管控点”的策略。它的基本思路是:
      • 数据是依托于环境进行采集、存储的,在企业的实际工作中,就静止数据而言,环境的安全策略已经基本覆盖了数据的安全策略,包括系统、网络、用户权限等。
      • 只有在环境发生变更,就是数据出现了传输等过程,从一个环境变迁到另一个环境,这个时候,静止数据的环境安全策略无法覆盖,需要就环境变更产生的动态情况进行安全策略的制定,这就是数据的脱敏、加密等技术保护措施的实施动因

    在现代企业中,静止数据的安全措施总体上是有一定基础的,相对于动态数据而言也是更加丰富和完整的。比如物理的机房准入,网络的访问控制,防火墙的管理,用户访问权限,数据生命周期的管理等等。薄弱点在于动态数据部分。比如,当一份生产数据要传输到第三方,这个时候如何处理?谁负责这个事情?具体要做什么处理?谁实施这个操作?在什么地方进行?这些内容,就容易出现空白。

    所以,数据安全分类分级工作,要从企业实际情况出发,不是枉顾实际情况,单纯援引理论直接单搞一套重复建设,而是要和企业已有的安全基础设施、制度体系框架、组织结构和流程机制等结合,从痛点入手,查漏补缺,快速的补短板,形成一套更加完整的数据安全管控体系。

    而这套体系如果仅仅停留在《办法》、《规范》、《指引》上,那还是不接地气,最终要平台化、系统化。通过数据资产盘点、数据标准制定、数据安全定级的索引,再通过数据溯源定位好数据主人,基本上可以在系统平台上解决“WHO”的问题和动员组织能力提供了一个抓手。

    把做什么想明白,把谁来做想明白,把怎么做平台化

    数据安全分类分级理解

    数据分类

    数据分类是指企业、组织的数据按照部门归属、业务属性、行业经验等维度对数据进行类别划分,是个系统的复杂工程。数据分类的目的是要便于数据的管理、利用。基本原则是:分类要合理,即在一个明确的业务目标下,确定逻辑清晰的分类维度,并确保数据有且只有一个分类类别。可以从三个维度进行分类

    • 数据管理维度:根据数据的一些客观属性进行分类,便于数据管理机构对数据进行管理,便于数据管理系统的规划
    • 数据应用维度:根据数据内容的固有属性进行分类,便于数据理解和应用
    • 数据所涉及的对象维度:对数据内容的理解的维度,不过更偏向于支撑便于数据权属分析和数据安全管理

    数据分级

    数据分级则是从数据安全、隐私保护和合规的角度对数据的敏感程度进行等级划分。整体来看,建议在数据分类的基础上,根据某类数据的安全属性(如完整性、保密性、可用性),集合数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用时,对国家安全、公共利益或者公民、组织合法权益造成的危害程度,结合自身组织情况将数据分为4—5个安全保护级别

    • 针对定性到定量的问题,需要按照行业需求,结合科学的方法,进行数据信息模型的研究。在实际工作中,可先行结合业务经验进行总结和实践尝试;
    • 针对数据分级级数如何确定的问题,根据Gartner报告表明,合理的数据分级最好在3-5级之间,太多会造成大量的管理负担,不利于正常的实施。在政务信息共享领域,可参考2017年发改委发布的《政务信息资源目录编制指南》文件中的数据分级的描述(见下表),并结合本部门业务实际情况进行研究,确定适合的分级级数;
    • 针对分级粒度的问题,并无标准化的粒度划分方法,实际工作中又可从3个方面进行评估确定:
      • 首先,需要考虑数据会用来干什么,例如查询统计、建模分析、数据密布型人工智能算法。进行查询统计的数据可以针对查询项和统计项进行细粒度的定级,其他项可以适当增大分级粒度;
      • 其次,要考虑数据的处理方式,例如原始数据未改变、融合产生新数据、剪裁产生新数据、更新等。若原始数据未改变,信息资源分级的粒度可以适量大一些;若要融合产生新数据,分级粒度应当更细一些,避免数据融合分析过程中,暴露原本想隐藏的信息,导致原级别定义不准确;
      • 第三,参考数据在信息系统中的存储和处理方式进行定级粒度划分。结构化和半结构化的信息资源在定级的时候,可以根据用途按照行列或者表级的粒度来定级。非结构化的信息资源定级的粒度建议以单个文件的粒度进行;
    • 针对数据分级如何落实的问题,以政务信息共享为例,需要建立更为完善的数据分级流程,理清数据分级在政务信息共享工作中的位置。同时建立分级人员的培训制度、分级的责任制度等,使得对政务信息资源分级能够切实的实施;
    • 针对数据的升降级方法问题,需要制定一系列数据分级的升降级原则,明确在什么情况下数据会发生生升降级变化,通过判断哪些要素进行升降级处理,并制定有效的自动化升降级信息资源预处理机制。

    数据定级流程

    数据安全定级过程包括数据资产梳理、数据安全定级准备、数据安全级别判定、数据安全级别审核及数据安全级别批准

    image-20210914151039731

    数据定级流程基本步骤

    • 数据资产梳理:
      • 第一步:对数据进行盘点、梳理与分类,形成统一的数据资产清单,并进行数据安全定级合规性相关准备工作。
    • 数据安全分级准备:
      • 第二步:明确数据分级的颗粒度( 如库文件、表、字段等) ;
      • 第三步:识别数据安全定级关键要素(影响对象、影响范围、影响程度)。
    • 数据安全级别判定:
      • 第四步:按照数据定级规则,结合国家及行业有关法律法规、部门规章,对数据安全等级进行初步判定;
      • 第五步:综合考虑数据规模、数据聚合、数据时效性、数据形态(如是否经汇总、加工、统计、脱敏或匿名化处理等)等因素,对数据安全级别进行复核,调整形成数据安全级别评定结果及定级清单。
    • 数据安全级别审核:
      • 第六步:审核数据安全级别评定过程和结果,必要时重复第三步及其后工作,直至安全级别的划定与本单位数据安全保护目标相一致。
    • 数据安全级别批准:
      • 第七步:最终由数据定级工作领导组织对数据安全分级结果进行审议批准。

    数据级别变更

    数据级别变更应由数据的主管业务部门/属主部门或数据安全管理部门发起,并按照数据定级流程实施。在数据定级完成后出现下列情形时,应对相关数据的安全级别进行变更:

    • 数据内容发生变化,导致原有数据的安全级别不适用变化后的数据;
    • 数据内容未发生变化,但因数据时效性、数据规模、数据应用场景、数据加工处理方式等发生变化,导致原定的数据级别不再适用;
    • 不同数据类型经汇聚融合形成新的数据类别,使得原有的数据级别不适用,应重新进行级别判定;
    • 因国家或行业主管部门要求,导致原定的数据级别不再适用;
    • 需要对数据级别进行变更的其它情形。

    安全管控策略

    根据数据分类分级结果,从管理、流程和技术等方面,制定基于数据安全视角的全生命周期数据安全管控策略,管理方面包括不限于规范管理决策职责、规范日常维护职责、规范岗位人员职责等;流程方面包括不限于制定数据安全管理整体机制流程安全管控策略、权限管理操作流程管控策略等;技术方面包括不限于制定基础架构的整体安全支撑技术、加密、脱敏、数据防泄漏等的管控策略。

    国内企业数据分类分级产品

    卫士通

    卫士通牵头、参与了数据安全领域的多个国家及地方的标准研究和编制,包括《信息安全技术 大数据安全管理指南》、《信息安全技术 大数据服务安全能力要求》、《政务信息资源安全分级指南》、《雄安新区数据资源目录定级指南》、《雄安集团数据使用暂行办法》等。

    在政务、金融、交通、智慧城市和大型央企等项目中,建设探索解决政务信息共享环节数据缺乏分类分级防护、数据权责难以界定以及数据流转监管困难等问题,针对政务数据资源管理缺乏分类分级方法、数据权责难以界定、数据流转监管困难、企业数据权限管理困难、金融数据分级标准落地等问题,卫士通总结形成了涵盖数据分类分级工作的数据安全解决方案,并在项目中进行了不同程度的落地实践。我们希望基于当前的研究和工作,能够帮助用户确定本单位的数据安全分类分级管理制度、标准,协助用户完成已有数据定权分级,提供基于数据分类分级后的安全防护方案设计和建设服务。

    在实际项目中,卫士通也已积累沉淀形成了专业的数据分类分级产品,如下图所示

    image-20210914110634588

    该产品通过自动化技术,将分类分级的专家经验和方法固化为规则模型和识别引擎,有效避免了采用全人工进行数据分类分级时存在的因人员经验背景知识不足导致的不确定性问题,并且降低了人力成本。

    同时,在具体实施过程中根据不同场景,可与数据资产管理系统、传统数据库、大数据库等进行对接,还可根据不同行业选择不同的识别引擎,通过识别关键要素,结合分类分级的规则进行自动化分类分级

    深信服

    深信服智能数据分类分级平台引入了人工智能与机器学习算法,相较于传统数据分类分级做法,采用机器学习技术,大大提升了准确率,进一步提升了工作效率,减少了人力成本,在数据分类分级上作了一次有效实践,深信服智能数据分类分级平台工作机制如下:

    • 分类分级策略定义
      • 平台内置通用的分类分级策略,用户可根据国家与行业相关的数据分类分级标准和规范进行设置,其中数据分类策略用于定义数据的类型,数据分级策略用于定义数据的安全等级。
    • 多维数据特征提取
      • 平台能够对接各种类型的数据库,实现数据资产的自动发现和数据目录的生成,通过机器学习算法对数据进行多维度元数据特征向量自动提取,对相似字段的数据字段进行聚合归类。
    • 智能分类分级推荐
      • 平台接着会对相似数据类别与级别进行智能推荐,实现数据的智能分类分级,同时在用户分类分级过程中也会不断学习用户对数据的标注,提升智能推荐率,目前分类分级智能推荐率达到90%以上。

    同时,分类分级结果以API的形式对外开放,业务系统和安全系统均可以调用API,以根据数据的分类分级结果进行精细化的数据管控与安全防护。

    深信服以智能数据分类分级为核心的数据共享安全解决方案荣获贵州数博会 2021 年“数字政府方案案例创新奖”,在行业内已小有名气

    安恒信息

    自动化数据分类分级打标

    标签化可以通过对数据打标签的方式降低数据安全管理的门槛,帮助单位进行数据的分类管理,分级防护。目前业内的专用工具可基于关联补齐后的数据,结合数据分类分级结果,在原数据基础上进行标记。

    • 结构化数据的打标过程
      • 工具自动方式
        • 工具自动打标签可以通过两种方式实现,一种是通过从数据库中提取元数据,进行自动分级分类,分级分类策略可配置。另一种为借助敏感标签能力,对元数据中的敏感程度和数据定级自动智能推荐,并快速完成数据分级管理。同时自动化工具能够支持数据分级支持对表、字段进行识别和分级标识,可自定义定级规则,并支持标记和变更数据敏感级别,通用的敏感级别包括公开、内部、敏感、机密等。
      • 机器学习方式
        • 目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、OCR、机器学习、自然语言处理等先进AI技术提取敏感数据特征,建立相应敏感识别规则,然后统一录入规则引擎。识别规则除机器学习获得以外,还包括系统内置规则及用户根据敏感特征自定义规则,可进行精确的、更多场景的敏感数据识别。识别后的数据与敏感标签库进行匹配,命中规则数据则会打上相应标签,根据标签则可以查看数据分级分类结果以及敏感数据分布情况。
    • 非结构化数据的打标过程
      • 针对文档、图像、视频等非结构化数据,通过标记文件头的方式进行打标。

    image-20210914153105797

    基于数据分类分级的某市政务数据安全管控实践

    政务数据由基础信息、行业、主题等各类别的结构化、非结构化数据的汇集而成。某市政数据为规范市政数局、区委办局两级数据管理的相关标准,规范政务数据安全管控的规则,基于政务数据分类分级管理方法论进行了数据安全管控。

    工作流程

    image-20210914154226904

    制度建设

    由政务数据主管部门牵头,信息安全部门制定分类分级相关的制度规范,包括组织人员岗位职责规范、分类分级规范、分类分级矩阵(含定级方法、安全管控策略)等。

    培训推广

    由政务数据主管部门组织,信息安全部门为业务部门提供数据安全培训,除了针对分类分级制度规范解读、工具使用、安全管控实施细则等,培训内容还涵盖数据安全的常识、数据加密方式方法、数据脱敏方式方法、数据防泄漏等相关方面。通过开展不同角色的安全培训,覆盖政务管理培训和技术培训,将数据安全理论、数据安全最佳实践赋能XX市政务人员,达到培训提高数据安全意识、增强数据分类分级能力的目的。

    实施落地

    • 梳理数据现状。业务部门梳理本部门的全量数据范围,明确数据产生方式、数据结构化特征、数据更新频率、数据应用情况、数据质量情况、数据敏感程度等。
    • 初步确定数据分类分级。依据GB/T 21063.6-2007政务信息资源目录体系第4部分:政务信息资源分类相关要求,业务部门结合自身业务,初步判定数据在确定各分类维度的分类类别和数据安全等级。
    • 部门自主审核。业务部门应对数据在各维度的初步分类结果及数据分级结果进行部门内部自主审核,审核通过后提交至政务数据主管部门审查。
    • 数据分类示例:

    image.png

    • 数据分类分级管控策略矩阵示例

    image.png

    检查评审

    合规性审查。政务数据主管部门对本级及下级业务部门的数据分类和分级结果进行合规性审查。经政务数据主管部门合规性审查通过后,最终确定业务部门的数据在各维度分类下的结果和数据安全等级。

    安全管控

    • 确定最终数据分类分级。经政务数据主管部门合规性审查通过后,最终确定业务部门的数据分类分级结果。
    • 数据安全分级管控。依据数据分级分类规范中的分级管控要求,落实具体管控措施。
    • 变更维护。业务部门应定期组织对分类分级结果的合理性、有效性进行评估,当数据状态、服务范围等方面发生变化时,及时对分类分级结果进行调整,并记录变更过程。

    安华金和

    帮助组织梳理数据资产,制定数据分类分级的标准指南,制定切实可落地的数据安全策略,从而保障数据安全治理工作的顺利开展。

    image-20210914161240136

    国外企业数据分类分级产品

    Netwrix数据分类软件

    Netwrix是美国一家提供信息安全与治理技术的网络安全公司,为用户提供以数据为中心的安全服务,被评为2020年Gartner文件分析软件市场指南“代表性供应商”、2020年Gartner Peer Insight文件分析软件“客户之选”

    Netwrix数据分类平台概述

    Netwrix数据分类平台通过使用数据发现和分类工具(Data Discovery and Classification Tool,简称DDC)实现分类功能。工具自动识别不同应用程序的结构化和非结构化数据,并结合预定义的分类法对文件进行分类,基于分类结果展示数据的分布状态统计。

    无需部署客户端,使用基于WEB的管理控制台执行数据分类操作;通过HTTP协议和第三方应用API接口定位数据源;支持预定义的分类规则,实现对受GDPR、GLBA、HIPAA和其他监管标准保护数据的识别,也可以通过自定义分类规则查询识别其他数据;使用逻辑化和持续化的全文本索引模式,配合使用机器学习算法、语义分析自动查询文件内容;并为每种分类规则设置关联度得分,得分值可依据数据分类结果实时调整,用以调整文件匹配的范围;支持包括英语、德语、法语、汉语、日语、韩语等50余种语言的数据分类

    Netwrix数据分类平台功能

    Netwrix数据分类平台主要包括三个功能:数据采集、数据分类和数据分类结果的可视化呈现。上述功能通过基于WEB的管理控制台(Management Console)贯穿为一体,实现对分类过程的操作配置

    • 数据采集
      • 运行在数据分类服务器(Data Classification Server)上的数据分类采集服务(Data Classification Collector Service),采集数据源(Data Source)的文档后,将文档转换为纯文本,并形成文件元数据(Metadata)存储于数据分类SQL数据库(Data Classification SQL Database)。数据分类索引服务(Data Classification Index Service)基于收集的文档内容和元数据,创建全文本查询索引(Full-text Search Index),并将其存储至索引库(Data Classification Index)
      • 数据源是需采集和分类的数据存储库。通过管理控制台的数据源内容配置功能,实现对需采集数据源的添加和管理,添加后可查看数据采集结果
      • Netwrix支持分类的数据源有:Windows文件系统、Windows Server系列服务器、Linux文件系统(SMB/CIFS/NFS)、Office 365、数据库、Outlook(2010以上版本)、DropBox、Exchange服务器/邮箱、Google Drive、SharePoint等。在数据采集阶段,除了选择需采集的数据源类型,还需针对每种数据源配置相应的采集选项,以便于更精细化地定位
        • 数据库:Netwrix支持对SQL Server(2008以上版本)、Oracle、PostgreSQL、EMC等主流数据库内容的采集及分类。采集前需要先设置数据库访问用户名(如Windows服务或IIS程序池用户)或连接信息。数据库连接创建成功后,数据分类采集服务即可将采集到的内容智能映射为元数据。数据库内容采集的主要配置项如下:
          • 数据库类型。从SQLServer、Oracle、MySQL、PostgreSQL等选项中选取所需采集的数据库类型
          • 数据库服务器信息。设置采集目标数据库的服务器地址、具体数据库名称、登录用户名和身份认证方式
          • OCR处理模式。Netwrix可以通过OCR模式采集数据库文件中的图片内容,可从“禁用/默认路径/标准质量/增强质量”4种模式中选择
          • 数据库采集范围。设置需采集内容的数据库表、列的范围。
        • 文件系统:Netwrix支持对Windows文件系统和Linux文件系统的内容采集
          • 文件(夹)路径。设置需采集内容的文件(夹)路径
          • 文件夹级别。设置采集文件夹深度,可以选择是否包含子文件夹、是否采集所有子文件夹,以及子文件夹深度的范围(2-99级)
          • 文件夹访问信息。设置访问文件夹所需的系统帐户和密码,以及是否允许匿名访问文件目录
          • 重新索引周期。当源文件发生变更(增加/修改)后,Netwrix分类会定期更新索引,默认更新周期为7天
          • 文件类型。设置需采集的文件类型
          • 是否采集相同内容的副本文件,以及采集文件的优先级
        • 查看数据源采集结果
          • 数据采集流程自动对数据源进行采集、格式转换和创建索引的处理操作后,即可在管理控制台上查看数据源采集结果,包括:数据源类型、数据源文件位置、数据源采集状态、数据源索引创建状态、数据源采集文件数量及总大小
    • 数据分类
      • 数据分类服务(Data Classification Classifier Service)根据Netwrix预定义的第三方分类法(Taxonomies)和用户自定义的分类法,对文件内容匹配后分类,最终将分类结果存储于数据分类采集数据库(Data Classification Collector Database)中
      • Netwrix数据分类工具提供预定义分类法,这些分类法包括数百个现成的分类规则。每种分类法包含一系列术语(term),术语又由一系列配置规则(configuration clue)定义。通过使用规则与文件内容进行匹配,最终定位源文件的所属分类
        • 分类法
          • Netwrix数据分类平台所提供的预定义分类法共8种,其中4种核心分类法覆盖了个人、金融、医疗等领域,包括:财务信息(Financial Records)、PII(Personal Identifiable Information,个人可识别信息)、第三方支付行业数据安全标准(Payment Card Industry Data Security Standard,PCI DSS)、患者健康信息(Patient Health Information,PHI),余下4种衍生于核心分类法,用于满足部分特定的合规性要求,称为衍生分类法,包括:GDPR(通用数据保护条例)、GDPR第九章中涉及的个人信息特殊类别、GLBA(金融现代法案)、HIPAA(医疗保险可携性和责任法案)。除了上述预定义分类法外,用户也可以添加自定义分类法
        • 分类规则
          • 分类规则通过复合词精确/模糊匹配、区分大小写、单词发音、正则表达式、语种类型匹配等11种匹配方式,查询文件内容后对其分类。此外,用户也可以添加自定义分类规则,添加时可设置规则的分数,代表其与分类特征的关联度。分数越高,则关联度越高,此项规则可用于对文件进行分类的概率越大。
          • 分类规则用于描述文档中发现的语言,使得文档归属于特定的主题。Netwrix提供预定义分类规则用于查询文件内容,这些规则涵盖了如英语、法语、德语、西班牙语等多语种的个人可识别信息(姓名、家庭住址等),以及英国、新加坡、南非等多个国家的识别码和登记码
        • 分类标签
          • Netwrix支持将分类标签写入被采集数据的属性中。具体操作方式为:在管理控制台上,将分类标签写入到指定数据源的属性中。分类标签可采用[分类名称|分类ID]的格式呈现
          • 例如:农业分类法中有农场(ID为11)和生产(ID为32)两个子分类。当同时包含农业和生产的文件分类完成后,分类标签即写入该文件的属性中,即文件属性增加项——属性名称农业,属性值[农业|11;生产|32]
    • 分类结果展示
      • 通过查看管理控制台上的数据源及分类规则详细信息、统计审计报告如文件分布地图等功能,展示数据分类结果
      • 数据分类结束后,即可在管理控制台通过多种方式查看分类结果
        • 通过数据源查看
          • 选择某项数据源,即可查看已采集的数据信息,包括:文件名称、路径、分类状态、匹配的分类等内容。
          • 数据源查看文件分类结果
        • 通过规则查看
          • 选择分类法及其子节点中的术语,即可查看该术语对应的规则信息,包括:规则类型、规则名称、规则的分数。选择每种规则,即可查看与之匹配的文件数量
        • 文件分析报告(Data Analysis Report)
          • 可在Netwrix管理控制台上查看数据分析报告,对报告中的数据进行筛选和细化,以查询包含文件按照分类结果的分布状态。常用的报告有三种:文件分布地图(按分类和数据源分组统计),以及最近一周分类标签分配情况
          • 文件分布地图-按分类法分组统计
          • 文件分布地图-按数据源分组统计
          • 最近7天分类标签分配情况

    image-20210914162552914

    小结

    Netwrix作为全球500余家公司的数据安全治理供应商,实际数据分类、数据审计、数据安全功能远不止这些。Netwrix的数据分类工具作为数据安全的基础,提供了诸多参考方向,例如:无需单独部署客户端,使用一套服务器、一个WEB管理控制台的轻量化部署,即可完成数据分类全过程;可基于不同种类的分类数据源配置相应的分类配置项,为更精确的定位数据源提供支撑;使用预定义的数据合规分类法及其规则,满足国外对个人隐私数据识别的主流需求;使用多维度的象限统计图表,更直观地查看数据的分布情况。除此之外,Netwrix的数据审计和数据安全功能,能够提供以数据分类为基石、以用户实体行为分析UEBA(User and Entity Behavior Analytics)为核心的数据安全审计功能,最终形成数据防护流程体系。

    资料

    数据安全分级分类文档资料列表名称

    image-20210914145814534

    展开全文
  • 三年级语文下册第一单元语文园地一主题阅读:忆江南二首白居易素材新人教版202005032116
  • 《娜璋带你读论文》系列主要是督促自己...这篇文章将详细介绍和总结基于溯源图的APT攻击检测安全顶会内容,花了作者一个多月时间。希望这篇文章对您有所帮助,这些大佬是真的值得我们去学习,献上小弟的膝盖~fighting!
  • 无论是在各种分析报告和杂志的“2007年最热IT主题”中,还是在IT厂商(尤其是企业软件领域的厂商,例如Oracle和BEA)的最新宣传中,都经常会看到SOA(服务导向型架构)一。“SOA”很可能会遍布这些厂商的Web站点、...
  • 主题抽取的核心——主题词表

    千次阅读 2019-11-26 16:53:46
    主题词主题词表 主题词表又称叙词表,是将文献标引人员或用户的自然语言转换成规范化语言的一种术语控制工具;它是概括各门或某一门专业学科领域并由语义相关,族性相关的术语组成的可不断扩充的规范化词表。主题...
  • 信息安全与网络安全的异同点

    千次阅读 2020-11-25 10:07:59
    信息安全和网络安全通常被认为是一回事,导致它们在安全领域构成混淆。不过每天都有如此多的术语涌现和新技术的出现,网络安全和信息安全的争论也就不足为奇了。信息安全是网络安全的子集吗?还是相反的呢?那么信息...
  • 安全技术思维导图

    千次阅读 2018-09-08 20:50:49
    思维导图运用图文并重的技巧,把各级主题的关系用相互隶属与相关的层级图表现出来,把主题关键词与图像、颜色等建立记忆链接。而安全人员在信息安全技术实践往往借助安全思维导图进行技术要点的呈现和自我回顾,甚至...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,928
精华内容 10,771
关键字:

关于安全的主题词