-
2021-06-22 15:44:54
更新…期末成绩出来了,给分极高,本课程是我本科阶段上过的投入/产出比最高的课程之一(另一门是刘卫国老师的并行计算)。
孔凡玉老师人极好,颇具大师风范。
本课程由两大部分构成:密码学+大数据安全(访问控制技术+大数据安全概论+密文检索+多方安全计算等),涉及的安全知识较为前沿。
全学期要求交一次大作业,形式自由(论文或代码),考前会强调考试范围和重点。- 简析大数据生命周期中存在哪些安全风险,我们可以使用哪些技术手段实现安全目标?(10)
- 简析自主访问控制技术的原理和实现,叙述自主访问控制技术在大数据环境下的优点和缺点。(15)
- 比较对称加密算法和公钥加密算法的优缺点以及在大数据安全背景下的应用。(15)
- 简述RSA算法的原理和设计方案(15)
- 简述消息鉴别码(MAC)的作用以及HMAC的实现原理(15)
- 现有n个文本文件,设计密文关键字检索技术(15)
- 某机构有一个安全中心T和n个用户,设计通过T向用户分发密钥的方案以及用户之间的数据安全共享方案。(15)
大数据安全考试范围: 大题-问答、分析、设计
第一部分:密码学基础
1、使用哪些技术,解决机密性、完整性、真实性、抗抵赖性?
2、对称密码的特点、原理
3、DES、AES流程、3-DES工作模式
4、Diffie-Hellman和RSA原理、流程、安全性分析
5、Hash原理、生日攻击
6、HMAC计算流程、实现数据完整性 (Hash、分组密码算法CBC、公钥数字签名都能实现消息验证码)
7、 (非)对称密钥如何分发第二部分: 访问控制:
早期: 访问控制列表 自主 强制 BLP模型 BIBA模型
基于密码学的访问控制 广播加密 基于公钥 不掌握也行第三部分:
可搜索加密: 关键词搜索 全文搜索 什么是保序加密(不需要熟悉具体算法)、区间搜索?
加密数据库: 使用哪些技术实现加密数据库 关键词搜索 保序加密 同态加密(概念、特点)秘密共享流程 Shamir门限机制
更多相关内容 -
2022大数据安全笔记
2022-06-03 13:07:24简析大数据生命周期中存在哪些安全风险,我们可以使用哪些技术手段实现安全目标?(10) 大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节 安全问题较为突出的是数据采集、数据传输、...考纲
1、大数据安全概念及目标
(1)如何在满足可用性的前提下实现大数据机密性和完整性
(2)如何实现大数据的安全共享
(3)如何实现大数据真实性验证与可信溯源
大数据全生命周期:
大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节
安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用
2、传统访问控制技术和基于密码的访问控制技术。
访问控制(Access Control):确保数据等资产只能经过授权的用户才能访问、使用和修改。
访问控制策略(Policies):是对系统中用户访问资源行为的安全约束需求的具体描述。
访问控制模型(Model):是对访问控制策略的抽象、简化和规范。
早期的访问控制技术都是建立在可信引用监控机基础上的
① 主体:能够发起对资源的访问请求的主动实体,通常为系统的用户或进程。
② 客体:能够被操作的实体,通常是各类系统和数据资源。
③ 操作:主体对客体的读、写等动作行为。
④ 访问权限:客体及对其的操作形成的二元组<操作,客体>。
⑤ 访问控制策略:对系统中主体访问客体的约束需求描述。
⑥ 访问(引用)授权:访问控制系统按照访问控制策略进行访问权限的赋予。
⑦ 引用监控机(Reference Monitor,RM):指系统中监控主体和客体之间授权访问关系的部件
⑧ 引用验证机制(Reference Validation Mechanism,RVM):是RM的软硬件实现。引用验证机制RVM是真实系统中访问控制能够被可信实施的基础。
强制访问控制模型
BLP 用于保护系统的机密性 核心规则是“不上读、不下写”
BIBA 关注完整性 用于防止用户或应用程序等主体未授权地修改重要的数据或程序等客体 可以看作是BLP模型的对偶。=> 不上写,不下读
基于角色的访问控制
RBAC的四种模型
① RBAC0模型(Core RBAC),定义了用户、角色、会话和访问权限等要素。
② RBAC1(Hierarchal RBAC)在RBAC0的基础上引入了角色继承的概念。
③ RBAC2(Constraint RBAC)增加了角色之间的约束条件,例如互斥角色、最小权限等。
④ RBAC3(Combines RBAC)是RBAC1和RBAC2的综合,探讨了角色继承和约束之间的关系。
3、角色挖掘的算法
1.基于层次聚类的角色挖掘:
凝聚式角色挖掘方法 将权限看作是聚类的对象,通过不断合并距离近的类簇完成对权限的层次聚类,聚类结果为候选的角色。
分裂式角色挖掘方法 分类方法,不断将角色集中的角色按类别划分。
2.生成式角色挖掘方法
将角色挖掘问题映射为文本分析问题,采用两类主题模 型LDA(Latent Dirichlet Allocation)和ATM(Author Topic Model)进行生成式角色挖掘,从权限使用情况的历史数据来获得用户的权限使用模式,进而产生角色,并为它赋予合适的权限,同时根据用户属性数据为用户
分配恰当的角色。
3.画偏序关系图
e:类簇 二元组<rights ,members> r:权限
每一步距离最近的权限聚一次类
聚类的最终结果:er24和er135两种
距离计算:优先用户做交集,然后权限做并集 容易产生超级用户
4、对称密码,非对称密码,hash算法的原理及作用
(1) 密钥的分配和管理:
对称密码密钥数量大,密钥的分配和管理困难
公钥密码密钥数量小,密钥的分发十分方便。
(2) 数字签名功能:
对称密码不能提供不可否认的数字签名功能,
公钥密码可以提供不可否认的数字签名。
(3) 实际使用:
对称密码算法速度快,适合加密大批量数据;
公钥密码算法速度慢,适合完成对称密码算法的密钥分配以及数字签名、身份鉴别等各种密码协议
一、对称密码算法:
s盒:
p盒:
DES算法
明文和密文为64比特长度,加密和解密使用同一算法。
密钥长度:实际有效密钥长度为56比特,每个字节的第8位为奇偶校验位
AES算法 看锤子,又长又臭记不住 搞个例子差不多了
分组密码:
ECB
CBC
CTR
HASH算法
1.MD5
2.SM3
消息鉴别码(认证码)——MAC(message authentication code)
HMAC——基于HASH算法的、带密钥的消息鉴别码
非对称密码算法:
作用:解决对称密码的不足
A. 密钥分配/协商问题
B. 密钥管理问题
C. 数字签名和身份鉴别功能
功能:
加密:数据机密性
数字签名:真实性、完整性、不可抵赖性
密钥交换:协商对称密钥
身份认证:真实性
RSA
1.欧拉函数φ(n)
2.d是e对mod(n)运算的逆元
辗转相除法求模的逆元
解释: 31=18*1+13 13=5*2+3
61-1 mod 105 = 31 逆元:本数 运算 逆元 = 单位元=>61*31 mod 105 = 1
5、密文索引的基本思想,及设计
密文检索主要涉及数据所有者、数据检索者以及服务器3种角色
系统流程:
① 数据所有者首先为数据构造支持检索功能的索引,同时使用传统的加密技术加密全部数据,然后将密文数据和索引共同存储到服务器。
② 需要检索时,数据检索者为检索条件生成相应的陷门,并发送给服务器。
③ 服务器使用索引和陷门进行协议预设的运算,并将满足检索条件的密文数据返回给数据检索者。
④ 数据检索者使用密钥将检索结果解密,得到明文数据。有时服务器返回的密文数据中可能包含不满足检索条件的冗余数据,此时数据检索者还需要对解密后的明文数据进行二次检索,即在本地剔除冗余数据。
密文关键字检索技术具体设计四个中至少得会一个,需要从头到尾完成设计
1.基于全文扫描的方案
2.基于文档-关键词索引的方案
核心思路是为每篇文档建立单独的索引,且服务器在检索时需要遍历全部索引,检索时间复杂度与文档数目成正比
基于布隆过滤器的密文关键词检索方案 由于Hash函数的计算结果可能存在冲突,布隆过滤器可能会发生误判
位数组即是索引,集合即是密文数据集,有k个hash函数,每一条数据就会映射到k位上。
数据所有者首先对每个数据(设为数据a)hash k次,把对应位记为1.数据检索者想要检索数据a,就根据这些hash函数检查对应位,若全是1就认为a是数据库中的数据。
6、身份认证技术及实现
实现:基于口令的身份认证技术
21年真题
1.简析大数据生命周期中存在哪些安全风险,我们可以使用哪些技术手段实现安全目标?(10)
大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节
安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用四个阶段
技术手段:
数据采集:安全多方计算,本地差分隐私(LDP)
数据传输:SSL通讯加密协议、或采用专用加密机、VPN技术
2.简析自主访问控制技术的原理和实现,叙述自主访问控制技术在大数据环境下的优点和缺点。(15)
自主访问控制模型:客体的属主决定主体对客体的访问权限。可以被表述为(S,O,A)三元组。
其中,Subject表示主体集合,Oblect表示客体集合,Access matrix表示访问矩阵,A(si ,oj)则表示主体si能够对客体oj执行的操作权限。
访问矩阵A在实际系统中主要有两种实现方式:
①基于主体的能力表(Capabilities List,CL)
②基于客体的访问控制列表(Access Control List,ACL)
在大数据环境下,主体和客体数量巨大,无论哪种实现方式,自主访问控制模型都将面临权限管理复杂度爆炸式增长的问题。因此,直接采用自主访问控制模型是非常困难的。
3.比较对称加密算法和公钥加密算法的优缺点以及在大数据安全背景下的应用。(15)
优缺点:
(1) 密钥的分配和管理:
对称密码密钥数量大,密钥的分配和管理困难
公钥密码密钥数量小,密钥的分发十分方便。
(2) 数字签名功能:
对称密码不能提供不可否认的数字签名功能,
公钥密码可以提供不可否认的数字签名。
应用:
对称密码算法速度快,适合加密大批量数据;
公钥密码算法速度慢,适合完成对称密码算法的密钥分配以及数字签名、身份鉴别等各种密码协议
4.简述RSA算法的原理和设计方案(15)
5.简述消息鉴别码(MAC)的作用以及HMAC的实现原理(15)
验证接收消息的真实性和完整性
填充密钥后和消息组合,经过HASH函数运算得到MAC
6.现有n个文本文件,设计密文关键字检索技术(15)
7.某机构有一个安全中心T和n个用户,设计通过T向用户分发密钥的方案以及用户之间的数据安全共享方案。(15)
T向每一个用户发送一个<公钥,私钥>密钥对,其中公钥所有用户都能访问,而私钥只有拥有者能够访问。
用户A对B传输时,对数据用B的公钥进行加密,然后A用自己的私钥进行解密,即可得到真实的数据内容。
其中,公钥和私钥的设计是通过陷门进行的,一个具体的实现是RSA算法。
-
大数据环境下,主要涉及哪些安全问题?
2019-03-22 22:49:43分析大数据环境下的可能会涉及的技术安全问题包括:各领域的安全需求正在发生改变,从数据采集、数据整合、数据提炼、数据挖掘、安全分析、安全态势判断、安全检测到发现威胁,已经形成一个新的完整链条。...分析大数据环境下的可能会涉及的技术安全问题包括:各领域的安全需求正在发生改变,从数据采集、数据整合、数据提炼、数据挖掘、安全分析、安全态势判断、安全检测到发现威胁,已经形成一个新的完整链条。
在这一链条中,数据可能会丢失、泄露、被越权访问、被篡改,甚至涉及用户隐私和企业机密等内容。
具体表现为:1、用户名&口令&撞库&诈骗&钓鱼
这几点主要放在一起,因为都与数据库泄露相关。当手上的数据库积累到一定程度的时候,大部分人的曾用密码或现用密码都能查的到,包括身份证信息。所以很多时候盗号之类的攻击是根本就不需要什么特殊的技巧,直接找数据库贩子买数据即可了。这也是为什么现在支付宝和QQ微信这类的厂商会弄风控的原因,登录个号需要密码,短信验证码的多重验证,需要验证你是不是在常用地址登录,是不是在常用电脑登录等。
这还只是针对普通用户的,要是像管理员账号密码,ssh,ftp,mysql等这类服务密码被分析出来了,那可是一招致命的。
2、抓鸡&应急响应
当0day爆发的时候,手上有积累了域名/IP/服务数据的就可以疯狂的来一发了,当初心脏出血的时候有人跑爆了好多硬盘,最近无论是st2还是魔法图片从乌云首页就能看出,都是平时有积累一些资源的人可能就能赶在企业应急响应之前玩一把。像zoomeye和nosec还有国外的shodan这种的本质就是收集和分析了大量的数据。
3、规则分析
根据已有的一些漏洞库,分析规则,就很有可能发现一些新的漏洞。比起当初像一个无头苍蝇去找漏洞的时代还是要简单些。包括扫描器规则,积累的越多就能发现越多的漏洞。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据主要应用于哪些行业,应用价值是什么?
http://www.duozhishidai.com/article-1195-1.html
大数据应用越来越广泛, 大数据主要应用于哪些领域?
http://www.duozhishidai.com/article-1501-1.html
大数据应用,主要包括哪几种商业模式
http://www.duozhishidai.com/article-12470-1.html
-
基于数据生命周期的安全防护
2020-01-11 15:23:34前几篇写到关于数据安全治理相关内容,数据安全治理是一项非常庞大的工程,包含管理、运维、风险管控、技术支撑、标准化等一系列内容,数据治理及安全治理,是当企业发展一定程度(既有业务层的深度,又有产品线的...前几篇写到关于数据安全治理相关内容,数据安全治理是一项非常庞大的工程,包含管理、运维、风险管控、技术支撑、标准化等一系列内容,数据治理及安全治理,是当企业发展一定程度(既有业务层的深度,又有产品线的广度),需利用已有数据,推动业务进入一种新的形态,最终谋求利润最大化的过程。 一般企业并没有达到需要治理的程度(没有达到治理的程度来自多方面,如战略层,阶段下以业务为主、安全为辅,从投入产出比来说,预算有限,实行必要型安全),不管从合规角度还是内生需求角度,只需要在现有体系下逐步增加对数据生命周期的安全防护即可(弱水三千,只取一瓢饮,剩下的需要再说)。
数据治理层级
本篇以技术支撑,即数据生命周期的安全防护为主,为一般企业提供数据安全防护建议。
一、数据生命周期管理
数据生命周期管理是指在数据采集、传输、存储、处理、交换(共享、应用)、销毁等阶段下对流动的数据进行综合管理。在数据生命周期管理期间,涉及人、管理、技术三个层面。
人:培训、运维、风险收敛、问题处置、绩效考核等。
管理:数据管理办法、管理制度及流程、标准规范等;
技术:访问控制、脱敏、加密、审计、加固、告警分析等;
数据生命周期管理
二、数据生命周期下存在的安全风险
数据生命周期内,不同环节存在不同安全风险,只有了解环节内的风险,才能针对性的“治根”解决安全问题。
管理与人的因素,暂时不考虑,以数据支撑即技术风险为主。
采集阶段:
1.数据源服务器存在安全风险,如未及时更新漏洞、未进行主机加固、未进行病毒防护。
2.缺少采集访问控制及可信认证。
3.缺少数据层安全防护,如运维人员拖库和外部SQL注入等。
4.缺少审计及异常事件告警。
传输阶段:
1.采集前置机存在安全风险,如未及时更新漏洞、未进行主机加固、未进行病毒防护。
2.缺少传输过程中异常行为控制及相关身份认证。
3.未进行加密传输。
4.传输内容未进行审计及异常操作告警。
存储阶段:
1.数据池服务器存在安全风险,如未及时更新漏洞、未进行主机加固、未进行病毒防护。
2.数据明文存储,具有泄露利用风险。
3.缺少统一访问控制及相关身份认证。
4.缺少审计及异常操作告警。
5.缺少数据容灾备份机制。
6.网络架构设计不合理,未进行物理隔离或者逻辑隔离。
处理阶段:
1.缺少数据访问控制。
2.缺少数据脱敏机制 。
3.缺少数据处理审计及异常操作告警。
交换(共享、使用)阶段:
1.交换服务器存在安全风险,如未及时更新漏洞、未进行主机加固、未进行病毒防护。
2.缺少数据访问控制。
3.缺少数据脱敏机制。
4.缺少数据处理审计及异常操作告警。
数据生命周期存在的安全风险
三、数据生命周期与防护
了解数据生命周期生命周期的风险后,便可提出对应的技术解决办法。针对第二节所讲安全风险,可从数据层、网络层、主机层、应用层等多个方面提供对应解决办法。具体技术解决办法与与数据生命周期风险两者关系可为下图:
数据风险与技术体系关系
以数据生命周期为基础的数据安全防护技术,目前业界经常提到,但没有具体给出相对清晰的风险及对应的技术解决办法,本文通过整理两者关系,形成风险与技术对应表,旨在读者清晰了解数据生命周期的安全防护技术,灵活应用于自身环境中。文章中风险只是我简单梳理,并不表征所有风险。
-
如何解决大数据安全问题
2021-01-09 09:35:44随着其使用范围的不断扩大,也存在着安全隐患,因此有必要提高其安全性。那么接下来就让我们聊聊这个话题。 各行业领域的大数据层出不穷。因此现如今大数据在各行业领域的运营也越来越多,大数据虽然应用广泛,但是... -
《基因大数据智能生产及分析》笔记
2020-11-12 12:21:46基因慧的行业报告整体上不错,这次《基因大数据智能生产及分析》也不例外,一口气读完,感受是智能化是行业趋势,打工人的日子更难了。文章有点长,没时间看的话你可以拉到文后看我的一点感想。序言陈... -
Serverless 时代 ,找到 DevOps 的最佳打开方式
2021-03-26 00:11:53作者 |许成铭(竞霄)来源 |ServerlessDevOps 简析传统软件开发过程中,开发和运维是极其分裂的两个环节,运维人员不关心代码是怎样运作的,开发人员也不知道代码是如何运行... -
干货 | 质量保障新手段,携程回归测试平台实践
2021-01-21 17:05:00作者简介Sedro,携程资深测试工程师,专注于测试技术探索及测试工具研发。一、系统回归问题回归测试是软件生命周期一个十分重要的环节,但项目在随着版本的逐步迭代,功能日益增多,系统愈加复... -
首发!《长安十二时辰背后的技术秘籍》正式公开,速来下载
2019-09-05 11:19:27一名死囚如何在十二时辰内利用“唐代黑科技”,拯救长安百姓于水火中? 这就是《长安十二时辰》的故事,剧中有恢弘的长安美景、让人流口水的水晶柿子/水盆羊肉,还有张小敬和檀棋“在一起”呼声……然而,最让人... -
AI 算法是如何改变智能风控的 | 文末赠书
2021-06-01 00:02:43来源 | 现代金融风险管理作者 |祝世虎成学军头图 | 下载于 ICphoto在金融科技的浪潮下,金融机构纷纷启动了智能风控体系的建设,但是金融机构的关注点多在于业务规模、科技系统... -
中国自来水市场需求产量与运营模式分析报告2022版
2021-11-26 16:08:452.3.1 竞争格局分析 2.3.2 行业整合动态 2.3.3 资本运营模式 2.3.4 标杆企业分析 2.4 中国水务行业产业链分析 2.4.1 水务行业产业链 2.4.2 水务行业结构分析 2.4.3 水务行业生命周期分析 2.4.4 企业参与... -
FPGA芯片行业科普
2020-12-30 15:18:59•FPGA芯片关键技术 中国FPGA芯片行业驱动因素 •5G通信体系建设提高FPGA芯片需求 •自动驾驶规模化商用提升量产需求 中国FPGA芯片行业制约因素 中国FPGA芯片行业政策法规 中国FPGA芯片... -
毕马威深度解读北京自贸试验区方案
2020-10-09 22:42:39“年度重磅活动,欢迎报名参与,超百家媒体全网扩散传播:【产业图谱+行业盘点】你是“中国数据智能产业最具商业合作价值企业”吗?点击文末“阅读原文”链接,也可直接提交报名表。大数据产业创新服... -
2019年 Java 面试题解析
2019-08-11 22:26:32我们可以通过Collections.synchronizedMap(hashMap)来进行处理,亦或者我们使用线程安全的ConcurrentHashMap。ConcurrentHashMap虽然也是线程安全的,但是它的效率比Hashtable要高好多倍。因为ConcurrentHashMap使用... -
-
中国绿色金融行业专项研究及发展规模预测报告2022-2028年版
2022-04-11 13:21:46(3)金融科技广泛应用加深了金融信息安全风险 (4)科技应用仍面临能力、成本、机制等多重制约 (5)产业发展的专业化人才仍面临较大缺口 2.4.3 中国绿色金融的技术创新发展趋势 (1)新兴技术驱动产业金融新布局,... -
Android面试复习资料整理
2019-06-24 18:21:03activity是Context的子类,同时实现了window.callback和keyevent.callback,可以处理与窗体用户交互的事件。 开发中常用的有FragmentActivity、ListActivity、TabActivity(Android 4.0被Fragm... -
Android 面试基础
2019-06-16 13:44:00### Activity ...activity是Context的子类,同时实现了window.callback和keyevent.callback,可以处理与窗体用户交互的事件。 开发中常用的有FragmentActivity、ListActivity、TabActivity(Androi... -
Dojo
2019-09-26 23:09:06值得一提的是,dojo的类机制允许进行多重继承(注意,只有父类列表中的第一个作为真正的父类,其它的都是将其属性以mixin的方法加入到子类的原型链中),为解决多重继承时类方法的顺序问题,dojo用JavaScript实现了... -
安卓面试题 Android interview questions
2017-08-03 12:31:00安卓面试题 Android interview ...1. 要做一个尽可能流畅的ListView,你平时在工作中如何进行优化的? ①Item布局,层级越少越好,使用hierarchyview工具查看优化。 ②复用convertView ③使用ViewHolder ... -
HBase学习
2018-12-08 10:53:54本文是一篇HBase学习综述,将会介绍HBase的特点、对比其他数据存储技术、、架构、存储、数据结构、使用、过滤器等。 未完成 0x02 HBase基础概念 2.1 HBase是什么 2.2 HBase相对于RDMBS能解决什么问题 2.3 HBase... -
(1)目录
2018-01-27 23:13:33(2.3.2)Java爬虫 (2.3.3)JAVA使用高速缓存redis (2.3.3.1)Redies在windows上的安装 (2.3.3.2).NET中使用Redis (2.3.4)java基础题汇总【未完成】 (2.3.5)java关键字 (2.3.6)java变量的初始化之后的... -
在互联网技术领域中基础架构的定义相对来说也比较广,包含前端、后端、应用系统、技术平台,我主要聚焦在基础架构系统中的后端系统技术平台。这次主要分享之前做一些工程项目过程中的一些想法、思路,包括如何分析...
-
在智能投顾领域,国内传统金融机构是怎样开疆拓土的?
2017-06-06 13:42:26据雷锋网了解,平安证券经纪业务事业部产品与投资研创团队执行总经理陈祎彬称,该系统使用大数据精准定位客户需求,不依赖调查问卷完成存量客户洞察,并依据马柯维茨组合理论优化模型智能计算风险与收益的平衡点。... -
-
传统运维和云运维区别比较不同观点想法
2016-08-19 00:45:57有人说在云计算工程领域,最难的部分是运维,因为管100台、1万台或是100万台机器,是完全不同的概念,你想机器少可以人管,机器多了还能靠人么,当然不能了。再则,运维系统不属于功能性的东西,常常因为用户看不见...