精华内容
下载资源
问答
  • 谈谈数据安全和数据隐私

    千次阅读 2018-01-06 10:44:20
    概念阐释 数据隐私:数据被非法查看...从产品设计之初,你就需要考虑数据安全和数据隐私问题,并且是从嵌入式芯片级别到后续维护支持的全方面布局。 解决方案 物联网产品将数据推送上云前的加密 数据从云端下送

    概念阐释

    • 数据隐私:数据被非法查看,未被加密,特别是对个人身份信息(PII)
    • 数据安全:数据被非法访问,窃取或操纵

    现状

    数百亿的产品已经或即将成为物联网的一部分。这就意味着有大量能够生成数据的设备和连接需要保护。从产品设计之初,你就需要考虑数据安全和数据隐私问题,并且是从嵌入式芯片级别到后续维护支持的全方面布局。

    解决方案

    • 物联网产品将数据推送上云前的加密
    • 数据从云端下送至物联网产品,接收前的鉴权
    • 采取一些灵活的方式,能够更新已经部署在家中和工作场所中的物联网产品的安全性
    • 依靠有内置安全和隐私措施的物联网平台
    展开全文
  • WHAT何为数据安全? 数据安全指的是用技术手段识别网络上的文件、数据库、帐户信息等各类数据集的相对重要性、敏感性、合规性等,并采取适当的安全控制措施对其实施保护等过程。 与边界安全、文件安全、用户行为安全...

    WHAT何为数据安全?

    数据安全指的是用技术手段识别网络上的文件、数据库、帐户信息等各类数据集的相对重要性、敏感性、合规性等,并采取适当的安全控制措施对其实施保护等过程。

    与边界安全、文件安全、用户行为安全等其他安全问题相同,数据安全并非是唯一一种能提升信息系统安全性的技术手段,也不是一种能全面保障信息系统安全的技术手段。它就是一种能够合理评估及减少由数据存储所带来的安全风险的技术方式。

    数据安全“学习三问”WHAT WHY HOW

    WHY为什么需要数据安全?

    如果数据安全流程只是构建单位信息安全体系的众多技术手段之一,那么,与其他技术手段相比,它的优点何在?

    从广义上讲,大多数其他安全技术手段都是以用户为中心的,它们关注的是以下这些问题:

    某用户是否能够访问某数据?

    某用户是否有权加入某网络?

    某用户是否在滥用系统资源?

    对于保障信息系统安全而言,上述这些都是非常重要的工作,但在真实信息系统的安全建设过程中,上述问题的解决却可能遭遇到大量的现实问题。例如,在一个有上百甚至上千台服务器的大型单位网络中,实际情况往往是,服务器使用权限设置随意、大量过期用户身份存在,要想掌握用户对资源的访问情况更是不可思议。

    而以数据为中心的安全模型则是换一个角度解决上述安全问题的方法。

    HOW如何实现数据安全?

    1. 数据安全模型vs用户安全模型

    设想一种场景,某企业客服部的一个员工将包含大量客户个人身份隐私信息(如身份证号、电话号码等)的Excel文件放在了一个公司所有人均有权访问的共享文件夹中。

    若以用户中心模型考虑此问题,得出的结论会是:问题不大,所有人都有该文件夹的访问权。然而,以数据安全模型考虑此问题,则会发现:这是个严重的安全问题,因为包括实习生、外包运维人员等在内的所有人都能获得这些敏感信息。由此可见,在不少场景下,数据安全模型与用户安全模型的应用效果可能产生巨大的差别。

    另外,上述场景也表明,数据安全模型的应用还依赖于一个前提条件——数据分类。

    1. 如何实施数据分类?

    数据分类是指把具有某种共同属性或特征的数据归并在一起,并通过其类别的属性或特征来对数据进行区别的技术。数据分类方法主要有以下两类:

    基于文件类型:采用该方法的原因是由于某些类型的文件(如SSH私钥、PKI证书等)从安全角度而言本质上更为敏感;

    基于文件信息:基于文件中包含的实际数据进行分类。

    迄今为止,在以上两种方法中,基于文件信息的分类方法的难度仍然较大,因为此方法必须对哪些信息看上去比较敏感作出定义,以便程序对数据进行分类。

    有时,这与在文件中查找某些敏感字符串(如“密码”、“信用卡”等)一样简单,但更为常见的情况是,必须针对特定的文件类型定义与其相匹配的敏感字符串匹配模式。

    1. 几项简单易实施的数据安全技术措施

    在数据安全领域,可用于提高数据安全性的应用技术还包括:

    (1) 结束收集不必要的数据

    近十年来,在IT管理领域,我们能够都看到对数据的认知所发生的巨大改变。以前,几乎所有的IT管理者都认为,数据就是一种资产,多多益善,因为你永远不知道什么时候可能会用到它们。

    今天,越来越严厉的立法和监管、数据泄露等网络安全事件可能导致的单位及个人的声誉受损等,都使得保障数据的安全性越来越成为了IT运维管理人员的一种重责大任——在必要的数据收集范围外,单位信息系统所收集的任何一点敏感数据都是一种不必要的风险。

    因此,作为单位信息安全管理人员,应该立即检查所有涉及到数据收集的业务应用系统,从单位业务的角度出发,对所收集的每一项数据的必要性进行核查。

    (2) 清除陈旧数据

    单位信息系统中不存在的数据自然也就不会存在被泄漏的风险。经过多年的信息化建设,很多网络规模较大的单位机房网络中往往都存在多台被遗忘的老旧服务器设备,这些服务器往往留存有大量重要数据,且长期疏于管理。信息安全管理人员应该通过技术手段跟踪文件访问权限,发现这些长时间无人访问的文件及服务器,并对其实施封存。

    (3) 针对数据组跟踪分析用户访问行为

    在单位内部,极易出现一种导致数据安全性降低的问题,即“过度使用”。不少单位在网络管理中都会出现由于某些临时性原因赋予某些用户特殊权限并且忘记及时将权限收回的情况,大量此类情况的出现将导致产生一个混乱到无法管理的巴洛克式相互依赖的用户权限网络,导致用户在网络中的实际权限远远大于其角色的真实需求。

    针对此类情况,信息安全管理人员应该采取技术措施分析用户访问行为并自动设置用户权限,从而避免给攻击者留下可利用的漏洞。

    当然,上述这些建议不仅仅适用于解决数据安全问题,也对网络安全问题的其他方面有所助益。

    大数据的安全底线是什么?
    云计算如何保障大数据安全?
    我们应该怎么保证,数据安全?

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 数据安全

    千次阅读 2018-08-09 10:36:30
    近年来,数据安全形势越发严峻,各种数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然无法完全阻止攻击,但底线是敏感数据不能泄漏。也即是说,服务器可以被挂马,但敏感数据不能被拖走。...

    近年来,数据安全形势越发严峻,各种数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然无法完全阻止攻击,但底线是敏感数据不能泄漏。也即是说,服务器可以被挂马,但敏感数据不能被拖走。服务器对于互联网公司来说,是可以接受的损失,但敏感数据泄漏,则会对公司产生重大声誉、经济影响。

    在互联网公司的数据安全领域,无论是传统理论提出的数据安全生命周期,还是安全厂商提供的解决方案,都面临着落地困难的问题。其核心点在于对海量数据、复杂应用环境下的可操作性不佳。

    例如数据安全生命周期提出,首先要对数据进行分类分级,然后才是保护。但互联网公司基本上都是野蛮生长,发展壮大以后才发现数据安全的问题。但存量数据已经形成,日以万计的数据表在增长,这种情况下如何实现数据分类分级?人工梳理显然不现实,梳理的速度赶不上数据增长速度。

    再例如安全厂商提供的数据审计解决方案,也都是基于传统关系型数据库的硬件盒子。Hadoop环境下的数据审计方案是什么?面对海量数据,很多厂商也买不起这么多硬件盒子啊。

    因此,互联网公司迫切需要一些符合自身特点的手段,来进行数据安全保障。为此,美团点评信息安全中心进行了一些具体层面的探索。这些探索映射到IT的层面,主要包括应用系统和数据仓库,接下来我们分别阐述。

    一、应用系统

    应用系统分为两块,一是对抗外部攻击,是多数公司都有的安全意识,但意识不等于能力,这是一个负责任企业的基本功。传统问题包括越权、遍历、SQL注入、安全配置、低版本漏洞等,这一类在OWASP的Top10风险都有提到,在实践中主要考虑SDL、安全运维、红蓝对抗等手段,且以产品化的形式来解决主要问题。这里不做重点介绍。

    1.1 扫号及爬虫

    新的形势下,还面临扫号、爬虫问题。扫号是指撞库或弱口令:撞库是用已经泄漏的账号密码来试探,成功后轻则窃取用户数据,重则盗取用户资金;弱口令则是简单密码问题。对于这类问题,业界不断的探索新方法,包括设备指纹技术、复杂验证码、人机识别、IP信誉度,试图多管齐下来缓解,但黑产也在不断升级对抗技术,包括一键新机、模拟器、IP代理、人类行为模仿,因此这是个不断的对抗过程。

    举个例子,有公司在用户登录时,判断加速等传感器的变化,因为用户在手机屏幕点击时,必然会带来角度、重力的变化。如果用户点击过程中这些传感器没有任何变化,则有使用脚本的嫌疑。再加上一个维度去判断用户近期电量变化,就可以确认这是一台人类在用的手机,还是黑产工作室的手机。黑产在对抗中发现公司用了这一类的策略,则很轻易的进行了化解,一切数据都可以伪造出来,在某宝上可以看到大量的此类技术工具在出售。

    爬虫对抗则是另一个新问题,之前有文章说,某些公司的数据访问流量75%以上都是爬虫。爬虫不带来任何业务价值,而且还要为此付出大量资源,同时还面临数据泄漏的问题。

    在互联网金融兴起后,爬虫又产生了新的变化,从原来的未授权爬取数据,变成了用户授权爬取数据。举例来说,小张缺钱,在互联网金融公司网站申请小额贷款,而互联网金融公司并不知道小张能不能贷,还款能力如何,因此要求小张提供在购物网站、邮箱或其他应用的账号密码,爬取小张的日常消费数据,作为信用评分参考。小张为了获取贷款,提供了账号密码,则构成了授权爬取。这和以往的未授权爬取产生了很大的变化,互联网金融公司可以进来获取更多敏感信息,不但加重了资源负担,还存在用户密码泄漏的可能。

    这里写图片描述

    对爬虫的对抗,也是一个综合课题,不存在一个技术解决所有问题的方案。解决思路上除了之前的设备指纹、IP信誉等手段之外,还包括了各种机器学习的算法模型,以区分出正常行为和异常行为,也可以从关联模型等方向入手。但这也是个对抗过程,黑产也在逐渐摸索试探,从而模拟出人类行为。未来会形成机器与机器的对抗,而决定输赢的,则是成本。

    1.2 水印

    近年来业界也出现了一些将内部敏感文件,截图外发的事件。有些事件引起了媒体的炒作,对公司造成了舆论影响,这就需要能够对这种外发行为进行溯源。而水印在技术上要解决的抗鲁棒性问题,针对图片的水印技术包括空间滤波、傅立叶变换、几何变形等,简单的说是将信息经过变换,在恶劣条件下还原的技术。

    1.3 数据蜜罐

    是指制作一个假的数据集合,来捕获访问者,从而发现攻击行为。国外已经有公司做出了对应的产品,其实现可以粗暴地理解为,在一个数据文件上加入了一个“木马”,所有的访问者再打开后,会把对应记录发回服务器。通过这个“木马”,可以追踪到攻击者细节信息。我们也曾做过类似的事情,遗憾的是,这个数据文件放在那里很久,都无人访问。无人访问和我我们对蜜罐的定位有关,现阶段我们更愿意把它作为一个实验性的小玩意,而不是大规模采用,因为“木马”本身,可能带有一定的风险。

    1.4 大数据行为审计

    大数据的出现,为关联审计提供了更多的可能性,可以通过各种数据关联起来分析异常行为。这方面,传统安全审计厂商做了一些尝试,但从客观的角度来看,还比较基础,无法应对大型互联网公司复杂情况下的行为审计,当然这不能苛求传统安全审计厂商,这与生意有关,生意是要追求利润的。这种情况下,互联网公司就要自己做更多的事情。

    例如防范内鬼,可以通过多种数据关联分析,通过“与坏人共用过一个设备”规则,来发现内鬼。举一反三,则可以通过信息流、物流、资金流等几个大的方向衍生出更多符合自身数据特点的抓内鬼规则。

    除此之外,还可以通过UEBA(用户与实体行为分析)来发现异常,这需要在各个环节去埋点采集数据,后端则需要对应的规则引擎系统、数据平台、算法平台来支撑。

    例如常见的聚类算法:某些人与大多数人行为不一致,则这些人可能有异常。具体场景可以是:正常用户行为首先是打开页面,选择产品,然后才是登录、下单。而异常行为可以是:先登录,然后修改密码,最后下单选了一个新开的店,使用了一个大额优惠券。这里每一个数据字段,都可以衍生出各种变量,通过这些变量,最后可以有一个异常判断。

    再例如关联模型,一个坏人团伙,通常是有联系的。这些维度可以包括IP、设备、WiFi MAC地址、GPS位置、物流地址、资金流等若干维度,再结合自己的其他数据,可以关联出一个团伙。而团伙中如果有一个人标记为黑,则关系圈则会根据关系强弱进行信誉打分降级。
    这里写图片描述
    UEBA的基础是有足够的数据支撑,数据可以是外部的数据供应商。例如腾讯、阿里都提供一些对外数据服务,包括对IP信誉的判断等,使用这些数据,可以起到联防联控的效果。也可以是内部的,互联网公司总会有若干条业务线服务一个客户,这就要看安全人员的数据敏感度了,哪些数据能为自己所用。

    1.5 数据脱敏

    在应用系统中,总会有很多用户敏感数据。应用系统分为对内和对外,对外的系统脱敏,主要是防止撞号和爬虫。对内的系统脱敏,主要是防止内部人员泄漏信息。

    对外系统的脱敏保护,可以分层来对待。默认情况下,对于银行卡号、身份证、手机号、地址等关键信息,强制脱敏,以**替换关键位置,这样即使被撞库或者爬虫,也获取不到相关信息,从而保护用户数据安全。但总有客户需要看到自己或修改自己的完整信息,这时就需要分层保护,主要是根据常用设备来判断,如果是常用设备,则可以无障碍的点击后显示。如果非常用设备,则推送一个强验证。

    在日常业务中,美团点评还有一个特点。外卖骑手与买家的联系,骑手可能找不到具体位置,需要和买家进行沟通,这时至少包括了地址、手机号两条信息暴露。而对于买家信息的保护,我们也进行了摸索试探。手机号码信息,我们通过一个“小号”的机制来解决,骑手得到的是一个临时中转号码,用这个号码与买家联系,而真实号码则是不可见的。地址信息,我们在系统中使用了图片显示,在订单完成之后,地址信息则不可见。

    对内系统的脱敏保护,实践中可以分为几个步骤走。首先是检测内部系统中的敏感信息,这里可以选择从Log中获取,或者从JS前端获取,两个方案各有优劣。从Log中获取,要看公司整体上对日志的规范,不然每个系统一种日志,对接周期长工作量大。从前端JS获取,方案比较轻量化,但要考虑性能对业务的影响。

    检测的目的是持续发现敏感信息变化,因为在内部复杂环境中,系统会不断的改造升级,如果缺少持续监控的手段,会变成运动式工程,无法保证持续性。

    检测之后要做的事情,则是进行脱敏处理。脱敏过程需要与业务方沟通明确好,哪些字段必须强制完全脱敏,哪些是半脱敏。应用系统权限建设比较规范的情况下,可以考虑基于角色进行脱敏,例如风控案件人员,是一定需要用户的银行卡完整信息的,这时候可以根据角色赋予免疫权限。但客服人员则不需要查看完整信息,则进行强制脱敏。在免疫和脱敏之间,还有一层叫做半脱敏,是指在需要的时候,可以点击查看完整号码,点击动作则会被记录。

    就脱敏整体而言,应该有一个全局视图。每天有多少用户敏感信息被访问到,有多少信息脱敏,未脱敏的原因是什么。这样可以整体追踪变化,目标是不断降低敏感信息访问率,当视图出现异常波动,则代表业务产生了变化,需要追踪事件原因。

    二、数据仓库

    数据仓库是公司数据的核心,这里出了问题则面临巨大风险。而数据仓库的治理,是一个长期渐进的建设过程,其中安全环节只是其中一小部分,更多的则是数据治理层面。本文主要谈及安全环节中的一些工具性建设,包括数据脱敏、隐私保护、大数据行为审计、资产地图、数据扫描器。

    2.1 数据脱敏

    数据仓库的脱敏是指对敏感数据进行变形,从而起到保护敏感数据的目的,主要用于数据分析人员和开发人员对未知数据进行探索。脱敏在实践过程中有若干种形式,包括对数据的混淆、替换,在不改变数据本身表述的情况下进行数据使用。但数据混淆也好,替换也好,实际上都是有成本的,在大型互联网公司的海量数据情况下,这种数据混淆替换代价非常高昂,
    实践中常用的方式,则是较为简单的部分遮盖,例如对手机号的遮盖,139**0011来展示,这种方法规则简单,能起到一定程度上的保护效果。

    但有些场景下,简单的遮盖是不能满足业务要求的,这时就需要考虑其他手段,例如针对信用卡号码的的Tokenization,针对范围数据的分段,针对病例的多样性,甚至针对图片的base64遮盖。因此需要根据不同场景提供不同服务,是成本、效率和使用的考量结果,

    数据遮盖要考虑原始表和脱敏后的表。原始数据一定要有一份,在这个基础上是另外复制出一张脱敏表还是在原始数据上做视觉脱敏,是两种不同成本的方案。另外复制一张表脱敏,是比较彻底的方式,但等于每张敏感数据表都要复制出来一份,对存储是个成本问题。而视觉脱敏,则是通过规则,动态的对数据展现进行脱敏,可以较低成本的实现脱敏效果,但存在被绕过的可能性。

    2.2 隐私保护

    隐私保护上学术界也提出了一些方法,包括K匿名、边匿名、差分隐私等方法,其目的是解决数据聚合情况下的隐私保护。例如有的公司,拿出来一部分去除敏感信息后的数据公开,进行算法比赛。这个时候就要考虑不同的数据聚合后,可以关联出某个人的个人标志。目前看到业界在生产上应用的是Google的DLP API,但其使用也较为复杂,针对场景比较单一。隐私保护的方法,关键是要能够进行大规模工程化,在大数据时代的背景下,这些还都是新课题,目前并不存在一个完整的方法来解决隐私保护所有对抗问题。

    2.3 大数据资产地图

    是指对大数据平台的数据资产进行分析、数据可视化展现的平台。最常见的诉求是,A部门申请B部门的数据,B作为数据的Owner,当然想知道数据给到A以后,他是怎么用的,有没有再传给其他人使用。这时候则需要有一个资产地图,能够跟踪数据资产的流向、使用情况。换个角度,对于安全部门来说,需要知道当前数据平台上有哪些高敏感数据资产,资产的使用情况,以及平台上哪些人拥有什么权限。因此,通过元数据、血缘关系、操作日志,形成了一个可视化的资产地图。形成地图并不够,延伸下来,还需要能够及时预警、回收权限等干预措施。

    2.4 数据库扫描器

    是指对大数据平台的数据扫描,其意义在于发现大数据平台上的敏感数据,从而进行对应的保护机制。一个大型互联网公司的数据表,每天可能直接产生多达几万张,通过这些表衍生出来更多的表。按照传统数据安全的定义,数据安全第一步是要分类分级,但这一步就很难进行下去。在海量存量表的情况下,该怎样进行分类分级?人工梳理显然是不现实的,梳理的速度还赶不上新增的速度。这时候就需要一些自动化的工具来对数据进行打标定级。因此,数据库扫描器可以通过正则表达式,发现一些基础的高敏感数据,例如手机号、银行卡等这些规整字段。对于非规整字段,则需要通过机器学习+人工标签的方法来确认。

    综上,数据安全在业务发展到一定程度后,其重要性越发突出。微观层面的工具建设是一个支撑,在尽量减少对业务的打扰同时提高效率。宏观层面,除了自身体系内的数据安全,合作方、投资后的公司、物流、骑手、商家、外包等各类组织的数据安全情况,也会影响到自身安全,可谓“唇亡齿寒”。而在当前各类组织安全水平参差不齐的情况下,就要求已经发展起来的互联网公司承担更多的责任,帮助合作方提高安全水平,联防共建。

    原文地址: https://tech.meituan.com/Data_Security_Protection_New_Exploration.html

    展开全文
  • 数据安全规范

    万次阅读 2016-04-23 23:31:30
    大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication授权 - authorization)、访问行为可见、错误处理异常管理

    大数据安全规范

       

    一、概述

    大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication和授权 - authorization)、访问行为可见、错误处理和异常管理。下面依次说明:

    1.周边安全技术即传统意义上提到的网络安全技术,如防火墙等;

     

    2.数据安全包括对数据的加解密,又可细分为存储加密和传输加密;还包括对数据的脱敏;

     

    3.访问安全主要是对用户的认证和授权两个方面:

    用户认证(Authentication)
    即是对用户身份进行核对, 确认用户即是其声明的身份, 这里包括用户和服务的认证

    用户授权(Authorization)

    即是权限控制,对特定资源, 特定访问用户进行授权或拒绝访问。用户授权是建立再用户认证的基础上,没有可靠的用户认证谈不上用户授权。

    访问安全还包括数据验证(data validation)

    1> type.   int string等
    2> format. phone
    email
    3> length.
    4> range.
    5> precense or absence.
    6> match in lookup tables.
    7> other bussiness rules 

    4.访问行为可见多指记录用户对系统的访问行为(审计和日志):如查看哪个文件;运行了哪些查询;访问行为监控一方面为了进行实时报警,迅速处置危险的访问行为;另一方面为了事后调查取证,从长期的数据访问行为中分析定位特定的目的。


     5.错误处理和异常管理

    这个主要是针对错误发现,一般做法是建立并逐步完善的监控系统,对可能发生或已发生的情况进行预警或者告警。还包括异常攻击事件监测,目前发现的针对攻击的办法有:

    1>攻击链分析,按照威胁检测的时间进行分析,描述攻击链条

    2>相同类型的攻击事件进行合并统计

    3>异常流量学习正常访问流量,流量异常时进行告警


    在这五个层次中,第三层(访问安全)同业务的关系最为直接:应用程序的多租户,分权限访问控制都直接依赖这一层的技术实现,那么我们的重点也将放在这一层上。众所周知的是, hadoop本身提供的认证(主要是kerberos)不易维护,授权(主要是ACL)又很粗粒度,为此我们通过对两个重量级公司(Cloudera和Hortonworks)开源的关于安全的服务进行对比(参见博文)后决定使用Hortonworks开源的Ranger。 Ranger为企业级hadoop生态服务提供了许多安全套件,通过集中化权限管理为用户/组提供文件、文件夹、数据库、表及列的认证、授权控制,还可以提供审计(通过solr进行查询),新推出的RangerKMS还支持对hdfs数据加密等

    二、大数据平台安全规范之访问安全


    2.1用户身份认证

    通过Ranger提供的用户/组同步功能实现认证,Ranger可以整合Unix或者LDAP进行用户认证管理


    2.2 用户权限管理


    2.2.1 账号管理

    帐号分为运维帐号和开发用户帐号。

     

    运维帐号按服务拆为多个账号,不同的账号操作不同的服务,具体如下:

     

    服务

    用户

    Flume

    flume

    HDFS

    hdfs

    MapReduce

    mapred

    HBase

    hbase

    Hive

    hive

    Kafka

    kafka

    Oozie

    oozie

    Ranger

    ranger

    Spark

    spark

    Sqoop

    sqoop

    Storm

    storm

    YARN

    yarn

    ZooKeeper

    zookeeper

    Ambari Metrics

    ams

      

    开发用户账号,每个用户一个帐号,按团队分组,不同的账号或组操作不同的文件或表,如果需要操作别人的数据,需要运维进行授权

     

    2.2.2 目录和文件规范

    目录

    规则

    /source

    主要存储原始采集的日志,存储规则如下: /source/{业务名称}/{日期},其中:

        业务名称: 比如发送记录等

        日期:    格式统一为yyyyMMdd

    /data

    存储的规范和source一样, 数据仓库之前的文件临时目录

    清理时间待定

    /workspace

    工作空间,存储规则如下:/workspace/{团队名称}/{业务名称|产品名称}

     对方

    /user

    用户空间,存储用户私有数据,仅用户自己可以访问。按照开发人员

    自己的习惯组织存储文件,用于存储用户的测试数据,

    清理时间待定
    当员工离职账户注销,空间存储回收。

    /user/hive/warehouse

    存储hive仓库,按照团队创建库;公共日志按照业务名进行创建,

    每个团队可以创建一个属于团队的hive库

    /temp

    用来存储一些临时文件

     

    每月清理一次

     





    2.2.3 用户权限管理

    权限管理有2种方案,ACL方案(粗粒度)和 ranger方案(细粒度),基于我们的数据需求,先考虑使用ranger提供的细粒度权限控制

     

    使用Ranger UI界面进行权限的管理,目前各个服务提供的权限如下:

    服务

    服务详情

    权限

    HDFS

    hdfs path

    Read、Write、Execute

    HBase

    table、column family、column

    Read、Write、Create、Admin

    Hive

    database、table|function、column

    Select、Update、Create、Drop、Alter、Index、Lock、All

    YARN

    queue

    Submit-job、Admin-queue

    Kafka

    topic

    Publish、Consume、Configure、Describe、Kafka Admin





    团队权限分配


    团队

    团队成员组

    服务

    权限

    dp(数据平台)

    dp

    HDFS

    Read、Write、Execute

    HBase

    Read、Write

    Hive

    Select

    YARN

    Submit-job

    Kafka

    Publish、Consume、Configure、Describe

    dm(数据挖掘)

    dm

    HDFS

    Read、Write、Execute

    HBase

    Read、Write

    Hive

    Select

    YARN

    Submit-job

    da(数据应用)

    da

    HDFS

    Read、Write、Execute

    HBase

    Read、Write

    Hive

    Select

    YARN

    Submit-job

    op(运维)

    hadoop管理员

    HDFS、HBase、Hive、YARN、Kafka

    All

     

     




    个人帐号:在线上操作要精确到个人

       

    申请权限流程:

         每个团队的leader向管理员提出申请,经过评审通过后方可授予相应的权限

    展开全文
  • 安全数据开源工具

    千次阅读 2018-07-12 14:48:22
    由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决网络安全相关的问题,不可避免的需要用到很多安全... 安全数据集 对于安全数据集,已经有行业从业者不辞辛劳的总结的很完善了,这里给出两个我看到的...
  • WHAT何为数据安全? 数据安全指的是用技术手段识别网络上的文件、数据库、帐户信息等各类数据集的相对重要性、敏感性、合规性等,并采取适当的安全控制措施对其实施保护等过程。 与边界安全、文件安全、用户行为...
  • 数据安全治理方法导论

    千次阅读 2020-11-25 22:30:38
    1.4 数据安全建设需要有系统化思维建设框架 第二章 数据安全治理基本理念 2.1 Gartner 数据安全治理理念 2.2 数据安全治理系统理论设计 第三章 数据安全治理-组织建设 第四章 数据安全治理-规范制定 4.1 ...
  • 一.数据的安全性: 保护数据库以防止不合法的使用所...数据安全性控制: 用户身份鉴别 静态口令鉴别 动态口令鉴别 生物特征鉴别 智能卡鉴别 多层存取控制 自主存取控制方法 GRANT 授权 REVOKE 收...
  • 第一篇文章将带领大家了解网络安全攻防知识点,并以医疗数据安全为基础进行总结,具体内容包括:一.网络空间安全与溯源、二.网络安全攻防技巧、三.APT攻击经典案例、四.医疗数据安全防护,希望对您有所帮助~
  • DSA数据安全隔离

    千次阅读 2017-04-06 14:43:27
    与之相反,一向稳扎稳打的DSA数据安全隔离,却在激烈的市场竞争中脱颖而出。据了解,目前在使用DSA数据安全隔离方案,实现源代码防泄密的用户中,曾经使用过文档加密软件的用户比例高达60%之多。
  • 网络安全数据

    万次阅读 2018-10-08 12:36:07
    本文主要收录安全相关的数据集,适合初创,中小型企业用于训练验证自己的机器学习的模型,提高准确率准确度。 由于数据集可能比较多,一开始也不能全部列举出来,所以后续会慢慢补充,慢慢增加。 数据集 每个...
  • 数据安全-访问控制

    千次阅读 2018-10-17 16:14:44
    数据安全-访问控制访问控制的应用场景访问控制的概念访问控制的三要素访问控制与身份认证的关系访问控制的类型自主访问控制强制访问控制常用安全模型-BLP安全模型(Bell-Lapadula security model)安全模型-BLP安全...
  • 现今信息系统的风险评估体系已非常完善,但数据安全方面并没有形成相关评估内容,整个体系中缺少数据安全相关的检测与评估项,所以近期一直思考数据安全风险评估应是如何,应该从哪些方面进行检测与评估?...
  • 政府行业如何进行数据安全治理?

    千次阅读 2020-02-03 15:42:21
    数据安全治理与以网络为中心的安全建设的核心区别在于是否关注业务,数据安全治理关注业务其目的是更好了解数据传输、数据存储、数据处理等环节的情况,以便有针对性进行数据管控,而网络为中心的安全建设是通过网络...
  • 互联网公司数据安全保护新探索

    千次阅读 2018-05-23 09:52:12
    近年来,数据安全形势越发严峻,各种数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然无法完全阻止攻击,但底线是敏感数据不能泄漏。也即是说,服务器可以被挂马,但敏感数据不能被拖走。...
  • 基于机器学习的安全数据

    千次阅读 多人点赞 2020-09-07 15:28:39
    为了更好的帮助大家从事安全领域机器学习深度学习(AI+安全)相关的研究,这篇文章将分享安全相关的数据集供大家下载实验,包括恶意URL、流量分析、域名检测、恶意软件、图像分类、垃圾邮件等,也欢迎大家留言...
  • android应用安全——数据安全

    万次阅读 多人点赞 2013-05-05 14:19:53
    数据安全包含数据库数据安全、SD卡数据(外部存储)安全、RAM数据(内部存储)安全。 android中操作数据库可使用SQLiteOpenHelper或ContentProvider的方式。使用SQLiteOpenHelper操作数据库时,数据库存放在data/...
  • 目录1 大数据面临的机遇1.1大数据技术促进国家社会发展1.2大数据成为企业竞争的新焦点1.3 大数据技术为大数据安全技术的研究提供了技术支持2 大数据给信息安全带来新挑战2.1 大数据技术与大数据安全技术不匹配2.2 ...
  • 安全多方计算是什么 为了了解安全多方计算,让我们先看两个场景例子 (1)Alice认为她的了某种遗传疾病,想验证自己的想法。正好她知道Bob有一个关于疾病的DNA模型的数据库。如果她把自己的DNA样品寄给Bob,那么...
  • 数据安全与隐私保护

    千次阅读 2020-01-11 17:28:05
    本篇论文讲述了上课所学习到的大数据的机遇和网络安全的挑战、大数据带来的网络安全和用户隐私问题以及大数据带来的网络安全和用户隐私问题的对策。另外,课程还讲到了一些关于密码学的知识,我就参考了上课笔记和...
  • 数据安全之数据分类分级系统建设

    千次阅读 2020-05-01 18:57:15
    数据分类分级在数据安全治理过程中至关重要,数据的分级是数据重要性的直观化展示,是组织内部管理体系编写的基础、是技术支撑体系落地实施的基础、是运维过程中合理分配精力及力度的基础(80%精力关注重要数据,20%...
  • 本文通过理清数据治理与数据安全治理关系,寄希望帮助读者对两者有所清晰的认识。 一、数据治理与数据安全治理关系 数据治理简单来讲是通过对数据的梳理整合,利用数据驱动业务,实现企业增值。 ...
  • 这要求行业充分深刻认识网络数据安全的重要性紧迫性,坚持金融安全与数据应用发展并重,积极应对复杂的数据安全风险与挑战。 在此背景下,某大型证券交易所(以下简称:A 所)为进一步提高内部数据库安全运维保障...
  • 区块链如何解决数据安全问题?

    万次阅读 2018-08-21 14:20:48
       众所周知,区块链技术是互联网技术新的发展,区块链技术...有了如此多的敏感信息私人信息在网上被传输存储,严格的隐私和安全对于每个人来说都至关重要。尽管如此,随着你越来越多的生活在网上体现,...
  • 那种枪文枪的太明显了在提到群晖的NAS的时候,提到了用语大概类似,如果注重界面使用的方便,选择群晖,如果注重数据安全性,就选威联通; 群晖的NAS一旦出现问题,如果没有另一台群晖NAS设备的话,数据就无法读出...
  • 等级保护2.0-大数据安全要求梳理

    千次阅读 2020-05-24 09:35:14
    GB/T 37988-2019 信息安全技术 数据安全能力成熟度模型 其中,等级保护2.0特指22239。22239对各种应用形态提出了不同的要求,包括通用、云计算应用、移动应用、物联网应用、工业控制系统应用。从低到高分别为一
  • 数据安全及各种加密算法对比

    千次阅读 2018-06-22 11:55:40
    然而市场上存在着各种各样的抓包工具及解密算法,甚至一些公司有专门的逆向部门,这就加大了数据安全的风险,本文将通过以下几个方面对各种加密算法进行分析对比:Base64编码(基础)单项散列函数 MD5、SHA1、SHA256...
  • HOW如何实现数据安全? 数据安全模型vs用户安全模型 设想一种场景,某企业客服部的一个员工将包含大量客户个人身份隐私信息(如身份证号、电话号码等)的Excel文件放在了一个公司所有人均有权访问的共享文件夹中...
  • 数据仓库系列(19):数据安全

    千次阅读 2020-01-27 09:21:38
    (一)数据安全体系全貌 (二)一般意义上的数据安全流程 数据安全流程包括以下几个步骤: 1. 数据的产生:通过数据分级体系对敏感字段打标签; 2. 数据的存储:需要通过加密的方式存储相关数据,避免直接存储...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,369,681
精华内容 947,872
关键字:

安全数据和数据安全