精华内容
下载资源
问答
  • 数据脱敏

    千次阅读 2019-08-19 16:55:39
    数据脱敏

    什么是数据脱敏?

    数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。 指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

    生活中不乏数据脱敏的例子,比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。

    为什么要进行数据脱敏?

    上面说到,在“涉及客户安全数据或者一些商业性敏感数据的情况下”对数据进行改造,说明我们要进行改造的数据是涉及到用户或者企业数据的安全,进行数据脱敏其实就是对这些数据进行加密,防止泄露。

    对于脱敏的程度,一般来说只要处理到无法推断原有的信息,不会造成信息泄露即可,如果修改过多,容易导致丢失数据原有特性。因此,在实际操作中,需要根据实际场景来选择适当的脱敏规则。改姓名,身份证号,地址,手机号,电话号码等几个客户相关字段。

    如何实现数据脱敏

    按照脱敏规则,可以分为可恢复性脱敏和不可恢复性脱敏。可恢复性脱敏就是数据经过脱敏规则的转化后,还再次可以经过某些处理还原出原来的数据,相反,数据经过不可恢复性脱敏之后,将无法还原到原来的样子,可以把二者分别看做可逆加密和不可逆加密。

    隐私数据脱敏技术

    通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:

    1. 可确切定位某个人的列,称为可识别列,如身份证号,地址以及姓名等。
    2. 单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究论文称,仅使用邮编号,生日和性别信息即可识别87%的美国人。
    3. 包含用户敏感信息的列,如交易数额,疾病以及收入等。
    4. 其他不包含用户敏感信息的列。

    所谓避免隐私数据泄露,是指避免使用数据的人员(数据分析师,BI工程师等)将某行数据识别为某个人的信息。
    数据脱敏技术通过对数据进行脱敏,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2(转换后)半识别列,#3敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与最大化挖掘数据价值的平衡。

    隐私数据泄露类型

    隐私数据泄露可以分为多种类型,根据不同的类型,通常可以采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险,以及对应不同的数据脱敏算法对数据进行脱敏。一般来说,隐私数据泄露类型包括:

    个人标识泄露:

    当数据使用人员通过任何方式确认数据表中某条数据属于某个人时,称为个人标识泄露。个人标识泄露最为严重,因为一旦发生个人标识泄露,数据使用人员就可以得到具体个人的敏感信息。

    属性泄露:

    当数据使用人员根据其访问的数据表了解到某个人新的属性信息时,称为属性泄露。个人标识泄露肯定会导致属性泄露,但属性泄露也有可能单独发生。

    成员关系泄露:

    当数据使用人员可以确认某个人的数据存在于数据表中时,称为成员关系泄露。成员关系泄露相对风险较小,个人标识泄露与属性泄露肯定意味着成员关系泄露,但成员关系泄露也有可能单独发生。

    数据脱敏常见方法

    常见方法:

    1、替换:如统一将女性用户名替换为F,这种方法更像“障眼法”,对内部人员可以完全保持信息完整性,但易破解。

    2、重排:序号12345 重排为 54321,按照一定的顺序进行打乱,很像“替换”, 可以在需要时方便还原信息,但同样易破解。

    3、加密:编号 12345 加密为 23456,安全程度取决于采用哪种加密算法,一般根据实际情况而定。

    4、截断:13811001111 截断为 138,舍弃必要信息来保证数据的模糊性,是比较常用的脱敏方法,但往往对生产不够友好。(丢失字段的长度)

    5、掩码: 123456 -> 1xxxx6,保留了部分信息,并且保证了信息的长度不变性,对信息持有者更易辨别, 如火车票上得身份信息。(常用方法)

    6、日期偏移取整:20130520 12:30:45 -> 20130520 12:00:00,舍弃精度来保证原始数据的安全性,一般此种方法可以保护数据的时间分布密度。

    脱敏规则想法是:

    1、【中文姓名】只显示第一个汉字,其他隐藏为2个星号,比如:李**

    2、【身份证号】显示最后四位,其他隐藏。共计18位或者15位,比如:*************1234

    3、【固定电话】 显示后四位,其他隐藏,比如:*******3241

    4、【手机号码】前三位,后四位,其他隐藏,比如:135****6810

    5、【地址】只显示到地区,不显示详细地址,比如:上海徐汇区漕河泾开发区***

    6、【电子邮箱】 邮箱前缀仅显示第一个字母,前缀其他隐藏,用星号代替,@及后面的地址显示,比如:d**@126.com

    7、【银行卡号】前六位,后四位,其他用星号隐藏每位1个星号,比如:6222600**********1234

    8、【密码】密码的全部字符都用代替,比如:***

    展开全文
  • 数据脱敏——什么是数据脱敏

    万次阅读 多人点赞 2017-08-29 23:20:54
    一、什么是数据脱敏? 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。    百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户...

    一、什么是数据脱敏?


      数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。
      
      百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
      
      生活中不乏数据脱敏的例子,比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。
      
    这里写图片描述


    二、为什么要进行数据脱敏?


      上面说到,在“涉及客户安全数据或者一些商业性敏感数据的情况下”对数据进行改造,说明我们要进行改造的数据是涉及到用户或者企业数据的安全,进行数据脱敏其实就是对这些数据进行加密,防止泄露。
      

      对于脱敏的程度,一般来说只要处理到无法推断原有的信息,不会造成信息泄露即可,如果修改过多,容易导致丢失数据原有特性。因此,在实际操作中,需要根据实际场景来选择适当的脱敏规则。改姓名,身份证号,地址,手机号,电话号码等几个客户相关字段。


    三、如何实现数据脱敏


      按照脱敏规则,可以分为可恢复性脱敏和不可恢复性脱敏。可恢复性脱敏就是数据经过脱敏规则的转化后,还再次可以经过某些处理还原出原来的数据,相反,数据经过不可恢复性脱敏之后,将无法还原到原来的样子,可以把二者分别看做可逆加密和不可逆加密。

      我们目前遇到的场景是日志脱敏,即在把日志中的密码,甚至姓名、身份证号等信息都进行脱敏处理。
      
      脱敏前:
      
    这里写图片描述

      脱敏后:
      
    这里写图片描述

      如上图,仔细分析会发现,打日志之前,获得脱敏的数据就两个步骤:【拿到要输入的数据(user实体)】→【进行序列化】,所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理,之后正常序列化;第二个方法就是在实体序列化的时候,对要脱敏的字段进行处理。

      后面来分享一下具体实现数据脱敏的方法。



    【 转载请注明出处——胡玉洋《数据脱敏——什么是数据脱敏》

    展开全文
  • 报表数据脱敏

    2018-07-17 11:47:12
    oracle数据脱敏,oracle数据脱敏,oracle数据脱敏,oracle数据脱敏,oracle数据脱敏
  • 互联网中内部防止隐私数据泄露的手段-数据脱敏 什么是数据脱敏 先来看看什么是数据脱敏数据脱敏也叫数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据比如 手机号、银行卡号 等信息,进行转换或者...

    引用:程序员内点事

    互联网中内部防止隐私数据泄露的手段-数据脱敏

    什么是数据脱敏

    先来看看什么是数据脱敏?数据脱敏也叫数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据比如 手机号、银行卡号 等信息,进行转换或者修改的一种技术手段,防止敏感数据直接在不可靠的环境下使用。

    像政府、医疗行业、金融机构、移动运营商是比较早开始应用数据脱敏的,因为他们所掌握的都是用户最核心的私密数据,如果泄露后果是不可估量的。

    数据脱敏的应用在生活中是比较常见的,比如我们在淘宝买东西订单详情中,商家账户信息会被用 * 遮挡,保障了商户隐私不泄露,这就是一种数据脱敏方式。
    在这里插入图片描述

    数据脱敏又分为静态数据脱敏(SDM)和 动态数据脱敏(DDM):

    静态数据脱敏

    静态数据脱敏(SDM):适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。

    有时我们可能需要将生产环境的数据 copy 到测试、开发库中,以此来排查问题或进行数据分析,但出于安全考虑又不能将敏感数据存储于非生产环境,此时就要把敏感数据从生产环境脱敏完毕之后再在非生产环境使用。

    这样脱敏后的数据与生产环境隔离,满足业务需要的同时又保障了生产数据的安全。
    在这里插入图片描述
    如上图所示,将用户的真实 姓名、手机号、身份证、银行卡号 通过 替换、无效化、乱序、对称加密 等方案进行脱敏改造。

    动态数据脱敏

    动态数据脱敏(DDM):一般用在生产环境,访问敏感数据时实时进行脱敏,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。

    注意 :在抹去数据中的敏感内容同时,也需要保持原有的数据特征、业务规则和数据关联性,保证我们在开发、测试以及数据分析类业务不会受到脱敏的影响,使脱敏前后的数据一致性和有效性。总之一句话:你爱怎么脱就怎么脱,别影响我使用就行。

    数据脱敏方案
    数据脱敏系统可以按照不同业务场景自行定义和编写脱敏规则,可以针对库表的某个敏感字段,进行数据的不落地脱敏。
    在这里插入图片描述

    数据脱敏的方式有很多种,接下来以下图数据为准一个一个的演示每种方案。

    在这里插入图片描述

    1、无效化

    无效化方案在处理待脱敏的数据时,通过对字段数据值进行 截断、加密、隐藏 等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。
    在这里插入图片描述

    2、随机值

    随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。

    我们看到 name 和 idnumber 字段进行了随机化脱敏,而名字姓、氏随机化稍有特殊,需要有对应姓氏字典数据支持。
    在这里插入图片描述

    3、数据替换

    数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。
    在这里插入图片描述

    4、对称加密

    对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。
    在这里插入图片描述

    5、平均值

    平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。

    在这里插入图片描述
    原始数据

    对价格字段 price 做平均值处理后,字段总金额不变,但脱敏后的字段值都在均值 60 附近。

    图片
    平均值

    6、偏移和取整

    这种方式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,比之前几种方案更接近真实数据,在大数据分析场景中意义比较大。

    比如下边的日期字段create_time中 2020-12-08 15:12:25 变为 2018-01-02 15:00:00。

    在这里插入图片描述
    取整

    数据脱敏规则在实际应用中往往都是多种方案配合使用,以此来达到更高的安全级别。

    总结

    无论是静态脱敏还是动态脱敏,其最终都是为了防止组织内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下从组织流出。所以作为一个程序员不泄露数据是最起码的操守。

    展开全文
  • 数据脱敏工作规范

    2018-05-24 14:34:27
    介绍企业内部对于数据脱敏的管理要求,该制度的目的并不在于从技术层面去定义用何种方式去实现数据脱敏,更多的是对数据脱敏工作机制的设计和工作内容的明确,也对数据脱敏的职责有了简单划分
  • 本标准规定了政府数据的脱敏原则、脱敏方法和脱敏过程,可为数据脱敏工作的规划、实施和管理 提供指导。本标准适用于政府结构化数据的脱敏工作,包括但不限于数据脱敏的提供商、用户、评测机构和监 管机构。
  • 数据脱敏方案设计

    2018-05-16 15:54:19
    数据脱敏方案设计
  • 数据脱敏管理

    2021-08-13 00:02:56
    数据脱敏管理1.概述1.1 什么是数据脱敏1.2 为什么要做数据脱敏2.脱敏管理3.脱敏方法3.1 脱敏场景3.2 制定策略3.2.1 可逆类加密策略3.2.2 不可逆类脱敏策略3.3 策略执行3.4 敏感数据访问监测及预警3.5 数据水印3.7 ...

    1.概述

    1.1 什么是数据脱敏

    不看百度词条,从数据脱敏本质上来讲,我最更认同的说法是:

    数据脱敏是通过制定、执行脱敏规则,实现使数据本身的安全等级降级的一种技术手段。

    数据分类分级的文章我之前有写,不懂的小伙伴可以翻到之前的看一下。而我之所以认同这个说法,是因为在我看来数据脱敏并不是很虚的概念,他是有明确的作用:将隐私的数据降级为普通或可公开的数据。

    至少到目前为止,除了更改规范这种无奈的妥协外,数据脱敏是唯一的一个可以使数据本身的安全等级降级的方法。

    数据的安全等级降低了,那么数据自然就可以在很多环境中使用了。

    1.2 为什么要做数据脱敏

    (1)遵守国家法律法规,遵守监管部门规范。(详见之前的文章)
    (2)保护企业/个人数据资产的安全,降低风险发生后的损失。

    数据脱敏依赖于数据资产管理体系、数据分类分级管理、技术手段,不是一项独立的工作。

    2.脱敏管理

    数据脱敏管理是为了保障数据脱敏的结果满足要求,通俗来讲数据脱敏管理的目的就是:

    (1)明确数据脱敏的责任人;

    (2)明确数据脱敏工作的流程;

    (3)确保应该脱敏的数据均脱敏;

    (4)确保使用合适的脱敏方法;

    (5)管理脱敏策略;

    数据脱敏管理的原则:数据脱敏工作不仅要确保敏感数据安全等级降级,还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多方面因素。

    技术原则:有效性,真实性,高效性,稳定性,可配置性

    管理原则:敏感信息识别,安全可控,安全审计,代码安全

    3.脱敏方法

    首先需要明确,所有的脱敏工作都要细化到具体字段。

    3.1 脱敏场景

    脱敏的场景是需要最先确定的,结合实际情况和需求,同样的数据在不同场景下执行的可能是不同的脱敏策略。

    例如我们都有的身份证号码,是可以确认唯一公民个人身份为18位编码,一般来说是等级最高的隐私数据。一个场景是在需要使用身份证号进行关联加工的内部环境,可能只需要将身份证号降低为普通的安全等级,这种情况下可能使用的策略是可逆的加密策略;另一个场景是在需要公开信息的环境,那么就需要将身份证号降低为可公开的安全等级,如使用不可逆的掩码策略。

    脱敏场景的目的是要明确当前场景中可使用数据安全等级中哪个等级的数据,将高等级的数据通过执行脱敏策略降低到对应等级。

    3.2 制定策略

    一般来说,加密策略和脱敏策略都在数据脱敏管理的范畴内,加密是可逆的,可以通过解密的规则将数据恢复原样,而脱敏则是不可逆的。

    3.2.1 可逆类加密策略

    (1)重排

    重排加密类似于替换,通过一定规则改变数据顺序,从而达到加密的目的。

    例如“123”执行重排策略(最后一位移至第一位)后变为“312”。

    (2)替换

    替换加密的起源可以追溯到凯撒时代,凯撒密码就是一种简单的置换密码,在加密时,字母表中的每个字母都用其后的第三个字母表示,例如,a用d表示,b用e表示。在解密时,只需要执行逆过程即可。

    替换的加密策略包括:凯撒加密法、单码加密法、同音替换加密法、块替换加密法、多码替换加密法、Playfair加密法等。

    (3)FPE

    FPE是格式保留加密,也可以认为是可逆的掩码,其保留了数据原来的格式和长度,且是加密结果是确定的,可以用于主键、数据的加密。

    (4)轮询

    将有限的数据排成一个循环队列,将原始数据的指针向前或者向后移动N位得到的新数据。

    3.2.2 不可逆类脱敏策略

    (1)日期偏移取整

    将日期按照固定规则取整,例如20210812 10:56:14按照一小时的粒度向下取整为20210812 10:00:00。

    (2)数据截断

    舍弃必要的信息,仅保留部分关键信息。如11位手机号仅保留前7位。

    (3)标签化

    标签化是指将数据抽象为具体标签,用标签来表现具体实体的一种形式。例如客户存款可以由具体金额,更换为低、中、高三个级别。

    标签化可以作为数据脱敏的一种方法策略,但其最重要的应用并不是脱敏。

    (4)掩码

    掩码也是较为简单易懂的脱敏方式,就是将数据中的某些敏感信息进行替换,例如将手机号中间4为置为*号,掩码可以保障数据的长度不变。

    (5)重写

    根据原来数据的特征,随机重新生成数据。例如原来是手机号码,那么可以重新生成一个11位的纯数字。与替换策略不同的是重写为随机生成,无对应关系。

    (6)均化

    均化是为了保障数据的平均值和总数不变,将数字在整体的平均值之间随机分布的策略。

    (7)散列(Hash)

    Hash,音译“哈希”,一般翻译做“散列”,就是把任意长度的数据作为输入,然后通过Hash散列算法得到一个固定长度的输出值,该输出值就是散列值,它是一种数据压缩映射关系。 简单来说就是将做任意长度的消息压缩到某一固定长度的消息摘要的函数。

    常用的哈希算法有:MD5、SHA256等。

    (8)限制返回

    用于数据查询时,只反馈部分数据,且需要在返回所有数据的前提的下数据才有意义。本质上是专门为了查询的数据截断策略。

    (9)空值插入/删除(无效化)

    特殊的掩码,将数据替换为空值,使得数据无效。

    3.3 策略执行

    策略的执行主要依赖于调度系统。依据场景、效益来确认使用统一调度执行策略或自建安全策略调度系统。

    脱敏策略的制定及执行是事前管控。

    3.4 敏感数据访问监测及预警

    当有查询、修改、删除敏感数据的命令被执行时,实时监测并发出预警,通过审批后方可执行。

    访问的监测和预警是事中监测和预警。

    3.5 数据水印

    添加过可以溯源的文档和图片水印,文档暗水印,针对数据泄漏行为起到威慑作用。同时可以快速定位责任人,了解泄密途径和数据传播范围,采取有力措施进行补救,删除已传播到外网的数据,更大程度减少泄密事件的影响。

    数据水印是事后溯源和补救。

    3.7 脱敏审计

    记录所有敏感数据的操作、访问记录,进行全链路的审计追查,保证可追溯,可审查。

    通过分析全链路的信息,提出新的脱敏需求(场景),不断优化流程及脱敏策略。

    脱敏审计是事后审计及反思。

    3.8 安全多方计算(联邦计算系统,联合建模)

    后期将会开通专题分享。

    展开全文
  • 数据脱敏问题

    千次阅读 2020-04-22 16:25:52
    一、什么是数据脱敏?  数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。    百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及...
  • 数据脱敏工作指南.pdf

    2021-05-25 10:21:47
    数据脱敏工作指南
  • 数据脱敏了解

    千次阅读 2019-07-27 14:01:27
    什么是数据脱敏(DM)? 数据脱敏(Data Masking)是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实...
  • 数据脱敏方案

    2020-12-14 11:20:06
    什么是数据脱敏 先来看看什么是数据脱敏数据脱敏也叫数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据比如 手机号、银行卡号 等信息,进行转换或者修改的一种技术手段,防止敏感数据直接在不可靠的...
  • 数据脱敏技术应用资料合集,供大家学习参考。 1、数据脱敏技术的发展现状与选型建议 2、金融行业数据脱敏类型、难点和办法 3、政务数据共享背景下的数据脱敏实践 4、企业客户在多场景下的数据脱敏实践 5、中小银行...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,589
精华内容 4,635
关键字:

数据脱敏