精华内容
下载资源
问答
  • 深度学习中的隐私保护技术综述

    万次阅读 2019-07-21 20:28:05
    摘要:如今机器学习以及深度学习在各个领域广泛应用,包括...本文总结了目前在深度学习中常见的隐私保护方法及研究现状,包括基于同态加密的隐私保护技术、差分隐私保护技术等等。 1 研究背景 1.1 隐私泄露风险 ...

    摘要:如今机器学习以及深度学习在各个领域广泛应用,包括医疗领域、金融领域、网络安全领域等等。深度学习的首要任务在于数据收集,然而在数据收集的过程中就可能产生隐私泄露的风险,而隐私泄露将导致用户不再信任人工智能,将不利于人工智能的发展。本文总结了目前在深度学习中常见的隐私保护方法及研究现状,包括基于同态加密的隐私保护技术、差分隐私保护技术等等。

    1 研究背景

    1.1 隐私泄露风险

           2006 年 Hinton[1] 和 他 的 学 生 在《Science》上发表了一篇名为“Reducing the Dimensionalityof Data with Neural Networks”的文章,开启了深度学习在学术界和工业界的浪潮,同时也将人工智能推向了一个新的高潮。目前,在人工智能的几乎所有领域,深度学习技术已经远远超过了传统方法的性能,包括计算机视觉、音频处理、自然语言处理、大数据分析等。

           推动深度在各个领域取得巨大成功主要有以下几个因素:

    (1) 数据井喷,全球数据中心数据量在未来几年年均增速 40%。

    (2) 计算能力突破,基于大型 GPU 集群的强大计算能力,使得训练深度神经网络的速度从2006 年到 2016 年提升了 255 倍。

    (3) 算法突破,算法突破推动 AI 技术成熟和实用化。

            对于一些大型的网络企业,用户的照片、语音、视频、文本等数据可以被收集和保存,以备将来使用。正因为如此,深度学习领域中大部分成功的应用都是大型组织,它们既有大量有价值的数据,又有足够的计算能力来训练深度模型,以改进其产品和服务。

           虽然深度学习带来了巨大的好处,但它需要收集大量的数据,这些数据涉及用户的隐私信息,例如用户兴趣、爱好、个人信息等,这些隐私数据的泄露会导致不可预估的财产以及生命安全问题。

    1.2 隐私保护相关法律

           随着互联网的快速发展以及隐私泄露问题日益严重,为减轻隐私泄露带来的负面影响,美国、欧盟、中国等国家正在不断的通过完善数据安全和隐私保护法律法规对企业以及个人进行监管。

           美国是最早通过法律法规对隐私进行保护的国家,其在 1974 年通过并发布的《隐私法案》是美国最重要的一部保护个人隐私的法律法规,到 20 世纪 80 年代又先后制定和颁布了《电子通讯隐私法案》《电脑匹配与隐私权法》以及《网上儿童隐私权保护法》。1980 年,经济合作与发展组织(OECD)在《关于保护隐私和个人信息跨国流通指导原则》中揭示了个人信息保护八大原则,即收集限制原则、数据质量原则、目的明确原则、使用限制原则、安全保障原则、公开性原则、个人参与原则和问责制原则。这些指导原则对全球各国的立法产生了巨大的影响,有“已经成为制定个人信息保护文件的国际标准”之称。

            我国也在多部法律中对隐私权进行保护,比如在《侵权责任法》中规定了若干种承担侵权责任的方式;《中华人民共和国宪法》第三十八条规定:“中华人民共和国公民的人格尊严不受侵犯。”等等。同时我国还在制定专门的《个人信息保护法》《中华人民共和国网络安全法》等法律对网络数据以及用户隐私进行保护。

           本文总结了在使用深度学习的同时保护用户隐私信息的方法,主要包括同态加密隐私保护技术、差分隐私保护技术。同态加密和差分隐私是密码学中常见的隐私保护手段,这两种方法被运用于深度学习过程中的隐私保护,具有显而易见的效果。

    2 同态加密隐私保护技术

    2.1 同态加密技术

           假设存在加密函数 f,使得明文 M 加密后变成密文 M’,明文 N 加密后变成密文 N’,即f(M)=M’,f(N)=N’,存在 f 的解密函数 f-1 能够将 f 加密后的密文解密成加密前的明文。将 M’与 N’相加得到 P’,如果解密函数 f-1 对 P’解密后的结果等于 M 和 N 相加的结果,即 f-1(P’)= f-1 (M’+N’)=M+N,则 f 是可以进行同态加密的加密函数。

           同态加密可以分为加法同态、乘法同态以及全同态。加法同态指的是加密算法满足f(M)+f(N)=f(M+N),乘法同态指的是加密算法满足f(M)*f(N)=f(M*N)。而全同态加密指的是一个加密函数同时满足加法同态和乘法同态,全同态加密函数可以完成加减乘除、多项式求值、指数、对数、三角函数等运算。

           常见的 RSA 算法对于乘法操作是同态的,Paillier 算法则是对加法同态的,Gentry 算法则是全同态的。

    2.2 同态加密技术应用

    2.2.1 数据处理与隐私保护

            大数据时代下的海量个人信息存储与处理是隐私保护面临的关键问题,用户往往不希望将个人资料、保密文件、隐私信息存储在服务提供商中,而人工智能时代又需要对这些用户信息进行挖掘分析。同态加密是解决这一矛盾的新技术,用户可以将个人敏感信息加密后存储在服务提供商或者云端服务中,服务器可以对密文进行处理以及分析,并将密文结果返回给用户,只有用户能够解密密文结果。

    2.2.2 密文检索

           当越来越多的加密数据存储在服务器或者云端时,对加密数据的检索成为了一个急需解决的问题。现有的密文检索算法包括线性搜索、公钥搜索和安全索引可以解决对服务端的加密数据进行检索问题,然而这些方法需要花费较高代价并且只能运用于小规模数据集中。基于全同态加密的密文检索方法可以直接对加密数据进行检索,对密文做基本的加法和乘法能够有效降低运算复杂度,同时也不改变相应的明文顺序,既保护了用户的数据安全,又提高了密文的检索效率。

    2.2.3 数字水印

           目前数字水印技术已经成熟地运用在数字产品的版权保护中,然而数字水印系统也存在安全挑战,例如对水印算法、水印密钥的恶意攻击,从而破译水印并且伪造水印。使用同态加密技术对数字水印进行加密后嵌入,在检测水印时首先需要对水印进行同态解密,该方法能够有效抵抗数字水印的非授权攻击。

    2.3 基于同态加密的深度学习中隐私保护技术

            同态加密的核心是能够直接在密文上做运算,运算结果解密后与明文运算结果相同,这是对用户隐私的最直接和有效的保护手段。在机器学习和深度学习过程中使用同态加密对数据加密然后分析计算,能够很好地解决许多领域要求数据保密、安全的问题。同态加密可以确保在密文上进行计算而不进行解密,从而解密的结果与对明文执行相同计算得到的结果相同。由于目前的同态加密方案仍然存在许多局限,如只支持整数数据,需要固定的乘法深度,不能无限期地进行加法和乘法运算,全同态加密不支持比较和取最大值等操作。因此,现有的同态加密方案不能简单地应用于机器学习以及深度学习中。目前常用的解决策略有两种:①通过安全的多方计算来构造一种适合于基于同态加密的机器学习算法的协议,并通过执行该协议来完成该算法;②寻求原始机器学习算法的近似算法,使其仍然可以使用同时不依赖交互方案,并且满足同态加密方案的数据和操作要求。

           在机器学习和深度学习的预测过程中,利用同态加密算法的性质对数据进行加密,然后在加密训练集上进行机器学习以及深度学习的建模训练,同样使用训练好的模型对加密的测试集进行预测,返回的预测结果也是密文,从而有效地保护用户隐私数据。在 2007 年,Orlandi就提出了利用同态加密技术结合多方安全计算使神经网络具有处理加密数据的能力,并且考虑到了神经网络本身的安全性。2011 年,Barni等人将基于同态加密的神经网络应用于心电图分类中,可以实现远程服务器对客户提供的生物医学信号进行分类,而不获取任何有关信号本身的信息和分类的最终结果。2016 年,Dowlin等人提出一种可以应用于加密数据的神经网络 CryptoNets,同时作者证明云服务能够将神经网络应用于加密数据以进行加密预测,并以加密的形式返回这些预测。这些加密的预测可以发送回能够解密它们的密钥所有者。该网络对minist 数据集的识别精度达到了 99%。在 2017年,Hesamifard等在训练阶段使用Chebyshef多项式来近似模拟激活函数,从而证明了利用加密数据训练神经网络,进行加密预测,并以加密形式返回预测是可行的和实用的,该方法比 CryptoNets 在 MNIST 数据集上的精度提高了0.52%。为了解决基于全同态加密技术的机器学习巨大的计算开销问题,Baryalai等提出了一种非共谋双云模型 (CloudA,CloudB),该模型使用 Paillier 密码系统提高运算速度,减少运算开销。在训练阶段,加密也可以用来保护敏感数据集。Xie等利用 Stone—Weierstrass 理论,提出crypto-nets 在密文上做预测,利用同态加密和对激活函数的修改以及对神经网络的激活函数和训练算法的修改,并证明了所提出的加密网络的构造是可行的。该方法为在不侵犯用户隐私的情况下建立基于云的安全神经网络预测服务奠定了基础。Zhang等提出了一种基于 BGV 加密方案的保密双投影深度计算模型(PPDPDCM),给出直接在密文上训练神经网络的解决方案。

           目前,利用加密技术来保护机器学习以及深度学习中的用户敏感数据已经取得较大进展,包括在预测阶段以及训练阶段的数据加密。但是在使用同态加密的过程中存在资源消耗的问题,深度学习本身已经消耗了大量的计算资源,结合同态加密技术将大大增加深度学习的计算量。如何在结合同态加密算法而尽量减少对深度学习性能的影响将是未来主要的研究方向。

    3 差分隐私保护技术

    3.1 差分隐私保护技术

           差分隐私的任务是提供一种关于输出的概率分布的机制或者协议,允许用户对数据进行一定程度的修改,但不影响总体输出,从而使得攻击者无法知道数据集中关于个人的信息,达到隐私保护的作用。

           差分隐私指的是存在两个之间至多相差一条记录的数据集 D 和 D’以及一个隐私算法 A,Range(A) 为 A 的取值范围,若算法 A 在数据集D和D’上任意输出结果O(O ∈ Range(A))满足不等 Pr[A(D)=O] ≤ eε×Pr[A(D" )=O] 时,A 满足 ε- 差分隐私。差分隐私最主要的方法是在数据集中添加噪声来实现的,常用的噪音机制包括Laplace机制和指数机制,Laplace 机制适用于连续型数据集,而指数机制适用于离散型数据集。

    3.2 深度学习中的差分隐私保护技术

           差分隐私 (differential privacy) 是一种基于差分隐私机制的隐私保护技术,这个概念是Dwork在2006年提出来的,通过在原始数据中引入噪声,达到使至多相差1个数据的2个数据集查询结果概率不可分的目的。

            差分隐私保护分为集中式学习和分布式学习两大类,Abadi于2016年提出的基于差分隐私的深度学习算法基于集中式学习,该方法在梯度下降的过程中利用梯度增大扰动方法来报数敏感数据,并详细分析了差异化隐私的框架下的隐私成本。实验已经证实了可以在适度的隐私预算下,以可管理的软件复杂性、训练效率和模型质量成本,训练具有非凸目标的深度神经网络。2017 年,Papemot等提出用半监督知识迁移方法来解决深度学习中训练数据隐私泄露问题,以黑盒的方式将多个模型与不相交的数据集(例如来自不同用户子集的记录)相结合。由于改进了隐私分析和半监督学习,作者在 mnist 和 svhn 上实现了最先进的隐私/效用权衡。Ji Wang于2018年提出了一种对本地数据进行扰动变换的机制,该机制基于差分隐私计算方法,同时使用噪声训练方法增加云端深度神经网络对移动设备提交的扰动数据的鲁棒性,该机制解决了将数据从移动设备传输到云中心时的隐私泄露问题。

           在联合分布式学习环境中,数据所有者分布式训练具有相同目标的神经网络模型,根据自己的数据集独立训练,但共享训练结果。Shokri和 Shmatikov在 2015 年提出了一个共同分布式深度学习方案来保护隐私,首次将隐私保护的概念引入深度学习。同时利用现代深度学习中使用的优化算法,即基于随机梯度下降的优化算法,可以实现异步并行和执行,在引入噪声后,每个参与者将一小部分局部梯度参数上传到中心参数服务器。每次更新本地参数时,都会从服务器下载最新的渐变参数进行更新,这样就允许参与者在自己的数据集上独立训练,并在训练期间有选择地共享模型关键参数的小子集。参与者在保留各自数据的隐私的同时,仍然受益于其他参与者的模型,从而提高他们的学习准确性,而不仅仅是通过自己的输入实现的。作者同时证明了在基准数据集上的隐私保护深度学习的准确性。在此基础上,Mohassel采用随机梯度下降法,提出了一种新的高效的线性回归、逻辑回归和神经网络训练保密机器学习协议。该协议属于双服务器模型,数据所有者将其私有数据分配给两个非协作服务器,这些服务器使用安全的双方计算(2PC)对联合数据上的各种模型进行训练。

    4 前景展望

            随着深度学习的兴起,人工智能在各个领域迎来新的一波发展热潮,然而在人工智能迅速发展的同时,其安全与隐私问题也引起了人们的关注,人工智能的安全和隐私的威胁已经阻碍了人工智能的发展。保护用户隐私成为人工智能发展的关键,当前基于深度学习的隐私保护的研究仍处于起步阶段,还有许多亟待解决的问题,我们可以从以下几个方面进行重点研究从而找到有解决人工智能中隐私泄露的有效方法。

    (1)建立完善的评估机制与法律手段。建立一套统一的隐私泄露安全评估标准以及衡量标准,完善相关法律,从源头上制止企业和组织非法泄露用户信息。

    (2)高效的加密算法。加密技术是最直接有效的隐私保护手段,但目前同态加密技术运算开销过大,结合本身就消耗大量计算资源的深度学习算法,将大大降低算法性能。因此,研究高效的加密方法保护用户隐私是一个重要研究问题。

    5.参考

    1.信息安全与通信保密》2019年第六期

    2.https://www.secrss.com/articles/11666

    展开全文
  • 本文的隐私保护技术,包括三种方法。 安全多方计算 同态加密 差分隐私 1.安全多方计算 安全多方计算最初是针对一个安全两方计算问题,即所谓的“百万富翁问题”被提出的,并于1982年有姚期智提出和推广。 ...

    本文的隐私保护技术,包括三种方法。

    • 安全多方计算
    • 同态加密
    • 差分隐私

    1.安全多方计算

    安全多方计算最初是针对一个安全两方计算问题,即所谓的“百万富翁问题”被提出的,并于1982年有姚期智提出和推广。

    安全多方计算允许我们计算私有输入值的函数,从而使每一方只能得到其相应的函数输出值,而不能得到其他方的输入值与输出值。

    安全多方计算能够通过三种不同的框架来实现:

    • 不经意传输(Oblivious Transfer,OT)
    • 秘密共享(Secret Sharing,SS)
    • 阈值同态加密(Threshold Homomorphic Encryption, THE)

    (1) 不经意传输

    在不经意传输中,发送方拥有一个“消息-索引”对\left ( M_{1},1 \right ),...,\left ( M_{N},N \right )。在每次传输时,接收方选择一个满足1\leq i\leq N的索引 i ,并接收M_{i}。接收方不能得知关于数据库的任何其他信息,发送方也不能了解关于接收方i选择的任何信息。

    (2)秘密共享

    秘密共享是通过将秘密值分割为随机多份,并将这些份分发给不同方隐藏秘密值的一种概念。因此,每一方只能拥有一个通过共享得到的值,即秘密值的一部分。根据具体的使用场合,需要所有或一定数量的共享数值来重新构造原始的秘密值。

    秘密共享主要包括算术秘密共享、Shamir秘密共享 和 二进制秘密共享等方式。

    (3)安全多方计算在PPML中的应用

    大多数基于安全多方计算的PPML方法利用两阶段架构,包括离线阶段和在线阶段。大多数密码操作都在离线阶段执行,在离线阶段生成乘法三元组。之后,于在线阶段使用在线阶段生成的乘法三元组对机器学习模型进行训练。

    2.同态加密

    同态加密逐渐被认为是在PPML中实现安全多方计算的一种可行行为,是一种不需要对密文进行解密的密文计算解决方案。

    同态加密方法H是一种通过对相关密文进行有效操作(不需获知解密密钥),从而允许在加密内容上进行特定代数运算的加密方法。一个同态加密方法H由一个四元组组成:

    H = \left \{ KeyGen, Enc, Dec, Eval \right \}

    式中,KeyGen表示密钥生成函数。对于非对称同态加密,一个密钥生成元g被输入KeyGen,并输出一个密钥对\left \{ pk,sk \right \} = KeyGen(g),其中pk表示用于明文加密的公钥,sk表示用于揭秘的密钥。对于对称同态加密,只生成一个密钥sk = KeyGen(g)

    Enc表示加密函数。对于非对称同态加密,一个加密函数以公钥pk和明文m作为输入,并产生一个密文c = Enc_{pk}\left ( m \right )作为输出。对于对称同态加密,加密过程会使用公共密钥sk和明文m作为输入,并生成密文c = Enc_{pk}\left ( m \right )

    Dec表示解密函数。对于非对称同态加密和对称同态加密,隐私密钥sk和密文c被用来作为生成相关明文m =Dec_{sk}\left ( c \right )的输入。

    Eval表示评估函数。评估函数Eval将密文c和公共密钥pk(对于非对称同态加密)作为输入,并输出与明文对应的密文。

    同态加密的分类。同态加密主要分为三类:

    • 部分同态加密(PHE)。对于部分同态加密方法,\left (M, \odot _{M} \right )\left (C, \odot _{C} \right )都是群。操作符\odot _{C}能够无限次地用于密文。PHE是一种群同态技术,特别地,若\odot _{M}是加法运算发,则该方案可被称为加法同态
    • 些许同态加密(SHE)。些许同态加密方法指一同态加密方法中地一些运算操作(如加法和乘法)只能执行有限次。SHE方法为了安全性,使用噪声数据。每一次在密文上地操作会增加密文地噪声量,而乘法操作是增加噪声量地主要技术手段。当噪声量超过一个上限值后,解密操作就不能得出正确结果了。这就是为什么大多数地SHE方法会要求限制计算操作的次数。
    • 全同态加密(FHE)。全同态加密方法允许对密文进行无限次的加法运算和乘法运算操作。没有FHE能够被证明在任何功能下都是安全的,并且FHE具有针对不可区分的选择密文攻击的安全性。

    3. 差分隐私

    差分隐私最开始被开发出来用来促进在敏感数据上的安全分析。差分隐私的中心思想是,当敌手从数据库中查询个体信息时将其混淆,使得敌手无法从查询结果中辨别个体级别的敏感性。差分隐私提供了一种信息理论安全保障,即函数的输出结果对数据集中的任何特定记录都不敏感。因此,差分隐私都被用于抵抗成员推理攻击。

    定义:\left ( \epsilon ,\delta \right )-差分隐私。对于只有一个记录不同的数据集DD^{'},一个随机化机制M可保护\left ( \epsilon ,\delta \right )-差分隐私,并且对于所有的S\subset Range\left ( M \right )有:

    Pr\left [ M\left (d \right )\in S \right ] \leq Pr\left [ M\left (D^{'} \right )\in S \right ]\times e^{\epsilon }+\delta

    式中,\epsilon表示隐私预算;\delta表示失败概率。

    ln\frac{Pr\left [ M\left ( D \right )\in S \right ]}{Pr\left [ M\left ( D^{'} \right )\in S \right ]}的值被称为隐私损失,其中ln表示自然对数运算。当\delta =0时,便得到了性能更好的\epsilon -差分隐私。

    差分隐私方法分类。主要有两种方法通过给数据加上噪声实现差分隐私。一种是根据函数的敏感性增加噪声;一种是根据离散值的指数分布选择噪声。

    实值函数的敏感性可以表示为由于添加或删除单个样本,函数值可能发生变化的最大程度。

    差分隐私算法可根据噪声扰动使用的方式和位置来进行分类:

    • 输入扰动:噪声被加入训练模型。
    • 目标扰动:噪声被加入学习算法的目标函数。
    • 算法扰动:噪声被加入中间值,例如迭代算法中的梯度。
    • 输出扰动:噪声被加入训练后的输出参数。
    展开全文
  • 本节书摘来自华章出版社《位置大数据...传统的LBS隐私保护技术可以归纳为3类:基于数据失真的位置隐私保护方法、基于抑制发布的位置隐私保护方法以及基于数据加密的位置隐私保护方法。不同的位置隐私保护技术基于不...

    本节书摘来自华章出版社《位置大数据隐私管理》一 书中的第1章,第1.5节,作者潘晓、霍 峥、孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    1.5 典型的位置隐私保护技术

    传统的LBS隐私保护技术可以归纳为3类:基于数据失真的位置隐私保护方法、基于抑制发布的位置隐私保护方法以及基于数据加密的位置隐私保护方法。不同的位置隐私保护技术基于不同的隐私保护需求以及实现原理,在实际应用中各有优缺点。

    1.5.1 基于数据失真的位置隐私保护技术

    基于数据失真的方法,顾名思义是指通过让用户提交不真实的查询内容来避免攻击者获得用户的真实信息。对于一些隐私保护需求不严格的用户,该技术假设用户在某时刻的位置信息只与当前时刻攻击者收集到的数据有关,满足直觉上的隐私需求,提供较高效的隐私保护算法和较快的服务响应。采取的技术主要包括随机化、空间模糊化和时间模糊化3种形式。这3类技术的共同点是一般假设在移动用户和服务器之间存在一个可信任的第三方服务器,该服务器可以将用户的位置数据或查询内容转换成接近但不真实的信息,然后再提交给服务器。同时,将服务器返回的针对模糊数据的查询结果转化成用户需要的结果。

    1.随机化

    随机化是在原始位置数据中加入随机噪声。可信第三方服务器在接收到用户的准确位置后,将噪声和准确位置都发送给服务提供商。在服务提供商返回候选结果集后,可信第三方根据用户的真实位置对候选结果集过滤求精,返回真实的查询结果给相应用户。文献[15]中首次提出了随机化方法,在每一时刻,根据上一时刻的位置按照随机的速度和随机的方向进行移动,并将获得的随机位置点加入到原始数据中进行发布。然而,这些随机位置点组成的历史数据的移动特征与真实移动对象的特征具有很大差别,甚至提交的位置可能是一些实际上不可达的位置,因此很容易被攻击者区分。为此,文献[31]中在产生随机位置数据的时候加入了路网、移动速度等移动特征的约束条件。在文献[15]和[31]中假设物体在不停地移动,文献[17]中考虑到移动对象不会不停地移动,根据移动对象的周围环境等因素让移动对象随机产生停顿,以进一步防止攻击者区分这些噪声。

    2.空间模糊化

    空间模糊化通过在一定程度上降低发布位置数据的精度以满足用户隐私需求,具体来讲,即将用户提交的位置精度从一个点模糊到一个区域,以致攻击者无法获得某个用户清晰的位置。图1-2是某一时刻标号为A~E的6个移动用户在空间中的位置。根据四分树(Quad-tree)划分技术[13],空间被划分成若干区域,用户希望每次发布的位置数据不要准确到区域中只有一个用户。于是,用户A(B, C)在发布自己的位置时,可以发布左下角阴影区域作为自己的位置;用户D(E, F)可以发布右上角阴影区域作为自己的位置。假设每个移动对象均向服务提供商发送自己所在的阴影区域来请求近邻查询,服务提供商需要计算包含阴影区域中任何一点的最近邻的区域,返回其中包含的全部用户。例如,对于包含右上角阴影区域的近邻查询,服务器只需要返回阴影区域和黑色区域包含的全部用户,发起查询的用户就可以自行计算出自己的近邻。

    fe4ebf7678294f8e660f84cab4a6549152d340ad

    3.时间模糊化

    时间模糊化通过增加位置数据时间域的不确定性,以减少位置数据的精度。图1-3例举了一个简单的时间模糊例子。图1-3a是两个移动物体在路网上运动的示意图。物体1的移动轨迹用黑色表示,物体2的移动轨迹用灰色表示。没有经过时间模糊时,它们要提交的位置信息如图1-3b第1、2行所示,其中A、B和C表示物体1的位置。假设用户希望t2时刻在黑色框内的用户不唯一,则经过时间模糊后的位置数据如图1-3b第3、4行所示。在t2时刻,黑色框内物体1和物体2同时在位置C出现,达到了用户的隐私要求。时间模糊化的隐私保护方法易于操作且实际应用通常不需要很大程度的数据改变量,所以它被广泛应用在LBS隐私保护中。考虑到移动对象在某些敏感位置和时间域上展现一定的特征,例如,在交通路口当红色交通信号灯亮时,附近的移动对象会在较长时间内没有位置变化。通过对位置数据的时间域进行模糊,能够避免攻击者察觉到用户处于交通路口这一事件的发生[28]。同时,当满足用户隐私要求的区域不存在时,使用时间模糊化可以实现用户的隐私需求[7,29,25]。

    56203bcd9d3ccabe7126e6604302b8ce619cb51d

    1.5.2 基于抑制发布的位置隐私保护技术

    1.5.1节中介绍的方法只考虑当前时刻的位置是否会暴露用户的敏感位置,然而,用户的隐私信息可能会由于位置数据在时间和空间上的关联而泄露。事实上,有研究表明用户在未经保护的情况下提交查询时,位置数据在时间和空间上的关系可以通过多种模型来刻画。当前主要使用隐马尔可夫模型[5]或一般化图模型[13]来刻画用户的位置数据在时间和空间上的关系。
    2012年,文献[11]中提出了基于隐马尔可夫模型的概率推测抑制法。该方法针对LBS应用中用户连续地向服务器发送位置信息的场景,假设攻击者具有足够的背景知识,并对用户提交的每个位置数据推测用户隐私。该工作提出了Maskit系统,帮助用户判断提交当前位置数据是否违反用户隐私要求。对于违反隐私要求的位置信息采取概率性的抑制发布策略,以此来保证攻击者无法以较高的后验概率推测出用户处于哪个敏感位置。
    图1-4是将用户移动模式用隐马尔可夫模型建模的示意图。用户从每天的起始位置开始移动,以后的各个时刻会根据上一时刻用户位置的不同,转移到各个其他位置,其中有些位置是敏感位置(在图中用浅色阴影表示)。转移的概率由模型建立时形成的参数确定。攻击者推测用户处于敏感位置的先验概率是0.2,假设无论用户处于敏感位置或非敏感位置都以0.5的概率发布位置,则当攻击者接收到抑制发布的位置信息时,根据贝叶斯公式,攻击者推测用户处于敏感位置的后验概率为:

    1f0d1a753c7b4795c9aaa36059272c3806a23418

    隐马尔可夫模型认为用户发布的位置数据只与其当前所处的位置有关。这样的假设有利于模型的高效创建,但对用户在某时刻处于某位置的概率计算并不十分准确。考虑到历史数据也会暗示用户当前位置是否敏感,因此历史数据也对当前位置是否能够安全发布具有很大影响。总之,当前时刻所处的位置和之前的历史数据均对是否发布位置数据有影响,且影响基于位置服务的可用性。为此,文献[11]中提出了两种不同的抑制方法,这两种方法针对各自的用户群体具有各自适宜的服务可用性。
    第一种抑制方法:设反映对各个位置的发布概率的向量p=( p1,…,pn),其中pi表示用户处于第i个位置时以pi的概率发布。方法一从p=(0,…,0)开始(即完全不发布位置信息)。利用MONDFRIAN和ALGPR等贪心优化方法,逐渐调整各个位置的发布概率。发布概率向量确定后,根据给定的移动轨迹,利用贝叶斯公式和隐马尔可夫模型分别计算用户属于敏感位置的后验概率和先验概率。根据后验概率与先验概率之差,判断p是否满足隐私需求,不断调整p中各个元素的值直至收敛。在实际运行中,系统按照收敛后的发布概率向量在各个位置上发布用户的位置信息。
    第二种抑制方法:根据用户历史位置数据计算用户当前处于敏感位置的先验概率;然后通过考虑未来所有可能的位置发布,计算发布当前位置以后用户在各个时刻处于各个敏感位置的后验概率;与第一种方法类似,根据后验概率与先验概率之差,判断发布当前位置是否违反隐私需求,从而在线决定是否发布该位置。文献[11]将“考虑未来所有可能的位置发布”这样一项时间复杂度极高的任务,简化成了多项式时间内可完成的任务。
    一方面,基于抑制的隐私保护方法提交了用户的若干真实查询,当攻击者具有用户的背景知识时,攻击者可以根据用户发布的位置直接得到用户所在的位置;另一方面,基于抑制的方法牺牲了LBS应用的可用性,用户在查询被抑制时无法得到服务。

    1.5.3 基于数据加密的位置隐私保护技术

    1.5.1节和1.5.2节介绍的隐私保护技术通过发布失真位置数据和抑制发布位置数据的方法,达到了对位置大数据隐私保护的目的。然而,这两类方法无法满足具有较高隐私需求用户的要求。基于数据加密的方法是指利用加密算法将用户的查询内容(包括位置属性、敏感语义属性等)进行加密处理后发送给服务提供商。服务提供商根据接收到的数据在不解密的情况下直接进行查询处理。服务提供商返回给客户端的查询结果需要用户根据自己的密钥进行解密,并获得最终的查询结果。在这个过程中,服务提供商因为没有密钥,无法得知用户的具体查询内容,甚至对返回给客户端的查询结果的含义也无法掌握。
    最早基于数据加密的方法是通过利用空间填充曲线转换数据空间实现的。Khoshgoz-aran等人提出了利用Hilbert曲线将表示位置信息的二维坐标从二维空间转换到一维空间,利用一维空间的邻近性来解决近邻查询等空间查询问题[18,20]。当用户提出查询请求的时候,将查询位置的二维坐标转换成一维的Hilbert值并发送给服务提供商。服务提供商根据在一维空间的值查询出满足条件的对象返回给用户。在此过程中,服务提供商只能返回给用户近似解。同时,该方法因空间填充曲线的局部性和距离维护性会导致潜在的隐私泄露风险。
    第二类是利用同态加密等加密工具结合数据库索引技术来防止空间查询处理过程中的隐私泄露。文献[37]提出了基于查询隐私保护的层次型索引结构,可支持多种查询类型。该方法从查询隐私和数据隐私两个方面进行设计,然而该方法依然存在查询关键字的泄露风险。因为提交用户的每个查询后,在服务器端按照算法执行的过程会形成一个访问模式(如访问服务器数据库的次数、单次访问的数据量大小等)。访问模式的不同给攻击者带来了推测隐私的机会。以图1-5为例,当用户提出的查询位于兴趣位置点(Point of Interest,POI)分布稀疏和密集的两种情况下,需要的数据页访问数量肯定是不同的。攻击者可根据当前查询的访问模式推测出查询是位于POI分布稀疏的区域,还是位于POI分布密集的区域,由此会导致隐私泄露。第一类和第二类方法均不能阻止攻击者通过访问模式对用户的查询内容进行推测。

    3e232d4c8d053d1434cdbf9eadf3b28b733658f6

    第三类是基于私有信息检索(Private Information Retrieval,PIR)技术的隐私保护方法。PIR理论最早被应用于访问网络中的外包数据,用户可以检索一个不可信服务器上的任意数据项,而不暴露用户检索的数据项信息[4]。当用户提交查询数据库中索引为i的数据块时,PIR技术可以在服务器不知道用户的查询内容(i)的前提下为用户返回其查询的数据块。基于PIR的隐私保护技术大致可以分为3类:基于信息论的PIR技术、基于计算能力的PIR技术以及基于硬件的PIR技术。其中后两种被研究者普遍应用于最短路径计算[22]以及近邻查询[12,10,26]计算。

    1.5.4 性能评估与小结

    位置数据隐私保护技术需要在保护用户位置隐私的同时兼顾服务可用性以及开销。一般从以下3个方面度量位置隐私保护技术的性能:
    1)服务的可用性,指发布位置信息的准确度和及时性,反映通过隐私保护技术处理后用户获得的基于位置数据的服务质量。
    2)隐私保护程度,通常由隐私保护技术的披露风险来反映。通常,服务的可用性与隐私保护程度之间具有一个权衡,提高隐私保护程度有时会降低服务的可用性。
    3)开销,包括预计算和运行时发生的存储和计算代价。存储代价主要发生在预计算时,该代价在现有技术中通常可以接受,并在选择隐私保护技术时被忽略。运行时的计算代价根据位置大数据隐私保护技术的特点,一般利用CPU计算时间以及文件块访问次数的时间复杂度进行度量。
    每类位置数据隐私保护技术都有不同的特点。表1-3从隐私保护度、运行时开销、预计算开销和数据缺失4个方面分析比较了现有的各种隐私保护技术。从表1-3可以看出,不同方法的适用范围、性能表现等不尽相同。当对位置数据的隐私程度要求较高且对计算开销要求较高时,基于抑制发布的位置大数据隐私保护技术更适合。当关注位置信息的完美隐私保护时,则可以考虑基于数据加密的位置大数据隐私保护技术,这时计算量以及响应时间上的代价较高。基于数据失真的位置隐私保护技术能够以较低的计算开销实现对一般隐私需求的保护。表1-4从技术层面对各种方法的优点、缺点以及代表性技术作了进一步的对比显示。

    6b67de9af5249d7c1a32d64e1768fe88001bc028
    展开全文
  • 区块链隐私保护技术简单介绍

    万次阅读 2019-04-27 09:29:26
    必要的隐私保护已经成为区块链技术应用于金融业的关键。 密码学里的零知识证明成为了区块链隐私的发展趋势,它更能消除企业在区块链应用实景中在隐私方面的后顾之忧。 什么是零知识证明 零知识证明(ZKPs)并非...

    当提到金融服务特别是资本市场的操作时,区块链领域最大的趋势之一就是在日常业务中对隐私和私密性的需求。必要的隐私保护已经成为区块链技术应用于金融业的关键。

    密码学里的零知识证明成为了区块链隐私的发展趋势,它更能消除企业在区块链应用实景中在隐私方面的后顾之忧。

     

    什么是零知识证明

    零知识证明(ZKPs)并非新鲜事物。他们的概念初见于1985年的论文“互动证明系统的知识复杂性”。ZKP是一种密码学技术,允许两方(证明者和验证者)来证明某个提议是真实的,而且无需泄露除了它是真实的之外的任何信息。在密码学货币和区块链中,这通常是指交易信息数据。大家都可以百度百科搜索到各种案例。

     

    童话里的零知识证明

    小编举个最简单的阿拉伯童话《一千零一夜》里的零知识证明:阿里巴巴与四十大盗的故事其中一个片段。

    阿里巴巴会芝麻开门的咒语,强盗向他拷问打开山洞石门的咒语时,他不想让人听到咒语,想了个好办法便对强盗说:“你们离我一箭之地,用弓箭指着我,你们举起右手我就念咒语打开石门,举起左手我就念咒语关上石门,如果我做不到或逃跑,你们就用弓箭射死我。”

    强盗们当然会同意,因为这个方案不仅对阿里巴巴没损失,而且还能帮助他们搞清楚阿里巴巴到底是否知道咒语这个问题。强盗举起了右手,只见阿里巴巴的嘴动了几下,石门果真打开了,强盗举起了左手,阿里巴巴的嘴动了几下后石门又关上了。强盗还是有点不信,说不准这是巧合呢,他们不断地换着节奏举右手举左手,石门跟着他们的节奏开开关关,最后强盗们想,如果还认为这只是巧合,自己未免是个傻瓜,那还是相信了阿里巴巴吧。

    这就是最简单易懂的零知识证明。大量事实证明,零知识证明在密码学中非常有用。如果能够将零知识证明用于验证,将可以有效解决许多问题。

     

    零知识证明的性质

    根据零知识证明的定义和有关例子,可以得出零知识证明具有以下三条性质:

    1)完备性。如果证明方和验证方都是诚实的,并遵循证明过程的每一步,进行正确的计算,那么这个证明一定是成功的,验证方一定能够接受证明方。

    2)合理性。没有人能够假冒证明方,使这个证明成功。

    3)零知识性。证明过程执行完之后,验证方只获得了“证明方拥有这个知识”这条信息,而没有获得关于这个知识本身的任何一点信息。

    零知识证明及其有关的协议主要优点

    1)随着零知识证明的使用,安全性不会降级, 因为该证明具有零知识性质。

    2)高效性。该过程计算量小,双方交换的信息量少。

    3)安全性依赖于未解决的数学难题,如离散对数,大整数因子分解,平方根等。

    4)许多零知识证明相关的技术避免了直接使用有政府限制的加密算法,这就给相关产品的出口带来了优势。

    零知识证明提供了一种能向别人证明拥有某知识但不透漏该知识的一种方法。零知识证明过程不但在身份认证中有重要应用,而且在NP问题中也有广泛的应用。

    (NP问题介绍:美国麻州的克雷数学研究所于2000年5月24日在巴黎法兰西学院宣布了一件被媒体炒得火热的大事:对七个“千僖年数学难题”的每一个悬赏一百万美元。NP问题为千僖难题之首)

    同时微软提出的新一代安全计算平台NGSCB也应用到了与零知识证明相关的技术。另外,数字签名、水印检测、密钥交换和电子现金也为零知识证明的应用提供了新的方向。

     

    利用零知识证明的Zcash

    近日,随着Zcash挖矿进入稳定奖励期,其市场价也基本稳定在0.1Bitcoin左右。但是,随着隐私重要性逐渐被大众所认识,对其需求会逐步增加,相信在未来会有大幅的成长空间,并有可能成为了继Bitcoin和以太币后又一大主流的数字货币。其理念在于在实现点对点电子现金系统的同时实现100%隐秘性保护。与Bitcoin相比,Zcash集成了一种机制在转账自动隐藏发送和接收方地址,甚至转账金额。仅限定持有浏览权限秘钥人员查看。与目前主流虚拟货币隐私匿名技术混币(Dash)、环签名(Monero)相比, Zcash将实现任意等级强隐私保护。

    为何ZCash如此终极匿名,也归功于零知识证明(被称为“zk-SNARK”)的技术验证交易的真实性,利用一个公共区块链来展示交易,但会隐藏掉交易的金额,而查看密钥的所有者(即币的拥有者),可允许他人查看这个密钥相关联的信息。

    第一个使用zk-SNARKs的是Zcash,它是分布式状态和你所拥有的资产证明的结合体。

     

    Zcash 的零知识证明

    Zcash 使用了 SCIPR 实验室的零知识证明库 libsnark,在此基础上做了修改。

    SCIPR 实验室的 libsnark:https://github.com/scipr-lab/libsnark

    Zcash 修改后的 libsnark:https://github.com/zcash/libsnark

    零知识证明白皮书:https://eprint.iacr.org/2013/507.pdf

     

    展开全文
  • 身份匿名隐私保护技术有哪些? 1.零知识证明 2.环签名 3.群签名 4.基于RT语言匿名授权 面向数据分发的隐私保护技术有哪些? 1.数据扰乱 2.K-匿名方法 3.L-diversity方法 4.Anatomy方法 LBS位置隐私泄露威胁有...
  • 大数据隐私保护技术之脱敏技术

    千次阅读 2017-08-01 16:28:00
    随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护...
  • 智能合约隐私保护技术之同态加密

    千次阅读 2020-03-09 22:35:53
    1.同态加密简介 1.1.定义 同态加密(Homomorphic Encryption)...同态加密是基于数学难题的计算复杂性理论的密码学技术,它的概念可以简单的解释为:对经过同态加密的数据进行密文运算处理得到一个输出,这一输出解密...
  •  与传统针对隐私保护进行的数据发布手段相比,大数据发布面临的风险是大数据的发布是动态的,且针对同一用户的数据来源众多,总量巨大。需要解决的问题是如果在数据发布时,保证用户数据可用的情况下,高效、可靠地...
  • 9月,当国务院新闻办公室就第六届世界互联网大会有关情况及筹备工作进展举行新闻发布会并答记者问时,有记者提出了如何解决“AI换脸技术涉嫌侵犯个人隐私” 的问题。   国家互联网信息办公室副主任刘烈宏就表示,...
  • ,当 ε 值越小时,隐私保护水平越高,当 ε = 0 时,相邻数据集以一样的概率分布输出, 当然这样也就丧失了数据可用性 ,因此 ε 值的选取通常需要衡量考虑 信息安全性 与 数据可用性 。 3.4 DP 中的敏感度...
  • 隐私保护计算技术指南-2 ** 这部分介绍统计分析的隐私目标。界定清楚了目标,就能够准确知道使用哪一种技术,从而确定技术范畴。 **隐私威胁和隐私增强技术的作用** 通常在有关隐私的一般性讨论中,信息安全从业...
  • 区块链隐私保护总结

    2019-04-16 15:51:41
    隐私保护技术专栏 隐私保护的技术类型: 1、零知识证明。(zk-snarks) 相关案例:ZCash、Quorum(JPMorgan) 零知识证明-基础知识 零知识证明(Zero-Knowledge Proof)原理详解:非交互式证明实现自动验证...
  • 区块链隐私保护技术和相关项目

    万次阅读 2019-04-25 09:27:21
    我认为隐私是这样一种方式,它...在当今的加密技术中,隐私是一个很重要的话题,这已经不是什么秘密了。无论是公司还是个人都不希望将自己的所有信息发布到公共区块链上,不受任何限制,被本国政府、外国政府、家...
  • 点击上方蓝字关注我们教育大数据隐私保护机制与技术研究乐洁玉1,罗超洋2,丁静姝3,李卿21华中师范大学国家数字化学习工程技术研究中心,湖北 武汉 4300792华中师范大学教育...
  • 区块链隐私保护

    千次阅读 2018-03-16 21:12:00
    容易导致一下隐私的泄露:现在对区块链隐私保护研究的技术:(具体解释见http://blog.csdn.net/chengdian4103/article/details/79341661)区块链交易一个比特币交易可以有一个或多个输入和一个或多个输出。...
  • 摘要:PSI全称隐私保护集合交集(Private Set Intersection, PSI),是指持有数据的两方能够计算得到双方数据集合的交集部分,而不暴露交集以外的任何数据集合信息。
  • 区块链隐私保护研究(二)

    千次阅读 2018-11-29 20:14:07
    区块链隐私保护技术分为3 类:基于混币协议的技术、基于加密协议的技术、基于安全通道协议的技术。 1、基于混币协议的技术
  • 该论文算是区块链上数据隐私保护的开山之作,提出了去中心化用户数据管理框架,在该框架下可以确保用户真正地拥有自己的数据并掌握绝对的控制权。 该论文的安全模型为:服务器是诚实但又好奇的敌手,即半诚实敌手,...
  • 隐私保护集合求交(Private Set Intersection, PSI) 技术有很强的应用价值。 PSI允许持有各自集合的多方来共同计算集合的交集,而计算的最后,各参与方只能得到正确的交集,而不会得到交集以外另一方集合中的任何...
  • 隐私保护 举例_完美保护隐私

    千次阅读 2020-08-25 02:50:52
    隐私保护 举例Data privacy has been called “the most important issue in the next decade,” and has taken center stage thanks to legislation like the European Union’s General Data Protection ...
  • 联邦学习: 统一数据协作和隐私保护技术解决之道 1. 数据价值和隐私2. 隐私计算技术安全多方计算可信执行环境联邦学习3. 联邦学习的拓展分布式机器学习联邦学习和传统分布式系统的差异联邦学习带来的挑战安全性补充...
  • 差分隐私保护

    千次阅读 2020-03-26 16:17:27
    简单地说,就是在保留统计学特征的前提下去除个体特征以保护用户隐私。 0x00 背景 随着数据挖掘技术的普遍应用,一些厂商通过发布用户数据集的方式鼓励研究人员进一步深入挖掘数据的内在价值,在数据集发布的过程...
  • PSTN隐私保护(中间号)主要技术要点

    千次阅读 2018-11-29 09:38:32
    以阿里云中的隐私保护为例 1、A->X->B(简称AXB中间号)
  • 【微信隐私保护指引】据微信派公众号消息,近期,微信进行了版本更新,所有进入iOS 6.5.16 、Android 6.5.14最新版本微信的用户在首次登入微信时,会收到一条必读消息《微信隐私保护指引》。点击“了解更多”可...
  • 第一章 差分隐私保护 1 1.1 差分隐私概述 1 1.2 差分隐私保护 2 1.3 差分隐私主要研究方向 4 1.3.1 面向数据挖掘与数据发布的差分隐私技术 4 1.3.2 基于本地差分隐私模型下的数据收集与数据分析 5 1.4 差分隐私在...
  • 大数据安全与隐私保护技术框架1.5.大数据服务于信息安全1.6.基本密码学工具 1.1.大数据概述 大数据并不仅仅是“大量的数据”(Gartner如是定义:Big data is high-volume, high-velocity and high-variety ...
  • 区块链自带隐私保护机制 假名机制 用户可以独立生成任意数量的区块链地址,不需要通过注册或认证,并且同一用户生成的不同地址可以单独使用,彼此间不存在任何关系。仅通过地址无法关联到用户的真实身份,该机制...
  • 身份隐私保护技术 混淆服务 混淆服务的目的在于混淆消息双方的联系(如 图 2 所示)。当发送方需要告知接收方消息 M 时, 它会首先用接收方的公钥 KB 加密 M,并在密文后 附带真实接收地址 R。为了借助第三方(图 ...
  • 利用P2P无中心的特性可以为隐私保护和匿名通讯提供新的技术手段。 匿名性和隐私保护在很多应用场景中是非常关键的:在使用现金购物,或是参加无记名投票选举时,人们都希望能够对其他的参与者或者可能存在的窃听者...
  • 关于隐私保护相关的心得

    千次阅读 2019-09-23 10:30:29
    其实在涉及隐私保护的同时,数据的保护其实也是重点,如今很多的app都在想办法不择手段地套取用户的个人信息,自己却不能够给予用户一个安心的数据保护环境。目前市面上很多的app甚至连用户服务协议和隐私政...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 52,319
精华内容 20,927
关键字:

隐私保护技术