精华内容
下载资源
问答
  • 分进化算法

    千次阅读 2019-07-31 10:22:22
      最近在学习演化算法(Evolutionary algorithm),粒子群算法和遗传算法已经很熟悉了,而分进化算法我还没认真研究过,趁着暑期实训的机会打算把分进化算法个总结,最后再将这三种算法个比较。   分...

    原理

      最近在学习演化算法(Evolutionary algorithm),粒子群算法和遗传算法已经很熟悉了,而差分进化算法我还没认真研究过,趁着暑期实训的机会打算把差分进化算法做个总结,最后再将这三种算法做个比较。
      差分进化算法是演化算法的一种,它的思想和遗传算法比较像,算法分为以下几个流程:

    • 初始化

        演化算法的初始化一般都是随机初始化,个体一般表示为一个多维向量 [ x 1 , x 2 , . . . , x n ] , x i ∈ [ l i , h i ] [x_1,x_2,...,x_n], x_i\in [l_i,h_i] [x1,x2,...,xn],xi[li,hi] l i l_i li h i h_i hi为第i维变量的范围。一般而言,对第i维而言,可以先产生一个0-1的随机数 r r r,然后 x i = l i + r ∗ ( h i − l i ) x_i=l_i+r*(h_i-l_i) xi=li+r(hili)
    • 评估

        演化算法的个体的好坏是通过适应值函数来决定的,对于最小化问题而言,个体的适应值越小,则越有优势;最大化问题可以转换为最小化问题,毕竟 max ⁡ f ( x ) = − min ⁡ ( − f ( x ) ) \max f(x)=-\min (-f(x)) maxf(x)=min(f(x))
    • 成熟&变异

        差分进化算法的成熟和变异与遗传算法有些不同,对种群中的每一个个体,选出除该个体之外的另外三个个体a,b,c,新个体的产生方式如下:
      m u t a n t = a + m u t ∗ ( b − c ) mutant=a+mut*(b-c) mutant=a+mut(bc) mut为参数,一般取值为0.5-2。
        新产生的个体还需要进行变异操作,对新个体的多维向量的每一维,以一定的概率进行变异得到新的值,变异的新数值一般是取[0,1]内的随机数,然后按照初始化中的操作将其变为范围位于 [ l i , h i ] [l_i,h_i] [li,hi]的值。变异之后,需要将该变异值与原个体值进行比较,取其中适应值更好的一个作为新个体值。再将该新个体值与种群中最优的个体进行比较,更新最优的个体值。
    • 结束

        进化算法的结束一般有两种,其一是设定循环的最大次数,达到最大次数后中止算法;其二是设定阈值,假定相邻的两次循环中最优个体的适应值差在阈值以内,则认为算法收敛并中止算法。最后的最优个体值即是本次算法求得的最优解。

    实现

      我利用python实现该算法并进行测试。代码如下:

    import numpy as np
    import matplotlib.pyplot as plt
    
    def de(fobj, bounds, mut=0.8, crossp=0.7, popsize=20, its=1000):
        dimensions = len(bounds)
        pop = np.random.rand(popsize, dimensions)
        min_b, max_b = np.asarray(bounds).T
        diff = np.fabs(min_b - max_b)
        pop_denorm = min_b + pop * diff
        fitness = np.asarray([fobj(ind) for ind in pop_denorm])
        best_idx = np.argmin(fitness)
        best = pop_denorm[best_idx]
        for i in range(its):
            for j in range(popsize):
                idxs = [idx for idx in range(popsize) if idx != j]
                a, b, c = pop[np.random.choice(idxs, 3, replace = False)]
                mutant = np.clip(a + mut * (b - c), 0, 1)
                cross_points = np.random.rand(dimensions) < crossp
                if not np.any(cross_points):
                    cross_points[np.random.randint(0, dimensions)] = True
                trial = np.where(cross_points, mutant, pop[j])
                trial_denorm = min_b + trial * diff
                f = fobj(trial_denorm)
                if f < fitness[j]:
                    fitness[j] = f
                    pop[j] = trial
                    if f < fitness[best_idx]:
                        best_idx = j
                        best = trial_denorm
            yield best, fitness[best_idx]
    
    def fitness(x):
        return np.sum(x**2)/len(x)
    
    bound=[(-100,100)]*20
    results=de(fitness,bound)
    x,f=zip(*results)
    plt.plot(f)
    plt.show()
    

    上述代码参考自这位大佬,他的代码写的很简洁,我没有改动就直接拿上来了。
    最后的效果如下:
    效果图

    效果

      一般而言,当问题的维度比较小时,大概几十维的时候,演化算法的效果还是很可以的;当问题的维度变得很大,一般是几百维甚至上千维德时候,演化算法的效果就变得比较差了,需要较多的迭代次数才能得到一个较好的解,这也是"维数灾难"的一种体现。

    展开全文
  • Excel怎么均值-极控制图

    千次阅读 2020-06-06 23:20:13
    Excel怎么均值-极控制图? 一、什么是控制图? (一) 概念: 控制图又称管理图,是对生产过程质量特性值进行测定、记录、评估,从而监察过程是否处于控制状态的一种用统计方法设计的图。 (二) 目的: 为了使生产...

    Excel怎么做均值-极差控制图?

    一、什么是控制图?

    (一) 概念:

    控制图又称管理图,是对生产过程质量特性值进行测定、记录、评估,从而监察过程是否处于控制状态的一种用统计方法设计的图。

    (二) 目的:

    为了使生产过程或工作过程处于“ 控制状态" ,即稳定状态。稳定状态即过程仅受到随机因素影响,其产品质量特性的分布(以平均值和标准偏差表示) 基本上不随时间而变化的状态;反之,为非受控状态或异常状态。

    (三) 种类:

    1、按产品质量的特性来分类,控制图可分为计量值控制图与计数值控制图;

    适用于产品质量特性为计量值的情形。例如: 长度、重量、时间、强度、成分及反应收率等连续变量。常用的计量值控制图有下面几种:
    计量值控制图种类
    适用于产品质量特性为计数值的情形。例如: 不合格品数、不合格品率、缺陷数、单位缺陷数等离散变量。常用的计数值控制图有下面几种:

    1)不合格品数控制图(Pn图)

    2)不合格品率控制图(P图)

    3)缺陷数控制图(c图)

    4)单位缺陷数控制图(μ图)

    2、按控制图的用途来分类,控制图可分为分析用控制图与控制用控制图;

    均值-极差控制图适用于样本大小n小于等于100 时, 是均值控制图和极差控制图联合使用的一种控制图,为最常用的计量值控制图之一。其中,均值图主要用于判断生产过程的均值是否处于或保持在所要求的受控状态;极差图用于判断生产过程的标准差是否处于或保持在所要求的受控状态。

    二、用Excel做极差控制图

    某厂生产一种零件,其长度要求为49.50±0.10mm,生产过程质量要求为Cp≥1,为对该过程实行连续监控,试设计均值极差控制图,并分析生产过程是否处于统计控制状态。

    步骤:

    (一)集数据并加以分组,过程稳定,当n(样本试验的次数)<10,组数k > 25

    (二)计算样本均值和样本极差R

    计算每组样本均值与极差公式:
    在这里插入图片描述根据措施1、2得下图:
    在这里插入图片描述
    均值的计算:
    在这里插入图片描述
    极差的计算:
    在这里插入图片描述

    (三)计算总平均值与极差平均值

    计算总平均值与极差平均值公式:
    在这里插入图片描述均值总和值的计算:
    在这里插入图片描述
    样本总均值的计算:
    在这里插入图片描述
    同理可得极差的样本平均值、总和值

    注意:括号由英文方式输入

    (四)计算控制线

    在这里插入图片描述
    将所得数据填入Excel表格中
    在这里插入图片描述

    (五)制作控制图并描点

    1、选择数据

    在这里插入图片描述

    2、【插入】-【折线图】

    在这里插入图片描述

    3、鼠标右击图表区-【选择数据】

    在这里插入图片描述

    4、点击【添加】

    在这里插入图片描述

    5、系列名称点击均值Xi框选相应的平均值-【确定】数据系列-【确定】数据源

    在这里插入图片描述

    6、得出均值控制图

    在这里插入图片描述

    7、依照上述方法得出极差控制图

    在这里插入图片描述

    8、观察与分析生产过程是否处于统计控制状态

    依据:

    判稳准则
    控制图上的点不超过控制界限(在下述情况下也可认为处于受控状态)

    第一,连续25点以上处于控制界限内

    第二,连续35点中,仅1点超出控制界限(也要处理)

    第三,连续100点中,不多于2点超出控制界限(也要处理)

    (虽合格,也要注意异常点)

    控制图上的点排列分布无缺陷

    指的是控制图上的点的分布没有判异准则所列的各种情况。

    另:凡是点恰在界限上的, 均作为超出控制界限处理。

    判异原则
    一点落在A区以外
    连续9点落在中心线同一侧
    连续6点递增或递减
    连续14个相邻点上下交替
    连续3点中有2点落在中心线同一侧的B区以外
    连续5点中有4点子落在中心线同一侧C区以外
    连续8点落在中心线两侧且无1点在C区中
    连续15点在C区中心线上下

    三、注意:以上所计算得出的控制图制用作分析用控制图,用于分析生产过程是否处于统计控制状态。

    (一)若要把分析用控制图转为控制用控制图,需考虑:

    1、若经分析后,生产过程处于统计控制状态且满足要求,则把分析用控制图转为控制用控制图

    2、若经分析后,生产过程处于非统计控制状态,则应查找过程失控的异常原因,并加以消除,去掉异常数据点,重新计算中心线和控制界限线;

    3、若异常数据点比例过大,则应改进生产过程,再次收集数据,计算中心线和控制界限线;

    4、若经分析后,生产过程虽然处于统计控制状态,但不满足质量要求,则应调整生产过程的有关因素,直到满足质量要求方能转为控制用控制图。

    (二)控制用控制图用于对实际生产过程进行连续监控。

    按照确定的抽样间隔和样本大小抽取样本,计算统计量数值并在控制图上描点,判断生产过程是否异常。控制用控制图在使用一般时间以后,应根据实际情况对中心线和控制界限线进行修改。

    2020年6月6日 作者:林页
    原创不易,切勿未经同意转载文章。
    联系我,可通过我的微信公众号发信息,但请勿恶意骚扰:
    在这里插入图片描述

    展开全文
  • 标准的理解

    千次阅读 2020-06-28 11:58:40
    首先讲一下标准的概念,要了解什么是标准。 标准(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准定义是总体各单位标准值与其平均数离差平方的算术...

    我们在数据的处理过程中,或者在数据分析的过程中,对数据的验证是必要的一步,我们要去了解数据的有效性和真实性,这样才能更加准确的用数据说明问题,这里讲一下几个简单的关于数据的概念,可以帮助我们来理解相应的统计学问题。

    概念:

    首先讲一下标准差的概念,要了解什么是标准差。

    标准差StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。测量分布程度的结果,原则上具有两种性质

    为非负数值,与测量资料具有相同单位。一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。

    简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

    例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。

    标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。

    标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定风险亦较小。

    例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差约为17.08分,B组的标准差约为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。

    如是总体(即估算总体),根号内除以n(对应excel函数:STDEVP);

    如是抽样(即估算样本),根号内除以(n-1)(对应excel函数:STDEV);

    因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)。

    公式:

    所有数减去其平均值的平方和,所得结果以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

    扩展:

    离散度:

    标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。

    虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。

    一组数据怎样去评价和量化它的离散度,有很多种方法:

    极差

    最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。

    离均差平方和

    由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。

    但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。

    方差

    由于离均差的平方和与样本个数有关,只能反映相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将离均差的平方和求平均值,这就是我们所说的方差成了评价离散度的较好指标。

    样本量越大越能反映真实的情况,而算术平均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

    标准差意义

    由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。

    在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

    变异系数

    标准差能很客观准确的反映一组数据的离散程度,但是对于不同的项目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。

    一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一“自然”的测量。

    定义公式:其中N应为n-1,即自由度

    标准差与平均值定义公式标准差与平均值定义公式

    ⒈方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2](x为平均数)

    ⒉标准差=方差的算术平方根errorbar。在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误。这里即标准差。

    standarddeviation和标准误standarderror的计算公式分别为

    标准差标准差

    标准误标准误

    解释

    从几何学的角度出发,标准差可以理解为一个从n维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3。它们可以在3维空间中确定一个点P=(X1,X2,X3)。想像一条通过原点的直线。如果这组数据中的3个值都相等,则点P就是直线L上的一个点,P到L的距离为0,所以标准差也为0。若这3个值不都相等,过点P作垂线PR垂直于L,PR交L于点R,则R的坐标为这3个值的平均数:

    公式公式

    运用一些代数知识,不难发现点P与点R之间的距离(也就是点P到直线L的距离)是|PR|。在n维空间中,这个规律同样适用,把3换成n就可以了。

    标准差标准误差

    标准差与标准误差都是数理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。

    首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。


      标准差表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个测验测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。

    标准误差表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本容量开平方来计算的。从这里可以看到,标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。

    一个正态分布的总体,抽取n个作为样本,可以得到样本平均值,用样本均值估计总体均值需要考虑样本均值的方差或标准差(也就是标准误差) [1] 

    函数

    Excel中有STDEV、STDEVP;STDEVA,STDEVPA四个函数,分别表示样本标准差、总体标准差;包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差(excel用的是“标准偏差”字样)。

    在计算方法上的差异是:样本标准差^2=(样本方差/(数据个数-1));总体标准差^2=(总体方差/(数据个数))。

    函数的excel分解:

    ⑴stdev()函数可以分解为(假设样本数据为A1:E10这样一个矩阵):

    stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))

    ⑵stdevp()函数可以分解为(假设总体数据为A1:E10这样一个矩阵):

    stdevp(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))

    同样的道理stdeva()与stdevpa()也有同样的分解方法。

    外汇术语

    标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。

    在excel中调用函数

    “STDEV“

    估算样本的标准偏差。标准偏差反映相对于平均值(mean)的离散程度

    选基金

    在投资基金上,一般人比较重视的是业绩,但往往买进了

    基金的算法基金的算法

    近期业绩表现最佳的基金之后,基金表现反而不如预期,这是因为所选基金波动度太大,没有稳定的表现。

    衡量基金波动程度的工具就是标准差(StandardDeviation)。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。

    比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。建议投资人同时将收益和风险计入,以此来判断基金。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的"每单位风险收益率"为2(0.36/0.18),而B基金为3(0.24/0.08)。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金反而更为优异。

    另外,标准差也可以用来判断基金属性。据晨星统计,股票基金的平均标准差为5.14,积极型基金的平均标准差为5.04;保守配置型基金的平均标准差为4.86;普通债券基金平均标准差为2.91;货币基金平均标准差则为0.19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高,投资人不妨在观赏奥运比赛的同时,也检视一下手中的基金。

    参考:百度百科https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%B7%AE/1415772?fr=aladdin

    展开全文
  • 分隐私 走过的坑

    千次阅读 多人点赞 2019-03-11 12:59:02
    分隐私 小记:学了隐私保护相关匿名模型后,初看分隐私感觉真不是一个层次,好难理解,像是个大坑。书上的内容就给一对兄弟数据表,一个ε-分隐私公式,然后两个实现机制。真的很难结合起来看懂,到底如何...

    差分隐私

    小记:学了隐私保护相关匿名模型后,初看差分隐私感觉真,一时好难理解,像是个大坑。书上的内容就给一对兄弟数据表,一个ε-差分隐私公式,然后两个实现机制。真的很难结合起来看懂,到底如何差分?如何实现?如何评估?
    差分隐私口口交流群:564314157

    以下是我初学时一直不理解的几个问题:

    1. 差分隐私针对怎样的数据进行何样的保护?
    2. 差分是什么意思?
    3. 为何给输出结果添加噪声就能使其概率分布近似?
    4. Laplace机制和指数机制的原理到底什么鬼?
    5. 隐私保护强度ε、Laplace噪声参数λ、敏感度如何理解?

    在知乎上看到一些文章,通俗易懂,各抒己见,可罗列学习。

    文章一
    作者:Nemo 链接:https://www.zhihu.com/question/47492648/answer/194047182
    来源:知乎 著作权归作者所有。

    问题提出

    2016 年 6 月份,苹果 WWDC 大会上提到了一项 Differential Privacy 差分隐私技术,其作用是能够对用户的数据进行「加密」上传到苹果服务器。苹果能通过这些「加密」过的数据计算出用户群体的行为模式,但是对每个用户个体的数据却无法解析。
    从而达到保护个人隐私的目的。

    苹果这项技术的实现原理是什么?

    1. 什么是隐私?

    隐私的定义:不同的考量也各抒己见,目前普遍比较接受的是:“单个用户的某一些属性” 可以被看做是隐私。
    这个说法里所强调的是:单个用户。也就是说,如果是一群用户的某一些属性,那么可以不看做隐私。

    举个例子:医院说,抽烟的人有更高的几率会得肺癌。这个不泄露任何隐私。但是如果医院说,张三因为抽烟,所以有了肺癌。那么这个就是隐私泄露了。好,那么进一步,虽然医院发布的是趋势,说抽烟的人更高几率得肺癌。然后大家都知道张三抽烟,那么是不是张三就会有肺癌呢?那么这算不算隐私泄露呢?结论是不算,因为张三不一定有肺癌,大家只是通过一个趋势猜测的。

    因此 从隐私保护的角度来说,隐私的主体是单个用户,只有牵涉到某个特定用户的才叫隐私泄露,发布群体用户的信息(一般叫聚集信息)不算泄露隐私。

    记得高德地图发过一张图,大意是开凯迪拉克的群体喜欢去洗浴中心…很多人说暴露隐私,
    其实从学术定义上来说,这个不算隐私泄露,因为没有牵涉到任何个体。

    那么我们是不是可以任意发布聚集信息呢?倒是未必。
    

    我们设想这样一种情况: 医院发布了一系列信息,说我们医院这个月有100个病人,其中有10个感染HIV。假如攻击者知道其中99个人是否有HIV的信息,那么他只需要把他知道的99个人的信息和医院发布的100人比对,就可以知道第100个人是否感染HIV。

                                    这种对隐私的攻击行为就是差分攻击。
    

    当然,差分隐私一般针对统计数据库的隐私泄露问题,即用户或攻击者看不到数据库的数据集,他们只能通过对数据库查询获取某些统计数据值。
    例如上例,攻击者可查询医院数据库,获取当月患病总人数100,和感染HIV的人数10,并且攻击者已经拥有最大背景知识,知道其中99人的信息。从而进行差分攻击。

    1. 差分隐私

    差分隐私顾名思义就是防止差分攻击了,它想做的事情就是即使你小子知道我发布的100个人的信息,以及另外99个人的信息,你也绝对没办法把这两个信息比对之后获取第100个人的信息。怎么才能做到这一点呢?

    差分隐私于是定义:如果你能找出一种方法让攻击者用某种方式查询100个信息和查询那99个信息得到的结果是一致的,那攻击者就没办法找出那第100个人的信息了。

    但这个“一致” 怎么做到呢?那就加入随机性吧。

    如果查询100个记录和查询99个记录,输出同样值的概率是一样的,攻击者就无法进行差分攻击。

    这里我们就得到了差分隐私的核心思想:对于差别只有一条记录的两个数据集,查询它们获得相同值的概率非常非常的接近。

    Wait,不是说一致的么?为什么变成了非常接近了? 这是因为,如果概率一样,就表示数据集需要完全随机化,那数据的可用性就没有了,隐私保护也没有意义了。所以,我们尽可能的把概率做的接近,而不是一致,以期在隐私和可用性之间找一个平衡。
    在这里插入图片描述
    上面这张图描述了差分隐私的基本思想:

    对于两个只相差一条记录的数据集D和D’来说,查询M的输出结果S的概率应该非常接近。

    Differential Privacy (DP)的严格定义如下:
    在这里插入图片描述
    参数ε 接近0时,exp(ε )接近1,两个概率接近相等,保密程度高。
    ε 越大,越没隐私,但查询结果可以更精确。

    DP就是为了允许研究者在不泄露个体信息(用户隐私)的前提下,对一个数据集的整体(用户行为)进行分析而研究出的加密手段。

    通俗来讲,这个机制保证了一个数据集的每个个体都不被泄露,但数据集整体的统计学信息(比如均值,方差)却可以被外界了解。因此,比如一个医疗机构要公布患者的疾病数据给外界以供研究,就可以先对这个数据集做一个满足DP的扰动,再公布出去。

    1. 如何做到差分隐私

    其实就是在查询结果里 加入随机性。

    任何一种方法,只要用在数据集上能满足差分隐私的核心思想,那这个方法就是满足差分隐私的。所以最常用的方法是在结果上加满足某种分布的噪音,使查询结果随机化。

    目前常用的有两种方法,一个是Laplace机制,在查询结果里加入Laplace分布的噪音,适用于数值型输出。
    例如: zhihu里有多少人是985大学毕业的? 假如结果是2000人,那么加噪后,每一次查询得到的结果都会稍稍有些区别,比如有很高的概率输出2001,也有较高概率输出2010, 较低概率输出1990,等等。

    另外一个是指数机制,在查询结果里用指数分布来调整概率,适用于非数值型输出。
    例如: 中国top 3大学是哪一所。很高概率输出 浙江大学,较高概率输出上海交大,较低概率输出武汉大学,很低概率输出蓝翔技校,等等。

    1. 差分隐私应用

    这么说吧,任何需要保护隐私的算法里都可以使用差分隐私。

    差分隐私最美丽的一点在于只要你的算法每一个步骤都满足差分隐私的要求,那么它可以保证这个算法的最终输出结果满足差分隐私,
    换句话说,即使攻击者具有足够多的背景知识,也无法在最终的输出中找出单个人的某项属性。

    目前在学术上,差分隐私可以被应用在
    推荐系统
    社交网络
    基于位置的服务
    当然,也包括了苹果的输入系统
    1. 差分隐私的弱点

    差分隐私的弱点其实很明显:

    • 由于对于背景知识的假设过于强,需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。
    • 特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。

    但差分隐私作为一个非常漂亮的数学工具,为隐私研究指明了一个发展的方向

    • 在早期,人们很难证明我的方法保护了隐私,更无法证明究竟保护了多少隐私。
    • 现在差分隐私用严格的数学证明告诉人们,只要你按照我的做,我就保证你的隐私不会泄露。

    有兴趣可以移步Havard的Differential Privacy实验室,
    他们做了一个DP的原型实现,你可以传一个数据集上去,得到一个加密过的新数据集:Differentially Private Curator

    更有意思的是,Dwork团队2015年提出应用差分隐私的想法可以解决机器学习的over-fitting问题,一步从隐私界跨到了AI界,开始抢机器学习的饭碗了。她们的论文发表在了2015年的Science上,有志于抢AI饭碗的同学可以瞄一下。
    The reusable holdout: Preserving validity in adaptive data analysis

    1. 最后,放一篇作者朱老师在2017年写的有关差分隐私的前世今生,很学术,有兴趣研究这个方向的同学可以读读。
      Differentially Private Data Publishing and Analysis: a Survey
      附录一篇Dwork的比较老的综述。
      Differential Privacy: A Survey of Results
    展开全文
  • matlab编写的中心分法

    热门讨论 2012-05-22 11:02:02
    结构动力学中的中心分法是基于用有限分代替位移对时间的求导(对位移一阶求导得到速度,对位移二阶求导加速度)。  
  • 分隐私的概念综述

    千次阅读 2021-02-27 11:07:57
    分隐私前,我想说一下什么是隐私 其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量。目前普遍比较接受的是:“单个用户的某一些属性” 可以被看做是隐私。这个说法里所强调的是:单个用户。也就是...
  • 分 详解

    千次阅读 多人点赞 2017-11-06 08:16:58
    定义 例题 分析 code 树上分 例题 分析 code定义分这个名词实在难理解。。也不知道是哪个大佬取的名儿。... 数学老师为了惩罚他,决定让他一个难题,他让小x会对这些盒子k(1 ,000)次放糖块的操作
  • 载波相位分定位

    千次阅读 热门讨论 2019-11-04 18:20:30
    RTK( Real-time kinematic)指的是实时动态测量,也叫载波相位分定位 是 GNSS 相对定位技术的一种,主要通过基准站和流动站(接收机位置)之间的实时数据链路和载波相对定位快速解算技术,实现高精度动态相对定位...
  • 目录1 概述2 平稳和非平稳时间序列3 让序列数据平稳4 分转换4.1 线性增长的趋势4.2 季节性趋势5 总结 1 概述 时间序列数据集可能包含趋势和季节性,在建模之前可能需要将其删除。 趋势可能导致随时间变化的平均值...
  • GPS分原理

    千次阅读 2019-01-26 19:06:19
    (5)将接收机钟钟差做为未知数求出以上措施将有效地提高GPS定位精度,一般而言,以坐标方式分可达±5m的精度,以伪距方式可达±(1~3)m级精度,以载波相位方式可达±(1~3)cm的精度,高程精度为平面精度的2~...
  • SPSS(十九)SPSS之时间序列模型(图文+数据集)

    万次阅读 多人点赞 2019-06-17 22:32:38
    分,分会损失信息,越多,相应要求的时间序列越长 如果是稳定序列的话,历史数据越多,对预测的帮助越大 如果存在周期,一般需要4个周期以上 ; 数理上认为应当在20个周期以上  假如只有两三个...
  • 分数组是个啥 分数组很明显就是个数组呗,,, 本菜鸡学的比较浅,先说一下我自己认识的分数组吧! 先解释一下什么是 分: 分其实就是数据之间的,什么数据的呢?就是上面所给的原始数组的相邻...
  • 1. 接收机间单 信号发射时刻t1t1计算方法 t′1=t1+Vti(t1)−ρpi(t1))ct1′=t1+Vti(t1)−ρip(t1))c 式中,接收机钟的改正数Vti(t1)Vti(t1)可用t1t1时的伪距观测采用单点定位的方式求得,ρpi(t1)ρip(t1)则需要...
  • 分法

    千次阅读 2020-05-10 22:49:45
    分就是将数列中的每一项分别与前一项数做差,例如: 一个序列[1 7 6 5 2 4],分后得到[1 6 -1 -1 -3 -2 -4] 分序列第一个数和原序列第一个数相同(相当于第一个数减去0) 分序列最后比原序列多一个数(相当于...
  •   差动放大电路又叫分放大电路,它除了能放大交流信号,也能放大直流信号,还能有效地减小由于电源波动和晶体管随温度变化而引起的零点漂移(温度漂移),因而获得广泛的应用。分放大电路是架在晶体管与芯片...
  • 聊一聊分放大器

    万次阅读 2021-09-26 22:28:25
    5、运算放大器输入端之间的电容 为了滚降差动放大器的响应,某些设计人员会尝试在两个运算放大器输入端之间添加电容C1 以形成分滤波器,如下图所示: 输入电容降低高频反馈 这样对于仪表放大器而言是可行的,但...
  • 如何理解总体标准、样本标准与标准误 1 总体标准 已知随机变量 XXX 的数学期望为 μ\muμ,标准为 σ\sigmaσ,则其方差为: σ2=E[(X−μ)2] \sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]此处 σ\sigmaσ 即为...
  • 分运放分析

    千次阅读 2019-12-15 02:52:31
    目录引言运放分析的要义虚短与虚断线性电路的可叠加性实战分析反向放大器中为什么没有R...如图1所示,虚短是指运放的输入端V+和V-可视为电压很小,即近似相等:V−=V+V_-=V_+V−​=V+​,由于并没有实际的物理连接...
  • C++利用帧法背景分实现运动目标检测(opencv)

    万次阅读 多人点赞 2017-08-07 15:37:38
    法、光流法、背景减除法 运动目标检测是指在序列图像中检测出变化区域并将运动目标从背景图像中提取出来。通常情况下,目标分类、跟踪和行为理解等后处理过程仅仅考虑图像中对应于运动目标的像素区域,因此运动...
  • 来自专治PCB疑难杂症主群(五大群群友突破2000人啦,添加杨老师微信号Johnnyyang206,可添加入群)的...先来稍微了解下分信号,分线抗干扰能力强,信噪比高,辐射小,带宽容量大等众多优点,使用两根走线传输一...
  • 让产品变更加有价值!因为用户需要了才用,那就是公共设施而已!如果说能够让日常都能想起来去用,而且坚持去用,那么这个环节中就需要很多有意思的玩法加入了! 常见的方式就是回馈消费者,签到、打卡功能!也有...
  • 关于帧法的想法(opencv)

    千次阅读 2019-07-19 16:05:31
    法,顾名思义就是将视频中前后两帧减法,当前帧在(x,y)点处的像素值减去上一帧在(x,y)处的像素值。该方法的优点是提取效果比较稳定,速度比较快。缺点也是蛮明显的,如果你要提取的目标是静止的或者移动...
  • 标准(数学)

    千次阅读 2020-04-26 14:57:30
    标准 标准 (Standard Deviation),也称均方差(Mean square error) 目录 [隐藏] 1标准概述 2标准的简易计算公式 3标准的特性[1] 4范例:标准的计算 5标准与...
  • GNSS原理及技术(三)——分定位技术

    万次阅读 多人点赞 2018-07-25 13:55:44
    本文以DGPS为例来说明分定位技术 首先提个问题:我们为什么要采用分GPS定位技术测量? 答案是:绝对定位精度不能满足要求。   一、DGPS简介 DGPS:分全球定位系统(Differential Global Position ...
  • 信号完整性之分对

    千次阅读 2020-04-23 22:32:52
    分传输 分互连方式中,使用两条传输线来传输信号。 分驱动器有两个输出端,这两个输出端同时输出信号。理想情况下两个信号边沿对齐,但是翻转方向相反,如下图所示: 两个信号沿着各自的传输线传输,到达接收...
  • 之前转载过一篇使用python dateTime模块处理时间的文章(原文链接),文章中讲解了如何按照days,hours和seconds单位来计算时间。这里讲解一下如何使用dateTime模块按照minutes来计算时间。dateTime模块本身是...
  • Altium Designer -- 分布线和阻抗匹配

    万次阅读 多人点赞 2016-03-16 13:28:01
    一、PCB 分布线操作参看:Altium Designer -- 精心总结PCB 分布线已经讲的很清楚了,在此不介绍。二、分布线优缺点参看:实际运用中分信号线的分析和 LAYOUT 参看:分信号 -- 维基百科(1) 分信号...
  • 分隐私

    万次阅读 多人点赞 2017-10-24 10:56:24
    作者:知乎用户 ... 来源:知乎 著作权归作者所有。...讲分隐私前,我想说一下什么是隐私 其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量。目前普遍比较接受的是:“单个用户的某一些属性
  • 毫秒值求 自定义函数解决 两个毫秒类型时间计算毫秒 也可以单独计算当前时间的毫秒值

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 468,801
精华内容 187,520
关键字:

做得差