精华内容
下载资源
问答
  • 2020-02-28 08:54:09

    样本既然是随机变量, 就有一定的概率分布, 这个概率分布就叫作样本分布. 样本分布是样本所受随机性影响的最完整的描述.
    我们知道样本是由总体中抽取的一部分个体组成.
    要决定样本分布, 就要根据观察值的具体指标的性质 (这往往涉及有关的专业知识), 以及对抽样方式和对试验进行的方式的了解, 此外常常还必须加一些人为的假定
    X = ( X 1 , ⋯   , X n ) X=\left(X_{1}, \cdots, X_{n}\right) X=(X1,,Xn)取可能取值的全体成为样本空间 , 记为 X \mathcal{X} X

    样本的两重性和简单随机样本

    样本的两重性是说, 样本既可看成具体的数, 又可以看成随机变量 (或随机向量). 在完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量. 因为在实施具体抽样之前无法预料抽样的结果, 只能预料它可能取值的范围, 故可把它看成一个随机变量,因此才有概率分布可言。为区别起见, 今后用大写的英文字母表示随机变量或随机向量, 用小写字母表示具体的观察值.对理论工作者, 更重视样本是随机变量这一点, 而对应用工作者虽则将样本看成具体的数字, 但仍不可忽视样本是随机变量 (或随机向量) 这一背景. 否则, 样本就是一堆杂乱无章毫无规律可言的数字,无法进行任何统计处理. 样本既然是随机变量 (或随机向量), 就有分布而言, 这样才存在统计推断问题.简单随机样本:样本具有随机性,独立性
    抽样是指从总体中按一定方式抽取样本的行为. 抽样的目的是通过取得的样本对总体分布中的某些未知因素做出推断, 为了使抽取的样本能很好的反映总体的信息, 必须考虑抽样方法. 最常用的一种抽样方法叫作 “简单随机抽样”, 它要求满足下列两条:
    (1) 代表性. 总体中的每一个体都有同等机会被抽入样本, 这意味着样本中每个个体与所考察的总体具有相同分布. 因此, 任一样本中的个体都具有代表性.
    (2) 独立性. 样本中每一个体取什么值并不影响其它个体取什么值. 这意味着, 样本中各个体 X 1 ,X 2 ,··· ,X n 是相互独立的随机变量
    E X 1 : \mathcal{EX1:} EX1:

    一大批产品共有 N N N 个, 其中废品 M 个, N N N已知, 而 M 未知. 现在从中抽出 n n n 个加以检验, 用以估计 M 或废品率 p = M N p = \frac{M}{N} p=NM
    (1) 有放回抽样, 即每次抽样后记下结果, 然后将其放回去, 再抽第二个, 直到抽完 n n n个为止. 求样本分布.
    (2) 不放回抽样, 即一次抽一个, 依次抽取, 直到抽完 n n n 个为止.求样本分布.


    P ( X i = 1 ) = M / N , P ( X i = 0 ) = ( N − M ) / N P\left(X_{i}=1\right)=M / N, P\left(X_{i}=0\right)=(N-M)/N P(Xi=1)=M/N,P(Xi=0)=(NM)/N

    P ( X 1 = x 1 , ⋯   , X n = x n ) = ( M N ) a ( N − M N ) n − a P\left(X_{1}=x_{1}, \cdots, X_{n}=x_{n}\right)=\left(\frac{M}{N}\right)^{a}\left(\frac{N-M}{N}\right)^{n-a} P(X1=x1,,Xn=xn)=(NM)a(NNM)na

    x 1 , … , x n x_1,\dots,x_n x1,,xn都为0或者1, ∑ i = 1 n x i = a \sum\limits_{i=1}^{n}x_i=a i=1nxi=a(样本随机独立)

    采用不放回抽样,

    ∑ i = 1 n x i = a \sum\limits_{i=1}^{n}x_i=a i=1nxi=a x 1 , … , x n x_1,\dots,x_n x1,,xn都为0或者1

    P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n ) P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right) P(X1=x1,X2=x2,,Xn=xn)
    = M N ⋅ M − 1 N − 1 ⋯ M − a + 1 N − a + 1 ⏟ x i = 1 ⋅ N − M N − a ⋯ N − M − n + a + 1 N − n + 1 ⏟ x i = 0 =\underbrace{\frac{M}{N} \cdot \frac{M-1}{N-1} \cdots \frac{M-a+1}{N-a+1} }_{x_i=1}\cdot \underbrace{\frac{N-M}{N-a} \cdots \frac{N-M-n+a+1}{N-n+1}}_{x_i=0} =xi=1 NMN1M1Na+1Ma+1xi=0 NaNMNn+1NMn+a+1(随机不独立)


    E X 2 : \mathcal{EX2:} EX2:

    为估计一物件的重量 a, 用一架天平将它重复称 n 次, 结果记为 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn , 求样本 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn 的联合分布.


    (1) 假定各次称重是独立进行的, 即某次称重结果不受其它次称重结果的影响. 这样 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn就可以认为是相互独立的随机变量.
    (2) 假定各次称重是在 “相同条件” 下进行的, 可理解为每次用同一天平, 每次称重由同一人操作, 且周围环境 (如温度、湿度等)都相同. 在这个假定下, 可认为 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn 是同分布的. 在上述两个假定下, X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn 是 n 个独立同分布的随机变量, 即为简单随机样本.

    由概率论中的中心极限定理可知这种误差近似服从正态分布. 再假定天平没有系统误差, 则可进一步假定此误差为均值为 0 的正态分布. 可以把X 1 (它可视为物重 a 加上称量误差之和) 的概率分布为 N ( a , σ 2 ) N\left(a, \sigma^{2}\right) N(a,σ2)

    f ( x 1 , ⋯   , x n ) = ( 2 π σ ) − n exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − a ) 2 } f\left(x_{1}, \cdots, x_{n}\right)=(\sqrt{2 \pi} \sigma)^{-n} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-a\right)^{2}\right\} f(x1,,xn)=(2π σ)nexp{2σ21i=1n(xia)2}


    正态总体样本均值和样本方差的分布

    设随机变量 X 1 , ⋯   , X n i . i . d . ∼ N ( a , σ 2 ) , c 1 , c 2 , ⋯   , c n X_{1}, \cdots, X_{n} i.i.d. \sim N\left(a, \sigma^{2}\right), \quad c_{1}, c_{2}, \cdots, c_{n} X1,,Xni.i.d.N(a,σ2),c1,c2,,cn为常数

    T = ∑ k = 1 n c k X k ∼ N ( a ∑ k = 1 n c k , σ 2 ∑ k = 1 n c k 2 ) T=\sum\limits_{k=1}^{n} c_{k} X_{k} \sim N\left(a \sum_{k=1}^{n} c_{k}, \sigma^{2} \sum_{k=1}^{n} c_{k}^{2}\right) T=k=1nckXkN(ak=1nck,σ2k=1nck2)


    c 1 = ⋯ = c n = 1 / n , T = 1 n ∑ i = 1 n X i = X ˉ c_{1}=\cdots=c_{n}=1 / n,T=\frac{1}{n} \sum_{i=1}^{n} X_{i}=\bar{X} c1==cn=1/n,T=n1i=1nXi=Xˉ

    X ˉ ∼ N ( a , σ 2 / n ) \bar{X} \sim N\left(a, \sigma^{2} / n\right) XˉN(a,σ2/n)


    更多相关内容
  • 八种样本抽样方法介绍

    万次阅读 多人点赞 2019-10-16 09:24:15
    你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。 雪球抽样 我很喜欢这种抽样方法。 现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加 。当抽样框架难以识别时,...

    介绍

    你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存不足"错误。

    即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处​​理大量数据(并非所有人都拥有Google的资源实力!)。

    那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整个数据集?

    这种方法称为抽样。我相信你在学校期间,甚至在你的职业生涯中,都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是,那我们只是随机取一个子集呢?

    我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术,以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计的知识

    目录

    1. 什么是抽样?
    2. 为什么我们需要抽样?
    3. 抽样步骤
    4. 不同类型的抽样技术
    5. 概率抽样的类型
    6. 非概率抽样的类型

    什么是抽样?

    让我们从正式定义什么是抽样开始。

    抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

    上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。

    我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi的人口大约为3千万,男性大约为1500万(这些都是假想数据,不要当成实际情况了)。你可以想象,要找到Delhi所有男性的身高来计算平均身高几乎是不可能的。

    我们不可能接触到所有男性,因此我们无法真正分析整个人口。那么,什么可以我们做的呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

    但是,接下来我们又提出了一个问题,我们如何取样?我们应该随机抽样吗?还是我们必须问专家?

    假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这将不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,这将使我们对普通男性的身高没有正确的估计。

    这里有一个解决方案,我们在随机的情况下随机找一些人,这样我们的样本就不会因为身高的不同而产生偏差。

    为什么我们需要抽样?

    我确定你在这一点上已经有了直觉的答案。

    抽样是为了从样本中得出关于群体的结论,它使我们能够通过直接观察群体的一部分(样本)来确定群体的特征。

    • 选择一个样本比选择一个总体中的所有个体所需的时间更少
    • 样本选择是一种经济有效的方法
    • 对样本的分析比对整个群体的分析更方便、更实用

    抽样步骤

    将概念形象化是在记忆的好方法。因此,这是一个以流程图形式逐步进行抽样的流程图!

    让我们以一个有趣的案例研究为例,将这些步骤应用于执行抽样。几个月前,我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查:

    这些结果是根据全国9亿选民的意见得出的还是根据这些选民的一小部分得出的?让我们看看是怎么做的。

    第一步

    抽样过程的第一步是明确定义目标群体。

    因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格在人口中投票的人。

    第二步

    抽样框架(Sampling Frame) –这是构成样本总体的个体列表。

    因此,这个例子的抽样框架将是是名字出现在一个选区的所有投票人列表。

    第三步

    一般来说,使用概率抽样方法是因为每一张选票都有相等的价值。不考虑种姓、社区或宗教,任何人都可以被包括在样本中。不同的样品取自全国各地不同的地区。

    第四步

    样本量(Sample Size)-是指样本中所包含的个体的数量,这些个体的数量需要足量以对期望的准确度和精度进行推断。

    样本量越大,我们对总体的推断就越准确。

    在民意调查中,各机构试图让尽可能多的不同背景的人参与抽样调查,因为这有助于预测一个政党可能赢得的席位数量。

    第五步

    一旦确定了目标人群,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据。

    在民意测验中,机构通常会向人民提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

    根据答案,各机构试图解释选民投票给谁,以及一个政党要赢得多少席位。

    不同类型的抽样技术

    这里是另一个图解!这一个是关于我们可以使用的不同类型的采样技术:

    • 概率抽样: 在概率抽样中,总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本
    • 非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果

    例如,假设我们的人口由20个人组成。每个个体的编号从1到20,并由特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中,每个人被选中的概率是1/20。

    对于非概率抽样,这些概率是不相等的。一个人被选中的机会可能比别人大。现在我们对这两种抽样类型有了一定的了解,让我们分别深入了解每种抽样类型,并理解每种抽样的不同类型。

    概率抽样的类型

    简单随机抽样

    这是你一定要遇到的一种抽样技术。在这里,每个人都是完全由随机选择的,人口中的每个成员都有被选择的机会。

    简单的随机抽样可减少选择偏差。

    这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点,它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

    系统抽样

    在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

    假设我们的总体大小是x,我们必须选择一个样本大小为n的样本,然后,我们要选择的下一个个体将是距离第一个个体的x/n个间隔。我们可以用同样的方法选择其余的。

    假设,我们从第3个人开始,样本容量是5。因此,我们要选择的下一个个体将是(20/5)= 4,从第3个人开始,即7(3 4),依此类推。

    3、3 4=7、7 4=11、11 4=15、15 4=19 . 3、7、11、15、19

    系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

    分层抽样

    在这种类型的抽样中,我们根据不同的特征,如性别、类别等,把人口分成子组(称为层)。然后我们从这些子组中选择样本:

    在这里,我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后,从每一种颜色中,我们根据它们在人口中的比例选择一个个体。

    当我们想要从总体的所有子组中得到表示时,我们使用这种类型的抽样。然而,分层抽样需要适当的人口特征的知识。

    整群抽样

    在整群抽样中,我们使用总体的子组作为抽样单位,而不是个体。全体样本被分为子组,称为群,并随机选择一个完整的群作为抽样样本。

    在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

    当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

    非概率抽样的类型

    便利抽样

    这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

    这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

    配额抽样

    在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

    因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

    在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

    判断抽样

    这也称为选择性抽样。在选择要求参加者时,取决于专家判断。

    假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

    雪球抽样

    我很喜欢这种抽样方法。现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时,这种采样方法是有效的。

    在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

    1-> 6-> 11-> 14-> 19

    雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

    结尾

    在本文中,我们了解了抽样的概念,抽样所涉及的步骤以及不同类型的抽样方法。抽样在统计世界和现实世界中都有广泛的应用。

    欢迎关注磐创博客资源汇总站:http://docs.panchuang.net/

    欢迎关注PyTorch官方中文教程站:http://pytorch.panchuang.net/

    展开全文
  • 总体、样本样本的抽样分布

    千次阅读 2020-06-07 21:48:08
    梳理一下 假设检验、卡方检验、t检验、F检验、P值、置信区间、置信水平、AB测等问题。 首先明确几个关于总体和样本的概念及符号: 总体 样本 样本均值

    本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。

    总体:就是一个概率分布。
    样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
    抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
    其中,
    样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个( x 1 , x 2 , . . . , x n ) x_1,x_2,...,x_n) x1,x2,...,xn)
    样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
    抽样分布可以分为两类:
    一类:关于均值的分布:正态分布和t-分布;
    一类:关于方差的分布:卡方分布和F-分布。

    今天先说样本均值的抽样分布,此处涉及中心极限定理
    通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
    其中,
    1、总体本身的分布不要求正态分布;
    2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。

    所以,样本均值的抽样分布是服从正态分布,即 x ‾ \overline{x} x~N( μ , σ 2 / n \mu,σ^2/n μ,σ2/n)

    (参考:网易公开课-可汗学院-统计学
    网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)

    通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
    下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
    可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
    在这里插入图片描述

    接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
    p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962

    均值方差标准差
    总体(容量N) μ \mu μ σ 2 σ^2 σ2 σ \sigma σ
    样本(容量n) x ‾ \overline{x} x S 2 S^2 S2 S S S
    样本均值的抽样分布(容量n) μ x ‾ \mu_{\overline{x}} μx σ x ‾ 2 \sigma_{\overline{x}}^{2} σx2 σ x ‾ \sigma_{\overline{x}} σx

    其中,

    • 均值

      • 总体均值 μ = ∑ i = 1 N x i N \mu=\frac { \sum_{i=1}^N{x_i} } {N} μ=Ni=1Nxi

      • 样本均值 x ‾ = x ‾ n = ∑ i = 1 n x i n \overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n} x=xn=ni=1nxi

      • 大数定理:当n—>∞时, x ‾ n \overline{x}_n xn—>E(X)=μ。即当样本量n足够大的时候,样本均值收敛于总体均值或随机变量期望值,揭示了频率和概率的关系。

      • 样本均值抽样分布的均值 μ x ‾ \mu_{\overline{x}} μx是总体均值μ的估计,即可以认为: μ x ‾ = μ \mu_{\overline{x}}=\mu μx=μ

    • 方差

      • 总体方差 σ 2 = ∑ i = 1 N ( x i − μ ) 2 N σ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N} σ2=Ni=1N(xiμ)2

      • 样本方差 S n 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n S_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n} Sn2=ni=1n(xix)2
        因为n<N,抽到的样本会比总体相对更集中,波动更小一些,即样本方差 S 2 S^2 S2通常会比总体方差 σ 2 σ^2 σ2小,所以需要对样本方差进行了修正。

      • 修正后的样本方差(无偏方差) S n − 1 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} } Sn12=n1i=1n(xix)2

      • 如果知道总体均值 μ μ μ,那么就不用(n-1)进行无偏估计,可以直接写成: S n 2 = ∑ i = 1 n ( x i − μ ) 2 n S_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n} Sn2=ni=1n(xiμ)2

      • 样本均值抽样分布的方差(均值方差)
        这里区分总体方差已知和总体方差未知2种情况:
        总体方差 σ 2 σ^2 σ2已知: σ x ‾ 2 = σ 2 n \sigma_{\overline{x}}^{2}=\frac {σ^2 } {n} σx2=nσ2
        总体方差 σ 2 σ^2 σ2未知,则用样本方差 S 2 S^2 S2来估计:
        σ x ‾ 2 = σ 2 n ≈ S 2 n \sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n} σx2=nσ2nS2

    当样本容量n>30时,可以认为,样本方差 S S S可以比较好的估计总体方差 σ \sigma σ,根据中心极限定理,认为样本均值的抽样分布符合正态分布;
    n<30时,样本方差 S S S和总体方差 σ \sigma σ相差比较大,认为符合t分布。

    展开全文
  • 什么是对抗样本、对抗攻击(详解)

    万次阅读 多人点赞 2020-10-18 17:21:10
    1.对抗样本 所谓对抗样本就是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使机器做出错误的判断。 如下所示,这两张图片添加噪声(或者说扰动之后)被误...

    1.对抗样本

    所谓对抗样本就是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使机器做出错误的判断。

    如下所示,这两张图片添加噪声(或者说扰动之后)被误分类。

     

    2.对抗攻击

    由于机器学习算法的输入形式是一种数值型向量(numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。(也可以这样理解:将上面生成对抗样本的过程,理解为对抗攻击

    和其他攻击不同,对抗性攻击主要发生在构造对抗样本的时候,之后该对对抗样本就如正常数据一样输入机器学习模型并得到欺骗的识别结果。在构造对抗样本的过程中,无论是图像识别系统还是语音识别系统,根据攻击者掌握机器学习模型信息的多少,可以分为如下两种情况:

    2.1 白盒攻击

    攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。

    2.2 黑盒攻击

    攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,比如可以通过传入任意输入观察输出,判断输出。

     

    这里借用网上一位博主的例子来说下白盒/黑盒攻击

    下面就以Inception v3为例,介绍一下如何使用白盒模型来攻击Google的Inception v3  ImageNet分类器:

    我使用谷歌Inception v3作为目标图像识别模型,并选取ImageNet中的50000个验证图像针对Inception v3构造出相对应的对抗性图像。在实验中,将所有的对抗性图片和原始图片都打印出来,并手动用一个Nexus 5智能手机进行拍照,然后将手机里的图像输入Inception v3模型进行识别。现场结果表明,87%的对抗性图像在经过外界环境转化后仍能成功欺骗机器。

    你可以将经过训练的神经网络看作一组单元格,而同一单元格利的每个点(比如本文中就代表图像)都与同一个类相关联。不过,这些单元格过度线性化,就很容易对细微的变化不敏感,而攻击者恰恰是抓住了这一点。

     

    使用快速梯度逐步算法(Fast Gradient Step Method ,FGSM)可以分解对抗过程。这个方法的关键就是在每一步分析的过程中加入少量扰动,让预测结果朝目标类别偏移。有时候我需要限制扰动的振幅以使得攻击更加隐蔽, 一方被反侦察。在本文中,扰动的振幅意味着像素通道的强度,这意味着限制振幅可以确保扰动几乎无法察觉,最理想的情况就是,经过扰动的图片看起来仅像一个压缩的JPG文件。

    应该说是一个纯粹的最优化问题,不过在本文中,我优化扰动强度的目的是为了使攻击最大化。由于你可以获取神经网络的原始输出信息, 所以你可以直接测量误差以及计算梯度。

    但如果你没有完整的原始输出信息怎么办,比如你只有一个分类结果,这就是黑盒攻击模型。

    这时,你要做的就是从相同的方向进行Noise。首先你需要生成扰动并加到图片上, 然后将图片输入分类器, 并不断重复这个过程直到机器出错。不管你是否限制Noise强度的大小,重复到某个时刻,你都不会再看到正确的分类结果。此时你需要做的事就是找到能得到相同错误结果的最弱扰动,用一个简单的二分搜索就可以做到。

     

    2.3 有目标攻击 & 无目标攻击

    无目标攻击(untargeted attack):被攻击的模型的输出只要是错误的,就可以了。如原图像是小猫,添加干扰形成对抗样本输入到模型中,模型输出错误,输出结果可以是小狗也可以是小羊或者是其他,只要求是错误的。

    有目标攻击(targeted attack):被攻击模型的错误输出为特定类别。如原图像是小猫,生成的对抗样本使DNN模型错误分类为攻击者想要的小狗。

     

    3.对抗防御

    为了防御对抗攻击,相应的对抗防御也就应运而生了,目前主要有以下几大类:

    对抗训练:将生成的对抗样本和原始样本混合在一起训练出一个鲁棒性更强的模型。

    梯度掩码:由于当前的许多对抗样本生成方法都是基于梯度去生成的,所以如果将模型的原始梯度隐藏起来,就可以达到抵御对抗样本攻击的效果。

    随机化:向原始模型引入随机层或者随机变量。使模型具有一定随机性,全面提高模型的鲁棒性,使其对噪声的容忍度变高。

    去噪:在输入模型进行判定之前,先对当前对抗样本进行去噪,剔除其中造成扰动的信息,使其不能对模型造成攻击。

     

    4.研究对抗攻击的意义如下
    1. 能让机器学习模型处理大规模数据;
    2. 以“计算机速度”处理攻击威胁;
    3. 不依赖数据的明显特征,发现实际应用中的各种内在威胁;
    4. 阻止已知和未知的恶意软件;
    5. 阻止恶意软件的提前执行;
    6. 优化模型,让分类模型达到更加高的分类准确率和更加低的错误率。



     

    展开全文
  • 样本学习简介

    千次阅读 2020-10-26 17:58:17
    样本学习(Few-Shot Learning)简介。
  • 提问:最近在研究深度卷积神经网络,看到很多的深度学习训练都需要几百万的训练样本,我想请教各位为什么深度学习一定要这么多训练样本呢,假如样本只有几万或者几千,对性能会有影响吗? 回答: 作者:Sisyphus ...
  • 样本学习

    千次阅读 多人点赞 2020-07-14 23:30:31
    前言 这篇博客为阅读论文后的总结与感受,方便日后翻阅、查缺补漏,侵删! 论文: 零样本学习研究进展 ...更一般来说,零样本学习如果模型在训练过程中,只使用训练类的样本进行训练,,且在测..
  • 对抗样本(一)以综述入门

    千次阅读 多人点赞 2020-02-20 14:40:46
          8、对抗防御总结  Section Ⅶ 挑战与讨论       A、迁移      B、对抗样本的存在       C、鲁棒评估  Section Ⅷ 总结 一、论文相关信息   1.论文题目     Adversarial Examples: ...
  • 样本均值的抽样分布One of the most important concepts discussed in the context of inferential data analysis is the idea of sampling distributions. Understanding sampling distributions helps us better ...
  • 样本学习概述

    万次阅读 多人点赞 2020-12-09 16:44:05
    什么是小样本学习? 小样本学习的方法有哪些? 结语 前言 小样本学习(Few-Shot Learning)是近几年兴起的一个研究领域,小样本学习旨在解决在数据有限的机器学习任务。 小样本学习存在的意义? 近些年,以...
  • 本科毕设记录(一)————小样本综述综述问题定义相关的领域核心问题**经验风险最小化**(Empirical Risk Minimization)不可靠的经验风险最小化(Unreliable Empirical Risk Minimizer)解决方法数据增强模型算法...
  • 样本学习

    千次阅读 2019-06-20 21:58:36
    最近实验室再研究有关于小样本学习的论文,搜集了大量的文献整理了这一块。不自然感觉快成神仙了,玄学真是有意思 下面总结总结有关的 主题的专题 深度学习 识别 ...场景和代表性, 语言与推...
  • AB实验样本量确定

    万次阅读 2020-01-11 18:59:13
    Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量3. 卡方检验样本量确定3.1 求解样本量4. 简要总结Reference 在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,...
  • T检验:两样本数据的差异

    万次阅读 2016-09-19 11:50:08
    我最近在研究TCGA的RNAseq数据表达差异的分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著...
  • 对抗样本生成算法FGSM、I-FGSM、ILCM、PGD
  • 对抗样本(二)L-BFGS

    千次阅读 2020-02-29 14:33:52
    论文文献二、论文背景及简介三、论文所使用的符号及数据等信息四、论文主要内容1、第一个特征 神经元的语义信息2、第二个特征 神经网络的盲点五、实验结果六、模型的不稳定分析七、总结 一、论文相关信息   1....
  • 对抗样本的创建和防御

    千次阅读 2019-07-29 18:30:46
    什么是对抗样本 对抗样本产生原因 对抗样本发生的原因:深度学习模型的高度线性性质,导致通过线性模型参数的点乘累积放大输入图像像素值的微小改变。 创建对抗样本 1. 白盒No-target攻击——FGSM, I-...
  • 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据...
  • 样本数据集不平衡处理方式

    千次阅读 2020-10-14 15:44:54
    原始数据中经常存在正负样本不均衡,比如正负样本的数据比例为100:1. 常用的解决办法有: 1、数据上处理 2、权重设置 3、集成的思想 4、转化成异常检测问题 5、利用深度学习:自编码器. 6、确定适合样本不...
  • 样本量确定(sample size determination),又称样本量估计(sample size estimation),是指为满足统计的准确和可靠(I类错误的控制和检验效能...
  • 样本语义分割

    千次阅读 2021-04-23 10:04:01
    样本学习旨在通过极少的样本来完成新类的识别,在深度...所谓元学习就是需要模型具有“learning to learning”的能力,也可以理解为需要模型具有很强的迁移能力,只需要少量的样本就可以完成新类别的识别。而度量学习
  • 关于QC样本的制备与分析

    千次阅读 2021-06-14 19:28:46
    在做代谢组学分析的时候,经常会听到QC,QC是样本检测过程中必不可少的一部分,可用于考察方法的稳定和重复,今天给大家分享一篇QC的科普贴。如有疑问和不足,欢迎留言 QC样本的制备: 混合相同体积的所有待...
  • 处理不平衡样本集的采样方法

    千次阅读 2019-06-09 22:12:11
    例如,如果正负样本比例达到1:99,则分类器简单地将所有样本都判定为负样本能达到99%的正确率,显然这并不是我们想要的,我们想让分类器在正样本和负样本上都有足够的准确率和召回率。 为什么很多分类模型在训练数据...
  • 样本学习研究综述

    千次阅读 2020-12-11 16:34:30
    样本学习方法分类基于模型微调的小样本学习方法基于数据增强的小样本学习基于无标签数据的方法基于数据合成的方法基于特征增强的方法基于迁移学习的小样本学习基于度量学习的方法基于元学习的方法基于图神经网络的...
  • 样本算法库LibFewShot

    千次阅读 2021-10-24 09:18:50
    样本学习算法库LibFewShot包含了17个2017年到2020年具有代表性的小样本学习算法,为小样本学习领域中算法对比采用统一框架、统一设置、实现公平对比等提供便利。 论文链接:https://arxiv.org/abs/2109.04898...
  • 深度学习与对抗样本

    千次阅读 2019-08-15 16:57:20
    解释一下这张图,这张图是对数据集CIFAR-10的分类器的决策边界示意图,其中每个小格子代表是CIFAR-10样本,每个小格子中,横向从左往右代表的是FGSM算法的梯度方向,纵向代表的是FGSM梯度的正交方向,白色表示模型能...
  • 样本分割综述

    千次阅读 2020-05-19 14:35:56
    ©PaperWeekly·作者|艾超义学校|中国矿业大学本科生研究方向|小样本分割介绍深度卷积神经网络在图像分类、目标检测、语义分割等许多视觉理解任务上都取得了重大突破。一个关键的原...
  • 最小样本量计算

    万次阅读 2019-11-23 11:02:32
    大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从整体中抽取部分样本来进行研究,并用抽取的样本来代替整体的...
  • 样本学习(one/few-shot learning)

    万次阅读 多人点赞 2019-04-03 19:42:14
    原文:...小样本学习 来源:我们人类是具有快速从少量(单)样本中快速学习能力的,其实在我们学习的过程中,人类的大脑将对象和类别组成有用的信息将之分类。 首先需要声明的是,小样...
  • 代表性方法: Baseline :使用线性分类器,比如全连接层,作为微调阶段的新分类器 Baseline++ :将全连接层的标准内积替换为权重向量和输入特征的余弦距离 RFS-simple :对特征向量进行 L2 范数归一化,用逻辑回归...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 76,855
精华内容 30,742
关键字:

什么叫样本具有代表性