精华内容
下载资源
问答
  • 参数估计有点估计(point estimation)和区间估计(interval estimation)两种点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。...
    参数估计有点估计(point estimation)区间估计(interval estimation)两种。

    点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。
    例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。

    构造点估计常用的方法是:
      ①矩估计法。用样本矩估计总体矩,如用样本均值估计总体均值。
      ②最大似然估计法。于1912年由英国统计学家R.A.费希尔提出,用来求一个样本集的相关概率密度函数的参数。(在以后的文章中专门讨论)
      ③最小二乘法。主要用于线性统计模型中的参数估计问题。
      ④贝叶斯估计法。基于贝叶斯学派(见贝叶斯统计)的观点而提出的估计法。

    可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。

    区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。
    1934年统计学家 J.奈曼创立了一种严格的区间估计理论。求置信区间常用的三种方法:
      ①利用已知的抽样分布。
      ②利用区间估计与假设检验的联系。(请参考几种常见的参数估计)
      ③利用大样本理论。

    展开全文
  • 两种常见的点云配准方法ICP&NDT

    千次阅读 2020-05-15 18:30:00
    用数学的话描述就是最小化如下一个目标函数: 求解的方法有很多,这里只介绍SVD方法 目标函数简化 我们定义两组点集的中心为 注意到最后一项 从而原式可化简为 其中 , 该目标函数的最优解求解可以分为部分,先...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    作者:于凡

    https://zhuanlan.zhihu.com/p/96908474

    本文转载自知乎,作者已授权,未经许可请勿二次转载。

    迭代最近点算法ICP(Iterative Closest Point)

    问题描述

    假设我们有两组点集,注意这里的 P和Q 分别相对于变换前和变换后的相机参考系。我们要解决的问题是找一组 R 和 T ,使得$\mathbf{P}$中的每一个点经过变化后同 Q 中的最近点的误差之和最小。用数学的话描述就是最小化如下一个目标函数:  求解的方法有很多,这里只介绍SVD方法

    目标函数简化 

    我们定义两组点集的中心为 

      注意到最后一项

    从而原式可化简为

    其中 该目标函数的最优解求解可以分为两部分,先求第一项,再求第二项(实际上第二项最优解始终为0)

    即最小化目标函数等价于最大化

    SVD求解

    在上一步的基础上,有  

    引理1:对任意正定对称阵$AA^T$和任意正交阵$B$,有

     这个引理用Schwarz不等式很容易得到,不在这里证明了。我们的目的是什么呢?根据(1.5),我们的目的是要找一个R使得Tr(RH)最大。那由上面这个引理,我们很容易想到,如果RH是一个对称正定的形式,那对任何旋转矩阵R,显然迹只会不增。因此我们对H做SVD分解, ,那么 就是我们要找的R。因为

    是正定对称阵,则由引理1可知,对任意旋转矩阵(正交)B,都有

    即X是使得(1.5)式最大的R。

    迭代过程

    实际上刚才我们只完成了一次计算,而ICP的全称是Iterative Closest Point,即迭代最近点。我们来理解一下整个过程

    1.对P中的每个点,在Q中找到匹配的最近点。这里需要注意,并不是每次的点云都是一一匹配,点云的数量是一方面,另外可以预见的是,很容易出现多对一最近点匹配,当然,可以通过一些额外的限定在达到一对一匹配的效果。

    2.根据上述过程计算最优的R和T.

    3.利用得到的位姿作用于P,如果此时的误差大于阈值,则重新进行迭代,直到迭代次数达到阈值或者误差小于阈值。

    简单的理解,有点像梯度下降寻找极值点的过程,同样的,一个好的初值对加快ICP的收敛过程也十分重要。另外点对点的计算量十分大,复杂度为$O(mn)$,在一维的情况下,二分查找是常见的优化,对高维的情况,一个类似的过程是通过KD树来实现的。

    KD树优化匹配过程

    KD树原理

    KD树是每个节点均为K维数值的二叉树,其上的每个节点代表一个超平面,该超平面垂直于当前划分维度的坐标轴,并在该维度上将空间一分为二。其构建过程是循环选取数据点的各个维度来作为切分维度,将当前维度的中值作为划分点,递归处理各子树,直到所有数据点挂载完毕。

    KD树的一些优化

    切分维度选择的时候,一般优先选择方差大的维度开始切分。选择中值时,对数据量较大的维度,不一定严格取中值,可以随机采样一定的数据,并取采样的中值作为划分点,加快划分过程。

    一个例子

    以二维平面点(x,y)的集合(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)为例结合下图来说明k-d tree的构建过程。

    对应的是将一个二维平面逐步划分的过程

    KD树最近邻搜索过程

    我们构建KD树的目的是为了加快最近点搜索过程,那么KD树如何进行最近邻搜索呢?假设我们要搜索同(3,5)最近的点。1)从根节点(7,2)出发,将当前的最近邻设为(7,2),对KD树做深度优先遍历。以(3,5)为圆心,到(7,2 )的距离为半径画圆。对在圆外的点,如果位于左侧,则忽略左子树,位于右侧,则忽略右子树。下图忽略(8,1)的右子树。2)深度遍历子节点。以(5,4)为根节点,判断(5,4)比(7,2)更近,更换最近点,并重新剪枝。此时,(7,2)的右子树均被忽略。3)深度遍历子节点,直到遍历结束,返回最近点。

    完整伪代码如下图

    KD树构建的复杂度为O(log(m)),查找的复杂度为O(mlog(n)),所以利用KD查找最近邻的复杂度为O(mlog(n)),远小于O(mn)。

    正态分布变换NDT(Normal Distribution Transform)

    简介

    目前的配准方法,前提都是环境大部分是不变的,但是完全不变的环境其实也是很少的,比如一辆车飞驰而过,一个人走过等。我们更多应该考虑的是允许小部分差异的配准,这时候点对点匹配比如ICP就会出现一些问题,而NDT则可以很好地解决细微差。我们知道,如果随机变量满足正态分布,那么对应的概率密度函数(PDF)为

    对随机向量则有

    其中D表示维数, 表示协方差矩阵。简单来说,一维的数变成了高维的向量。

    目标函数

    与ICP不同,NDT假设点云服从正态分布,我们的目的是找一个姿态,使得当前扫描点位于参考扫描平面上的可能性最大。假设当前扫描得到的点云为 ,用空间转换函数 来表示使用姿态变换 来移动 。我们的目标是最大化似然函数: 

    等价于最小化负对数似然,这么做还有一个好处,加法对求导更友好

    基本步骤

    在上一部分中我们没有解释p函数,当然你可能会说不就是概率密度函数吗?是,但是我们并没有先验的概率密度函数,怎么得到的。这里唯一可以利用的即使参考点云,我们将参考点云网格化,然后计算每个网格的多维正态分布参数。用 表示一个网格内的所有扫描点,则

    均值:

    协方差矩阵:

    概率密度函数:

    实际上这里f不是正态分布也可以 下一步就是如何求解

    对目标函数进行数学上的简化

    如下图所示,直接取负对数会出现无穷大的点,这样偶然扫到的一些异常点可能会对本来表现很好的结果产生很大的影响导致被舍弃,为了避免这种情况,在原函数的基础上做了一些限制。

    这时候我们的目标函数中的单项就变成 

    我们之前也提到了,加法对求导比较友好,但是log函数对求导不友好,而在求解优化问题的时候,经常会利用到一阶二阶导数(比如梯度下降,牛顿法),所以我们想办法对上述函数做一个近似,如果你对函数图像有一定的敏感性的化,很容易发现上面这两个绿色的函数好像还挺像?也就是说我们可以利用高斯函数来拟合负对数

    利用x=0, 解得近似参数为

    这样,我们可以得到不同项对NDT结果的贡献(偏移项是一致的,可暂时忽略),注意这里多了一个负号,我的理解应该是为了之后求导时前面的负号正好可以消掉

    原目标函数变成

    牛顿法求解

    这公式实在长,直接截图了,牛顿法的关键就是通过梯度矩阵g和海森矩阵H求解步长

    这里对上面的结果求导可得

    举一个简单的二维的例子来说明上面的$x_k$对$p_i$的求导过程

    最后结合流程图梳理一下NDT的流程

    1)划分网格

    2)计算各网格的PDF

    3)对每个点云数据,找到对应的网格点,并根据PDF和评分函数计算结果

    4)根据结果更新g和H,计算新的步长

    5)判断是否收敛或达到迭代次数,是则跳出,否则继续步骤3-5

    对NDT实验结果的一些优化

    1.cell size. 太大了容易导致损失一些局部特征,太小了则会增加很多计算量,太小会导致失去统计普适性,部分数据对结果影响过大。另外,作者直接舍弃掉少于五个数据的网格(因为会造成协方差矩阵不可逆)。

    2.Fixed discretization。固定大小是最常见的划分方式,操作简单,而且容易找到每个点对应的网格。缺点的话见底下几种方法

    3.Octree discretization。如何快速找到每个点对应的网格是搜索速度的关键,八叉树结构是常见的三维搜索树。

    4.Iterative discretization。好的初始位置可以加快收敛过程,一个常见的方法就是起始位置迭代,将上一次的终点位姿作为本次的起点位姿

    5.Adaptive clustering。非固定大小网格划分的一种方法,采用K均值聚类(其他聚类方式类似)划分,更能表现出每个局部数据的特征。

    6.Linked cells。上面提到数据少于五的网格会被舍弃,导致会出现一些空网格,损失了一些完整性,一个改进措施是将这些空网格用指针连接到最近的非空网格上,以该处的PDF代替,由于处于边缘,值还是很小,但是保证了数据的完整性。

    7.Trilinear interpolation。插值的逻辑就是固定划分实际上会出现边缘不连续的情况,插值法相当于做了一个平滑,计算的时候考虑所有含该数据点的网格取最优值,计算量大约是原来的4倍,但效果也有较大的改善。示意图如下

    其他一些配准方法

    1.Iterative dual correspondences (IDC) algorithm。ICP的一种改进,主要是采用极坐标代替笛卡尔坐标系进行最近点搜索

    2.Probabilistic iterative correspondence (PIC) method。这个方法考虑了噪声和初始位姿的不确定性

    3.Gaussian fields。采用高斯混合模型,类似NDT

    4.Conditional random fields (CRFs) 。条件随机场,还没细看

    5.Branch-and-bound strategy 。分支定界法,没看。

    6.Registration using local geometric features。结合图像的局部特征进行匹配

    7.除此之外最近还有一些结合深度学习的方法,比如百度无人车团队2019CVPR的工作:L3-Net: Towards Learning based LiDAR Localization for Autonomous Driving。输入包括实时激光点云,地图和IMU数据,输出位姿结果。

    推荐阅读:

    吐血整理|3D视觉系统化学习路线

    那些精贵的3D视觉系统学习资源总结(附书籍、网址与视频教程)

    超全的3D视觉数据集汇总

    大盘点|6D姿态估计算法汇总(上)

    大盘点|6D姿态估计算法汇总(下)

    机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

    汇总|3D点云目标检测算法

    汇总|3D人脸重建算法

    那些年,我们一起刷过的计算机视觉比赛

    总结|深度学习实现缺陷检测

    深度学习在3-D环境重建中的应用

    汇总|医学图像分析领域论文

    大盘点|OCR算法汇总

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会(ICRA/IROS/ROBIO/CVPR/ICCV/ECCV等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    展开全文
  • 种常见的离群检验方法

    万次阅读 2019-04-19 10:50:18
    在一组平行测定中,若有个别数据与平均值差别较大...1 离群值检验方法简介 设有一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大...

    在一组平行测定中,若有个别数据与平均值差别较大,则把此数据视为可疑值,也称离群值。 如果统计学上认为应该舍弃的数据留用了,势必会影响其平均值的可靠性。相反,本应该留用的数 据被舍弃,虽然精密度提高,但却夸大了平均值的可靠性。

    1 离群值检验方法简介

    设有一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大都是建立在被检测的总体服从正态分布。基于此,在给定的检出水平或显著水平α (通常取值为0.05和0.01)和样本容量n条件下,可查表获得临界值,再通过计算统计量后与临界值比较,若统计量大于临界值就判为异常。临界值表通常给出的是置信度P,对双侧检验而言,P = 1 - α/2;对单侧检验而言,P = 1 - α

    1.1 标准偏差已知情况

    采用奈尔检验法(样本容量3 ≤ n ≤ 100),根据下式计算统计量Rn

    1.2 标准偏差未知情况(离群值数量为1时)

    更多情况下,数据的标准偏差是未知的,此时可采用的检验离群值的方法较多,本文仅给出较为常用的几种方法。

    1.2.1 拉依达法

     

    其中s表示标准偏差。当所要检测的离群值满足上述条件时,判定为异常值,否则未发现异常值。

    1.2.2 4d检验法

     

    其中x¯和d¯分别表示去掉离群值后其余数据的平均值和平均偏差。当所要检测的离群值满足上述条件时,判定为异常值,否则未发现异常值。

    1.2.3 肖维勒(Chauvenet)法

     

    按上式计算出统计量ωn,根据测定次数n查肖维勒系数表值ω(n)。当ωn > ω(n),判定为异常值,否则未发现异常值。

    1.2.4 t检验法

    其中s和x¯都是由不包括离群值的n - 1个数据计算所得。查t检验的临界值表值kP(n),当kn > kP(n),判定为异常值,否则未发现异常值。

    1.2.5 格鲁布斯(Grubbs)检验法

     

    查格鲁布斯检验的临界值表值GP(n),当Gn > GP(n),判定为异常值,否则未发现异常值。

    1.2.6 狄克逊(Dixon)检验法(样本容量3 ≤ n ≤ 30)

    此法由Dixon [8]在1950年提出,它的原理是通过离群值与临近值的差值与极差的比值(ratios of ranges and subranges)这一统计量rij来判断是否存在异常值。由于样本容量大小的不同会影响检验法的准确度,因此根据样本容量的不同,统计量的计算公式不同,具体见表1

    判断离群值是最大值还是最小值,再根据样本容量n代入对应的统计量计算公式,求出统计值rij (或rij')。确定检出水平α,查狄克逊检验的临界值表值DP(n)。当rij (或rij') > DP(n),判定为异常值,否则未发现异常值。

    1.2.7 Q检验法

    Dixon在提出了1.2.6的检验方法之后,于1951年与Dean合作提出了一种针对样本容量较小(n < 10)的简化的离群值检验方法[9],即为著名的Q检验法(Dixon’s Q test)。此法为国内外分析化学教材普遍长期采用。统计量Q值的计算极为简单,即用可疑值与其最邻近值之差(xn - xn-1)或(x2 - x1),除以极差(xn - x1):

    根据测定的次数和给定的置信度查临界值表值QP(n),若Q1 (或Qn) > QP(n)则为异常值,否则未发现异常值。由此可见,Q检验法类似r10时的狄克逊检验法。

    1.3 标准偏差未知情况(离群值数量大于1时)

    1.3.1 偏度-峰度检验法

    偏度检验法适用于离群值出现在单侧的情形。

    式中样本从小到大排列后的第i个数据称之为xi

    确定检出水平α,查偏度检验的临界值表值bP(n),当bs > bP(n),判定为异常值,否则未发现异常值。当存在有多个离群值时,先选择最内侧的离群值进行检验。例如,当存在有两个上侧离群值xnxn-1,暂时去除xn,测量次数减1,检验xn-1是否为异常值。若不为异常值,测量次数为n,再检测xn是否为异常值。若xn-1为异常值,xn自然也就舍弃了。

    峰度检验法适用于双侧情形。

     

     

    确定检出水平α,查峰度检验的临界值表值bp'(n)。当bk > bp'(n),判定离均值x¯x¯最远的值为异常值,去除异常值后,重复峰度检验法检验是否仍然存在异常值,否则未发现异常值。

    1.3.2 狄克逊(Dixon)检验法

    原理见1.2.6,离群值在同一侧时,同偏度检验法的原理。离群值在不同侧时,先检验偏离更远的离群值。例如,存在两个位于不同侧的离群值时,计算两个离群值的rij (或rij'),先检验rij (或rij')数值较大的离群值,若未判定为异常值,那么另一离群值也自然被保留。若判定为异常值,测定次数相应减1,检验rij(或rij')更小的离群值。

    1.3.3 格鲁布斯(Grubbs)检验法

    原理见1.2.5,离群值在同一侧时,同偏度检验法的原理。离群值在不同侧时,先检验Gn较大的离群值。例如,存在两个位于不同侧的离群值时,检验Gn较大的离群值,若未判定为异常值,另一离群值也自然被保留。若判定为异常值,测定次数相应减1,检验Gn更小的离群值。

    1.4 方法对比

    为了比较上述列举的几种方法的差别,以便更好地说明各种方法的优缺点,我们将上述列举的几种方法从是否考虑了平均值、标准偏差、平均偏差、极差、测定次数、置信度这几个方面进行了比较(表2)。

    根据正态分布规律,偏差超过3σ的概率小于0.3%,当测定次数不多时,这样的数据可认为异常而舍去。对于实际工作中样本的有限次测量,由于无法得到总体标准偏差σ,因此拉依达法用s代替σ;而统计学证明d¯d¯,即4d¯d¯≈8σ,此为4d法的依据。两种方法都进行了一定的近似处理,且依据的关系式在测定次数大于20时才能够比较好的成立,用来判断样本容量不大的可疑值取舍时存在较大误差。由于方法简单,不需要查表,因此它们在某些场合仍有所应用。另外,拉依达法相对4d法有更高的灵敏度,因为相较于平均偏差,标准偏差能够更灵敏地反映出较大偏差数据的存在,但是也有可能造成前者对于非异常极值的错误舍弃。

    对于肖维勒法、t检验法和格鲁布斯法,其统计量的计算公式形式相同,但是肖维勒法的根据是将出现概率小于1/2n的数据点判定为异常值,故样本容量对置信区间的选择有一定的限制,而另外两种方法中的置信度都可以自由选择和查表。相对于肖维勒法和格鲁布斯法中采用所有数据进行计算x¯x¯和s,在t检验法中计算x¯x¯和s时要除去离群值。除去离群值的做法可以提高s的正确性和独立性,从而提高方法的精确度和灵敏度,但是也有可能造成s偏小而剔除非异常极值。

    表2最后两种方法中Q检验法可认为是狄克逊检验法在样本容量n < 10时的简化处理。狄克逊检验法的处理则较为繁琐,不仅统计量的计算公式因样本容量的大小而异,且对单侧和双侧检验,其临界值表也各不相同。

    2 数据误判讨论

    在实际处理过程中,误判问题是不可避免的,我们只能通过选择恰当的方法尽量降低误判发生的几率。误判问题存在有两种,一种为以假当真,一种以真当假。以假为真是将异常值错误地保留下来,以假当真的例子:Q检验法的判断公式受离群值的影响较大,可能将异常值判断成非异常值。另外,离群值的数量超过1时,会使得计算的标准偏差、平均值都受到影响,可能将离群值判定为非异常值。以真为假是将非异常值错误地剔除,以真当假的例子:在t检验法中处理数据时,预先“剔除”了被检验的离群值,这可能导致计算出来的标准偏差较小,从而使得一些位于界限处的离群值被错误地判断为异常值。为了更好说明以上内容,笔者将对以下三个实例进行分析。

    例1

    不同的离群值检验方法可能会有不同的结果,我们通过一个实例来分析一下几种方法之间的差异。选用了三种方法,分别是格鲁布斯法、狄克逊法、拉依达法,选用这三种方法比较的原因是格鲁布斯法和狄克逊法是检验离群值数量等于1时较优的方法,拉依达法具有计算操作简便的优势。

    我们从文献[10]中选取了一个例子,对某种砖的抗压测试10个试样,其数据经排列后为(单位为MPa):4.7,5.4,6.0,6.5,7.3,7.7,8.2,9.0,10.1,14.0。检验是否存在上侧异常值。

    已经检验出该数据服从正态分布。

    题解

    样品量n = 10,平均值x¯x¯= 7.9,标准差s = 2.7。

    方法一(格鲁布斯法):

    确定检出水平α = 0.05,查表得到G0.95(10) = 2.176,因为G10 > G0.95(10),所以判定14.0为上侧的异常值。

    方法二(狄克逊法):

     

    确定检出水平α = 0.05,查表得到D0.95(10) = 0.477,因为r11 < D0.95(10),所以不能判定14.0为上侧的异常值。

    方法三(拉依达法)

    因为|x10−x¯|=|14.0−7.9|=6.1<3s=3×2.7=8.1|x10−x¯|=|14.0−7.9|=6.1<3s=3×2.7=8.1,所以不能判定14.0为上侧的异常值。

    三种方法检验离群值时,只有格鲁布斯法判定14.0为上侧的异常值,狄克逊法和拉依达法不能判定14.0为异常值。但是格鲁布斯法保留的数据范围窄,这一个例子并不能说明使用格鲁布斯法一定比狄克逊法或者拉依达法更为准确。存在不一样结果的原因可以从这三方面考虑:第一,格鲁布斯法和狄克逊法都根据样本容量和检出水平来确定置信区间,这种考虑应是更为严谨的做法;第二,狄克逊法通过极差比来判断是否存在异常值,当数据本身较为分散,极差比反映离群值的灵敏度就可能会下降,可能存在以假当真的情况;第三,所给的样本容量较小,在使用拉依达法判定离群值时,无法发现混在样品中的异常值。

    例2

    我们通过这个例子想要说明Q检验法存在以假为真的误判问题,其中以格鲁布斯法作为参考标准。

    某工厂对原料进行例行检验,10次重复测量,将得到的数据按从小到大的顺序排列,91,96,99,101,104,108,111,114,119,138。检验是否存在上侧异常值。

    已经检验出该数据服从正态分布。

    题解

    样品量n = 10,平均值x¯x¯= 108,标准差s = 13.5。

    方法一(格鲁布斯法):

     

    确定检出水平α = 0.05,查表得到G0.95(10) = 2.176,因为G10 > G0.95(10),所以判定138为上侧的异常值。

    方法二(Q检验法):

     

    确定检出水平α = 0.05,查表得到Q0.95(10) = 0.466,因为Q10 < Q0.95(10),所以不能判定138为异常值。

    因为Q检验法容易受极端值的影响,当数据中存在极端值时,使得Q检验法对于异常值的判断灵敏性不够,所以发生以假为真的误判问题。

    例3

    我们通过这个例子想要说明t检验法存在以真为假的误判问题,其中以格鲁布斯法作为参考标准。

    实验室一次对同一物质同一特性的重复观测14次,得到的观测值排列后为-0.44,-0.30,-0.24,-0.22,-0.13,-0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。检验是否存在上侧异常值。

    已经检验出该数据服从正态分布。

    题解

    方法一(格鲁布斯法):

    样本容量n = 14,平均值x¯x¯= 0.12,标准差s = 0.40。

    确定检出水平α = 0.05,查表得到G0.95(14) = 2.371,因为G(14) < G0.95(14),所以不能判定1.01为上侧的异常值。

    方法二(t检验法):

    样本容量n = 14,平均值x′¯ = 0.051,s' = 0.32,

    确定检出水平α = 0.05,查表得到k0.95(14) = 2.160,因为k(14) > k0.95(14),所以判定1.01为上侧的异常值。

    因为t检验法预先剔除了离群值进行计算标准偏差,使得所得标准偏差偏小,从而处理临界的极值被误判成异常值。所以发生了以真为假的误判问题。

    采用恰当的方法以及多种判别法同时使用可以在一定程度上降低误判发生的几率,但是当多种判别法得出的结果不一样时,我们应该如何取舍呢?以笔者的观点,采用不同方法的目的就是判断数据是否为异常值。那么在多种方法都适用,或者说多种方法的准确度相当的情况下,判断结果是与之后处理方法相对应,也就是跟实际情况相联系。这种情况下方法的选择和后续处理方法的考虑因素是相统一的。

    3 离群值处理方法讨论

    Andersen [11]在一篇关于分析质量保证的论文中对离群值的处理提出了自己的看法。他以不同标准实验室对某标准值进行测定导致不确定度增大引出“在统计学中大量数据必定趋向真值,而在实验中高度重复的数据却不一定趋向真值”的观点,从而说明用统计学方法舍弃离群值是不合理的。舍弃离群值的做法不仅会改变均值和不确定度,还会降低实验的可重复度。而邓勃[12]教授对于离群值的处理主张“技术异常造成的异常值舍弃,无法找出技术异常的高度离群值亦要舍弃”“离群值在标准物质误差范围内或仪器精度范围内都不应舍弃”“以估计总体参数为目的时一般需舍弃离群值”。对于不同的观点进行了解和分析后,笔者也在下面给出一点个人的看法。

    在各教材以及国标中介绍的离群值判定法都是基于正态分布而构建的模型,但是事实上除去正态分布,还有重尾分布、偏态分布等类型。虽然这些分布类型在化学分析中出现得较少,但是盲目运用基于正态分布的方法对数据进行判定并舍弃离群值,在某种程度上会增大误判的风险。在对数据分布情况进行分析之后,若是非正态分布,离群值的保留就显得尤为重要。

    即使是确定了数据符合正态分布,也并不意味着可以直接舍弃离群值。为此,国标[13]对于已经判定为异常值的数据给出了三种不同的处理方法。

    在上文中我们提到对于离群值判定需要从实际需要出发,对于离群值的处理也应该遵循这种原则。对于科研中出现的离群值,很可能代表着一些未知的因素。在这种情况下,对于离群值的保留和深入分析就有可能带来新的发现。在制药行业中,由于药品关系到人的生命安全,对于检测中的离群值的舍弃可能造成安全隐患。而在工业生产中对于原料的指标要求较为宽松,除去离群值可以对整体情况做出较好的估计,即使是有少量异常原料也不会造成严重后果。

    还有一点值得注意的是,虽然均值和标准偏差可以很灵敏地反映出样品的变化,但是这种高灵敏度同时也具有缺点,就是导致检验方法很容易受极端值的影响从而产生误判的问题,即均值和标准偏差所具有的耐抗性低的缺点。故对于例行检验,笔者更加偏向邓勃[12]教授“以估计总体参数为目的时一般需舍弃离群值”的观点。而Andersen [11]在文中提及的不同标准实验室对同一标准物质进行测定所得结果偏差较大,笔者认为与各实验室之间的实验条件差异有关。虽然实验室强调控制变量,标准实验室尤甚,但是无关变量种类繁多,在不同时间地点进行测定,误差是很难避免的。在这种情况下,若仍然保留离群值进行分析,对于标准值的估计就可能出现一定的偏差。

    4 总结与讨论

    当离群值数量仅为1时,格鲁布斯法综合犯错的可能性最低,国际标准化组织(International Standards Organization)和美国材料试验协会(The American Society for Testing and Materials)均推荐适用格鲁布斯法[7]。在国标[13]中,离群值的个数为1时,选用的方法是格鲁布斯法和狄克逊法。当限定检出离群值的个数大于1时,格鲁布斯法检验的结果不是最优的,一般采用偏度-峰度检验法或者狄克逊检验法。但是偏度-峰度检验法由于计算工作量大,进行异常值的连续检验的时候还有可能发生“判多为少”或“判有为无”错误的可能,并未能广泛应用。

    文中列举了一些离群值的判定和处理方法,针对其的分析仅为笔者个人作出的概括性观点,可能与实际情况有一定偏差。另外需要说明的是,本文所介绍的各种方法都是基于正态分布的假设,当碰到不符合正态分布的样本时,使用上述方法的误差较大,对此情况许多统计软件采用箱线图法对离群值进行判断。但是由于箱线图是基于经验所形成的方法,且不同软件对于四分点和上下限的定义有本质上的区别,所以没有被列为一种标准方法[14]。

    采用恰当的方法以及多种判别法同时使用可以在一定程度上降低误判发生的几率,但是不同方法的原理和侧重点不同,难免会出现不同判别法所得结果不一样的情况。此时,应从实际需求出发以得到最优的结论。对于离群值的处理并非只有舍弃,而是需要对其产生的原因进行分析后再结合实际进行处理。

    来自文献:

    展开全文
  • http://blog.csdn.net/pipisorry/article/details/51482120文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。参数估计参数估计中,我们会遇到个主要问题:(1)如何去估计参数的...

    http://blog.csdn.net/pipisorry/article/details/51482120

    文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

    参数估计

    参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)估计出参数的value之后,如何去计算新的observation的概率,即进行回归分析和预测。
    首先定义一些符号:

    图片1


    数据集X中的所有Xi,他们是独立同分布的,因此后面求X 的概率的时候,xi可以相乘。

    贝叶斯公式


    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

    [概率图模型:贝叶斯网络与朴素贝叶斯网络]


    最大似然估计MLE

    [参数估计:最大似然估计MLE ]



    最大后验估计MAP

    最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,不是在整个后验概率上积分,而是搜索该分布的最大值,即



    Note: 这里P(X)与参数无关,因此等价于要使分子最大。

    通过加上这个先验分布项,我们可以编码额外的信息,并且可以避免参数的过拟合问题。

        与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即我们认为,theta也是服从一个先验分布的:alpha是他的超参数

    同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。


    给定观测到的样本数据,一个新的值发生的概率是

      

    Note: 这里积分第一项与theta无关(使用的是MAP值),所以第二项积分为1(也就是后验概率不随新来的数据变化,为1?)。

    扔硬币的伯努利实验示例

        我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布(lz:实际上选择beta分布的原因是beta分布和二项分布是共轭分布)即


    其中Beta函数展开是


    当x为正整数时

    \Gamma(n) = (n-1)!\,

    Beta分布的随机变量范围是[0,1],所以可以生成normalized probability values。下图给出了不同参数情况下的Beta分布的概率密度函数


    我们取,这样先验分布在0.5处取得最大值(观察上面的图,因为我们先验认为p约等于0.5,因此超参数a和b是相等的,我们这里选择等于5)。

    现在我们来求解MAP估计函数的极值点,同样对p求导数,得到参数p的的最大后验估计值为

    后面两项是对log(p(p|alpha,beta))的求导


    和最大似然估计ML的结果对比可以发现结果中多了,我们称这两者为pseudo count伪计数,这两项的作用是使总概率p向0.5拉近,因为我们的先验认为就是约等于0.5的。这样的pseudo-counts就是先验在起作用,并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

    如果我们做20次实验,出现正面12次,反面8次,那么,根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

    [主题模型TopicModel:LDA中的数学模型]

    MAP估计*

    MAP参数的敏感性以及后验概率形式的不敏感性

    MAP表示独立性

    [PGM原理与技术]

    最大后验查询的一个示例


    皮皮blog



    贝叶斯思想和贝叶斯参数估计

    [ 贝叶斯思想和贝叶斯参数估计 ]



    MLE,MAP和贝叶斯估计对参数估计的比较

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下

    lz:从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确(由易到难,估计的value也越来越perfect),得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

    Why the MLE doesn’t work well?

    While MLE is guaranteed to maximizes the probability of an observed data, we areactually interested in finding estimators that perform well on new data. A serious problemarises from this perspective because the MLE assigns a zero probability to elements thathave not been observed in the corpus. This means it will assign a zero probability to anysequence containing a previously unseen element.

    from: http://blog.csdn.net/pipisorry/article/details/51482120

    ref: Gregor Heinrich: Parameter estimation for text analysis*

    参数估计(极大似然估计,极大后验概率估计,贝叶斯估计)*

    文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

    文本分析中的参数估计,以LDA为例,英文版:Heinrich-GibbsLDA.pdf

    Reading Note : Parameter estimation for text analysis 暨LDA学习小结

    统计学(四):几种常见的参数估计方法


    展开全文
  • OFDM完整仿真过程及解释(MATLAB)

    万次阅读 多人点赞 2019-04-19 17:03:45
    保护间隔有两种插入方法:一种是补零(zp),即在保护间隔中填充0;另一种是插入循环前缀(cp)或循环后缀(cs)实现OFDM的循环扩展(为了某种连续性)。 zp是在保护间隔内不插入任何信号,但是在这种情况下,由于...
  • 种常见的参数估计

    千次阅读 2015-04-29 09:29:15
    参数估计有点估计(point estimation)和区间估计(interval estimation)两种点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。...
  • 图像分割综述

    万次阅读 多人点赞 2019-07-09 22:03:48
    基于区域的分割方法是以直接寻找区域为基础的分割技术,基于区域提取方法两种基本形式:一种是区域生长,从单个像素出发,逐步合并以形成所需要的分割区域;另一种是从全局出发,逐步切割至所需的分割区域。 ...
  • 参数估计方法——OLS、MLE、MAP

    千次阅读 2019-07-31 15:17:22
    文章目录1、前言2、最大似然估计法 MLE3、最大后验估计 MAP4、贝叶斯估计5、其他的参数估计方法 1、前言 我们讨论的是有参的情况,在这种情况中,我们的目标是估计参数值(假设有可能确定真是参数),而不是函数值。...
  • 什么是MIMO-OFDM技术

    千次阅读 2019-04-08 12:55:47
    什么是MIMO-OFDM技术 摘要 第四代移动通信提供高的数据传输速率,而MIMO和OFDM提高了频谱效率,...文中详细介绍了这两种技术及信道估计。 图1. 采用MIMO-OFDM技术的新标准。 一、引言 目前没有第四代移动通信的确切...
  • 单目深度估计方法:现状与前瞻

    千次阅读 2020-07-15 23:45:00
    今天为大家推荐的是《中国图象图形学报》2019年第12期论文《单目深度估计技术进展综述》,该文由中国图象图形学学会成像探测与感知专委会组织,北京理工大学刘越教授等学者撰写,对国内外200...
  • 主成分分析和因子分析的介绍、区别和联系

    万次阅读 多人点赞 2019-07-14 00:46:00
    方法的推导我也还有一些没有完全理解,因此中间有些理解可能有误,请大家批评指正 主成分分析 主成分分析:将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维...
  • Qt创建多线程的两种方法

    万次阅读 多人点赞 2017-12-25 15:33:54
    Qt有两种多线程的方法,其中一种是继承QThread的run函数,另外一种是把一个继承于QObject的类转移到一个Thread里。 Qt4.8之前都是使用继承QThread的run这种方法,但是Qt4.8之后,Qt官方建议使用第二种方法两种方法...
  • 机器学习中的参数估计方法

    千次阅读 2018-08-24 13:31:31
    对于参数估计,统计学界的个学派分别提供了不同的解决方案: 频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值 贝叶斯学派(Beyesian)则...
  • 多元线性回归分析理论详解及SPSS结果分析

    万次阅读 多人点赞 2017-05-17 16:23:23
    常见两种办法: (1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。 (2)如果要在模型中保留所有的自变量,那么应该: (2.1)避免根据 t t 统计量对单个参数 β \beta 进行检验...
  • 参数估计点估计(矩估计,最大似然估计) 详解含推导 1.何为点估计 在了解点估计之前,我们先介绍一下估计量与估计值的概念 1.1估计量与估计值 参数估计 就是用样本统计量去估计总体的参数,如用样本均值 x⃗\vec xx ...
  • 防止过拟合的几种常见方法

    万次阅读 2018-08-14 17:13:18
    防止过拟合的处理方法 何时会发生过拟合?    我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即...
  • parzen窗方法和k近邻方法估计概率密度

    万次阅读 多人点赞 2017-04-06 22:41:53
    机器学习实验四,详情请参考《模式分类》第二版第四章课后上机练习4.3、4.4节实验环境:Matlab2016aParzen窗估计方法:已知测试样本数据x1,x2,…,xn,在不利用有关数据分布的先验知识,对数据分布不附加任何假定的...
  • 蒙特卡洛梯度估计方法(MCGE)简述

    千次阅读 2019-09-09 12:17:15
    动机机器学习中最常见的优化算法是基于梯度的优化方法,当目标函数是一个类似如下结构的随机函数 F(θ) 时:优化该类目标函数,最核心的计算问题是对随机函数 F(θ) 的梯度...
  • Q函数也就是经常用到的价值函数,用来估计一个(s,a)状态动作对的价值,而策略函数则是根据状态来输出动作或者动作的概率。 两者的区别就是,Q函数输入状态和动作,输出价值。策略函数就是输入状态,输出动作...
  • 损失函数

    千次阅读 2018-04-28 20:08:37
    一般有有两种常见的算法——均值平方差(MSE)和交叉熵。下面来分别介绍每个算法的具体内容。1 均值平方差均值平方差(Mean Squared Error,MSE),也称“均方误差”,在神经网络中主要是表达预测值和真实值之间的...
  • 信道估计算法

    万次阅读 2016-11-10 16:59:40
    信道估计算法目前我所涉及的是短波宽带无线信道下的接收端的处理,包括捕获、同步、信道估计及信道均衡,还有译码。百度百科里是这样解释这种信道的:短波通信发射电波要经电离层的反射才能到达接收设备,通信距离较...
  • 参数估计的计算方法

    千次阅读 2020-05-27 19:21:58
    参数估计的计算方法极大后验(MAP)及拉普拉斯逼近基于马尔可夫链的蒙特卡洛参数推断(MCMC)期望极大化(EM) (参数估计所有内容) 极大后验(MAP)及拉普拉斯逼近 极大后验估计: MAP是通过确定后验分布的极大值得到的,...
  • 经典功率谱估计及其实现

    万次阅读 多人点赞 2019-01-04 22:32:17
    二、经典功率谱估计方法 经典功率谱估计采用的是传统傅里叶变换分析方法(又称线性谱估计),主要分为自相关法(间接法)和周期图法(直接法)两种。自相关法在1985年提出,先估计自相关函数,再计算功率谱。周期...
  • 11种常见的多变量分析方法

    万次阅读 多人点赞 2018-10-09 09:31:06
    在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA)、主成分分析(Principal component analysis)、因子分析(Factor analysis)、典型相关(Canonical ...
  • 1 现状 从立体图像中估计深度信息对于计算机视觉的应用至关...本文主要对基于深度学习的双目匹配与视差估计方法进行调研。 2 方法 对于一对矫正过的立体图像,深度信息估计的目标就是计算参考图像上每一个像素...
  • 白话空间统计二十四:地理加权回归(三)

    万次阅读 多人点赞 2017-03-12 18:49:16
    如果说,空间统计有别于经典统计学的大特征:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归,就可以用来量化空间异质性。 在对全局回归问题的改进中,局部回归可以说是最简单的...
  • 决策树与随机森林初探

    万次阅读 2018-08-19 13:11:04
    1、特征选择的几方式 2、过拟合处理——剪枝 3、随机深林 4、Bagging 5、Boosting(GBDT、XGBoost) 决策树的优势力与劣势 1、特征选择的几方式 决策树的最关键的问题,如何选择划分属性的顺序才能使得...
  • 2D人体姿态估计综述

    千次阅读 2018-11-19 21:03:12
    本文主要介绍2D人体姿态估计的基本概念和相关算法,其中算法部分着重介绍基于深度学习的人体姿态估计算法的个方向,即自上而下(Top-Down)的检测方法和自下而上(Bottom-Up)的检测方法。 前言:人体骨骼关键...
  • 灰色预测法是一对含有不确定因素的系统进行预测的方法,对在一定范围内变化的、与时间有关的灰色过程进行预测。 灰色预测的四种常见类型: 1)灰色时间序列预测 2)畸变预测 3)系统预测 4)拓扑预测 二. 灰色...
  • 第一种方法:摘要Qt多线程方法1 继承QThread1写一个继承于QThread的线程2 QThread的几个函数quitexitterminate函数3 正确的终止一个线程4 如何正确启动一个线程41正确的启动一个全局线程和UI一直存在的线程42 如何...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 95,234
精华内容 38,093
关键字:

常见的两种点估计方法