精华内容
下载资源
问答
  • 最近几天博主需要做一些计算生物学分析,重新温习了一遍统计学的知识。由于博主此次使用的是非参数检验,将重点介绍非参数检验相关内容,仍然是深入浅出的风格,先放一些概念,再...Q1:参数检验和非参数检验的联系...

           最近几天博主需要做一些计算生物学分析,重新温习了一遍统计学的知识。由于博主此次使用的是非参数检验,将重点介绍非参数检验相关内容,仍然是深入浅出的风格,先放一些概念,再总结实际使用的技巧。写在这里,供大家参考学习。

           为了方便描述公式和定义,部分内容摘自网络,鉴于是公开的知识,只是以某种形式呈现,将不再注明出处,如有侵权,请私信或留言!

    Q1:参数检验和非参数检验的联系和区别?

           参数检验(parameter test)全称参数假设检验,是指对参数平均值方差进行的统计检验。先由测得的样本数据计算检验统计量,若计算的统计量值落入约定显著性水平a 时的拒绝域内,说明被检参数之间在所约定的显著性水平a 下在统计上有显著性差异;反之, 若计算的统计量值落入约定显著性水平a 时的接受域内,说明被检参数之间在统计上没有显著性差异,是同一总体的参数估计值。

           非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数检验。

           在实际使用中,对于已知总体分布情况的数据(如身高),可以使用参数检验。对于不知道总体分布情况的数据,可以使用非参数检验(如某时间的发生数,也称为计数数据),可以使用非参数检验。

           值得注意的是:在某些情况下,我们不清楚一组数据的总体是否符合某种分布,可能会用SPSS的正态性检验借助已有样本对总体进行判断。这种检验方法见:https://blog.csdn.net/tuanzide5233/article/details/83212032。博主也曾对要分析的数据进行正态性检验,然而,第一次使用第一批A组的数据进行检验得到单峰正态分布,P值有意义;第二次使用第二批A组的数据进行检验得到双峰正态分布,P值有意义。可是双峰正态分布不能使用T检验,而应该使用非参数检验。因此博主认为,在选择检验方法时,如不能肯定总体分布情况,则应该优先考虑非参数检验,尤其是对于计数数据而言!

    Q2:什么是匹配样本和独立样本?

           匹配样本(matched sample)是指一个样本中的数据与另一个样本中的数据相对应。比如,先指定12个工人用第一种方法组装产品,然后再让这12个工人用第二种方法组装产品,这样得到的两种方法组装产品的数据就是匹配数据。匹配样本可以消除由于样本指定的不公平造成的两种方法组装时间上的差异。

           独立样本(independent sample)是指如果两个样本是从两个总体中独立抽取的, 即一个样本中的元素与另一个样本中的元素相互独立的样本。

           在实际使用中,如果两组数据的来源可以映射到同一个体或同一群体,则为匹配样本,如学生A1,A2,A3…在第一次和第二次考试中的成绩。如果来自两个群体,或者想判断是否来自两个群体(即采用假设检验),应当做独立样本。在SPSS中,匹配样本被称为相关样本。

    Q3:什么是两样本和K样本?

           在实际使用SPSS中,会遇到两样本与K样本的选择。

           由于人们可能会把数据的数量等同于样本的数量,即2个独立样本是说,每组有两个数据,K个独立样本是说,每组有K(大于2)个数据。其实这是不正确的。两样本与K样本不是说数据的数量,而是说分组的数量。两样本是说分为了两组,如cancer组和normal组,每组包括任意多个数据。K样本是说分成了K组,如A组B组C组,每组包含任意多个数据。

           之所以需要鉴别,是因为2样本涉及到二项分布问题。即非此即彼,如性别。而K样本在计算时会将用于分组的数字进行运算,如我们使用1表示男,2表示女,如果把这种2样本当做K=2的K样本分析,数据描述则会出现对1和2进行运算的结果,这显然不是我们想要的。

    Q4:如何区分SPSS中常见的非参数检验方法:Mann-Whitney U检验、Wilcoxon检验和kruskal wallis检验?

           首先来看定义和计算方法。

           Mann-Whitney U检验:-惠特尼U检验(Mann-Whitney U test),又称曼-惠特尼秩和检验,可以看作是对两均值之差的参数检验方式的T检验或相应的大样本正态检验的代用品。由于曼-惠特尼秩和检验明确地考虑了每一个样本中各测定值所排的秩,它比符号检验法使用了更多的信息。

           Wilcoxon检验:Wilcoxon符号秩检验中,它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。它适用于T检验中的成对比较,但并不要求成对数据之差di服从正态分布,只要求对称分布即可。检验成对观测数据之差是否来自均值0的总体(产生数据的总体是否具有相同的均值)。

           kruskal wallis检验:克鲁斯卡尔-沃利斯检验是一种秩检验,是威尔科克逊检验的推广, 用于多个连续型独立样本的比较。方差分析(ANOVA)程序关注的是,几个总体的均值是否相等。数据是间隔测量尺度或比率测量尺度的数据。另外还要假定这些总体服从正态概率分布,并且有相等的标准差。如果数据是顺序测量尺度的和()总体不服从正态分布会怎样呢?W.H.克鲁斯卡尔(Kruskal)W.A.沃利斯(Wallis)1952年提出了仅仅要求顺序(排序)测量尺度数据的非参数检验。不需要对总体分布形态做任何假定。该检验被称为克鲁斯卡尔-沃利斯单因素秩方差分析(Kruskal-Wallis one-way analysis of variance by ranks)

           看完眼花缭乱的定义和计算步骤,下面总结一下使用中如何选择这三种非参数检验方法:

    1. Wilcoxon检验适用于2匹配样本(related samples
    2. Mann–Whitney U 检验适用于2独立样本
    3. kruskal wallis检验用于K独立样本
    展开全文
  • 本文是为KS检验的学习者打造,旨在运用,如有谬误,还烦请联系本人修改本文只针对连续的一维概率分布的KS检验KS检验是一种非参数检验,常用于判断样本预先给定的分布是否一致,或两个样本的概率分布是否不同。...

    本文是为KS检验的学习者打造,旨在运用,如有谬误,还烦请联系本人修改

    本文只针对连续的一维概率分布的KS检验

    KS检验是一种非参数检验,常用于判断样本与预先给定的分布是否一致,或两个样本的概率分布是否不同。换言之,就是观测得到的样本,声称其服从某一分布是否可信。

    经验分布(累积概率)函数:

    对于

    个样本
    ,其经验分布函数为

    单样本Kolmogorov-Smirnov检验

    假设检验的问题如下:

    为待检验分布的分布函数,Kolmogorov–Smirnov统计量为:

    这其实代表着样本所属总体的分布给定分布之间的
    。显然,当两分布相近的时候,距离自然就非常小,这个统计量就是描述的距离的最大值,然后与KS检验D统计量的临界值作比较.

    注意
    的拒绝域为

    临界值(
    单一样本)

    486afb5d9d04ba78e87f706b7e1f986d.png
    Kolmogorov–Smirnov D 临界值(单一样本)

    举个栗子:

    例题1.1

    给定10个散点,这些散点是否均匀分布于

    2cdf8e8fe9bca39928f3042d6758cdfc.png

    可以预见有些误差并不一定出现在

    之间,还有可能出现在
    之间,因此在运用KS检验的时候,通常同时考虑后者,因此通常我们用的是这个统计量
    ,其中:

    这道题的给定累积分布为

    因此这道例题的KS检验方法如下,列出表格:

    计算方面,其实这里就是算出第二第三列的距离之后,再求同样颜色位置的数值相减,观测累积分布最顶上的0.12直接减0.

    目测得知

    ,因此接受
    ,即认为
    服从
    上的均匀分布.

    例题1.2:使用

    进行正态性检验。
    注明:使用KS检验时不进行参数的估计,因为他是“非参数”检验

    给定下列数据,试问其是否服从
    的正态分布?

    题目给的数据一般是没排序的,需要自己排序。整理成表格。

    先查表:


    的拒绝域
    ,跟上一题一样:

    不过正态性检验这里,

    ,其中
    为累计次数,
    一共120个数字。列个表就很清楚了,如下图(知乎只能用矩阵的环境制表,我就懒得一个个制了,直接上图了)

    b5d3c3d6f99826e5567834e7d98c83dc.png

    这里面有一个标准化,也就是

    ,因为要根据这个查表得知他的
    累积分布
    ,如果你不需要手算,在excel里面有现成的函数
    其中
    就是

    之后就如法炮制,求 间距

    的最大值,也就是最后一列的最大值
    ,因此接受

    正态性检验的步骤就是:

    1. 写出假设,查表得到
      的拒绝域
    2. 排序,注意有结点的重复数字,记录其结点长度
    3. 求和得到累计次数
    4. 根据给出的参数求出标准化之后的值,据此求得理论的累积分布(或者说给定的累积分布)
    5. 求间距的最大值。
    6. 与临界值作比较判断是否落入拒绝域。

    >x<-c(190,193,194,196,197,198,199,199,200,200,201,201,201,202,202,202,202,202,203,203,203,203,203,204,204,204,204,205,206,206,206,206,206,206,206,206,206,206,206,206,207,207,207,207,207,207,207,208,208,208,208,208,208,208,208,208,208,208,208,208,208,209,209,209,209,209,209,209,210,210,211,211,211,211,211,211,211,211,211,211,211,211,212,212,213,213,213213,213,213,213,213,214,214,214,214,214,214,214,216,216,216,216,216,216,216,217,218,218,218,218,219,219,219,221,221,222,223,224,226)
    >ks.test(x,"pnorm",209,6.5)
                
                  One-sample Kolmogorov-Smirnov test
    
    data:  x
    D = 0.088873, p-value = 0.2995
    alternative hypothesis: two-sided
    这里
    的时候拒绝
    ,否则接受
    ,你熟练的话看
    值也一目了然

    未完待续

    展开全文
  • t检验和非参数检验的应用情形不同,卡方检验一般用于衡量给定的样本组是否符合某个分布律;有时这个被假设的分布律不会给定参数,而有时则会。除此之外,本文中要介绍的另外一种卡方检验的应用在于检验两个变量...

    与t检验和非参数检验的应用情形不同,卡方检验一般用于衡量给定的样本组是否符合某个分布律;有时这个被假设的分布律不会给定参数,而有时则会。除此之外,本文中要介绍的另外一种卡方检验的应用在于检验两个变量是否相互独立(例如检验发色与虹膜的颜色是否存在某种统计意义上的联系,或是相互独立)。

    本文仍然是一篇考试复习笔记。。


    零假设与备择假设选定规则:

    一般规则:

    中为对于分布律假设肯定句式,如‘~ distribution is a good fit (xx分布是一个好的估计,必要时应当阐述参数如方差)’;或是对于两个变量相关性的否定陈述例如‘变量a与变量b没有关联’‘变量a与变量b相互独立’。

    中为对于分布律假设否定句式,如‘~ distribution is not a good fit (xx分布不是一个好的估计,必要时应当阐述参数如方差)’;或是对于两个变量相关性的肯定陈述例如‘变量a与变量b是有关联的’‘变量a与变量b不是相互独立的’。

    注意:如果题干中给出了被假设内容的参数(例如:检验样本是否服从一个【方差为0.4】的正态分布),则应当将参数写在假设内容中!

    期望值

    首先,在卡方检验中,任何情况下期望值的总和都应当等于观察值的总和,即

    ,如果发现并非如此则应该检查答题内容!

    另外,对于任何形式的卡方检验,都应当保障每一个数据的期望值≥5,即

    ,如果计算出的某一个期望值小于5,则应当将
    这一列与相邻 的一列合并(两列数据的观察值相加,期望值相加),直到得到的每一列期望值都≥5,此时后续的解题过程中总列数n应按照合并后的n计算。一定不要忘记合并!

    检验统计量

    在卡方检验中,检验统计量的统一计算标准是

    临界值的计算

    卡方分布是依赖自由度的分布,自由度记作

    ,
    (即假设中提到的参数的个数),写作
    ,最终数值应当查阅卡方表获取。

    注意:方便起见次处及以下皆假设题干中给出的显著性水平为5%。

    结论

    与t检验中类似,卡方检验中如果检验统计量test statistic<临界值critical value则接受原假设;如果检验统计量test statistic≥临界值critical value则拒绝原假设,这与各类非参数检验中是恰恰相反的。


    10.1中的情形:检验离散均匀分布

    --即当假设内容为是否符合一个离散均匀分布discrete uniform distribution时所作的检验,常见于检验一个色子是否是公平的或是某几个事件是否是等可能的。

    离散均匀分布形如:

    ,这种分布不需要任何参数,因此自由度
    .

    步骤:

    1.解释为何题目中的实际情况可以通过验证样本是否符合离散均匀分布得证.

    2.提出假设

    3.计算期望值表并计算检验统计量

    4.计算临界值

    5.对比临界值与检验统计量,给出结论.

    10.2中的情形:对于两种离散分布的检验(二项分布与泊松分布)

    • 二项分布

    步骤:

    1.求参数

    (其中n为数据的个数,即表内有几栏),
    ,这其中N表示的是总频数,
    是与
    对应的成功次数.如果题干中已经给出了参数p则跳过这一步。

    2.提出假设.

    3.对每一个

    计算其对应的
    ,即所对应的期望值,公式使用
    .

    4.计算检验统计量.

    5.查找临界值,这里由于在第一步估计了参数p,

    ,如果没有进行估计则不需要减去最后一个1.

    6.对比检验统计量与临界值的大小,得出结论.

    • 泊松分布

    步骤:

    1.求参数

    ,λ是泊松分布中的数学期望值,这里N表示的是总频数,
    是与
    对应的成功次数,如果题干中已经给出了参数λ则跳过这一步。

    2.提出假设.

    3.对每一个

    计算其对应的
    ,即所对应的期望值,公式使用
    .

    4.计算检验统计量.

    5.查找临界值,这里由于在第一步估计了参数λ,

    ,如果没有进行估计则不需要减去最后一个1.

    6.对比检验统计量与临界值的大小,得出结论.

    10.3中的情形:对于两种连续分布的检验(正态分布与连续型均匀分布)

    • 正态分布

    步骤

    1.求参数

    (其中n为表格中区间的个数),每一个x取其相应的区间的中间值,作为一个估计,以及
    如果已经给出μ和σ的值则不需要计算这一步。

    2.提出假设,注意如果题干中有提及指定的参数,则应该标明,例如‘方差为0.4,均值为16的正态分布’。

    3.对每一个

    计算其对应的
    ,即所对应的期望值,使用正态分布的公式求出每个区间所对应的概率再乘以总频数。

    4.计算检验统计量.

    5.查找临界值,这里由于在第一步估计了参数p,

    6.对比检验统计量与临界值的大小,得出结论.

    警告:

    应当在做题过程中注意以下两种情况:

    1.当对离散型数据使用正态分布时应当对区间进行连续性校正

    )

    2.如果使用正态分布近似后出现期望值中的某些数据落在原区间之外的情况(即期望值总和<观察值总和)则应当将上下界更改为

    .

    例见课本exercise 10 C, Q7.

    • 连续型均分布

    即形如以下的分布,记作

    652c915f4265a7cdffe66d5f0e1c67e8.png

    步骤:

    1.解释为何题目中的实际情况可以通过验证样本是否符合连续型均匀分布得证.

    2.提出假设

    3.计算期望值表并计算检验统计量.

    4.计算临界值,由于无估计参数,故

    5.对比临界值与检验统计量,给出结论.

    注意:对于各类型的连续分布函数,则使用对PDF求常积分的方式计算对应区间的期望频数,尤其注意连续型均匀分布中各区间不相等的情况,此时不要直接用总频数除以区间个数。

    10.4中的情形:Contingency Table(针对列联表的检验)

    --与以上对于分布律的检验不同,此处检验的是两个变量是否具有统计相关性(表格行和列上的两个变量).首先应该知道我们把横行/行数记作i,纵行/列数记作j,

    则分别代表表格上第i行第j列中的数据所对应的观察值和期望值。

    这种检验的期望值的计算建立在零假设中所阐述的‘假设行变量与列变量无关联’的前提上。期望值计算公式是

    ,即第i行观察值总和乘以第j列观察值总和的结果除以整个表上的观察值总和。

    检验统计量的计算标准仍然不变。

    而自由度的计算标准则更改为

    ,其中r代表表格总行数,c代表表格总列数。

    计算过程中如果出现某处

    <5的情况,则应该对与其相关的行/列进行相邻合并。
    展开全文
  • 统计学方法数据分析(上下册)

    热门讨论 2013-12-29 11:32:47
    5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8关于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2关于μ1-μ2的推断:独立样本 6.3非参数推断方法:...
  •  正如作者所说——“我书目标很简单,那就是填补这个空白,架起学院教科书通常针对SQL Server所写,纯粹面向实践书之间桥梁”。翻译过程中,译者感到此言不虚:作者从数据库基本概念到数据库建模,从...
  •  正如作者所说——“我书目标很简单,那就是填补这个空白,架起学院教科书通常针对SQL Server所写,纯粹面向实践书之间桥梁”。翻译过程中,译者感到此言不虚:作者从数据库基本概念到数据库建模,从...
  • 陈希孺院士经典书籍。...第3章 GLM参数的假设检验 131 3.1 Wald检验 132 3.2 约束检验 135 3.3 似然比检验 139 第4章 模型选择诊断 143 4.1 p值或拟合优度 144 4.2 模型选择 152 4.3 诊断问题
  • 暗物质(共)an灭机制的简化模型可以预测出未经当前搜索检验的新对撞机特征。 这些模型已经在co灭法典中进行了编纂,它们为大型强子对撞机(LHC)的暗物质(DM)发现计划提供了基础,该计划由测得的DM遗迹密度驱动。...
  • 第三章 点估计通过样本 对总体分布函数进行统计推断,通常有参数化分参数方法,后者有专门课程—非参数统计,我们这里目前只讲参数统计。参数统计推断通常有两个基本问题,即参数估计和假设检验。参数估计又...

    欢迎指正。

    第三章 点估计

    通过样本

    对总体的分布函数进行统计推断,通常有参数化与分参数方法,后者有专门的课程—非参数统计,我们这里目前只讲参数统计。
    参数统计推断通常有两个基本问题,即参数估计和假设检验。参数估计又分为点估计和区间估计,由于区间估计与假设检验联系密切,我们放在假设检验后面来讲。

    本章主要从以下几方面来讲:一点基本概念;无偏估计及UMVUE、UMRUE;极大似然估计、矩估计、最小二乘估计、简略介绍同变估计、稳健估计。

    本章主要侧重于介绍方法,点估计的性质(效、渐进性质)我们放在第四章来讲。

    3.1 基本概念

    设参数

    为样本,用统计量
    作为未知参数
    的“猜测”称为
    点估计,此时称参数
    待估参数。但并不是任意一个统计量都可以作为参数的估计,需要有一个准则,“无偏性”就是一个普遍认可的准则(但并不是唯一准则,也不是非要不可的准则,比如就有有偏估计,这里是为了顺利引出我们接下来的内容)。

    3.2 无偏估计及UMVUE、UMRUE

    3.2.1无偏估计

    定义3.1

    的估计为
    ,这里的
    为未知参数的函数,则称

    的偏差。若对一切
    ,则称
    的无偏估计(UE),即

    关于无偏估计,我们有三点需要说明:

    (1)无偏估计不一定存在

    我们接下来的讨论都是对可估参数而言,不可估的参数讨论其无偏估计是无意义的。

    (2)对可估参数,无偏估计一般不唯一

    (3)无偏估计并不一定是一个好估计

    ----------------------------------------------------------------------------------------------

    正如上面所说,无偏估计不唯一,那么我们就想在这堆无偏估计里面找一个最好的,什么样的最好?就需要我们有一个标准(即后面说的损失函数)。依据Wald于1950年提出的统计判决理论的观点,统计推断追求的目标是对于给定的损失函数

    ,希望求出
    统计判决函数
    (即我们要求的统计量),使其风险函数
    尽可能小。

    上面这句话总结了我们求一致最小风险方差无偏估计的思路。比如在估计问题中,用统计量
    估计
    ,损失函数(通常都要求为
    的凸函数)取
    ,则其相应的风险函数为
    ,此时的风险函数即为我们熟知的
    均方误差,当然也有其他的损失函数比如绝对损失。为使 风险函数均方误差 最小,我们就可以求出相应的最小 风险方差 估计量。

    上面这一段我们说了要用统计量

    估计
    ,那我们要用什么统计量,肯定不能是随便一个统计量吧,在此我们有这样一个定理

    定理3.1 (Rao-Blackwell)对于分布族

    ,若
    为统计判决问题的凸损失函数,
    充分统计量
    为任一统计判决函数,则

    必优于或等同于

    。 若
    的严凸函数,则
    一致优于
    等同于
    的充要条件为
    的函数,即
    上面这个定理就是告诉我们,统计判决的最优解通常就是充分统计量的函数

    3.2.2 一致最小风险方差无偏估计(UMRUEUMVUE)

    上一小节我们说要从无偏估计量里面找一个充分统计量使得风险最小,在这里给出定义。

    定义3.2 对于一般凸损失函数

    ,若存在
    的无偏估计
    ,使得对任何其他无偏估计

    则称

    一致最小风险无偏估计(UMRUE).

    对于损失函数

    ,此时的风险函数即为均方误差,若

    则称

    一致最小方差无偏估计(UMVUE).
    到这里我们能看出来,均方误差是风险函数的一个特例。
    在上一节我们给出的定理,最优解是充分统计量的函数,但仅仅如此是不够的。唯一性需要完备统计量来保证,最优性由完备统计量来保证,这里能出俩引理,就不列出了。直接给出最终版本的定理。

    定理3.2(Lehmann-Scheffe)给定样本 ,设

    。考虑
    的无偏估计,损失函数
    为凸函数,
    完备的充分统计量,有:

    (1)设

    的无偏估计,且
    的函数,即
    ,则
    必为
    的一致最小风险无偏估计(UMRUE)。

    (2)设

    的无偏估计,则
    的一致最小风险无偏估计。

    (3)若

    为严格凸,且
    的一致最小风险无偏估计存在,则必为
    的函数。

    若损失函数为

    ,上述(1)(2)(3)都成立,只不过不再叫一致最小风险无偏估计,称为一致最小方差无偏估计(UMRUE)。

    3.2.3 解题方法和一个例题

    在完备充分统计量和一致最小风险无偏估计存在的前提下,我们根据Lehmann-Scheffe定理,有两种求解

    的UMRUE/UMVUE的方法:

    (1)直接方法:找一个完备充分统计量

    的函数
    使
    ,则
    的UMRUE。

    (2)条件期望法:即取一个完备充分统计量

    以及
    的某一个无偏估计
    ,则
    的UMRUE。这个方法关键在于求条件期望,较为麻烦。

    下面给出一个例题,用以上两种方法解,但这并不意味着这两种方法能同时去解其他问题,有时候根据分布、问题类型要选择其中一个,这就需要做大量的练习以熟练。

    例1

    独立同分布,均服从区间
    上的均匀分布,样本为
    。求参数
    的UMVUE。

    首先我们知道统计量

    为一个完全充分统计量。

    直接方法:找一个合适的

    的函数
    ,使得
    成为
    的无偏估计,即
    。为此,首先注意到
    的概率密度函数为

    我们看一下它的期望

    于是我们就有

    ,就得到
    的无偏估计,进而是UMVUE。

    条件期望法: 我们先找一个

    的无偏估计,
    ,可见
    的一个无偏估计,进而条件数学期望
    的UMVUE。接下来我们就算这个
    ,首先我们可以看出。当
    时,
    的概率取值为
    ,有
    的概率服从区间
    上的均匀分布。由此可得

    可见

    即是
    的UMVUE。

    3.3 极大似然估计(MLE)

    极大似然估计在直观上可以这样解释:使得出现所选样本最大概率的分布参数的估计。

    定义3.3

    ,把
    视为
    的函数,则称它为
    关于
    似然函数
    称为
    对数似然函数,若
    满足

    则称

    极大似然估计(MLE)
    极大似然估计不唯一, 如服从
    均匀分布时,
    都可视为
    的极大似然估计,所以解不唯一。

    若极大似然估计存在且唯一,则它必为充分统计量的函数。(借助因子分解定理)

    关于极大似然估计的计算流程这个在本科阶段就有,因此不再赘述。有关极大似然估计的性质,我们在第四章讲。

    3.4 矩估计

    矩估计也叫矩方程估计,是比较老的方法,其理论基础就是独立同分布情况下的大数定律,即观察值的样本平均趋向于总体平均。

    独立同分布,
    ,有

    总体原点矩:

    ,其中

    总体中心矩:

    ,其中

    样本原点矩:

    ,其中

    样本中心矩:

    ,其中

    根据独立同分布随机变量序列的大数定律,当

    时,
    以概率收敛(几乎处处收敛)到
    ;类似的有
    以概率收敛(几乎处处收敛)到
    。因此可以自然得到

    3.5 最小二乘估计(LSE)

    最小二乘估计常用于线性模型求解,这个在很多的计量经济课本上都有介绍。

    简单来说,在一个线性模型

    中,我们希望求得的系数(估计值)
    使得
    最小,一般是求(偏)导来求解,但如果
    是满秩矩阵,我们可以通过
    快速计算出结果。

    关于最小二乘的计算以及各种特殊情况(现实中较为常见)的处理,可以找一本线性模型的书来看。

    3.6 同变估计

    在一些参数估计问题中,要求寻找的估计量在样本作某种特定变换下保持某种统计性质。变换主要有三种:位移变换

    、尺度变换
    、线性变换
    。于是就有这三种变换下的同变估计。同变估计,即在某种变换群下保持同变的估计。由于其严格的定义需由变换群和统计决策问题进行,因此我们在这仅给出同变估计的描述性定义。

    定义

    的一个估计量,如果在样本作某种特定变换下,估计量
    具有某种相应的性质,则称
    是在该变换下
    同变估计
    具体可见《参数统计教程》的第四章,韦博成老师专门用一章的篇幅来介绍。

    3.7 稳健估计

    连续性原理:如果一个方法在该模型下是最优的,则它应在该模型附近是几乎最优的。

    具备这种连续性的方法称为稳健的。

    稳健统计中一类常用的估计是M估计,它是Huber在1954年对极大似然估计加以引申而得出的。

    定义

    是来自某总体的一个样本,
    为一选定的非负函数,若估计
    满足

    则称

    的一个
    M估计

    关于
    可微,即
    ,如果
    满足

    也称为
    的一个
    M估计

    上面两个公式的关系就像极大似然估计的定义和通过似然方程求解极大似然估计的关系一样。

    展开全文
  • RCP法RSP法主要区别是前者采用循环渐进开发方式,原型将成为最终产品,而后者将被废弃。(√) 三、简答题 1. 软件产品特性是什么? 答: ● 软件是一种逻辑产品,具有无形性;  ● 软件产品生产...
  • 【摘要】 倒立摆是一个复杂快速、线性、多变量、强耦合、自然不稳定的非最小相位系统,是重心在上、支点在下控制问题抽象。在对控制方法研究过程中,科研人员往往因为找不到合适实际控制对象,而失去了对研究...
  • stata配套资料.zip

    2019-07-05 14:49:32
    数值变量资料一般分析:参数估计,t检验,单因素和多因素方差分析,协方差分析,交互效应模型,平衡和平衡设计,嵌套设计,随机效应,多个均数两两比较,缺项数据处理,方差齐性检验,正态性检验,变量...
  • 3.9 高于2度的联系类型 57 3.9.1 对二元和三元(或高度)联系的选择 57 3.9.2 三元(或高度)联系上的约束 60 3.10 小结 60 复习题 61 练习题 61 实验题 66 选读文献 66 第4章 增强的实体-联系...
  • Stata 9 很好统计软件

    热门讨论 2008-11-24 11:45:14
     数值变量资料一般分析:参数估计,t检验,单因素和多因素方差分析,协方差分析,交互效应模型,平衡和平衡设计,嵌套设计,随机效应,多个均数两两比较,缺项数据处理,方差齐性检验,正态性检验,变量...
  • STATA使用教程

    2018-10-12 07:53:50
    数值变量资料一般分析:参数估计,t检验,单因素和多因素方差分析,协方差分析,交互效应模型,平衡和平衡设计,嵌套设计,随机效应,多个均数两两比较,缺项数据处理,方差齐性检验,正态性检验,变量变换...
  • 从这一章开始是第四部分,相关与非参数检验 讲什么?科学的基本目的是建立变量间的联系。之间讲的都是通过平均数和方差这样的统计量来比较各组数据,但是有些数据是无法计算平均数和方差的,这种情况下,即无法形成...
  • LINGO软件学习

    2009-08-08 22:36:50
    男学生和女学生的联系集:友好程度属性friend,[0,1]之间的数。 ; linkmf(students,students)|sex(&1) #eq# 1 #and# sex(&2) #eq# 0: friend; !男学生和女学生的友好程度大于0.5的集; linkmf2(linkmf) | friend...
  • 构建脑功能网络关联矩阵,计算不同稀疏度下脑网络全局属性以及局部属性曲线下面积,在同一阶段、同一频段下对精神分裂症患者和正常人得到属性值进行非参数检验,找出差异显著属性及节点,将对应值作为特征...
  • ● 初级教程提供问题和练习来检验读者对知识理解,从而适于自学或课堂教学。 基于上述理念,本书帮助读者理解这种用途广泛语言,并学习如何使用它。例如: ● 对何时使用某些特性,例如何时使用公共继承来建立...
  • ● 初级教程提供问题和练习来检验读者对知识理解,从而适于自学或课堂教学。 基于上述理念,本书帮助读者理解这种用途广泛语言,并学习如何使用它。例如: ● 对何时使用某些特性,例如何时使用公共继承来建立...
  • ● 初级教程提供问题和练习来检验读者对知识理解,从而适于自学或课堂教学。 基于上述理念,本书帮助读者理解这种用途广泛语言,并学习如何使用它。例如: ● 对何时使用某些特性,例如何时使用公共继承来建立...
  • ● 初级教程提供问题和练习来检验读者对知识理解,从而适于自学或课堂教学。 基于上述理念,本书帮助读者理解这种用途广泛语言,并学习如何使用它。例如: ● 对何时使用某些特性,例如何时使用公共继承来建立...
  • 2.13.5 极大似然估计和贝叶斯估计的联系与区别 75 2.13.6 极大似然估计原理 76 2.13.7 图解极大似然估计 76 2.14 EM算法 77 2.14.1 EM算法的基本思想 77 2.14.2 EM算法推导 77 2.14.3 图解EM算法 78 2.14.4 EM算法...
  • 在转移参数不变情况下,价格需求量呈反比关系。 需求曲线具有负斜率,因为当价格上涨时消费者会找到较便宜替代品,假定其它因素不变。 需求曲线是指:在特定时间区间内、其它因素不变情况下,消费...
  • 9.2.4 与非c++代码连接 182 9.2.5 连接与指向函数指针 184 9.3 使用头文件 184 9.3.1 单一头文件 184 9.3.2 多个头文件 187 9.3.3 包含保护符 191 9.4 程序 192 9.4.1 非局部变量初始化 192 9.5 忠告 ...
  • 9.2.4 与非c++代码连接 182 9.2.5 连接与指向函数指针 184 9.3 使用头文件 184 9.3.1 单一头文件 184 9.3.2 多个头文件 187 9.3.3 包含保护符 191 9.4 程序 192 9.4.1 非局部变量初始化 192 9.5 忠告 ...
  • C++程序设计语言(特别版)--源代码

    热门讨论 2012-04-23 07:33:51
    9.2.4 与非c++代码连接 182 9.2.5 连接与指向函数指针 184 9.3 使用头文件 184 9.3.1 单一头文件 184 9.3.2 多个头文件 187 9.3.3 包含保护符 191 9.4 程序 192 9.4.1 非局部变量初始化 192 9.5 忠告 ...
  • 根据数据结构中各数据元素之间前后件关系复杂程度,一般将数据结构分为两大类型:线性结构与非线性结构。 (1)如果一个非空数据结构满足下列两个条件: ① 有且只有一个根结点; ② 每一个结点最多有一个前件,...
  • 14.5.2 线性规模对数深度的线路之间的联系 246 14.5.3 线路图之间的联系 246 14.5.4 卡奇梅尔维格德尔森通信游戏深度下界 246 本章学习内容 248 本章注记和历史 249 习题 249 第15章 证明复杂性 251 ...

空空如也

空空如也

1 2 3 4 5
收藏数 94
精华内容 37
关键字:

参数检验与非参数检验的联系