精华内容
下载资源
问答
  • 回归方程显著性检验t 检验(回归系数的检验)F 检验(回归方程的检验)相关系数的显著性检验样本决定系数三种检验的关系一、σ2的估计因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先σ2作...

    目 录

    1. σ2的估计

    2. 回归方程的显著性检验

    t 检验(回归系数的检验)

    F 检验(回归方程的检验)

    相关系数的显著性检验

    样本决定系数

    三种检验的关系

    一、σ2的估计

    因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。

    通过残差平方和(误差平方和)

                (1)

    (用到

    ,其中

    )

    又∵

                              (2)

                                                     (3)

    其中

    为响应变量观测值的校正平方和。残差平方和有n-2 个自由度,因为两个自由度与得到

    的估计值

    相关。

                                             (4)

    (公式(4)在《线性回归分析导论》附录C.3有证明)

    ∴  σ2的无偏估计量:

                                             (5)

    为残差均方,

    的平方根称为回归标准误差,与响应变量y 具有相同的单位。

    因为σ2取决于残差平方和, 所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值

    的实用性。因为

    由回归模型残差算得,称σ2的估计值是模型依赖的。

    二、回归方程的显著性检验

    目的:检验是否真正描述了变量 y 与x之间的统计规律性。

    假设:正态性假设(方便检验计算)

    t 检验

    用t 检验来检验回归系数的显著性。采用的假设如下:

    原假设     H0 : β1 = 0   (x与y不存在线性关系)

    对立假设  H1 : β1 ≠ 0

    回归系数的显著性检验就是要检验自变量 x 对因变量y的影响程度是否显著。下面我们分析接受和拒绝原假设的意义。

    (1)接受 H0 : β1 = 0  (x与y不存在线性关系)

    此时有两种情况,一种是无论 x 取值如何,y都在一条水平线上下波动,即

    ,如下图1,另一种情况为,x与y之间存在关系,但不是线性关系,如图2。

    图  1

    图 2

    (2)拒绝 H0 : β1 = 0  (x对解释y的方差是有用的)

    拒绝原假设也有两种情况,一种是直线模型就是合适的,如图 3,另一种情况为存在x对y的线性影响,也可通过x的高阶多项式得到更好的结果,如图4。

    图 3

    图 4

    接下来对其检验。

                               (6)

    ∴ 当H0 : β1 = 0 成立时,有:

                             (7)

    在零附近波动,构造 t 统计量:

                       (8)

    若原假设H0 : β1 = 0 成立,则

    ,计算|t|,

    |t| ≥tα/2, 拒绝 H0

    |t| <tα/2, 接受 H0

    2.F 检验(方差分析)

    F检验用于检验回归方程的显著性。

    方差分析法检验回归显著性,方差分析以分割响应变量 y 的总变异性为基础。

     , 

                   (9)

    其中

    称为观测值的校正平方和

    或总称为平方和(SST: sum of squares for total,

    , Lyy),其度量了观测值中总的变异性。刻画 y 的波动程度。

    称为模型平方和(或回归平方和),记为SSR(R: regression),

    ,

    。其刻画由 x 的波动引起的y波动的部分。

    是残差平方和(误差平方和),记为SSE(E: error),

    ,

    。其刻画了未加控制的因素引起 y 波动的部分。

           

             (10)

    下来分析它们的自由度。因为

    约束

    使

    丢掉了一个自由度,所以

    个自由度;因为

    完全由

    一个参数确定,所以

    个自由度;因为估计β0与β1时对离差

    施加了两个约束,所以

    有n-2个自由度。

    ∵ 自由度有可加性

                    (11)

    因为总平方和反映因变量 y 的波动程度或称不确定性,在建立了y对x的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两部分,其中SSR是由回归方程确定的,也就是由自变量x的波动引起的,SSE是不能用自变量解释的波动,是由x之外的未加控制的因素引起的。这样,总平方和SST中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE,从而,回归平方和SSR越大,回归的效果就越好,可以据此构造F检验统计量为

                           (12)

    在正态假设下,原假设H0 : β1 = 0 成立时,

    ,当时

    ,拒绝原假设。

    3.相关系数的显著性检验

    因为一元线性回归方程讨论的是变量 x 与变量y之间的线性关系,所以变量x与y之间的相关系数来检验回归方程的显著性。用相关系数来反应x与y的线性关系的密切程度。

    x 与y的简单相关系数(Pearson 相关系数):

                   (13)

    r的绝对值小于等于1:|r|≤1

    根据相关系数的检验表,通常当|r| 大于表中α=0.05相应的值时,认为x与y有显著的线性关系。

    缺点:接近于1的程度与数据组数n有关(n较小时,相关系数的波动较大,|r|接近于1,n较大时,|r|易偏小,n 较小时,不能仅凭 r 判定 x 与 y 之间有密切的线性关系)

    另外补充一点,Pearson相关系数的适用范围:

    ① 两个变量之间是线性关系,都是连续数据;

    ② 两个变量的总体是正态分布,或接近正态分布;

    ③ 两个变量的观测值是成对的,每对观测值之间相互独立。

    4.样本决定系数

    由公式(10)

    可知,

    越大,线性回归越好,所以定义样本决定系数r2: 回归平方和与总离差平方和之比。

                   (14)

    (用到

    )

                 (15)

    其中最右边的 r2表示相关系数的平方。

    决定系数 r2是一个回归直线与样本观测值拟合优度(Goodness of Fit, 指回归直线对观测值的拟合程度)的相对指标,反映了因变量的波动中能用自变量解释的比例。

    0 ≤r2≤ 1,r2 越接近于 1 ,拟合优度越好。

    那么r2的值比较小的时候反应了什么情况呢?

    r2小的可能原因:

    ① 线性回归不成立,y与x是曲线关系,应用曲线回归;

    ② y与x之间符合线性模型,误差项方差σ2大,导致r2 小(n 很大时,线性回归显著)

    在对自变量有重复观测时可以通过检验正确区分以上两种不同情况,或者用残差分析的方法。

    相关系数和样本决定系数:

    相关系数是建立在相关分析的理论基础上,研究两个变量 x 与y之间的线性相关关系;样本决定系数是建立在回归分析的理论基础之上,研究非随机变量x对y的解释程度。样本决定系数除掉了相关系数为0或1(|r|=1 or 0)的情况.

    5.三种检验的关系

    对于一元线性回归来说,回归系数显著性的 t 检验,回归方程显著性的F检验,相关系数显著性的t检验,这三种检验是等价的。相关系数显著性的t检验与回归系数显著性的t检验是完全相等的,式(12)F统计量则是这两个t统计量的平方。对于一元线性回归只需要做一种检验即可,而对于多元线性回归,这三种检验考虑的问题不同,是三种不同的检验,并不等价。

    展开全文
  • 2.回归方程显著性检验  t 检验(回归系数的检验)  F 检验(回归方程的检验)  相关系数的显著性检验  样本决定系数  三种检验的关系 一、σ2 的估计  因为假设检验以及构造与回归模型有关的区间估计...

    目 录

    1. σ的估计

    2. 回归方程的显著性检验

      t 检验(回归系数的检验)

      F 检验(回归方程的检验)

      相关系数的显著性检验

      样本决定系数

      三种检验的关系

    一、σ2 的估计

      因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。

      通过残差平方和(误差平方和)

                   1

     

    (用到,其中

     

      ∵                                2

    ∴                                                        3

    其中 为响应变量观测值的校正平方和。残差平方和有n-2 个自由度,因为两个自由度与得到的估计值相关。

                                             4

    (公式(4)在《线性回归分析导论》附录C.3有证明)

    ∴  σ2的无偏估计量:

                                             5

    为残差均方, 的平方根称为回归标准误差,与响应变量y 具有相同的单位。

    因为σ2取决于残差平方和, 所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值的实用性。因为由回归模型残差算得,称σ2的估计值是模型依赖的。

     

    二、回归方程的显著性检验

      目的:检验 是否真正描述了变量 y x 之间的统计规律性

      假设:正态性假设 (方便检验计算)

    1. t 检验

      用t 检验来检验回归系数的显著性。采用的假设如下:

    原假设     H0  β1 = 0   x y 不存在线性关系)

    对立假设  H1  β1 ≠ 0

      回归系数的显著性检验就是要检验自变量 x 对因变量 y 的影响程度是否显著。下面我们分析接受和拒绝原假设的意义。

      (1)接受 H0  β1 = 0  x y 不存在线性关系)

      此时有两种情况,一种是无论 x 取值如何, y 都在一条水平线上下波动,即,如下图1,另一种情况为, x y 之间存在关系,但不是线性关系,如图2

     

     1

     

    2

      (2)拒绝 H0  β1 = 0  x 对解释 y 的方差是有用的

      拒绝原假设也有两种情况,一种是直线模型就是合适的,如图 3,另一种情况为存在 x y 的线性影响,也可通过 x 的高阶多项式得到更好的结果,如图 4

     

    3

     

    4

      接下来对其检验。

    ∵                               6

      ∴ 当H0  β1 = 0 成立时,有:

                             7

       在零附近波动,构造 t 统计量:

                                    8

      若原假设H0  β1 = 0 成立,则 ,计算|t|

    |t| tα/2   拒绝 H0

    |t| tα/2   接受 H0

      2.F 检验(方差分析)

      F检验用于检验回归方程的显著性。

      方差分析法检验回归显著性,方差分析以分割响应变量 y 的总变异性为基础。

    ∵   

    ∴   

    ∵  , 

    ∴  

    ∴                  9

      其中 称为观测值的校正平方和或总称为平方和(SST: sum of squares for total, Lyy),其度量了观测值中总的变异性。刻画 y 的波动程度

      称为模型平方和(或回归平方和),记为SSR(R: regression),,。其刻画由 x 的波动引起的 y 波动的部分

       是残差平方和(误差平方和),记为SSE(E: error), , 。其刻画了未加控制的因素引起 y 波动的部分

    ∴                    10

      下来分析它们的自由度。因为 约束 使丢掉了一个自由度,所以个自由度;因为完全由一个参数确定,所以个自由度;因为估计β0与β1时对离差施加了两个约束,所以有n-2个自由度。

    ∵ 自由度有可加性

    ∴                    11

      因为总平方和反映因变量 y 的波动程度或称不确定性,在建立了 y x 的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两部分,其中SSR是由回归方程确定的,也就是由自变量 x 的波动引起的,SSE是不能用自变量解释的波动,是由 x 之外的未加控制的因素引起的。这样,总平方和SST 中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE,从而,回归平方和SSR越大,回归的效果就越好,可以据此构造F 检验统计量为

                           (12)

      在正态假设下,原假设H0 : β1 = 0 成立时,,当时,拒绝原假设。

      3.相关系数的显著性检验

      因为一元线性回归方程讨论的是变量 x 与变量 y 之间的线性关系,所以变量 x y 之间的相关系数来检验回归方程的显著性。用相关系数来反应 x y 的线性关系的密切程度。

      x y 的简单相关系数(Pearson 相关系数):

                   13

    r的绝对值小于等于1|r| 1

      根据相关系数的检验表,通常当|r| 大于表中α=0.05相应的值时,认为 x y 有显著的线性关系。

      缺点:接近于1的程度与数据组数 n 有关(n 较小时,相关系数的波动较大,|r| 接近于1n 较大时,|r|易偏小,n 较小时,不能仅凭 r 判定 x 与 y 之间有密切的线性关系)

      另外补充一点,Pearson相关系数的适用范围:

      ① 两个变量之间是线性关系,都是连续数据;

      ② 两个变量的总体是正态分布,或接近正态分布;

      ③ 两个变量的观测值是成对的,每对观测值之间相互独立。

      4.样本决定系数

      由公式(10可知,越大,线性回归越好,所以定义样本决定系数r2: 回归平方和与总离差平方和之比。

                            14

    ∵   

    (用到

    ∴                    15

      其中最右边的 r2 表示相关系数的平方。

      决定系数 r2 是一个回归直线与样本观测值拟合优度(Goodness of Fit, 指回归直线对观测值的拟合程度)的相对指标,反映了因变量的波动中能用自变量解释的比例。

      0 ≤  r2  1r2  越接近于 1 ,拟合优度越好。

      那么r2 的值比较小的时候反应了什么情况呢?

      r2 小的可能原因:

      ① 线性回归不成立,y x 是曲线关系,应用曲线回归;

      ② y x 之间符合线性模型,误差项方差σ2大,导致r2 小(n 很大时,线性回归显著)

      在对自变量有重复观测时可以通过检验正确区分以上两种不同情况,或者用残差分析的方法。

    相关系数和样本决定系数:

    相关系数是建立在相关分析的理论基础上,研究两个变量 x y 之间的线性相关关系;样本决定系数是建立在回归分析的理论基础之上,研究非随机变量 x y 的解释程度。样本决定系数除掉了相关系数为0或1(|r|=1 or 0)的情况.

      5.三种检验的关系

      对于一元线性回归来说,回归系数显著性的 t 检验,回归方程显著性的 F 检验,相关系数显著性的 t 检验,这三种检验是等价的。相关系数显著性的 t 检验与回归系数显著性的 t 检验是完全相等的,式(12F统计量则是这两个 t 统计量的平方。对于一元线性回归只需要做一种检验即可,而对于多元线性回归,这三种检验考虑的问题不同,是三种不同的检验,并不等价。

    转载于:https://www.cnblogs.com/datamining-bio/p/9502033.html

    展开全文
  • 上一节笔记传送门:数理统计|笔记整理(8)——估计量的高级性质:C-R不等式,Slutsky定理,渐近正态初步下一节笔记传送门:数理统计|笔记整理(A)——假设检验进阶:似然比视角再看假设检验——————————...

    3e3bbf5c2de0b42ed27c607a60ff7829.png

    上一节笔记传送门:数理统计|笔记整理(8)——估计量的高级性质:C-R不等式,Slutsky定理,渐近正态性初步

    下一节笔记传送门:数理统计|笔记整理(A)——假设检验进阶:似然比视角再看假设检验

    ——————————————————————————————————————

    大家好!

    根据我们学校课程的进度,我们会先搁置贝叶斯统计和区间估计的更深的讨论,转而对假设检验问题做一个系统的介绍。

    假设检验是统计推断中另一个非常重要的领域,无论是理论上对这类问题的研究,还是实际上它所引申出的各种统计上的概念和计算,都具有极大的价值。在之前的《工科数理统计》中,我们已经讲过一些常见估计的假设检验计算,和对应的问题的理解,但是其实它的价值远不及那些。事实上,我们在显著性检验之后会介绍假设检验问题的另外一个视角——似然比检验,虽然在理论难度上提高了一个层次,但是也同样容易理解。因此我相信,将两个部分结合在一起逐步深入,会给大家带来更好的,对假设检验相关的理解。

    那么我们开始吧。

    目录

    • 概念引入
    • 两类错误,否定域,接受域,功效函数,显著性检验概念,p值
    • 正态分布下的各类假设检验——习题补充
    • 其它常见分布参数的假设检验计算
    • 拟合优度检验初步
    • 正态性检验中的q-q图简介

    概念引入

    思考一个问题:

    在一个小概率事件发生后,是应该因背锅,还是应该果背锅?

    如果把这一套逻辑用在假设检验上,就是这个意思。

    如果在我的假设下,这个事件是小概率事件,那么我的假设有问题。

    为什么?考虑我们在《工科数理统计》中,已经举过的,苹果称重的例子。

    比方说我假设苹果平均重0.1kg,但是我称了很多个算了一下发现平均重距离0.1kg差的很远。那么你肯定会质疑:要不就是苹果坏了(果,我的样本展现出来的这个结果有问题),要不就是它根本不是0.1kg(因,我的假设有问题)。为什么我们这里不怀疑“果”呢?因为我们在做检验的时候,我们会认为我们的“果”已经有了普遍性,也就是说我们抹去了它的随机性。所以我们只会怀疑“因”,所以我们在这个情况,就会认为我们的假设有问题,也就会“拒绝假设”。

    在统计推断中,一切问题都离不开一个分布。所以要“拒绝假设”,你自然需要分布和概率来支撑你的观点。所以我们这里的定义,相信也就不难理解了。

    Definition 1: Hypothesis Test, Null/Alternative Hypothesis
    设有一个来自某参数分布族
    的样本
    ,那么假设检验问题可以写为
    ,其中
    为参数空间,
    。其中
    为零假设,也为我们需要检验的假设,而
    为备择假设或对立假设。

    在这里,

    说明样本服从的分布中,对应的参数取
    中的值。
    要检验的,是未知的

    因为我们取了一些简单随机样本,所以我们认为样本是不背锅的。因为我们有了分布,所以我们可以衡量事件发生的概率。所以至此,你也能看出来,假设检验就是用统计的方法,去使用样本,“判断”你的假设是否正确。而且到此,我们也已经拥有了假设检验的所有工具。而我们苹果的这个例子,对应假设检验,就是这个意思

    这里我们用

    作为未知参数的符号,是因为它一般被用来描述“
    位置,均值”这样的意义。

    两类错误,否定域,接受域,功效函数,显著性检验概念,p值

    既然是在做假设检验,那么逃不掉犯错误。而假设检验对应有两类错误。首先我们的参数可能有两种情况,可能它在

    中,可能它也在
    中。如果它在
    中,我们就要
    接受原假设。反过来,就要拒绝原假设。无论哪一种,都有错误的可能,这样就会有两种错误的可能性。
    Definition 2: Type I/II Error
    如果
    ,却选择拒绝
    ,那么认为犯了第一类错误。如果
    ,却选择接受
    ,那么认为犯了第二类错误。

    注意:一般来说,第一类错误用

    表示,第二类错误用
    表示。

    统计是严谨的,所以回到我们的因果逻辑来看,“果”有没有可能出问题?请注意,“果”只有普遍的时候,在已经可以代替总体情况的时候,才能够说没有问题,但是这个只要是有限的样本,就做不到。那么回到我们上面的那个例子。如果我们认为苹果重0.1kg,却发生了一个小概率事件,那实际上我们按照假设检验的逻辑,应该拒绝

    。这是有可能犯错误的,因为小概率事件发生,犯错误的概率是
    存在的,只是很小。这里说的“犯错误”也就是我们说的第一类错误

    写到这里,我们就可以给出显著性检验的定义了。

    Definition 3: Significance Test
    如果检验满足其犯第一类错误的概率
    ,则认为它为水平为
    的显著性检验。

    我们先把这个概念放到一边,接着往下介绍其它概念。

    Definition 4: Acceptance Region, Critical Region
    对于样本空间
    上的一个区域
    ,如果抽样到
    ,则做出拒绝
    的判断,则称
    为拒绝域,其补集称为接受域。

    Definition 5: Power Function
    称样本观测值落入拒绝域的概率为检验的势函数,记为

    那么你也能看出来,势函数是关于参数

    的一个函数。
    有两种情况,可能落入接受域,可能落入拒绝域。落入接受域的话,根据
    的含义,这个时候它事实上就是第一类错误,也就是
    。但是如果它落入拒绝域,这个时候要注意,因为第二类错误是要看
    落入接受域的概率(这和“接受
    ”是
    完全等价的),所以它就代表
    ,因此我们可以得到一个关系

    这里有一个需要注意的地方是,虽然他们都可以写成

    的函数,但是
    本身是未知的,因此我们检验中是
    不能对
    做任何操作的

    你可以看出来,一般情况下,一个检验不可能使得

    同时减小
    。比方说如果你降低
    ,根据式子,你会降低
    ,所以你就会导致你的
    升高。也就是说,对于一个给定的检验(给定了假设,给定了样本,给定了分布),你只能控制其中一个错误的发生概率尽量的低。如果你
    给定了检验的一切工具,那么降低了一种错误的概率
    ,就一定无法降低另外一个。

    从信息的角度来看,这也非常符合实际情况,如果你只给我那么多信息(样本),那么无论你工具多优良,都不可能做到凭空抹去模型犯错的概率。选择了在一个层面上去优化,就一定会在另外一个层面上发生劣化。在这一点上甚至还有点“阴阳平衡”的哲学含义。那么怎么样降低概率呢?没有别的办法,只有一直添加信息了。

    遇到这种情况,我们选择降低第一类错误的概率,这就导致了我们的一个选择取向:我们要把重要的假设放在

    。为什么?如果我们能够降低第一类错误的概率,那么就说明,我们在选择做“拒绝
    ”这一件事情上,是有底气的,因为犯错的概率很小。那么拒绝
    ,在
    一些实际问题中就是“接受
    ”,那么我们自然需要接受一个重要的假设,保证
    大事上不犯错,这样统计推断才有意义。

    但是又有个问题,就是我究竟能把这个概率降到多低?换句话说,多低的概率才能让我放心的拒绝我的原假设

    ?这里我们就引入了p值的概念。
    Definition 6: p-value
    利用样本观察值能够做出的拒绝原假设的最小显著性水平称为检验的p值。

    时刻记住,你手上只有样本能够帮助你降低概率。所以p值的操作灵活性,要比考虑显著性水平

    (这里的
    意思和上面不同)要大得多。如果我们通过一套假设检验的方法,算出了p值很小,小于我们可以容忍的显著性水平,那就放心拒绝
    了。

    最后,可能有人问,我可不可以选择考量第二类错误?答案当然是可以的,但是在很多实际问题中,

    会被作为是一个点,而
    是它的补集。这种情况下,
    第二类错误的概率很多时候并不容易求解。所以你可以看出,两类错误的概率究竟怎么考量,事实上完全取决于接受域与拒绝域。开心的话,甚至可以交换每一个假设检验问题中的
    ,这样第一类错误就对称的变为了第二类错误。但是又有什么必要呢?

    好了,到此也算是介绍完了假设检验的含义与基本概念,我们以几个例题来热身一下。

    Example 1:
    为来自
    的样本,考虑假设检验问题
    ,拒绝域设置为
    ,求检验犯两类错误的概率。

    我们可以看到,这里有

    个样本,也给定了分布,我们希望检验一下
    。这个问题你也可以看出来,两个假设并不是互补的。因此
    叫“
    备择假设”更符合一般情况。

    如果要考虑第一类错误,也就是说,在参数落入

    (也就是说,我们应该接受
    )的情况下,做出拒绝
    的决策的概率。这里也就是
    。那么这里由于
    ,所以通过标准化就很容易得到结果为

    这里

    表示标准化后的正态分布函数。

    对于第二类错误,也就是说,我们要考虑参数落入

    时,接受
    的概率。这里对应的就是
    ,也就是说

    通过这个例子,你也能看出来,如果我增加

    ,对应两个错误概率都会下降。但是如果我改变拒绝域,也就是说我改变
    。不失一般性假如说你增加
    ,那么对应的,你会发现第一类错误会下降,但是第二类错误就上升了。这些确实都符合我们之前的说法。

    正态分布下的各类假设检验——习题补充

    这一部分实际上就是在关注,在给定显著性水平

    ,样本,分布的情况下,如何做决策,也就是如何推导
    拒绝域?抽样定理已经给正态分布提供了强有力的工具,它们也是《工科数理统计》中最为关心的部分,而在之前的笔记中,我们已经解释了相对简单的,正态分布情况下如何推导拒绝域的,我们直接放上链接供参考。学弱猹:统计学笔记|数理统计知识点概要(3)zhuanlan.zhihu.com
    5537fd2981d7fdfa5b152c3093518fd9.png
    学弱猹:统计学笔记|数理统计知识点概要(4)zhuanlan.zhihu.com
    172f6e6660f1454656e19ae692a796e9.png

    对应第三节下半部分和第四节上半部分的内容。

    这里我们用几道题加深一下正态单边检验双边检验的印象就好。

    Example 2:
    设对某正态总体的均值进行假设检验
    。并且
    ,如果要求
    中的
    的时候,犯第二类错误的概率不超过
    ,求所需要的样本容量。

    这里我们要找到满足条件的最少的样本容量。那么注意到,第二类错误就是当

    的时候,我们却选择了接受
    的概率。那么我们现在多了一个要求,就是说在
    的时候就要满足相同的要求,那么这里我们要计算第二类错误的概率时,相当于把备择假设改成了

    根据这个条件,再观察到这是一个单边检验(并且是一个左边检验),方差已知,服从正态分布。所以根据我们之前的笔记,我们可以容易的知道拒绝域为

    (因为相当于,越往左边越靠近
    ,越接近拒绝域),其中
    。那么根据要求,我们实际上就可以得到这么一个不等式。

    固定

    ,就很容易得出来上面那个概率式子就是
    。那么我们要求
    ,所以实际上考虑极端情况,只需要令
    计算边界就好。最后的
    ,也就是说最少需要7个样本。
    Example 3:
    已知样本的取值为0.8, 1.6, 0.9, 0.8, 1.2, 0.4, 0.7, 1.0, 1.2, 1.1,设鱼含汞量服从正态分布
    ,检验假设
    ,设显著性水平

    这个题也很简单,首先明确这是单边检验(并且是右边检验),正态分布,方差未知,所以我们计算样本均值和方差,使用t检验即可。在这个题中,容易得到拒绝域为

    ,其中
    。 那么代值计算一下,即可得到
    ,因此没有落入拒绝域。所以我们就必须接受
    Example 4:
    考虑两批电子器件的样品电阻:
    A: 0.140, 0.138, 0.143, 0.142, 0.144, 0.137
    B: 0.135, 0.140, 0.142, 0.136, 0.138, 0.140
    并且设他们分别服从分布
    ,且样本独立。

    (1)检验两总体方差是否相等。
    (2)检验两总体均值是否相等。
    显著性水平取

    这是涉及到一对样本检验的一个习题。并且正态分布,方差均未知。因为这个情况,如果要检验均值,就必须要检验方差是否相等(为了使用抽样定理)。所以我们必须要一个一个来考虑。

    要检验方差,我们自然需要计算一下

    ,因为要检验的是方差是否相等,意思就是说只要方差不相等就要拒绝,不管大还是小,因此是一个
    双边检验。之前笔记中已经推导过,它的拒绝域为
    ,这里容易通过计算得到统计量未落入拒绝域,因此接受
    ,认为方差是相等的。

    有了这个,我们就可以考虑使用一对样本t检验判断均值是否相等了。经过计算容易得到

    因此依然接受

    ,认为均值相等。

    这三个例题结束之后,事实上除了复习公式以外,还可以提炼出一个共同的规律:究竟应该设置什么样的拒绝域,是取决于

    。在实际的问题中,也就对应于比较重要的假设的意义。比方说有的问题要检验“……是否升高?”,这就很明显是一个右边检验问题。

    其它常见分布参数的假设检验计算

    正态分布有广泛的应用,但是很明显,不可能仅仅只有正态分布就结束了。其它很多常见的分布也会有对应的假设检验的计算。

    首先来看指数分布。考虑设

    为服从指数分布
    的样本,且
    为均值。考虑问题
    。那么我们注意到下面的这个表达式

    故由我们第一节所提到的内容,可以得到

    。因此我们实际上就是考察统计量
    ,并且根据单边检验和双边检验的情况,适当的对拒绝域做一些调整。

    其次来看伯努利分布。二项分布最常见的情况就是比例检验。考虑样本服从

    ,考虑单边假设检验问题
    。那么如果我们设
    为事件发生的次数,那么对应的
    (因为有
    个样本,在这里就是
    次实验的意思)。在这个情况下,我们可以直接考虑拒绝域
    ,然后考虑限制这个事件发生的概率,使得
    的时候,可以让事件发生的概率在
    以下。

    这个问题的不一样的地方在于伯努利分布是离散分布。这样的情况下,

    就只能一个一个取了,这样的话实际上在应用中是非常麻烦的。但是没有关系,这种情况下可以选取
    p值作为我们的结果。也就是说,如果我们拿到了最终的值
    ,那么我们只需要计算
    在给定假设下发生的概率即可。这个就简单多了不是吗?

    最后我们提一下大样本检验。我们在上一节给大家提了一下渐近正态的含义。也就是说,样本量在比较大的时候,它有一个渐近正态的关系。写的更清楚点就是

    (这个性质我们不会证明,它有点复杂,但很重要)。所以你可以看出来,在样本比较大的时候,无论过来一个什么样的分布,你就需要给我它的样本均值和样本方差,我就可以算出你的统计量,然后按照正态分布的方式去检验。比如说下面这个例子。

    Example 5:
    检验某厂生产的合格率
    ,如果抽样检查中,我们发现随机抽查的80件中,有11件产品违规,则可否认为它的不合格率在10%以下?

    这里的样本量

    ,因此我们认为是一个大样本量,所以我们只需要根据分布,求出样本均值和样本方差,代入公式就好。

    这里的分布容易看出来是一个二项分布,那么这里的样本均值和样本方差对应为

    。又因为这里的
    ,那么代入可以得到
    ,所以接受原假设,认为它依然是符合要求的。

    其它的很多类似的问题,如果符合大样本的假设,换成其它分布,其实算法也完全相同。

    拟合优度检验初步

    这一部分严格来说属于非参数统计的内容。但是它的应用广泛,且理解难度也比较小,因此作为数理统计一般要讲授的部分,我们还是放在了这里。需要注意的是这一部分的很多定理证明一般都不会作要求,我们的笔记也不例外。

    拟合优度检验其实来自于一个问题:对于观测的样本,如何推断样本服从什么样的分布?(这里你就可以看出参数统计与非参数统计的一个很大的区别了。参数统计给定分布,推测参数,而非参数统计并不给定分布,很多时候会假设分布服从一些广义上的性质,要求就宽很多,当然分析上有的时候也会难很多)从离散型数据出发,如果是一个离散型分布,那么离散型分布的每一个点上都会有一个概率。那么带上样本数,我们就可以算出:在给定这个样本量的前提下,每一点理想情况下,应该有多少的频率?然后我们的检验统计量,就是衡量我们的样本数据与这个理想情况下的差距。差距过大,自然就会拒绝假设,认为我们的这个样本并不服从于这个分布。

    因为我们不在这一块涉及证明,所以我们直接给出Pearson统计量

    这里它服从

    ,这里
    类别数,也可以理解为是分块数。
    未知参数的个数
    理想概率,也就是说在理想分布下,这一类中的概率。
    自然就是理想频率。

    为了方便理解,我们用例子来解释如何做拟合优度检验。

    Example 6:
    卢瑟福实验数据如下(上为质点数,下为观察数)

    使用拟合优度判断这个质点数是否服从泊松分布。

    首先第一步,算出分布的未知参数的极大似然估计。在这里,假设条件是泊松分布,所以我们就要算出这个分布

    中,
    应该被估计为多少。这里也就是要算出它的均值,也即

    当然有的情况下,

    已知的,这个时候就不需要估计,当然在后面也知道,这样的情况下检验统计量自由度也会不一样。

    第二步,算出这个估计值下,每一类的理想概率和理想频率。对于一般的情况,它的理想概率自然就是

    但是这里有一个检验要关注的细节:每一个类的类别个数都要不小于5,如果有小于5的类,需要进行合并。在这个问题中,

    的类别就需要被合并,所以我们实际上要算的类别只有12类。

    好的,每一类都算出来后,就把理想频率算出来,代入公式就能够得到统计量的值。现在还有最后一个问题就是这个统计量服从的分布自由度。之前我们说,服从

    。在这里,
    没有疑问,但是还要注意
    ,因为我们动用了一个未知参数。我们是用我们的估计来计算的概率,所以这里实际上要比较统计量与
    的大小。有兴趣的可以算一下,
    ,也就是说这里认为它服从泊松分布是没有问题的,我们不能拒绝。

    如果说分布是连续型分布,应该如何处理呢?我们在检验的时候,可以容易的看出,如果是离散型分布,每一个点都会有一个正的概率。这样的情况在连续型分布便荡然无存。但是也没关系,因为我们可以通过分块,使得每一块对应有一个理想频率和实际频率。同样也要遵守每一类数量不小于5的规定。我们就不再举例说明了。

    最后我们说一下列联表的独立性检验。列联表也可以叫透视表,相当于行与列各有一个类别,那么这样的话,行会有不同的水平,列也会有不同的水平,那么独立性检验顾名思义,就是检验这两个类别是否独立。怎么做呢?

    设想这张表行属性为

    ,列属性为
    。行有不同的水平
    ,列有不同的水平
    。那么独立,就代表

    用频率逼近概率,就是说,每一类事件的边缘概率

    ,如果相乘起来并不能够得到
    ,也就是说,
    得不到表中的那个值,那么就说明独立性那个式子不成立,那就无法通过独立性检验。也就是说,如果表中某一个事件的实际频率,与这个事件的理想频率差距过大,那么就应该拒绝假设。所以本质上还是拟合优度的思想。

    同样的,我们给出这个检验的统计量

    它服从

    。其中
    为对应行和列的水平数。

    我们举个例子来看一下

    Example 7:
    已知列联表的数据如下

    判断行列属性是否独立。

    这里行对应的特征有2个水平,列对应的特征有4个水平。所以

    。对于独立性检验,我们第一步,要算
    边缘概率。比方说在这里,我们可以算出
    (第一行边缘概率)。
    (第一列边缘概率),那么同样的可以算出其它的值。第二步,算表中对应值的
    理想频率。比方说在这里,第一行第一列数据的理想频率即为

    其它的7个值可以类似算出。根据这个再计算统计量即好。这里可以得到

    。也就是说独立性被破坏了,那么自然会认为,行列两个属性是不独立的。

    有兴趣的可以计算一下,如果我们的列联表数据为

    那么对应的检验统计量为

    如果你经历过高三,做过高考理科数学,你不会对这个式子感到陌生。

    正态性检验中的q-q图

    正态分布这么广泛,但是如果拿到的一组数据不是正态分布,那岂不是很郁闷?所以基于此,我们简单提一下正态性检验。在实际的统计分析中,我们也经常会使用目测法(也就是所谓的q-q图)来做这样的检验,因此我们也简单提一下目测法就好。

    对于一组数据

    ,我们做排序,然后计算它的对应的一个
    修正频率
    (这里
    就代表“第几小”的意思,如果数据是最小的,那么
    为样本数),然后把点
    正态概率图中画出来,得到的就是q-q图,如果这些点近似分布在一条直线上,那么认为它们服从正态分布。

    为什么这么说呢?因为我们所计算的“修正频率”,其实就是这个数据在正态假设下,所对应的理想频率。那么如果它们都在一条直线上,因为坐标轴是正态概率的,是经过特殊处理的(也就是说,如果从原点画一条直线,这条直线就对应一个正态分布的总体),所以这种情况下,就可以说正态性检验满足。

    具体的更加详细的正态性检验的方法,书上有W检验和EP检验。这不属于我们考虑的范畴,就不在这里细说了。关于q-q图的绘画,R语言也有很详细的介绍可供参考。我们的封面图也是q-q图,大家也可以去看一眼。

    小结

    这一节我们从假设检验的因果逻辑出发,从头到尾理清了假设检验的来源,思路,目的和它的应用场景。并且介绍了非参数检验中的拟合优度检验和统计数据分析中常见的正态性检验。这一部分对应本科数理统计的内容,而高等数理统计中,有另外一个全新的思路探究假设检验(准确来说,是参数假设检验)问题——似然比检验。我们会在下一节进一步阐述这些内容。

    ——————————————————————————————————————

    343001e1e2e71228c7c4458a47c0ad11.png

    本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃

    个人微信公众号:cha-diary,你可以通过它来获得最新文章更新的通知。

    《一个大学生的日常笔记》专栏目录:笔记专栏|目录

    《GetDataWet》专栏目录:GetDataWet|目录

    想要更多方面的知识分享吗?可以关注专栏:一个大学生的日常笔记。你既可以在那里找到通俗易懂的数学,也可以找到一些杂谈和闲聊。也可以关注专栏:GetDataWet,看看在大数据的世界中,一个人的心路历程。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~

    展开全文
  • 做线性回归的时候,检验回归方程和各...2.F检验:F检验是整体回归方程显著性的检验,即所有变量被解释变量的显著性检验3.P值:P值就是t检验用于检测效果的一个衡量度,t检验值大于或者p值小于0.05就说明该变量前...

    做线性回归的时候,检验回归方程和各变量对因变量的解释参数很容易搞混乱,下面对这些参数进行一下说明:

    1.t检验:t检验是对单个变量系数的显著性检验   一般看p值;    如果p值小于0.05表示该自变量对因变量解释性很强。

    2.F检验:F检验是对整体回归方程显著性的检验,即所有变量对被解释变量的显著性检验

    3.P值:P值就是t检验用于检测效果的一个衡量度,t检验值大于或者p值小于0.05就说明该变量前面的系数显著,选的这个变量是有效的。

    4.R方:拟合优度检验

    5.调整后的R方:

    小结:

    t检验 --用于对各变量系数显著性检验 --判断标准:一般用p值 0.05来衡量  小于0.05 显著    大于0.05不显著

    F检验 --整体回归方程显著性检验(所有自变量对因变量的整体解释) --判定:

      需查统计分布表来确定

    P值:就是用于t检验和F检验的衡量指标。

    R方:整体回归方程拟合优度检验,R方的结果越接近于1越好,但是R方会因增加变量而增大,所以引进了调整R方检验。

    调整R方:对R方检验的提升,避免受增加变量对R方的影响,配合向后删除模型观测。

    不显著的原因概述:不显著有很多原因造成,可能是你的这个变量本身与被解释变量没有相关关系,所以不显著;也可能是解释变量过多,由多重共线性引起,也可能是其他原因。

    以上观点不一定完全正确,需进一步参考学习,欢迎大神来指正。

    在进行多元线性回归时,常用到的是F检验和t检验,F检验是用来检验整体方程系数是否显著异于零,如果F检验的p值小于0.05,就说明,整体回归是显著的。然后再看各个系数的显著性,也就是t检验,计量经济学中常用的显著性水平为0.05,如果t值大于2或p值小于0.05就说明该变量前面的系数显著不为0,选的这个变量是有用的。

    参考文献:

    F检验:

    F检验(F-test)

    最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。

    它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。

    其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。

    ————————————————

    原文链接:https://blog.csdn.net/sinat_25873421/article/details/80889757

    R方,调整后的R放,F检验:

    展开全文
  • 做线性回归的时候,检验回归方程和各...2.F检验:F检验是整体回归方程显著性的检验,即所有变量被解释变量的显著性检验 3.P值:P值就是t检验用于检测效果的一个衡量度,t检验值大于或者p值小于0.05就说明该变...
  • 回归分析的基本步骤

    万次阅读 2017-01-15 22:34:44
    多重共线性检验通过样本数据建立的回归方程一般不能直接立即用于实际问题的分析和预测,需要进行各种统计检验,主要包括回归方程的拟合优度检验、回归方程显著性检验、回归系数显著性检验、残差分析、异常值检验和...
  • 多元线性回归检验

    千次阅读 2020-07-13 10:43:33
    F检验是整体回归方程显著性的检验,即所有变量被解释变量的显著性检验 F检验其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。 3.P值 P值...
  • 2回归方程显著性检验 第一步作出假设: 备择假设H1b1, b2,bk不同时为0 第二步在 成立的条件下计算统计量 第三步查表临界值 回归分析 对回归系数 3回归系数显著性检验 进行显著性 检验步骤如下 回归分析 逐步回归方法 ...
  • 图片来自网络,侵删回归上一篇文章:夔小攀:计量经济学:多元线性回归的统计检验​zhuanlan.zhihu.com我们谈到了调整后的可决系数、单个变量显著性检验、联合变量显著性检验☆ 调整后的可决系数: 让可决系数...
  • 线性回归标准化 R^2, T检验, F检验

    万次阅读 2018-05-13 16:29:46
    1、标准化对于多元线性...2、T检验T检验各个回归系数的检验,绝对值越大,sig就越小,sig代表t检验显著性,在统计学上,sig<0.05一般被认为是系数检验显著,显著的意思就是你的回归系数的绝对值显著...
  • 文章结构回归分析是通过...方程的显著性检验求得回归方程后,还不能马上就用它去做分析和预测,还需要应用统计方法对回归方程进行显著性的检验,常用的一般是F检验,其假设及检验统计量见SPSS与方差分析(F检验)4.SP...
  • 通过取若干组试件达到极限破坏状态时的法向力σ和切向力τ,建立σ关于τ的一元线性回归方程,并编写了相应程序解得最佳c、φ值,进一步对回归方程进行检验,最终发现当取显著性水平α≥0.005时,τ与σ之间有线性关系,当...
  • R语言之多元线性回归xt3.11

    千次阅读 2020-10-17 21:34:46
    源代码&... 第3章 多元线性回归 3.11 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。...(4)对回归方程显著性检验。 (5)对每一个回归系数做显著性检验.
  • 第二篇主要介绍了对于回归方程和回归系数的显著性检验,以及给出了我自己写的一个处理线性回归的函数。 这一篇介绍线性回归中回归诊断的一些问题,也就是估计出回归方程,检验了回归方程的显著性以及回归系数的显著...
  • 最后运用虚拟变量法对回归方程的结构稳定进行了检验。研究结果表明:工程建设标准和经济增长之间存在长期均衡关系,且前者是后者的Granger原因, 反之不成立;工程建设标准对经济增长具有显著的促进作用, 且在1993年...
  • 在一元线性回归中相关系数r实际上是判定系数的平方根相关系数r与归系数 的正负是相同的 3拟合优度...2.显著性检验 一是回归系数的显著性检验通常采用t检验 通常情况下即使常数项在模型中不显著也会在模型中保留 二
  • 从一元线性回归的建立、线性回归F检验、线性回归相关系数检验等方面原煤浮沉基元灰分与密度进行线性回归分析及显著性检验,同时线性回归方程预测原煤浮沉基元灰分、线性回归率b值及线性回归a值进行不确定度评定,...
  • 以项目需求和创新性为评价标准,采用线性回归法工作流中的设计过程进行预测,得到的回归方程进行线性回归关系的显著性检验,并给出了预测时间值的置信区间。采用加权分配法工作流各个节点的执行时间进行估算,...
  • 假设检验

    2019-09-29 09:07:40
    本文主要介绍三种假设检验:t-检验,f-检验,z-检验,卡方...(在多元回归中,可先用F-检验考察整个回归方程显著性,在每个系数是否为0进行t-检验) 故t检验常常用于检验单正态总体与两正态总体的均值异同(...
  • 通过多元线性回归法建立预测方程,并对方程进行残差分析和显著性检验,检验结果表明,所得方程预测效果良好,可以采用该模型预测未来全厂吨煤电耗,并利用它为全厂节能降耗提供辅助参考,使节电工作更有方向性。
  • 回归分析

    千次阅读 2013-07-25 15:03:59
    •线性回归分析的内容 能否找到一个线性组合来说明一组自变量和因变量的关系 如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强 ...对回归方程进行各种检验 利用回归方
  • stepwise逐步回归

    2018-02-06 11:46:52
    以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。本文件...
  • 在回归模型中,常见违背基本假设的情况有异方差、自相关和异常值。 异方差 回归模型中的异方差是指随机误差项的方差...参数的显著性检验失效。 回归方程的应用效果不理想。 造成异方差的常见原因: 模型缺少了某...
  • python实现逐步回归

    万次阅读 多人点赞 2018-10-25 08:49:09
    以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。 本例...
  • 以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变...
  • 基于阀门流阻性能实验测得相关数据,利用Minitab软件其进行回归分析,得到阀门阻力系数与流速的拟合曲线和回归方程,然后进行多项式显著性检验和拟合优度检验,确定出最优回归模型,并在一定置信度下对流阻系数的变化...
  • 以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。本例的...
  • 以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。本例的...
  • 多元线性回归模型

    2020-03-14 11:56:51
    线性回归模型就属于监督学习里的回归...t检验常能用作检验回归方程中各个参数的显著性,而f检验则能用作检验整个回归关系的显著性。各解释变量联合起来被解释变量有显著的线性关系,并不意味着每一个解释变量分别...

空空如也

空空如也

1 2 3 4 5
收藏数 83
精华内容 33
关键字:

对回归方程显著性检验