精华内容
下载资源
问答
  • 参数估计与假设验证

    千次阅读 2021-01-14 11:07:50
    参数估计和假设的区别和联系; 相同点:假设检验与参数估计都bai是利用样本信息对总体进行某种推断。 不同点: 1、性质不同:参数估计根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。假设检验是用来...

    参数估计和假设的区别和联系;
    相同点:假设检验与参数估计都bai是利用样本信息对总体进行某种推断。

    不同点
    1、性质不同:参数估计根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

    2、推断的角度不同:在参数估计中,总体参数在估计前未知,参数估计是利用样本信息对总体参数作出估计。假设检验则是先对数值提出一个假设,然后根据样本信息检验假设是否成立。
    3、特点不同:假设检验是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。参数估计在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程。
    在这里插入图片描述

    1.1 参数估计

    统计学理论证明:抽样平均数作为对总体均值的预测;

    抽样平均数:

    展开全文
  • 参数估计:点估计和区间估计

    千次阅读 2020-02-28 10:49:49
    参数估计就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。 点估计 点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行...

    参数估计就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。

    点估计

    点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行有关小学生身高的研究中,随机抽取1000名小学生并计算出他们的平均身高为1.46米。如果直接用这个1.46米代表所有小学生的平均身高,那么这种估计方法就是点估计。
    对总体参数进行点估计常用的方法有两种:矩估计与最大似然估计,其中最大似然估计就是我们实际中使用非常广泛的一种方法。 按这两种方法对总体参数进行点估计,能够得到相对准确的结果。如用样本均值X估计总体均值,或者用样本标准差S估计总体标准差σ
    点估计有一个不足之处,即这种估计方法不能提供估计参数的估计误差大小。对于一个总体来说,它的总体参数是一个常数值,而它的样本统计量却是随机变量。当用随机变量去估计常数值时,误差是不可避免的,只用一个样本数值去估计总体参数是要冒很大风险的。因为这种误差风险的存在,并且风险的大小还未知,所以,点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用,而在需要用精确总体参数的数据进行决策时则很少使用。

    区间估计

    区间估计就是在推断总体参数时,还要根据统计量的抽样分布特征,估计出总体参数的一个区间,而不是一个数值并同时给出总体参数落在这一区间的可能性大小,概率的保证。还是举小学生身高的例子,如果用区间估计的方法推断小学生身高,则会给出以下的表达:根据样本数据,估计小学生的平均身高在1.4~1.5米之间,置信程度为95%,这种估计就属于区间估计。

    展开全文
  • 参数估计、假设检验与回归

    千次阅读 2017-12-25 14:40:58
    参数估计、假设检验统计总体架构 拟合(fitting)   概念 已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小...

    参数估计、假设检验统计总体架构


    拟合(fitting)

     

    概念

    已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归,否则叫作非线性拟合或非线性回归。

     

    参数估计

    概念

    在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程。

     

    点估计

     

    方法

    最小二乘法和极大似然法(见Logistic regression 及MLR)

     

    最小二乘法(least-squaresmodel)

     

    概念

    使误差的平方和 ∑[p(Xi)-Yi]^2 最小

    Equation

    最小二乘矩阵形式:

    计算  ,解出其中的 x。比较直观的做法是求解 ,但通常比较低效。其中一种常见的解法是对 进行QR分解(),其中Q 是 正交矩阵(Orthonormal Matrix), R 是 上三角矩阵(Upper Triangular Matrix),则有

    分类

    普通最小二乘(OLS)、偏最小二乘、有条件(CLS)、正则化、加权

     

    极大似然估计方法(Maximum Likelihood Estimate,MLE)

     

    概念

    在已知总体X概率分布时,对总体进行n次观测,得到一个样本,选取概率最大的值作为未知参数的估计是最合理的

    Equation


    选取达到最大值的作为估计值最合理。即,  为极大似然估计值 (MLE). 其计算一般用对数求解。

    例:设总体X服从参数为p的0-1分布,(X1, X2, …, Xn) 是来自X一个样本,求p的极大似然估计。

    解:X的概率分布为


    似然函数


    其中x1, x2, ..., xn 在集合{0,1} 中取值。

     

    对数似然函数:

    注意

    极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。

     

    区间估计(interval estimation)

     

    概念

    根据样本确定待估参数 的置信区间

    方法

    常见的分布统计量(参见参考文献中的“统计学区间估计公式汇总表”)、Bootstrap方法

    区分

    区间估计:正向求解,目的是对未知参数的一个取值变化范围(区间)的检验;

    假设检验:逆向求解,目的是对已经给出的有关未知参数的一个结论作检验,看这个说法是不是应该被拒绝

     

    置信区间(confidence interval)

     

    概念

    显著性水平(符号:α)

    如5%,小于给定标准的概率区间称为拒绝区间,大于这个标准则为接受区间(置信区间 confidence interval)。

     

    置信水平(符号:1-α)

    反之。

     

    假设检验(Hypothesis Testing) / 显著性检验(Significance Test)

     

    概念

    根据一定假设条件由样本推断总体的一种方法,计算求出特定统计量(如t,F,卡方等),根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。

    分类

    参数检验(parameter test)、非参数检验(Nonparametric tests)

    方法

    参数:F检验、t检验

    非参数:拟合优度检验、Shapiro-Wilk W检验、D'Agostion's D检验、秩和检验


    Terms

    Sample

    原假设、备择假设

    原H(),备H1()

    检验统计量

    Ex,H: Ex = 8,H1: Ex > 8

    临界值c

    X > c,拒绝H;X < c,保留H

    拒绝域W、接受域A

    假设H被拒绝的样本值集合为拒绝域

    显著性水平a

    “H为真但被错误拒绝”的概率,如0.05

    参数检验、非参数检验

    参数检验:总体分布已知,对参数假设检验

    单边、双边检验

    拒绝域W={x>=c}单边,W={x<=c1或x>=c2}双边

    判断

    拒绝H0,则模型为真


    F检验(方差分析、方差齐性检验、似然比检验 Analysis of Variance, ANOVA, Fisher)

    概念

    检验两个样本的方差是否有显著性差异(通俗点,判断两方差是否足够接近)。这是选择何种T检验的前提。

    当自变量只有一个时,方差分析与t检验的结果等价。

    R-squared是查看方程拟合程度的;F检验是检验方程整体显著性的;T检验是检验解释变量的显著性的。

    公式

    F统计量的构造即为 两个服从卡方分布的统计量分别除以各自的自由度再相除。

    F=(w/n)/(v/m) 其中 W,V为服从卡方分布的统计量,n,m为W,V的自由度

    判断

    原假设:H0——无差异;H1——有显著差异

    F value的P值<显著性水平(如0.05),则方程显著

    单因素

    单因素方差分析(one way),有一个自变量

    两因素

    两因素方差分析(two way),有两个自变量,如教学方法(A1,A2,A3)学生年级(B1,B2),第一个自变量有3个水平,第二个有2个水平,3x2共六种组合

    多因素

    又可分为多重比较检验和对比检验


    t检验(studentt检验)

     

    概念

    主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。

    两组以上比较,或含有多个自变量,需要用方差分析,方差分析被认为是T检验的推广。

    判断

    H0两个平均数之间没有显著差异(即自变量对因变量无显著影响,如:性别为x,身高为y,男平均身高=女平均身高),一旦显著,则接受H1,自变量参数有效。

    分类

    (1)单总体(单样本 / single sample)

    (2)双总体检验(two sample)

    (2.1)独立样本(dependent)

    (2.2)配对样本t检验(非独立t检验 / paired samples / indenpendent)

     

    z检验(u检验)

     

    概念

    z检验用于在总体标准差已知的情况下比较样本均值与总体均值,样本容量大于30平均值差异性检验。

    判断

    H0两个平均数之间没有显著差异

    前提

    总体参数标准差已知!(更多情况下,总体标准差未知时,但样本来自正态分布时,仍考虑采用t检验)

     

    非参数检验(Nonparametric tests)

     

    优缺点

    优点:在不假定总体分布的情况下,从数据本身,由于要求的信息少,适应性相对更广

    缺点:对总体分布没有要求,方法上缺乏针对性

    当然,如果我们事先对总体分布信息一无所知或难下定论,那么建立在数据本身基础上的非参数检验结果要比建立在一个可疑的总体分布上得到的参数检验结果要可靠得多。

     

    拟合优度检验(test of goodness of fit)

     

    概念

    主要是运用判定系数(或称拟合优度)和回归标准差,检验模型对样本观测值的拟合程度。

    方法

    卡方检验

    注意

    当解释变量为多元时,要使用调整的拟合优度,以解决变量元素增加对拟合优度的影响。

     

    决定系数 / 判定系数 / 拟合优度Coefficient of determination

     

    概念

    拟合优度越大,自变量对因变量的解释程度越高,相关的方程式参考价值越高.

    R2(R squared),相关系数(coefficient of correlation)的平方即为决定系数。

    Equation


      

     is the mean of the observed data,SST (sum of squares for total)为总平方和,SSR (sum of squares for regression为回归平方和,SSE (sum of squares for error) 为残差平方和,SST=SSR+SSE

     

    卡方检验(χ2检验、皮尔逊检验 Chi-square fitting test、Pearson)

     

    Equation


    A代表观察频数,E代表基于假设H0的期望频数,A与E的差为残差

    确定显著性水平如α=0.05,查x2值表得到否定域的临界值

    判断

    如:临界值 > 统计量χ2,接受假设H0

     

    赤弛弘次信息量AIC

     

    概念

    Akaike information criterion,为日本统计学家赤池弘次创立,建立在熵的概念基础上,判断模型拟合数据的优良性。

    Equation

    AIC=2k-2ln(L)

    其中:k是参数的数量,L是似然函数。 假设条件是模型的误差服从独立正态分布。 让n为观察数,RSS为剩余平方和,那么AIC变为: AIC=2k+nln(RSS/n)

    判断

    优先考虑模型应是AIC值最小的那一个

     


    Reference

    经典非参数假设检验方法全

    统计学区间估计公式汇总表

    http://wenku.baidu.com/link?url=Ui6nRPtMhetUXVhb5ExcEAUJXXibNuf_GwczmpuCSa5USi4UQy1N2gLVf5hqhHMy9Gzy0y-0fchRQ0CU6naC_sz7WhXNiMAin6HJkf9Q0gq

    极大似然估计

    http://wenku.baidu.com/view/b4d058d17f1922791688e8d1.html


    回归总体架构



    Simple Linear regression



    多重共线性问题(Multicollinearity)

    概念

    回归模型中的解释变量之间由于存在高度相关关系而使模型估计失真

    判断

    1、特征值;

    2、条件索引;

    3、方差比例

    解决

    1、尝试增大样本量;

    2、去除专业上认为不重要但带来强共线性的变量;

    3、时间序列数据、线性模型:将原模型变换为差分模型;

    4、进行主成分、因子分析,将多个共线性强的自变量综合成少量的新变量;

    5、进行岭回归分析(Ridge Regression)、通径分析


    逐步回归分析

    概念

    解决多重共线性问题,变量选择方法。

    回归方程是显著的,方程中的自变量也是尽可能显著的,这才是最佳的回归模型。

    原理

    引入变量Xi或剔除变量Xi所进行的F检验,一般 F>=F

    包括3种方法:(1)forward,不断引入;(2)backward,不断剔除;(3)both,向前向后,反复引入剔除。


    回归系数regression coefficients


    概念

    表示自变量x 对因变量y 影响大小的参数,正回归系数表示y 随x 增大而增大,负回归系数表示y 随x增大而减小。用  表示,通常使用极大似然估计。

    e.g. 回归方程式Y=a+bX 中的斜率b就称为回归系数。

    从本质上说决定系数和回归系数没有关系。


    广义线性模型Generalized linear model(GLM)

    一般线性模型,其基本假定是y服从正态分布,而广义线性模型则y服从其它分布(如一般logistic模型中y服从二项分布)。

     

    自变量x、因变量y主要可以分为:

    (1)       连续变量,如面积、数值范围;

    (2)       有序变量(等级变量),如-/+/++,0~10/10~20/20+;

    (3)       分类变量,如广州/深圳/珠海,等级为二即二分类变量(0-1变量);

     

    GLM 很难处理连续型解释变量的情况,解决方法,将连续型解释变量的可能取值进行分组,缺点不是所有的连续型解释变量都适合分组。这时可考虑GAM。

     Logisticregression (or logit regression)

     

    概念

    属非线性回归,是研究二分类或多分类观察结果的多变量分析方法。

    变量特点

    应变量:1个,二项分布或多分类分布

    自变量:2个及2个以上

    回归系数估计方法

    极大似然法

    回归模型系数检验

    似然比检验、Wald检验、比分检验

    模型拟合效果评价

    总符合率、Hosmer-lemeshow拟合优度统计量

    分类

    binominal(or binary): dependent variable can have only two possible types(e.g. "win" vs. "loss").

    multinominal: more than two categories.

    ordinal: the multiple categories are ordered. vise versa, 无序。

    条件、非条件logistic回归

    Equation


    ,Note that  is interpreted as the probability of the dependent variable equaling a "success" or "case" rather than a failure or non-case.

     

    logit变换

     

     

     

    Odds


    odds: probability that an outcome is a case divided by the probability that it is a noncase.

     

    Odds ratio

    解释:The odds multiply by  for every 1-unit increase in x.

     

    多元线性回归Multiple Linear Regression(MLR)

     

    概念

    two or more independent variables (IVs) and a single dependent variable (DV).

    变量特点

    应变量:1个,正态分布

    自变量:2个及2个以上

    回归系数估计方法

    最小二乘法

    回归模型系数检验

    方差分析(F检验)、t检验

    模型拟合效果评价

    决定系数R2、复相关系数R、校正决定系数

    Equation


    矩阵形式:

     (for predicted values) or
     (for observed values)

    R is the multiple correlation coefficient, R can only range from 0 to 1, with 0 indicating no relationship and 1 a perfect relationship. R2 values would indicate 10%, 30%, and 50% of the variance in the DV

    区分

    Multiple linear regression

    A single output Y is influenced by a set of input X=(X1, ... ,Xr),即两个或两个以上的自变量,相对应的是一元线性回归。是简单直线模型的直接推广。

     

    Multivariate linear regression

    A output Y=(Y1, ... ,Ys), each of them may be influenced by input X=(X1, ... ,Xr). The components of Y are also correlated with each other (and with the components of X).

    Assumptions

    1. Sample size:

    50 + 8(k) for testing an overall regression model (where k is the number of IVs)

    2. Normality

    the variables are normally distributed

    3. Linearity

    the bivariate relationships need to be linear

    4. Homoscedasticity

    Are the bivariate distributions reasonably evenly spread about the line of best fit?

    5. Multicollinearity

    Is there multicollinearity between the IVs?

    6. Multivariate outliers(MVOs)

    7. Normality of residuals

    Residuals are more likely to be normally distributed if each of the variables normally distributed

     

    广义相加模型Generalized additive model(GAM)

     

    概念

    回归模型中部分或全部的自变量采用平滑函数,降低线性设定带来的模型风险

    Equation

    fi(xi)为光滑函数,代替经典线性回归中的xi,对样本要求少,适用性广。

    估计方法

    最小二乘法

     

    取值

    Y的分布

    联系函数名称

    f(Y)

    正态分布(normal

    Identity

    Y

    二项分布(binomial

    Logit

    Logit(Y

    Poisson分布

    Log

    Log(Y

    γ 分布(gamma

    inverse

    1/(Y-1

    负二项分布(negative binomial

    Log

    Log(Y


    E.g.

    logit变换


     

    Reference

    logistic回归与多元线性回归区别及若干问题讨论http://www.docin.com/p-578018693.html

    http://www.empowerstats.com/manuals/empowerRCH/html/index.php?b=s5_gam&m=

    数理统计

    http://wenku.baidu.com/link?url=5GnKukkTKQjxFXnNsjKcVPqfWumtgWAMFEP4Xbgqr4phtX2FTQjFAaLq4tLyff-BOD1JXwDC-1HAimFdCk2-kQg9-72TXxkbayGq8i-tTzO

    展开全文
  • 统计学在业内的应用1:分布、参数估计与假设检验及工业界应用统计学的方法应用框架1、统计学的学科逻辑2、分布2.1 何为分布2.2 概率分布函数(通常直接简称为分布函数)一、离散情况二、连续情况2.3、总体分布、样本...


    写在前面,由于篇幅比较长,我也是零散时间写的,所以文章总体上是有框架的,但是一些细节所放置的位置可能有所不妥当,可能需要辛苦读者朋友多次上下跳转。很是抱歉。

    统计学的方法应用框架

    在一线互联网公司技术岗工作了一年多的时间,先后从事了算法、统计学习方面的工作,作为一名本科数理统计出身的玩家,今天想对统计学的主要方法及在业内落地应用的场景做一个回顾和总结,利己利他,为大家讲明白,巩固一下自己的基本功,也是为以后留下一份比较好的笔记。

    篇幅可能比较长,读者朋友可以选取自己感兴趣的地方参考,也可以mark一下,以后用到的时候互相交流。

    在这篇Blog中,我主要会涉及到以下几个方面:

    1. 统计学的学科逻辑:统计学是一门方法论,是一个寄生学科,寄生在各行各业的数据中,脱离了行业场景和数据,统计学基本没有独立的用武之地;统计学的核心就是用样本数据(数据中的一部分数据)取描述甚至推断总体数据(全部数据),因为实际工作中,哪怕是在当下号称大数据时代的场景中,也很少有真真切切的全部数据,或者各种各样的原因无法获取全部数据,即使有全部数据,统计学依然有它发挥作用之处;
    2. 统计学的基础-抽样分布:一切的统计推断都是建立在某种分布假设或前提下的,抽样分布奠定了统计学一系列的方法论;
    3. 统计推断之参数估计:统计学宏观的讲我理解可以分为两部分,其一是描述统计,基本会以各种基础统计量(均值、标准差等)描述数据的分布情况,或以各种可视化的方式更好的理解数据,对数据做出洞察和洞见,这部分本篇中不会涉及,描述统计更像艺术,一个好的描述统计足以让阅读者了解数据的基本情况,描述统计的方式也多种多样,一千个人眼里有一千个哈姆雷特;其二是推断统计,及用样本数据的样子去推断(估计)总体数据的样子,本篇主要会回顾统计推断,首先是参数估计;
    4. 统计推断之假设检验:统计推断中比较重要的两块儿内容,其一是上述的参数估计,其二就是假设检验,假设检验通常更会直接影响决策;
    5. 统计学常用方法:本节会简单介绍一些统计学常用的方法,如实验设计常用的方差分析、预测问题常用的回归分析、降为问题常用的PCA,本篇不涉及具体原理,以后有空可以再其他篇幅中另外详细回顾;
    6. 统计学在业内的落地和应用场景:读者一定也很感兴趣统计学在工业界到底有哪些用途,本节会就我个人遇到的部分场景做一些介绍。

    1、统计学的学科逻辑

    统计学是一门寄生学科,是一门方法论,本质上要依托于实际工业而产生作用和价值。统计学的本质就是在有限的样本下,推断总体的情况。

    例1:比如说,我看好了一家公司的某个职位,我想了解一下应该要多少工资比较好,即所有员工的平均工资,而我又没有公司所有员工的工资条,那应该怎么办呢?比如说公司有200人,我随机在门口先后拦截了15个人套近乎,问道了他们的工资,假设他们都说了实话,那我求一个平均数和标准差,而我对自己的能力有比较强的自信,认为自己在平均水平之上,那我就在平均数上加上0.8倍的标准差,定为自己想要的薪资(当然,如果我不幸的选中了两个老板级别的人物,工资太高,我自然会对这两个样本进行删除,这便是离群值的处理),这样我就用了一部分数据推断了总体数据的平均水平。

    例2:再比如我想看该公司是否男女平等,同样的,选了15个男员工和15个女员工询问其工资,建立假设检验,检验男女员工工资是否存在差异,具体的后面会详细说明。

    综上所述,统计学是一门研究样本,使用样本对总体做出科学推断的学科。

    2、分布

    2.1 何为分布

    统计学的基础便是分布,何为分布?顾名思义,就是数据长什么样子,首先,分布是建立在随机变量上的,所谓随机变量,通常认为是随机事件的结果变量,例如掷骰子(6面骰),抛硬币(正反面),结果的情况就是概率分布,以掷6面的均匀骰子为例:

    投掷结果123456
    概率 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61

    这便是概率分布。

    2.2 概率分布函数(通常直接简称为分布函数)

    我会先统一以离散情况(抛硬币,掷骰子这样结果可以逐一列出来的,不管结果是否是有限个,就属于离散随机变量,比如每天的温度这样无法一一列出来的的属于连续型随机变量,ps:原则上说,0摄氏度-1摄氏度直接有无限多个温度值,无法列出来)对分布相关的知识做回顾。
    为什么需要分布函数呢?因为实际情况中,像掷骰子这种只可能有6种结果的情况不在少数,但更多的情况下是结果非常多,100个,100万个,是指是无穷个可能的结果,这样我们编写表格是困难的甚至是不可实现的,那么我们就应当用一个高度概括的函数 f ( x ) f(x) f(x)去代替这个分布表格,取解决哪些数不过来的情况。

    一、离散情况

    依然以掷骰子的例子来说,一般教材中会先介绍一个概念叫做 “分布律”,也可能叫做“概率函数”,也有很多海归背景的人会叫他“概率质量函数”(感觉第三种叫法用的人比较多)它是啥呢?

    P ( X = X k ) = p k ( k = 1 , 2 , 3... , 对 于 掷 骰 子 , k = 1 , 2 , 3 , 4 , 5 , 6 ) P(X = X_k)=p_k (k=1,2,3...,对于掷骰子,k=1,2,3,4,5,6) P(X=Xk)=pk(k=1,2,3...,,k=1,2,3,4,5,6)

    切记,上面这个是分布率,不是概率分布函数。分布律描述的是出现某种结果(科学的说应该是每种各个结果)的概率。
    在分布律的基础下,就是概率分布函数:

    F ( x ) = P ( X < = x ) = ∑ x k < = x p k F(x)=P(X<=x)=\sum_{x_k<=x}p_k F(x)=P(X<=x)=xk<=xpk

    F ( x ) F(x) F(x)是概率分布函数(简称分布函数),概率分布函数是概率函数的累加,所以它又被叫做累计概率函数。本质上,概率函数(分布律)和累计概率函数(概率分布函数)是描述随机变量结果的两种方式,前者是描述单一结果的概率,后者则是累加多个单一结果的概率。(我承认各种概率函数、概率分布函数、累计概率函数特别烦人,各种名字,只能怪从外文翻译过来的种类太多了,大家习惯一下。。。我做了如下总结)

    对于离散型随机变量,有如下主要信息:
    1、概率函数(分布律,概率质量函数):probability mass function,简称PMF;描述的是离散随机变量出现某特定结果的概率;
    2、概率分布函数(分布函数,累积分布函数):cumulative distribution function,简称CDF,是对PMF的累加,能完整描述一个实随机变量X的概率分布
    3、另有 F ( a < x < b ) = F ( b ) − F ( a ) F(a < x < b)=F(b)-F(a) F(a<x<b)=F(b)F(a)

    PS:嗯。。。如果和别人就概率分布函数等概念交流起来有问题就用英文简称吧,一般不会有歧义。

    二、连续情况

    连续情况下,其实就没有分布律一说了,比如说在[1,100]实数范围内,取到1的概率是多少呢?0,在二维空间中求一维对象的任何值都是没有意义的。[1,100]实数集就是连续的,而[1,100]的整数就是离散的~。
    既然如此,连续随机变量下的PMF如何定义呢?在一个区间中,一个点的统计没有意义,但是一群点组成的一个子区间就是有意义的,好比一根线,你统计一个点的长度,是无法计算的,但是统计一段线的长度就是可以的。
    为了在连续型随机变量情况下给出PMF等价的概念,引入了“概率密度函数”probability density function简记PDF(可以简称密度函数)。如何理解“密度”这一概念,引用陈希孺老师所著的《概率论与数理统计》这本书中的讲解:
    Alt
    所以说,概率密度描绘的是随机变量落在一个点邻域(附近)的概率的变化情况(注意:并非概率本身而是变化情况),而概率分布函数(CDF)则是概率密度的积分(广义的说也就是求和),如下图所示:

    引用简书讲解
    Alt
    概率密度函数是概率分布函数的导函数,反之,概率密度函数的积分则是概率分布函数。如上图所示,曲线为概率分布函数曲线,它的斜率就是概率密度,切记,概率密度是变化速率,不是随机变量落在某范围内的概率值
    Alt

    对于连续型随机变量,有如下主要信息:
    1、概率密度函数(概率密度):probability density function,简称PDF;给出了 x i x_i xi落在某值 x x x邻域内的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率
    2、概率分布函数:cumulative distribution function,简称CDF,是对PDF的积分,即面积,是 x i x_i xi落在某范围的概率。

    引用原文链接:https://blog.csdn.net/anshuai_aw1/article/details/82626468的说明,我觉得很形象:

    概率密度函数在某一参数下值的意义:比较容易理解的意义,某点的概率密度函数即为概率在该点的变化率(或导数)。该点概率密度值并非概率值.
    比如: 距离(概率)和速度(概率密度)的关系.
    某一点的速度,不能以为是某一点的距离,没意义;因为距离是从XX到XX的概念。所以概率也需要有个区间。这个区间可以是x的邻域(邻域大小可以无限趋近于0)。对x邻域内的 f ( x ) f(x) f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

    写在后面(参考出处):

    1、为何需要有概率分布函数:对于离散型随机变量,可以直接用分布律来描述其统计规律性,而对于连续型随机变量,无法一一列举出随机变量的所有可能取值,所以它的概率分布不能像随机变量那样进行描述,于是引入PDF,用积分来求随机变量落入某个区间的概率。
    分布律不能描述连续型随机变量,密度函数不能描述离散随机变量,因此需要找到一个统一方式描述随机变量统计规律,这就有了分布函数。另外,在现实生活中,有时候人们感兴趣的是随机变量落入某个范围内的概率是多少,如掷骰子的数小于3点的获胜,那么考虑随机变量落入某个区间的概率就变得有现实意义了,因此引入分布函数很有必要。
    2、概率分布函数的意义:分布函数在点处的函数值表示落在区间内的概率,所以分布函数就是定义域内的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。

    2.3、总体分布、样本分布、抽样分布

    一、总体、样本、抽样分布

    大数据时代下经常认为我们可以有总体数据,所谓总体数据,就是你研究对象的全集,就好比上文中公司员工工资的例子,你如果拿到了财务的员工工资清单,就有了所有人的工资,那便不需要做推断,有了全部的数据,你看到的即为真实的情况,这便是总体;但在没有这个清单的情况下,我选择随机的选取一部分人做调查,这部分人的工资就是样本,样本可大可小,可想而知,样本量越大(越接近总体),那样本产生的信息就越可信,越和总体真实情况一样。对应的,就有了总体分布和样本分布:

    • 总体分布:总体中各元素的观测值所形成的相对频数分布,称为总体分布。
    • 样本分布:从总体中抽取一个容量为 n n n的样本,由这 n n n个观测值形成的相对频数分布,称为样本分布。
      读者们应该还常听说一个名词,叫做抽样分布,抽样分布在课本中出现的频次甚至高于总体分布和样本分布,那么何为抽样分布?
    • 抽样分布:在重复选取样本量为 n n n的样本时,由该样本统计量的所有可能取值形成的相对频数分布。举个例子,你从一个容量为 N N N的总体中,抽取了1000次样本量未 n ( n < N ) n(n<N) n(n<N)的样本,统计这1000个样本的某个统计量,比如样本均值,那样本均值这个随机变量就是有分布的,它的分布叫做抽样分布。切记,抽样分布是统计量的分布。
      OK,了解了总体分布、样本分布和抽样分布后,补充介绍统计推断的两个奠基理论:大数定律&中心极限定理

    二、大数定律

    百度百科解释:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。即大量重复试验,随机事件发生的频率为其概率
    大数定律不会对已经发生的情况进行平衡,而是利用新的数据来削弱它的影响力,直至前面的结果从比例上看影响力非常小,可以忽略不计。 这就是大数定律发生作用的原理。 简而言之,大数定律发挥作用,是靠大数对小数的稀释作用。举个例子,你抛一个均匀正常的1元硬币,即使你十分的幸运,连续10次抛出正面,但是再抛1000次后,你会发现这1010次中正面出现的频数基本在一半左右,起初10次100%正面的作用在大量重复(大数)试验的作用下微乎其微,下图为用计算机模拟的10000次跑硬币得到正面的频率,可以发现,最终会收敛在0.5,这就是抛硬币得到正面的概率。
    归纳为一句话:随着样本量的增大,样本的均值几乎必然的等于真实总体的均值。()
    在这里插入图片描述

    三、中心极限定理

    中心极限定理的说明如下:

    大量的独立随机变量之和具有近似于正态的分布,教科书定义如下:
    设 随 机 变 量 X 1 , X 2 , … 独 立 同 分 布 , E X 1 = μ , V a r ( X 1 ) = σ 2 > 0 。 如 果 S n = ∑ j = 1 n X j , 则 S n 的 标 准 化 ξ n = S n − n μ n σ 2 → N ( 0 , 1 ) , 即 对 任 何 x i , lim ⁡ n → ∞ P ( ξ n ≤ x ) = P ( Z ≤ x ) , 其 中 Z ∼ N ( 0 , 1 ) 设随机变量X_1,X_2,…独立同分布,EX_1=\mu,Var(X_1)=\sigma^2>0。如果S_n=\sum\limits_{j=1}^{n}X_j,则S_n的标准化\xi_n=\frac{S_n-n\mu}{\sqrt{n\sigma^2}}\rightarrow N(0,1),即对任何x_i,\lim\limits_{n\rightarrow \infty}P(\xi_n\le x)=P(Z\le x),其中Z \sim N(0,1) X1,X2,EX1=μVar(X1)=σ2>0Sn=j=1nXjSnξn=nσ2 SnnμN(0,1)xinlimP(ξnx)=P(Zx)ZN(0,1)

    中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布近似正态分布。
    PS:关于大数率和中心极限定理一些理论概念的补充可以参考这个博客
    关于中心极限定理证明可以参考知乎回答

    2.4、常见分布

    一、二项分布

    回顾二项分布之前先来回顾伯努利分布:
    伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。例如掷一次硬币的结果(正vs反);买一注彩票(中vs不中);某篮球队伍一场比赛的结果(赢vs输)。

    其概率分布称为伯努利分布(Bernoulli distribution),也称为两点分布或者0-1分布,是最简单的离散型概率分布。我们记成功概率为 p ( 0 ≤ p ≤ 1 ) p(0≤p≤1) p(0p1),则失败概率为 q = 1 − p q=1-p q=1p

    若随机变量 X X X服从二项分布,则其数学期望和方差为:
    E ( X ) = p E(X)=p E(X)=p
    V a r ( X ) = p q Var(X)=pq Var(X)=pq

    接下来是二项分布:
    如前所述,某个伯努利实验,其成功概率用 p p p表示,失败的概率为 q = 1 − p q=1-p q=1p。进行 n n n次这样的试验,成功了 x x x次,则失败次数为 n − x n-x nx,发生这种情况的概率可用下面公式来计算(PMF):
    p ( x ) = C n x p x ( 1 − p ) n − x p(x)=C_n^{x}p^{x}(1-p)^{n-x} p(x)=Cnxpx(1p)nx

    若随机变量 X X X服从伯努利分布,记做 X ∼ B ( n , p ) X \sim B(n, p) XB(n,p),则其数学期望和方差为:
    E ( x ) = n p E(x)=np E(x)=np
    V a r ( x ) = n p ( 1 − p ) Var(x)=np(1-p) Var(x)=np(1p)

    当二项分布n较大(通常认为大于等于30)时,其分布近似于 N ( n p , n p ( 1 − p ) ) N(np, np(1-p)) N(np,np(1p))的正态分布。

    二、正态分布

    正态分布实际上是由二项分布经过一些推导得来的,具体的可以参考文章
    期望为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的正态分布记为 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)
    正态分布的概率密度函数如下所示:
    f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π σ1exp(2σ2(xμ)2)
    正态分布PDF图如下所示:
    在这里插入图片描述

    三、泊松分布

    泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数(也是二项分布推导而来)。
    其概率质量函数如下:
    p ( X = k ) = e − λ λ k k ! p(X=k)=\frac{e^{-\lambda} \lambda^k}{k!} p(X=k)=k!eλλk
    若随机变量 X X X服从泊松分布 P ( λ ) P(\lambda) P(λ),在其期望和方差分别为:
    E ( X ) = λ E(X)=\lambda E(X)=λ
    V a r ( X ) = λ Var(X)=\lambda Var(X)=λ

    四、样本方差的抽样分布

    样本方差的抽样分布用 χ 2 \chi^2 χ2分布表示。设 μ 1 \mu_1 μ1 μ 2 \mu_2 μ2、…、 μ m \mu_m μm为m个独立同分布的标准正态变量,则其平方和 Y = ∑ i = 1 n μ i 2 Y=\sum_{i=1}^{n}\mu_i^2 Y=i=1nμi2的分布为自由度为 m m m χ 2 \chi^2 χ2分布,记做 χ 2 ( m ) \chi^2(m) χ2(m)
    E ( y ) = m E(y)=m E(y)=m
    V a r ( y ) = 2 m Var(y)=2m Var(y)=2m
    不同自由度的卡方分布如下图所示, n n n越大,其越近似与正态分布。
    在这里插入图片描述
    另,记样本方差为 s 2 s^2 s2,则:
    ( n − 1 ) s 2 σ 2 ∼ χ ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim\chi(n-1) σ2(n1)s2χ(n1)

    五、样本均值与样本标准差只比的t分布

    由中心极限定理可知,样本均值 x ‾ \overline{x} x的分布为 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) N(μ,nσ2),其标准化变量 x ‾ − μ σ / n \frac{\overline{x}-\mu}{\sigma/{\sqrt{n}}} σ/n xμ服从 N ( 0 , 1 ) N(0,1) N(0,1),其中 μ \mu μ σ \sigma σ为总体均值和总体标准差。如果把标准化变量中的总体标准差更换为样本标准差 s s s,则前述标准化变量将服从自由度为 n − 1 n-1 n1 t t t分布,记做 t ( n − 1 ) t(n-1) t(n1)
    另,若 X X X~ N ( 0 , 1 ) N(0,1) N(0,1) Y Y Y ~ χ 2 ( n ) \chi^2(n) χ2(n),且 X X X Y Y Y相互独立,则 x Y / n \frac{x}{\sqrt{Y/n}} Y/n x~ t ( n ) t(n) t(n)

    • n = 1 n=1 n=1时, t t t分布为柯西分布,不存在数学期望;
    • n > 1 n>1 n>1时, t t t分布存在数学期望, E ( t ) = 0 E(t)=0 E(t)=0
    • n > 2 n>2 n>2时, t t t分布存在方差, V a r ( t ) = n n − 2 Var(t)=\frac{n}{n-2} Var(t)=n2n
      t t t分布的期望和方差可以看出,它很接近 N ( 0 , 1 ) N(0,1) N(0,1),尤其是当 n n n比较大的时候,二者是趋于一致的。如下图所示,样本量不太大时,t分布也是一个钟型线(同正态分布一样),只是它要更“矮”和更“平坦”一些。
      在这里插入图片描述

    六、两个独立正态样本方差之比的F分布

    X 1 ∼ χ 2 ( n 1 ) X_1\sim\chi^2(n_1) X1χ2(n1) X 2 ∼ χ 2 ( n 2 ) X_2\sim\chi^2(n_2) X2χ2(n2),且 X 1 X_1 X1 X 2 X_2 X2独立,则: F = X 1 / n 1 X 2 / n 2 F=\frac{X_1/n_1}{X_2/n_2} F=X2/n2X1/n1,记为 F ( n 1 , n 2 ) F(n_1,n_2) F(n1,n2)( X 1 X_1 X1 X 2 X_2 X2可以视作样本方差的分布,这样就记住F分布的含义了,样本方差服从卡方分布,两个卡方分布之比是 F F F分布)。

    • n 2 > 2 n_2>2 n2>2时, F F F分布数学期望存在, E ( F ) = n 2 n 2 − 2 E(F)=\frac{n_2}{n_2-2} E(F)=n22n2
    • n 2 > 4 n_2>4 n2>4时, F F F分布方差存在, E ( F ) = 2 n 2 2 ( n 1 + n 2 − 2 ) n 1 ( n 2 − 2 ) 2 ( n 2 − 4 ) E(F)=\frac{2n_2^2(n_1+n_2-2)}{n1(n_2-2)^2(n_2-4)} E(F)=n1(n22)2(n24)2n22(n1+n22)
    • KaTeX parse error: Undefined control sequence: \simF at position 2: F\̲s̲i̲m̲F̲(n_1,n_2),则 1 F ∼ F ( n 2 , n 1 ) \frac{1}{F}\sim F(n_2,n_1) F1F(n2,n1)
    • t ∼ t ( n ) t\sim t(n) tt(n),则 t 2 ∼ F ( 1 , n ) t^2\sim F(1, n) t2F(1,n)
      不同自由度的 F F F分布的分布图如下所示:
      在这里插入图片描述

    3、参数估计

    参数估计是统计学中的核心方法之一,所谓“估计”——就是在我们不知道真实值的情况下推真实值进行一个推断,通常有点估计、区间估计两种方式。因为往往,我们并不知道总体的全部数据,例如我们想知道某个时间结点下北京市所有人的平均身高 H H H,这是 H H H就是我们的未知参数。总体就是北京市全部人口的身高,而在不进行普查的情况下,我们是获取不到这个数据的,这就需要我们使用一些方法,推测这个 H H H,这就是参数估计。

    3.1、点估计

    点估计推断总体阐述的方式基本思路是获取到一个样本,用样本的平均值 H ^ \hat{H} H^代替总体的平均值。这就叫做“点估计”。
    常见的点估计方法包括:矩法估计、极大似然估计(暂时不详细展开了)。
    点估计的可靠性是由其抽样分布的标准误差(通常也叫做标准误)来衡量的。

    这里,要说明一下标准差(standard deviation)标准误差(standard error) 的差异:

    • 标准差就不多说了,描述数据的离散程度,任何一个总体都有其总体标准差(通常用 σ \sigma σ 表示),当我们无法获取总体全部,而是使用一个样本的时候,对应的产生样本标准差(通常用 s s s表示, s = 1 n − 1 ∑ i = 1 n ( x i 2 − x ‾ ) 2 s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i^2-\overline x)^2} s=n11i=1n(xi2x)2 )
    • 而标准误差( S E SE SE)是抽样分布(样本统计量的分布)的标准差。通常是在推断统计例如参数估计的过程中用来评价估计的有多准确或者有多离谱的场景下使用的(本质也是描述离散程度)。当我们无法获取总体,我们可以尽可能多的从标准差为 σ \sigma σ的总体中抽取样本量为 n n n的样本,每个样本有一个均值 x ‾ \overline x x,样本平均值的标准差 S D x ‾ = σ n SD_{\overline x}=\frac{\sigma}{\sqrt n} SDx=n σ,这是大数定律告诉我们的,而我们并不知道总体标准差,所以用样本标准差 s s s代替 σ \sigma σ,即 S E x ‾ = s n SE_{\overline x}=\frac{s}{\sqrt n} SEx=n s
      二者的核心差异在于标准差是某一次抽样得到样本后的样本离散程度度量,而标准误是多次抽样后得到了多个样本均值组成的新样本(比如100次抽样,得到了100个 x ‾ \overline x x,这就是咱们算 S E SE SE用的新样本)的离散程度。
      请牢记标准误差,它将是后面推断统计中的一个重要因素!

    下面简单回顾一下无偏估计和有偏估计:
    有偏估计和无偏估计
    左侧是一个估计值 A ^ \hat A A^的概率密度函数(代表了它的抽样分布),虚线对应的 A ^ \hat A A^的数学期望等于总体分布的总体均值 A A A,这就是无偏估计,若二者不等,如右图,则为有偏估计。还有一个概念叫做“渐进无偏估计”,是说当n很大(趋于无穷)时,估计值为渐进无偏估计。例如,样本方差( s 2 = 1 n − 1 ∑ ( x i 2 − x ‾ ) 2 s^2=\frac{1}{n-1}\sum(x_i^2-\overline x)^2 s2=n11(xi2x)2)是总体方差 σ 2 \sigma^2 σ2的无偏估计,而样本的平均偏差平方和( s n 2 = 1 n ∑ ( x i 2 − x ‾ ) 2 s_n^2=\frac{1}{n}\sum(x_i^2-\overline x)^2 sn2=n1(xi2x)2)则是总体方差 σ 2 \sigma^2 σ2总体的渐进无偏估计,显而易见,n很大时二者趋于相等。

    3.2、区间估计

    用一个样本得到的估计值代表总体参数的估计值可能或多或少有点儿“一言堂”,有些中央集权了,而区间估计是在点估计的基础上给出总体参数估计的一个估计区间(上下限),该区间是由样本统计量加减估计误差得到的,这样就比较民主,且把握更大(好比射击打靶,命中靶心是很难得,就那一个点,但是命中靶子或者命中靠近靶心的区域是简单的、更有把握的)。区间估计示意图如下所示:
    在这里插入图片描述
    样本均值 x ‾ \overline x x的数学期望为 μ \mu μ,标准误差为 σ n \frac{\sigma} {\sqrt n} n σ,则样本均值落在总体均值1个标准误差范围内的概率是68%;2个标准误差内的概率为95%,3个标准误差范围内的概率是99.7%。实际用用中, μ \mu μ是未知的, x ‾ \overline x x是已知的,所以反其道而行之,若样本均值落在总体均值1个标准误差范围内,则说明总体均值包括在以 x ‾ \overline x x为中心,左右两侧1个标准误差范围内。( x ‾ \overline x x落在 μ \mu μ的1.65、1.96、2.58倍标准误差范围内的概率分别为90%、95%、99%)。
    由样本估计量构造出的总体参数在一定置信水平下的估计区间称为置信区间。何为“置信”,就是在一定程度上确信该区间会包含真实的总体参数。例如95%置信区间的含义是:重复抽样若干次(比如100次),每次抽样都可以构造出一个估计区间,其中95个区间包含了真实的总体参数值,5%没有包含。95%称为置信水平或置信度或置信系数。

    3.3、评价估计量的标准

    1、无偏性(前面已经提及,不重复赘述);
    2、有效性:估计量的方差尽可能小。用估计量的方差或标准误来度量;
    3、一致性:随着样本量的增大,点估计量的值与被估计的总体参数越来越仅仅。

    3.4、常见区间估计

    一、单总体参数区间估计
    单总体均值区间估计的核心思想是:
    x ‾ ± ( 分 位 数 值 × x ‾ 的 标 准 误 差 ) \overline x±(分位数值×\overline x的标准误差) x±(×x)
    单总体比例区间估计的核心思想是( p p p为样本比例):
    p ± ( 分 位 数 值 × p 的 标 准 误 差 ) p±(分位数值×p的标准误差) p±(×p)
    在这里插入图片描述
    二、两总体参数区间估计
    两总体均值区间估计核心思想:
    ( x 1 ‾ − x 2 ‾ ) ± 分 位 数 值 × ( x 1 ‾ − x 2 ‾ ) 的 标 准 误 差 (\overline {x_1}-\overline {x_2})±分位数值×(\overline {x_1}-\overline {x_2})的标准误差 (x1x2)±×(x1x2)
    两总体比例区间估计核心思想:
    ( p 1 − p 2 ) ± 分 位 数 值 × ( p 1 − p 2 ) 的 标 准 误 差 (p_1-p_2)±分位数值×(p_1-p_2)的标准误差 (p1p2)±×(p1p2)
    在这里插入图片描述
    其中,上图中 s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)s22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}} v=n11(s12/n1)2+n21(s22/n2)2(n1s12+n2s22)2 d ‾ \overline d d表示各组配对样本差值的均值。
    三、区间估计样本量确定
    E E E代表允许的估计误差
    1、估计总体均值时样本量确定:

    • 估计单总体均值: n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{(z_{\alpha/2})^2\sigma ^2}{E^2} n=E2(zα/2)2σ2
    • 估计两总体均值差: n 1 = n 2 = ( z α / 2 ) 2 ( σ 1 2 + σ 2 2 ) E 2 n_1=n_2=\frac{(z_{\alpha/2})^2(\sigma_1^2+\sigma_2^2)}{E^2} n1=n2=E2(zα/2)2(σ12+σ22)

    2、估计总体比例时样本量确定:

    • 估计一个总体比例: n = ( z α / 2 ) 2 π ( 1 − π ) E 2 n=\frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2} n=E2(zα/2)2π(1π),其中 π \pi π为总体比例;
    • 估计两个总体比例差: n 1 = n 2 = ( z α / 2 ) 2 ( π 1 ( 1 − π 1 ) + π 2 ( 1 − π 2 ) ) E 2 n_1=n_2=\frac{(z_{\alpha/2})^2(\pi_1(1-\pi_1)+\pi_2(1-\pi_2))}{E^2} n1=n2=E2(zα/2)2(π1(1π1)+π2(1π2))

    4、假设检验

    4.1、假设检验基本概念

    假设检验是推断统计中另一个重要的分支,与参数估计地位不相上下。参数估计是用样本信息推断未知的总体参数,而假设检验是对总体参数提出一个假设值,然后利用样本去判断这个假设是否成立。假设检验中分位两种假设:

    • 原假设(零假设,null hypothesis):通常是我们想要推翻的假设,用 H 0 H_0 H0表示;
    • 备择假设(alternative hypothesis):通常是我们希望证明成立的假设,用 H 1 H_1 H1表示。

    例如:
    H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0:μ1=μ2
    H 1 : μ 1 ≠ μ 2 H_1:\mu_1≠\mu_2 H1:μ1=μ2
    原假设最初被假设为成立的,然后根据样本数据确定是否有足够的证据拒绝(推翻)这个假设。
    假设检验中,若备择假设没有方向性,使用 ≠ ≠ =,这样的假设检验称为双侧检验,如果备择假设有方向性,并含有 > > > < < <的假设检验称为单侧检验( < < <对应左侧检验, > > >对应右侧检验)。

    4.2、如何完成假设检验

    一、两类错误与显著性水平

    我们知道,样本具有随机性,我们用具有随机性的样本去推断总体是存在一定风险的,也就是说在假设检验的场景中,我们不一定能做到100%的正确,存在犯错误的风险。理想情况是:当原假设正确时,我们不拒绝它;当它不正确时,我们拒绝了它。对应的,我们就会用两种错误:

    • 1、原假设正确,但是我们拒绝了原假设,称为第一类错误,也叫拒真错误,犯第一类错误的概率记为 α \alpha α,故这类错误也成为 α \alpha α错误;
    • 2、原假设错误,但我们没能拒绝它,称为第二类错误,也叫取伪错误,犯错误的概率记为 β \beta β,故这类错误也成为 β \beta β错误。

    也就是拒绝原假设时我们就有可能犯第一类错误;未拒绝原假设时有可能犯第二类错误; α \alpha α β \beta β在样本来量一定时,是跷跷板的关系,无法同时减小(其加和不是1)。同时减少二者的唯一方式就是增加样本量。按道理说,哪种错误会导致更严重的后果,我们就应当首先降低这种错误(比如原假设是某个病毒对人类无害,不需要注意,如果我们犯了第二类错误,即病毒对人有害,而我们没有拒绝原假设,认为病毒无害,可能就会带来一场空前绝后的传染病,但如果我们犯第一类错误,即病毒对人无害,但我们拒绝了它,认为病毒对人有害,我们进行了一系列措施防治,顶多是多花费了一些金钱,老话说得好,有备无患,钱能解决的问题都不叫问题,花钱买平安,那么其实犯第二类错误的后果更严重,那么我们可以努力降低 β \beta β,对应的,适当放松对 α \alpha α的要求)。实际情况中, α \alpha α可以由研究者实现控制,而 β \beta β相对难以计算,所以我们通常是先控制 α \alpha α
    假设检验中犯第一类错误的概率称为显著性水平,记为 α \alpha α显著性水平是研究者事先指定的犯第一类错误概率的最大允许值( α \alpha α越小,对应 β \beta β就会越大, α \alpha α通常为 0.05 0.05 0.05,或 0.01 0.01 0.01,或 0.1 0.1 0.1)。

    二、如何决策

    1、用统计量决策

    我们用样本可以对总体参数(比如总体均值)做出点估计,将这个点估计标准化后,就可以度量它与原假设参数值之间的差异程度(在均值和比例的假设检验下通常是这样的方法):
    标 准 化 检 验 统 计 量 = 点 估 计 量 − 假 设 值 点 估 计 量 的 标 准 误 差 标准化检验统计量=\frac{点估计量-假设值}{点估计量的标准误差} =
    该量反映了点估计量与假设的总体参数相比差了多少个标准差的距离。
    有了样本,就可以计算标准化检验统计量,我们实现给定显著性水平 α \alpha α后,可以在统计量的分布上找到临界值,根据您显著性水平和对应的临界值围成的区域称为==“拒绝域”==,若统计量落在拒绝域内就拒绝原假设,反之不拒绝。用统计量判断是否拒绝原假设的方式,在双侧和单侧检验的情况如下图所示:
    在这里插入图片描述

    2、用p值决策

    用统计量检验,不管统计量的值是大还是小,只要它落入拒绝域就会拒绝原假设,此时,我们只能说犯第一类错误的概率是 α \alpha α,但实际上,统计量不同值,或者说它落在拒绝域的不同位置,对应犯第一类错误的概率是不同的。所以如果能把犯第一类错误的概率计算出来,是更好的选择。这个概率就是 P P P值。
    P P P值的意义是:如果原假设正确,那么得到的样本结果会像实际观测结果那么极端或更极端的概率称为 P P P值,也称为观察到的显著性水平。
    判断规则很简单:如果 P P P值小于显著性水平则拒绝原假设,反之不拒绝。

    三、多说一些

    1、p值的含义

    关于p值,我想多说一些:

    美国统计学会(American Statistical Association, ASA)明确告诉我们:
    P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
    ( p值不是“我们研究的假设是真的”的概率,也不是“数据仅仅由随机因素产生的”的概率)

    p值解释的并非假设本身,而是数据和假设的关系(比如,我们收集到的A组和B组的数据,和假设“A与B的平均值存在明显差异”的关系)。这是因为,假设本身要么就是对的,要么就是错的,不存在一个概率的问题
    举个例子:我们得到了A公司中部分普通职员中男性员工的工资和女性工资数据,其中男性平均月薪7500元,女性平均月薪7300元,我们想证明男女员工工资存在明显差异,即原假设是男员工工资=女员工工资,备择假设是二者不等。进行两双样本t检验后,得到了p值为0.013,那么这个p值的含义是什么呢?它的含义是:如果我们的假设是正确的(即男性员工工资与女性员工工资没有差异),那么我们在这个样本下得到男性员工与女性员工工资相差200元这个结果,甚至于更极端(差异大于200元)的结果的概率是0.013。

    p值描述的是:如果原假设是正确的,我们得到某次观测值甚至更极端的值的概率

    其实,p值描述的是数据和一个特定的统计学模型(原假设)的不匹配程度:p值越小,数据和该统计学模型的不匹配程度就越大。

    可以看到,如果我们的原假设正确,我们得到如同当前样本表现或者更极端表现结果的概率只有0.013(1.3%),相当低,所以我们有比较充分的理由怀疑原假设的正确性,如果将显著性水平定为0.05,我们可以拒绝原假设,即拒绝男女工资无差异的原假设。

    2、显著≠大效应

    所谓效应,对于上述案例,就是这个差异的大小,上述案例在7000+工资范围上存在200的差异,看起来不太小,假如大家的公司不是7000+这个水位,而是700000+(好有钱啊。。。。),那么200这个差异可以说是微乎其微,效应很小,所以,pvalue很小,我们可能认为存在统计显著,但和存在大的效应是两码事。

    3、p>0.05(或某个显著性水平)≠无效

    如果pvalue大于显著性水平下,我们通常认为无统计显著性,但正如之前所说的,pvalue说的是假设与样本数据之间的关系,我们只能说pvalue带给我们的信息是目前的样本无法作为拒绝原假设证据,而不是原假设成立的证据,不拒绝原假设不代表原假设为真的概率很高。对应到例子就是,加入pvalue比较大,为0.3,那么它的含义是说当前没有足够的证据说明男女工资存在差异,并不能说明我们可以证明男女工资相等。
    上述说明主要受到于个人图书馆360doc文章的启发,这个文章讲的很好。

    四、总体参数的检验

    1、单个总体参数的假设检验

    单个总体参数(如总体均值、总体比例、总体方差)的假设检验通常是通过样本检验总体参数是否等于(或大于或小于)某个常数值,比如通过一个班的男生学生身高作为样本,检验全校男生学生平均身高是否等于175cm。
    总体均值、方差的检验,要求总体服从正态分布。
    在这里插入图片描述

    2、两个总体参数的假设检验

    首先是两总体均值差的检验,统计量如下所示,其中: s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)S_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)S22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 n 1 ) 2 n 1 − 1 + ( s 2 2 n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} v=n11(n1s12)2+n21(n2s22)2(n1s12+n2s22)2
    在这里插入图片描述
    两总体比例差有两种情况:检验二者相等或二者差为某固定值,如下所示,其中 p p p为两样本中合并的比例: p = p 1 n 1 + p 2 n 2 n 1 + n 2 p=\frac{p_1n_1+p_2n_2}{n_1+n_2} p=n1+n2p1n1+p2n2。比例检验中通常要求 n 1 p 1 、 n 1 ( 1 − p 1 ) 、 n 2 p 2 、 n 2 ( 1 − p 2 ) n_1p1、n_1(1-p_1)、n_2p_2、n_2(1-p_2) n1p1n1(1p1)n2p2n2(1p2)都大于等于10,就认为是大样本,大样本下可得到样本比例差的抽样分布为正态分布。
    在这里插入图片描述
    两总体方差比,要求两总体独立,服从正态:
    H 0 : σ 1 2 σ 2 2 = 1 H_0:\frac{\sigma_1^2}{\sigma_2^2}=1 H0:σ22σ12=1
    H 1 : σ 1 2 σ 2 2 ≠ 1 H_1:\frac{\sigma_1^2}{\sigma_2^2}≠1 H1:σ22σ12=1
    检验统计量为:
    F = s 1 2 s 2 2 F=\frac{s_1^2}{s_2^2} F=s22s12

    写在后面:这里着重说一下独立样本和配对样本,所谓独立样本,顾名思义,两组样本是独立的,顾不干扰,例如选取两个班级男生的身高,作为两个组,他们就是独立的;而配对样本是说他们是有联系的,比如10个患者用药前的效果,和他们用药后效果的差异,这就属于配对样本了。对应的区间估计和假设检验的统计量是不同的。

    5、统计学常用方法梳理

    待补充

    6、业内应用场景

    待补充

    展开全文
  • 参数估计的一点学习记录,一些基本滤波算法的框架
  • 目录基本框架经典统计推断:最大似然估计贝叶斯统计推断:最大后验概率 基本框架 经典统计推断:最大似然估计 贝叶斯统计推断:最大后验概率
  • 在工程技术中广泛地使用标准差,因为它与随机变量本身相同的量纲(具有实际物理意义)。但是在理论推导中,使用方差较方便。 值得注意的是, 方差本质上是随机变量函数 的期望,即随机变量和均值离差的期望 ,...
  • 数据分析的意义和方法

    万次阅读 2019-02-28 10:19:52
    数据分析的意义 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概况总结的过程,是为了寻求问题的答案而实施的计划、步骤的行为。 数据分析分类:...
  • 傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界...所以,不管读到这里的您从事种工作,我保证您都能看懂,并且一定将体会到通过傅里叶分析看到世界另一个样子时的快感。至于对于已经一定基础
  • AMOS的使用之输出结果分析(4)

    万次阅读 2014-08-23 19:55:53
    解释AMOS输出结果" style="margin:0px; padding:0px; border:0px; list-style:none"> 输出的底部显示卡方值为76.10 ,自由度为6。检验整体拟合的数据模型的统计检验。这个检验统计量检验数据的总体模型拟合,...
  • 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨科技猛兽编辑丨极市平台导读本文对恺明的新作MAE进行了深度的解析,他提出一种用于计算机视觉的可扩展自监督学习方案Maske...
  • 估计参数真值所在的范围通常以区间的形式给出,同时还给出此区间包含参数真值的可信程度,这种形式的估计称为区间估计,这样的区间称为置信区间。 对于任意参数θ在可能的取值范围内,P{θ12}≥1-α,则称随机区间...
  • excel回归分析结果解读

    千次阅读 2021-01-17 14:44:26
    前言1.“回归”一词的由来我们不必在“回归”一词上费太多脑筋。英国著名统计学家弗朗西斯·高尔顿(Francis Galton,1822—1911)是最先应用...父母矮,儿女也矮,但从平均意义上说,给定父母的身高,儿女的身高却趋同...
  • 应用回归分析-第3章课后习题参考 答案第3章 多元线性回归思考与练习参考答案3.1 见教材P64-653.2 讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n与自变量个...
  • 如何理解最大似然估计

    千次阅读 2017-11-07 19:41:25
    1、作用在已知实验结果的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ\theta作为真实θ^\hat\theta的参数估计。说的通俗一点:最大似然估计就是利用已知的样本结果,反推最可能(最大概率)...
  • 在《Geodetic Time Series Analysis in Earth Science》一书中所提到的于最小二乘法,加权最小二乘法以及极大似然估计法进行了概括,并总结出为什么极大似然估计是最佳估计! 1、原汁原味请参考Bos(2020)第二章; ...
  • 其核心思想是寻找一个非线性函数sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。算法的输出是0到1之间的值,这个值是真实的概率吗?带着这个问题,我们来一探究竟。 logistic regression 可以概述为这样...
  • Understanding Hypothesis Tests: Significance Levels (Alpha) and P values in Statistics
  • 运动估计与运动补偿

    千次阅读 2014-11-03 09:54:58
    运动估计是从视频序列中抽取运动信息的一整套技术。 运动估计与运动补偿技术  MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索(half pixel searching)技术...
  • 【计量经济学导论】04. 多重共线性

    千次阅读 2020-10-29 20:22:29
    认清这一点非常重要,对我们分析多重共线性下参数估计的统计性质很大的帮助。下面我们给出严格的定义。 完全共线性 对于解释变量 X1,X2,⋯ ,XkX_1,X_2,\cdots,X_kX1​,X2​,⋯,Xk​ ,如果存在不全为 000 的常数 ...
  • 文章目录1、无偏估计量2、最小方差准则...而所谓无偏估计,是指估计量的均值,等于未知参数的真值,即对未知参数θ\thetaθ, E(θ^)=θ,a<θ<b, {\rm E}( \hat \theta)=\theta,\quad a<\theta<b, ...
  • 组间差异检验,终于人讲清楚了!

    千次阅读 2020-12-01 00:14:53
    就是组间的差异分析以及显著性检验,应用统计学上的假设检验方法,检验组间是否差异及其差异程度。坦率地讲,所有的差异检验都基于一个假设:组间没有差异,变量之间没有关系(即原假设,)。上海交大王成老师也说...
  • 以euroc.launch和euroc_config.yaml为例对VINS中的启动文件launch和参数配置文件yaml进行详细介绍,并讨论自己在实验中调参的感受。欢迎大家一起讨论。
  • 文章目录1.简介1.1光流基本知识1.2光流分类3.光流法实战3.1正向光流 1.简介 1.1光流基本知识 ...按算法分类,两种分法: 一种可以分为迭加法或组合法...(人翻译:叠加式(additive)和构造式(composition...
  • nbsp生物学生物统计学-标准差(SD)和标准误(SEM)有何区别.pdf3页本文档一共被下载:次,您可全文免费在线阅读后下载本文档。 下载提示1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔...
  • 内核线程、软中断和定时器有何区别? 在慢速中断的过程中,允许别的中断发生      Re: 内核线程、软中断和定时器有何区别? 2.4中还有慢速中断吗?  ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,975
精华内容 3,990
关键字:

参数估计结果有何意义

友情链接: Elevators.rar