-
概率到统计的思考与理解
2013-11-30 14:39:001、样本空间与总体的关系 样本空间,在茆诗松等编著的《概率论与数理统计教程》一书中,是这样定义的:随机现象的一切可能的基本结果组成的集合称为样本空间,每个基本结果被称为样本点。首先理解一下,什么是随机...由于统计学在现实生活和“高端”科学研究中有着很高的地位,时常思考统计相关的问题,加深对它的基础理论的理解应该对我们理解和研究现实世界有帮助。
1、样本空间与总体的关系
样本空间,在茆诗松等编著的《概率论与数理统计教程》一书中,是这样定义的:随机现象的一切可能的基本结果组成的集合称为样本空间,每个基本结果被称为样本点。首先理解一下,什么是随机现象?随机现象就是在一定条件下,并不总是出现相同结果的现象,称为随机现象。这里我们不去深究什么是现象,因为他的解释本身是抽象的,抽象的东西相对具体的东西理解稍微困难一点,我们可以在不断的学习过程中慢慢理解、意会这些概念。这里我们固定了某个关心的结果后,就可以产生样本空间了。比如,我们研究“某个环境中,固定条件下,投掷骰子出现的点数”,这里我们考虑的是出现的点数这种结果形式,为什么不是说结果,而是说结果形式,只是微妙的一点点差别而已,结果是确定的,而结果形式是概述这些可能的结果,我这样理解,但是由于这样会带来理解上的负担,干脆用“结果”这个词来代替了,在大多数情况下,大家都可以意会。这个例子中,我们考虑的是投掷骰子这种随机现象的出现点数这种结果,所以样本点有“出现1点”,“出现2点”,...,"出现6点",这些样本点组成样本空间。样本空间还强调了“一切可能”,表征全面性。样本空间的本质属性是集合,这个定义不想我们大家在代数中学到的空间一样,代数中,空间是定义了运算以及某些限定条件的集合,他跟分析中的空间也不一样,总之概率中的样本空间仅仅是一个集合而已,如果你愿意,你可以叫他样本集合。
总体,我们继续把茆诗松等人的定义作为理解的出发点,所谓总体就是指研究对象的全体。与样本空间不同,样本空间是随机现象的我们所关心的结果的集合,而总体是指对象的全体,它本质也是集合的概念,每个研究对象是可以区分开来的,每一个对象我们称之为个体,总体只说明是对象的集合,没有说明是结果的集合,但是很多情况下,或者研究统计的科学家实际上是想把总体定义成结果的集合的,实际中他们也是这样用的。他们隶属的学科也不同,样本空间属于概率论的范畴,总体属于统计的范畴。概率是给出某些假设本质,研究本质后的现象问题,就是说概率是已知概率分布,然后研究随机变量的关系啊,性质啊,给一些新的变量定义啊,比如数学期望,方差,标准差啊之类的,统计是为了发现总体某种原始本质性质,而做出的数学上的分析和理解。当然这只是我个人的理解,也许事实不是这样的,不管事实怎样,这样理解并不会对我们理解统计学的基本原理和方法造成障碍。
既然学科不同,即使他们有联系,我们在考虑不同学科的时候,根据上下文区分即可,不要过于纠结,纠结多了,会阻止我们前进的。
2、理解总体之后的概念和需要研究的问题
知道了什么是总体,什么是个体了么? 如果我们要研究某个区域中学生的身高,那么这个区域中所有学生的身高构成了我们研究问题的总体,每个学生的身高就是一个个体。这样一来,我们如果继续思考下,写书的作者也做过讨论,就是做数学理论研究,很容易想到去除实际背景,研究去除背景后的数学模型的性质理论。这里呢,我们就去除身高这个实际名词,我们研究的是代表身高的那一堆数,这堆数有的出现的次数多一点,有的出现的次数少一点,也就是说在这堆数中任意取一个数,每个数都有可能被抽到。那么我们可以把这个数看成随机变量去研究它,是可以的,这堆数有用一个分布函数来描述它,每个数用随机变量描述它。再插一点,什么是随机变量呢?随机变量是定义在样本空间上的一个实值函数。又提到样本空间了,另一种理解,样本空间就是这个区域中所有学生,样本点就是每个学生,那么不管你研究身高,还是体重,这两个都可以给出数量指标,这个指标完全可以用实数来表示,这就是随机变量了,如果考虑的是身高和体重,用一个二维随机变量来表示就行了。现在我们研究的是统计学问题,随机变量就是定义在总体之上的实值函数,但是前面我们说的总体是全体学生的身高啊,怎么不是全体学生呢?哈哈,可以根据上下文区分下,总体到底是什么,一般我们研究的是可以量化的指标,如果只考虑某一个指标的时候,我们研究的每个同学只有一个这样的指标,所以这个指标可以认为就是这个同学了,但是我们在研究多个指标的情况下,我们只能把总体看成是全体学生了,你不把它看成全体学生也可以,可以认为每个个体只是变成了一个多维描述的指标了而已。
在纠正道正路上来,我们研究总体的性质有很多限制,比如我们没有那么多人力去认真统计某个大区域中的所有学生身高。我们又想知道总体到底是一个什么样子的。其实我们说研究性质,不是十分准确,概率统计中,只要分布已知了,本质就知道了。所以准确的说,我们是为了研究总体的分布,想知道总体到底满足什么分布,然后某些分布具有什么性质,就是概率论研究的内容了。
不能每个个体都研究,我们就想一个办法来近似的研究整体,就是找一个我们认为能很好的代替总体的一个小集合来研究下,为了更好的在数学上研究呢,我们就引进了样本的概念。关于样本的定义大家有一点差别,但是不会影响我们后面的学习,我倾向于于寅写的高等工程数学里的理解,当然他也许不是这个定义的创造者,但是我读了他的书,学知识而已,就认为是他写的也不会影响我们最终的收获。样本就是按照一定规则从总体抽取的若干个体,抽取的个体数目称为样本容量,有的人也就他样本量。如果我们抽取的规则是随机的,也就是说每个个体被抽到的机会是均等的;每一次抽取的个体跟其它次抽取行为没有关系。这样的到的样本叫简单随机样本。我们大多数情况下研究这样的样本。因为这样的样本才能很好的反应总体的本质。至于为什么这样的样本能反应总体分布,我没有去证明,也许有前辈已经证明了,我们就可以站在前辈的肩膀上了。
想想,既然从总体中是随机拿到的一个值,那么代表这个值得变量就是随机变量了,它应该跟总体满足相同的分布,而且他们相互独立,所谓独立同分布啊。所以一个样本可以认为是一个多维随机变量,每一维都是独立的。试验做毕,你会得到一组值,这组值就是样本观测值。试验就是抽取个体的过程。样本中的每个个体呢,也有个新名字,叫样品。有的时候也不区分这个,所以有些书里面也就不介绍了。
-
分布直方图分析概率_推论统计分析学习(1)—概率分布与抽样分布
2020-12-21 07:19:23它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。相比于描述统计学,主要有俩点不同。1、定义不同:描述统计学是通过图表或数学方法,对数据资料进行整理、分析,并对数据的...推论统计学是指在统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
相比于描述统计学,主要有俩点不同。
1、定义不同:描述统计学是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。推论统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。
2、主要内容不同:描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。推论统计包括总体参数估计与假设检验两种。前者以一次性抽样实验为依据,对整个总体的某个数字特征做出估计。后者则是对某种假设进行检验,根据计算结果推断所做的假设是否可以接受。
思维导图及目录 一、概率分布
1、随机变量
随机事件:在随机试验中,可能发生也可能不发生的事件,如明天是否下雨。
随机变量:用随机的数字表示随机事件的可能结果,常用大写字母X表示。
随机变量分为离散随机变量和连续随机变量。
计算离散随机变量的概率公式叫概率质量函数(Probability Mass Function), 统计形状为离散型概率分布,变量大小与数量有关。
计算连续随机变量的概率公式叫概率密度函数(Probability Density Function), 统计形状为连续型概率分布,变量大小与曲线下面积有关。
2、概率分布
概率分布的类型有很多,分为离散型概率分布和连续型概率分布,其中
离散概率分布主要有伯努利分布,二项分布,几何分布,泊松分布;
连续概率分布主要有正态分布, 幂律分布。
下面我们介绍这6种常见概率分布。
2.1 伯努利分布(Bernouli Distribution)
也称为“两点分布”,其E(X)=p(0<p<1),Var(X)=pq。最为简单的一个例子就是抛硬币,其正面为1,背面为0,其概率p为0.5,则其概率分布满足伯努利分布。
Python实现过程如下:
#导入包 #数组包 import numpy as np #绘图包 import matplotlib.pyplot as plt #统计计算包的统计模块 from scipy import stats ''' 第1步,定义随机变量:1次抛硬币 成功指正面朝上记录为1,失败指反面朝上记录为0 ''' X = np.arange(0, 2,1) #第2步,#求对应分布的概率:概率质量函数 (PMF) #它返回一个列表,列表中每个元素表示随机变量中对应值的概率 p = 0.5 # 硬币朝上的概率 pList = stats.bernoulli.pmf(X, p) plot默认绘制折线,这里我们只绘制点,所以传入下面的参数: marker:点的形状,值o表示点为圆圈标记(circle marker) linestyle:线条的形状,值None表示不显示连接各个点的折线 ''' plt.plot(X, pList, marker='o',linestyle='None') ''' vlines用于绘制竖直线(vertical lines), 参数说明:vline(x坐标值, y坐标最小值, y坐标值最大值) 我们传入的X是一个数组,是给数组中的每个x坐标值绘制竖直线, 竖直线y坐标最小值是0,y坐标值最大值是对应pList中的值 ''' plt.vlines(X, 0, pList) #x轴文本 plt.xlabel('随机变量:抛硬币1次') #y轴文本 plt.ylabel('概率') #标题 plt.title('伯努利分布:p=%.2f' % p) #显示图形 plt.show()
2.2 二项分布(Binomial distribution):
做某件事(相互独立)n次,结果要么成功要么失败,每次成功的概率相同,想知道成功r次的概率是多少。
成功概率记为p, 失败概率为1-p,记为q。计算公式:
二项分布就是做了n次伯努利实验,当n=1时,二项分布就是伯努利分布。
Python实现过程:
#导入包 #数组包 import numpy as np #绘图包 import matplotlib.pyplot as plt #统计计算包的统计模块 from scipy import stats ''' arange用于生成一个等差数组,arange([start, ]stop, [step, ] ''' #第1步,定义随机变量:5次抛硬币,正面朝上的次数 n = 5 # 做某件事情的次数 p = 0.5 # 做某件事情成功的概率 X = np.arange(0, n+1,1) X array([0, 1, 2, 3, 4, 5]) #第2步,#求对应分布的概率:概率质量函数 (PMF) #它返回一个列表,列表中每个元素表示随机变量中对应值的概率 pList = stats.binom.pmf(X, n, p) pList array([ 0.03125, 0.15625, 0.3125 , 0.3125 , 0.15625, 0.03125]) #第3步,绘图 ''' plot默认绘制折线,这里我们只绘制点,所以传入下面的参数: marker:点的形状,值o表示点为圆圈标记(circle marker) linestyle:线条的形状,值None表示不显示连接各个点的折线 ''' plt.plot(X, pList, marker='o',linestyle='None') ''' vlines用于绘制竖直线(vertical lines), 参数说明:vline(x坐标值, y坐标最小值, y坐标值最大值) 我们传入的X是一个数组,是给数组中的每个x坐标值绘制竖直线, 竖直线y坐标最小值是0,y坐标值最大值是对应pList中的值 ''' plt.vlines(X, 0, pList) #x轴文本 plt.xlabel('随机变量:抛硬币正面朝上次数') #y轴文本 plt.ylabel('概率') #标题 plt.title('二项分布:n=%i,p=%.2f' % (n,p)) #显示图形 plt.show()
2.3 几何分布(Geometric distribution)
在n次伯努利实验中,每次成功的概率相同,想知道实验r次时才取得第1次成功的概率是多少。
成功概率记为p, 失败概率为1-p,记为q。计算公式:
Python实现过程:
#导入包 #数组包 import numpy as np #绘图包 import matplotlib.pyplot as plt #统计计算包的统计模块 from scipy import stats ''' arange用于生成一个等差数组,arange([start, ]stop, [step, ] ''' ''' 第1步,定义随机变量: 首次表白成功的次数,可能是1次,2次,3次等 ''' #第k次做某件事情,才取到第1次成功 #这里我们想知道5次表白成功的概率 k = 5 # 做某件事情成功的概率,这里假设每次表白成功概率都是60% p = 0.6 X = np.arange(1, k+1,1) X array([1, 2, 3, 4, 5]) ''' 第2步,#求对应分布的概率:概率质量函数 (PMF) 它返回一个列表,列表中每个元素表示随机变量中对应值的概率 分别表示表白第1次才成功的概率,表白第2次才成功的概率,表白第3次才成功的概率, 表白第4次才成功的概率,表白第5次才成功的概率 ''' pList = stats.geom.pmf(X,p) pList array([ 0.6 , 0.24 , 0.096 , 0.0384 , 0.01536]) #第3步,绘图 ''' plot默认绘制折线,这里我们只绘制点,所以传入下面的参数: marker:点的形状,值o表示点为圆圈标记(circle marker) linestyle:线条的形状,值None表示不显示连接各个点的折线 ''' plt.plot(X, pList, marker='o',linestyle='None') ''' vlines用于绘制竖直线(vertical lines), 参数说明:vline(x坐标值, y坐标最小值, y坐标值最大值) 我们传入的X是一个数组,是给数组中的每个x坐标值绘制竖直线, 竖直线y坐标最小值是0,y坐标值最大值是对应pList中的值 ''' plt.vlines(X, 0, pList) #x轴文本 plt.xlabel('随机变量:表白第k次才首次成功') #y轴文本 plt.ylabel('概率') #标题 plt.title('几何分布:p=%.2f' % p) #显示图形 plt.show()
2.4 泊松分布(Poisson distribution)
当一个随机事件以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数就近似地服从泊松分布。
计算公式:
μ:在给定的时间范围内发生某件事的平均次数;
r : 事情发生的次数。
Python实现过程:
#导入包 #数组包 import numpy as np #绘图包 import matplotlib.pyplot as plt #统计计算包的统计模块 from scipy import stats ''' arange用于生成一个等差数组,arange([start, ]stop, [step, ] ''' ''' 第1步,定义随机变量: 已知某路口发生事故的比率是每天2次, 那么在此处一天内发生k次事故的概率是多少? ''' mu = 2 # 平均值:每天发生2次事故 k=4 #次数,现在想知道每天发生4次事故的概率 #包含了发生0次、1次、2次,3次,4次事故 X = np.arange(0, k+1,1) X array([0, 1, 2, 3, 4]) #第2步,#求对应分布的概率:概率质量函数 (PMF) #它返回一个列表,列表中每个元素表示随机变量中对应值的概率 #分别表示发生1次,2次,3次,4次事故的概率 pList = stats.poisson.pmf(X,mu) pList array([ 0.13533528, 0.27067057, 0.27067057, 0.18044704, 0.09022352]) #第3步,绘图 ''' plot默认绘制折线,这里我们只绘制点,所以传入下面的参数: marker:点的形状,值o表示点为圆圈标记(circle marker) linestyle:线条的形状,值None表示不显示连接各个点的折线 ''' plt.plot(X, pList, marker='o',linestyle='None') ''' vlines用于绘制竖直线(vertical lines), 参数说明:vline(x坐标值, y坐标最小值, y坐标值最大值) 我们传入的X是一个数组,是给数组中的每个x坐标值绘制竖直线, 竖直线y坐标最小值是0,y坐标值最大值是对应pList中的值 ''' plt.vlines(X, 0, pList) #x轴文本 plt.xlabel('随机变量:某路口发生k次事故') #y轴文本 plt.ylabel('概率') #标题 plt.title('泊松分布:平均值mu=%i' % mu) #显示图形 plt.show()
2.5 正态分布
又称高斯分布,是一个非常常见的连续概率分布,中间高,两边低,左右对称,大部分数据集中在中间的平均值附近。
求正态分布概率的计算办法:
- 确定概率范围;
- 根据标准分公式Z=(X-μ)/σ ,求出对应概率的标准分Z大小;
- 查找Z表格中,Z值对应的概率。
Python实现过程:
#导入包 #数组包 import numpy as np #绘图包 import matplotlib.pyplot as plt #统计计算包的统计模块 from scipy import stats ''' arange用于生成一个等差数组,arange([start, ]stop, [step, ] ''' ''' 第1步,定义随机变量: ''' mu=0 #平均值 sigma= 1 #标准差 X = np.arange(-5, 5,0.1) #第2步,概率密度函数(PDF) y=stats.norm.pdf(X,mu,sigma) #第3步,绘图 ''' plot默认绘制折线 ''' plt.plot(X, y) #x轴文本 plt.xlabel('随机变量:x') #y轴文本 plt.ylabel('概率:y') #标题 plt.title('正态分布:$mu$=%.1f,$sigma^2$=%.1f' % (mu,sigma)) #网格 plt.grid() #显示图形 plt.show()
2.6 幂律分布
幂律分布、长尾分布、二八法则、赢者通吃、马太效应,其实他们说的都是一件事。那就是绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有224个国家和地区,只有11个国家的人口数超过一亿。
二、抽样分布
1、总体与样本
总体:所要考察对象的全体叫做总体。
样本:从总体中所抽取的一部分个体叫做总体的一个样本。
样本的抽取方法有:简单随机抽样、系统抽样、分层抽样。
简单随机抽样:从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
系统抽样:依据一定的抽样距离,从母体中抽取样本。要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法。
分层抽样:从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。这种方法的优点是样本的代表性比较好,抽样误差比较小。
简单随机抽样的Python实现:
pandas数据框(DataFrame)的抽样方法利用sample方法来实现。
2、中心极限定理
中心极限定理是概率论中最重要的一类定理,它支撑着和置信区间相关的T检验和假设检验的计算公式和相关理论。
中心极限定理的通俗解释:给定一个任意分布的总体,每次从这些总体中随机抽取 n 个抽样(即为一个样本),一共抽 m 次,然后把这 m 组抽样(即为m个样本)分别求出平均值。这些平均值的分布接近正态分布。
要注意的点是:
1)总体本身的分布不要求正态分布;
2)样本每组要足够大,但也不需要太大。取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用;
3)样本的平均值约等于总体平均值。
根据总体的信息,可以判断某个样本是否属于总体。
3、用样本估计总体
利用中心极限定理可以用样本估计出总体的平均值,也可以用样本来估计总体的方差或标准差。
标准误差:就是求所有样本的平均值的标准差。
根据上图可以看出:
68%的样本平均值在总体平均值±1个标准误差范围内;
95%的样本平均值在总体平均值±2个标准误差范围内;
99.7%的样本平均值在总体平均值±3个标准误差范围内;
如果某个样本平均值在总体平均值的±3个标准误差范围以外,我们可以说该样本不属于这个总体。
4、避免偏差
样本偏差:以少数个体的信息代表总体,以偏概全。例如通过少数人不读书也能取得大成就来证明读书无用论。实际读书学习是当代人生存标配技能,以个例来代表总体,但是个例没有代表性。避免这种偏见,我们需要用更有代表性的数据信息来代表总体。
幸存者偏差:只看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。一般情况下由于样本信息渠道过于单一,得到的样本信息不全面,因此得到不正确的结论。避免这种偏见,我们需要学会多个角度全面观察问题,避免获取的信息渠道过于单一,看到的现象过于片面。
概率偏见:人们自以为是的概率叫做心理概率,当心理概率和客观概率不吻合的时候就出现了概率偏见。例如由于飞机出事后人们的恐惧心理认为飞机出行很危险。为避免这样的偏见,我们需要客观地看待问题,使用科学的方法去验证概率,可以多咨询专家,降低偏见的可能性。
信息茧房:是指看到的信息都是自己感兴趣的,而看不见世界其他信息。个性化推荐更容易导致信息茧房。如果我们想获取不一样的信息,就需要避免信息茧房。
-
数学知识——概率统计(7):极限思维:大数定理与中心极限定理
2020-02-13 22:34:43那就是当抽到的样本很大时,所有的样本的均值和样本所属总体的期望的均值是以很大概率接近的,这个定理之所以强大是因为无论样本之间是相互独立的还是有什么关联,无论是不是从同一个总体中抽取的都没有关系,...1. 大数定律
当样本足够大时,样本均值收敛到总体均值(期望)
大数定律说明了这样一个事实,那就是当抽到的样本很大时,所有的样本的均值和样本所属总体的期望的均值是以很大概率接近的,这个定理之所以强大是因为无论样本之间是相互独立的还是有什么关联,无论是不是从同一个总体中抽取的都没有关系,只要n趋于无穷大那么样本均值一定以很大的概率接近于其期望的均值。2. 中心极限定律
当样本足够大时,样本均值的分布趋近于正态分布。
更为重要的一点是,这个定理对随机变量 X 的原始分布没有任何要求,非常具有一般性。3. 两个重要的不等式
-
马尔科夫不等式
对于一个非负的随机变量 X,如果它的均值很小的话,那么这个随机变量取到一个大值的概率是非常小的。 -
切比雪夫不等式
如果一个随机变量的方差非常小的话,那么这个随机变量取到远离均值 μ 的概率也是非常小的。
4. 大数定理的应用:蒙特卡罗方法
- 近似计算不规则面积/体积/积分
- 模拟随机过程,预测随机过程可能性结果的区间范围
- 利用马尔科夫链—蒙特卡罗方法(MCMC)进行未知参数的统计推断
参考
-
-
-
T检验与F检验的区别和关系
2018-12-19 17:30:16一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布...转自于:http://www.cdadata.com/9116
1,T检验和F检验的由来
一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。
通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。
F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现目前样本这结果的机率。
2,统计学意义(P值或sig值)
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标【P值越大,可信度越低】。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。
3,T检验和F检验
至于具体要检定的内容,须看你是在做哪一个统计程序。
举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t检验。
两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢?
会不会总体中男女生根本没有差别,只不过是你那么巧抽到这2样本的数值不同?
为此,我们进行t检定,算出一个t检定值。
与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较,看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。
若显著性sig值很少,比如<0.05(少于5%机率),亦即是说,「如果」总体「真的」没有差别,那麼就只有在机会很少(5%)、很罕有的情况下,才会出现目前这样本的情况。虽然还是有5%机会出错,但我们还是可以「比较有信心」的说:目前样本中这情况(男女生出现差异的情况)不是巧合,是具统计学意义的,「总体中男女生不存差异」的虚无假设应予拒绝,简言之,总体应该存在著差异。
每一种统计方法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单一值是否等于0或者等于某一个数值。
至于F-检定,方差分析(或译变异数分析,Analysis of Variance),它的原理大致也是上面说的,但它是透过检视变量的方差而进行的。它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。
4,T检验和F检验的关系
t检验过程,是对两样本均数(mean)差别的显著性进行检验。惟t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因方差是否相等而有所不同。也就是说,t检验须视乎方差齐性(Equality of Variances)结果。所以,SPSS在进行t-test for Equality of Means的同时,也要做Levene’s Test for Equality of Variances 。
1.在Levene’s Test for Equality of Variances一栏中 F值为2.36, Sig.为.128,表示方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故下面t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。
2.在t-test for Equality of Means中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,亦即,两样本均数差别有显著性意义!
3.到底看哪个Levene’s Test for Equality of Variances一栏中sig,还是看t-test for Equality of Means中那个Sig. (2-tailed)啊?
答案是:两个都要看。
先看Levene’s Test for Equality of Variances,如果方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故接著的t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。
反之,如果方差齐性检验「有显著差异」,即两方差不齐(Unequal Variances),故接著的t检验的结果表中要看第二排的数据,亦即方差不齐的情况下的t检验的结果。
4.你做的是T检验,为什么会有F值呢?
就是因为要评估两个总体的方差(Variances)是否相等,要做Levene’s Test for Equality of Variances,要检验方差,故所以就有F值。
T检验和F检验的关系另一种解释:
t检验有单样本t检验,配对t检验和两样本t检验。
单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。
配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受试对象处理前后。
F检验又叫方差齐性检验。在两样本t检验中要用到F检验。
从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t’检验或变量变换或秩和检验等方法。
其中要判断两总体方差是否相等,就可以用F检验。
若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
简单来说就是实用T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。
1、问:自由度是什么?怎样确定?
答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制——要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。
在计算作为估计量的统计量时,引进一个统计量就会失去一个自由度。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
简单点就好比你有一百块,这是固定的,已知的,假设你打算买五件东西,那么前四件你可以随便买你想买的东西,只要还有钱的话,比如说你可以吃KFC可以买笔,可以买衣服,这些花去的钱数目不等,当你只剩2块钱时,或许你最多只能买一瓶可乐了,当然也可以买一个肉松蛋卷,但无论怎么花,你都只有两块钱,而这在你花去98块那时就已经定下来了。 (这个例子举的真不错!!)
2、问:X方检验中自由度问题
答:在正态分布检验中,这里的M(三个统计量)为N(总数)、平均数和标准差。
因为我们在做正态检验时,要使用到平均数和标准差以确定该正态分布形态,此外,要计算出各个区间的理论次数,我们还需要使用到N。
所以在正态分布检验中,自由度为K-3。(这一条比较特别,要记住!)
在总体分布的配合度检验中,自由度为K-1。
在交叉表的独立性检验和同质性检验中,自由度为(r-1)×(c-1)。
3、问:t检验和方差分析有何区别
答:t检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用方差分析。
用于比较均值的t检验可以分成三类,第一类是针对单组设计定量资料的;第二类是针对配对设计定量资料的;第三类则是针对成组设计定量资料的。后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面的特征相似配成对子。无论哪种类型的t检验,都必须在满足特定的前提条件下应用才是合理的。
若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;
若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
值得注意的是,方差分析与成组设计t检验的前提条件是相同的,即正态性和方差齐性。
t检验是目前医学研究中使用频率最高,医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用,究其原因,不外乎以下几点:现有的医学期刊多在统计学方面作出了要求,研究结论需要统计学支持;传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍,使之成为广大医学研究人员最熟悉的方法;t检验方法简单,其结果便于解释。简单、熟悉加上外界的要求,促成了t检验的流行。但是,由于某些人对该方法理解得不全面,导致在应用过程中出现不少问题,有些甚至是非常严重的错误,直接影响到结论的可靠性。将这些问题归类,可大致概括为以下两种情况:不考虑t检验的应用前提,对两组的比较一律用t检验;将各种实验设计类型一律视为多个单因素两水平设计,多次用t检验进行均值之间的两两比较。以上两种情况,均不同程度地增加了得出错误结论的风险。而且,在实验因素的个数大于等于2时,无法研究实验因素之间的交互作用的大小。
问:统计学意义(P值)
答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的P值通常被认为是可接受错误的边界水平。
4、问:如何判定结果具有真实的显著性
答:在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学意义,而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。
5、问:所有的检验统计都是正态分布的吗?
答:并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
6、问:假设检验的内涵及步骤
答:在假设检验中,由于随机性我们可能在决策上犯两类错误,一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;一类是假设不正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第二类错误。一般来说,在样本确定的情况下,任何决策无法同时避免两类错误的发生,即在避免第一类错误发生机率的同时,会增大第二类错误发生的机率;或者在避免第二类错误发生机率的同时,会增大第一类错误发生的机率。人们往往根据需要选择对那类错误进行控制,以减少发生这类错误的机率。大多数情况下,人们会控制第一类错误发生的概率。 发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下,假设检验按下列步骤进行:
1)、确定假设;
2)、进行抽样,得到一定的数据;
3)、根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值;
4)、依据所构造的检验统计量的抽样分布,和给定的显著性水平,确定拒绝域及其临界值;
5)、比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设;
到这一步,假设检验已经基本完成,但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道那一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率(即给定的显著性水平),而无法知道具体在多大概率水平上犯错。计算 P值有效的解决了这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法,我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少,p=0.03<α=0.05,那么拒绝假设,这一决策可能犯错的概率是0.03。需要指出的是,如果P>α,那么假设不被拒绝,在这种情况下,第一类错误并不会发生。
7、问:卡方检验的结果,值是越大越好,还是越小越好?
答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。
如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。
8、问:配对样本的T检验和相关样本检验有何差别?
答:配对样本有同源配对(如动物实验中双胞胎)、条件配对(如相同的环境)、自身配对(如医学实验中个体的用药前后)等。(好像没有解释清楚啊,同问这个,到底什么区别呢?)
9、问:在比较两组数据的率是否相同时,二项分布和卡方检验有什么不同?
答:卡方分布主要用于多组多类的比较,是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异,要求每格中频数不小于5,如果小于5则合并相邻组。二项分布则没有这个要求。
如果分类中只有两类还是采用二项检验为好。
如果是2*2表格可以用fisher精确检验,在小样本下效果更好。
10、问:如何比较两组数据之间的差异性
答:从四个方面来回答,
1).设计类型是完全随机设计两组数据比较,不知道数据是否是连续性变量?
2).比较方法:如果数据是连续性数据,且两组数据分别服从正态分布&方差齐(方差齐性检验),则可以采用t检验,如果不服从以上条件可以采用秩和检验。
3).想知道两组数据是否有明显差异?不知道这个明显差异是什么意思?是问差别有无统计学意义(即差别的概率有多大)还是两总体均数差值在哪个范围波动?如果是前者则可以用第2步可以得到P值,如果是后者,则是用均数差值的置信区间来完成的。当然两者的结果在SPSS中均可以得到。
11、问:回归分析和相关分析的联系和区别
答:主要联系有:回归分析和相关分析是互相补充、密切联系的,相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。
主要区别有:
一,在回归分析中,不仅要根据变量的地位,作用不同区分出自变量和因变量,把因变量置于被解释的特殊地位,而且以因变量为随机变量,同时总假定自变量是非随机的可控变量. 在相关分析中,变量间的地位是完全平等的,不仅无自变量和因变量之分,而且相关变量全是随机变量.
二,相关分析只限于描述变量间相互依存关系的密切程度,至于相关变量间的定量联系关系则无法明确反映. 而回归分析不仅可以定量揭示自变量对应变量的影响大小,还可以通过回归方程对变量值进行预测和控制.
相关分析与回归分析均为研究2个或多个变量间关联性的方法,但2种数理统计方法存在本质的差别,即它们用于不同的研究目的。
相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。
在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析,这是相关分析方法本身所决定的。
对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(有确定的取值)也可以是随机变量。
对于此二者的区别,我想通过下面这个比方很容易理解:
对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是主导者,谁说话算数,谁是跟随者,一个打个喷嚏,另一个会有什么反应,相关就不能胜任,而回归分析则能很好的解决这个问题
回归未必有因果关系。回归的主要有二:一是解释,一是预测。在于利用已知的自变项预测未知的依变数。相关系数,主要在了解两个变数的共变情形。如果有因果关系,通常会进行路径分析(path analysis)或是线性结构关系模式。
我觉得应该这样看,我们做回归分析是在一定的理论和直觉下,通过自变量和因变量的数量关系探索是否有因果关系。楼上这位仁兄说“回归未必有因果关系……如果有因果关系,通常进行路径分析或线性结构关系模式”有点值得商榷吧,事实上,回归分析可以看成是线性结构关系模式的一个特例啊。
我觉得说回归是探索因果关系的并没错,因为实际上最后我们并不是完全依据统计的结果来判断因果性,只有在统计结果和理论及现实比较吻合的基础上我们才肯定这种因果关系。任何统计方法只是一种工具,但是不能完全依赖于这种工具。即使是SEM,我们也不能说完全认定其准确性,因为即使方法是好的,但是变量的复杂关系呈现的方式也是多种多样的,可能统计只能告诉你一个方向上的最优解,可未必是最符合实际的,更何况抽样数据的质量好坏也会使得结果不符合事实,从而导致人们怀疑统计方法的准确性。
统计只说明统计关联。 不证明因素关系。
回归有因果关系,相关未必。
回归分析是处理两个及两个以上变量间线性依存关系的统计方法。此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。
任何事物的存在都不是孤立的,而是相互联系、相互制约的。身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析.
-
-
概率论 事件关系 古典概型与几何概型
2020-12-10 10:56:53采用不重复抽样方法时,总体单位数在抽样过程中逐渐减小,总体中各单位被抽中的概率先后不同。不放回抽样也指整个样本一次同时抽取的抽样方法 . 有放回抽样 有放回抽样是简单随机抽样的操作方式之一。把总体中的... -
T检验与F检验的区别_f检验和t检验的关系
2019-05-15 14:54:17一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability ... -
-
-
假设检验_数理统计第26讲(区间估计与假设检验的关系,单参数指数型分布族的假设检验)...
2021-01-05 20:28:575.3假设检验与区间估计区间估计和假设检验(这里指参数假设检验)都是统计推断,即用样本对分布族中的参数做出某种判断。其中假设检验是考察在假设成立之下,是否有发生小概率事件;而区间估计是希望能以较大概率... -
概率论与统计推断(四) ------ 统计推断
2019-08-02 12:15:03本节目标 : ...总体与样本 总体: 样本: 三.直方图与箱线图(机器学习的数据探索部分会用上) 频率直方图可以反映数据的概率密度函数: 四分位数: Q1范围的来由... -
怎么求中位数和分位数 概率密度函数_数理统计第四讲(次序统计量续,伽马分布)...
2021-01-17 16:51:432.3.2次序统计量的分布续任给一个次序统计量 ,它的密度与总体有如下关系:证明法一:考虑 落入 这一事件,它等价于容量为 的样本中有 个小于 ,有一个在区间 ,有 个大于或等于 ,这一共有 种分组的方法,且对于每个... -
2.数理统计与参数估计
2016-05-05 22:57:53内容简介: ...二、概率统计与机器学习的关系 1.统计估计的是分布,机器学习训练出来的是模型,模型可能包含了多个分布。 2.训练与预测过程的一个核心评价指标是模型的误差。 3.误差可以是概率的形式, -
贝叶斯定理与贝叶斯估计
2014-12-24 09:32:00贝叶斯定理 通常,事件A在事件B的条件下的概率,与事件B在事件A的条件下的概率是不一样的;...当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。 作为一个规范的原理,贝叶斯法则 -
Python数据挖掘 | 多因子与复合分析(上)
2020-06-02 12:08:54目录多因子与复合分析一、理论铺垫1....**(1)概念:**根据一定的假设条件,从样本推断总体or推断样本与样本之间的关系的方法。 即做出一个假设,然后根据数据或已知的分布性质来推断这个假设成立的概率有多大 -
math: 贝叶斯与联合分布
2018-01-31 11:47:35然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果... -
抽样:理论与应用(第二版) 金勇进 课程笔记 1~4章
2019-03-10 09:57:29本章重点名词:抽样调查的类型,抽样调查与普查的关系,目标总体,抽样总体,抽样框,抽样单元,总体特征与估计量,方差,偏倚,均方误差,抽样误差,非抽样误差,精度。 1.1调查与抽样调查 1.1.1调查 略 1.1.2... -
-
概率论与统计学(2)
2019-03-09 08:21:06样本方差VS总体方差 试验 VS 随机试验 样本空间:所有可能结果的集合,简称为S 样本点:S中的每一种情况,简称为E 随机事件:样本点 基本事件:一个样本点的单点集 事件发生 必然事件 不可能事件 事件关系:包含,和... -
-
对应分析与典型相关分析CCA笔记_数学建模系列
2016-08-14 21:54:36对应分析与典型相关分析笔记_数学建模系列这里的对应分析与典型相关分析仍然用于降维,因子分析的进阶! 对应分析:在同一张图上,直观的展现... 典型相关分析:为了从总体上把握两组指标之间的相关关系,分别在两组变 -
论文研究 - 对与随机采样有关的误差进行反卷积
2020-05-22 08:18:48在这项工作中,基于从3种常见概率密度函数(PDF)得出的... 后一个发现还认为,无论母本PDF是什么,所有样本都与σx•μ-1成正比,后者是样本均值()的总体变异系数。 最后,我们确定比例常数A等于与Δ()测量相关 -
-
-