-
统计学——几种常见的假设检验
2020-04-22 17:50:371、什么是假设检验? 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断...常用的假设检验方法有Z检验、t检验、卡方检验、F检...1、什么是假设检验?
假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。
假设检验的步骤
①确定要进行检验的假设,包括原假设和备择假设
②选择检验的方法,计算统计量
③根据显著性水平,确定用于做出决策的拒绝域
④查看样本结果是否位于拒绝域内
⑤做出决策假设检验的几个重要概念
- (原假设):即要对其进行检验的断言,除非有足够的证据拒绝,否则将接受原假设
- (备择假设):在拒绝原假设之后将要接受的断言,通常与原假设对立
- (显著性水平):指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取=0.05或=0.01
- 单尾检验:拒绝域落在可能的数据集的一侧
- 双尾检验:拒绝域落在可能的数据集的两侧
使用单尾检验还是双尾检验取决于备择假设的形式:
拒绝域的位置 原假设 备择假设 双尾 左单尾 右单尾 假设检验的基本思想
小概率原理:小概率事件在一次试验中是几乎不可能发生的,假若在一次试验中事件事实上发生了,那只能认为事件不是来自我们假设的总体,也就是认为我们对总体所做的假设不正确。
假设检验中的两类错误
①第一类错误(弃真错误):原假设事实上正确,可是检验统计量的观察值却落入拒绝域,因而否定了本来正确的假设,
②第二类错误(取伪错误):原假设事实上不正确,可是检验统计量的观察值却落入了接受域,因而没有否定本来不正确的原假设。P值
当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。P值 碰巧的概率 对原假设 统计学意义 碰巧出现的可能性大于5% 不能否定原假设 两组差别无显著意义 碰巧出现的可能性小于5% 可以否定原假设 两组差别有显著意义 碰巧出现的可能性小于1% 可以否定原假设 两组差别有非常显著意义 2、卡方检验
卡方检验的根本思想在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验分为卡方拟合度检验和卡方独立性检验。
卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布
卡方检验的思想:卡方检验是以分布为基础的一种常用假设检验方法。
原假设是:观察频数与期望频数没有差别。
:某个类别的观察频数
:基于原假设计算出的期望频数
:残差求和之前除以期望频数的原因:观察频数与期望频数的差距是相对较大还是较小,取决于期望频数的大小。例如期望频数为1000,观察频数为1040和期望频数为10,观察频数为50,差值均为40,但是显然后者的期望与实际的差距显然大于前者的期望和实际的差距。
是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果值小,就倾向于不拒绝;如果值大,就倾向于拒绝H0。至于在每个具体研究中究竟要大到什么程度才能拒绝,则要借助于卡方分布求出所对应的P值来确定。
卡方检验的用途
1、检验某个连续变量的分布是否与理论分布一致
2、检验某个分类变量各类的出现概率是否等于指定概率
3、检验某两个分类变量是否相互独立。如吸烟是否与呼吸道疾病有关
4、检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立卡方拟合优度检验的自由度为,其中k代表分类变量数
卡方独立性检验的自由度为,R代表行数,C代表列数卡方检验实例
- 卡方拟合优度检验
投掷骰子的观察分布是否等于期望分布。
:观察分布等于期望分布
假设投掷骰子共120次,各点数实际出现次数为A,期望出现次数为E,结果如下表:
点数 期望频数 实际频数 1 20 18 2 20 19 3 20 23 4 20 20 5 20 16 6 20 24 卡方值
自由度为
选择显著性水平
根据自由度和显著性水平,得到卡方临界值为
由于,故接受原假设,认为观察分布等于期望分布- 卡方独立性检验
喝牛奶与感冒是否相关
:喝牛奶与感冒不相关
观测情况如下表:
感冒人数 不感冒人数 合计 感冒率 喝牛奶 43 96 139 30.94% 不喝牛奶 28 84 112 25.00% 合计 71 180 251 28.29% 假设喝牛奶与感冒是独立不相关的,则期望情况如下表:
感冒人数 不感冒人数 合计 喝牛奶 139*28.29%=39.3231 139*(1-28.29%)=99.6769 139 不喝牛奶 112*28.29%=31.6848 112*(1-28.29%)=80.3152 112 合计 71 180 251 卡方值
自由度为
选择显著性水平
根据自由度和显著性水平,得到卡方临界值为
由于,故接受原假设,认为喝牛奶与感冒是独立不相关的3、Z检验
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。
- 检验一个样本的平均值与一个已知总体的平均值是否存在显著差异,Z值计算公式如下:
其中
:样本平均值
:总体均值
:总体标准差。当总体标准差未知且样本容量大时,取样本标准差
:样本容量 - 检验来自两个不同总体的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,Z值计算公式:
其中
:样本1的均值
:样本2的均值
:样本1的标准差
:样本2的标准差
:样本1的样本容量
:样本2的样本容量
Z检验的步骤
①确立原假设:两个平均数之间没有差异
②根据z值计算公式计算出z值
③根据显著性关系与z值做出判断z值 p值 差异程度 2.58 0.01 非常显著 1.96 0.05 显著 <1.96 >0.05 不显著 Z检验实例
根据过去大量资料,某厂生产的灯泡使用寿命符合正态分布N~,从最近生产的一批灯泡中随机抽取100只,测得样本平均值为1080,在0.05的显著性水平下判断这批产品的使用使用寿命是否显著提高。
:样本均值与总体均值无显著差异
根据公式计算Z值为
在0.05的显著性水平下,由于8>1.96,因此拒绝原假设,认为样本均值与总体均值存在显著差异。4、T检验
T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。T检验是通过比较不同数据的均值,研究两组数据之间是否存在显著差异。
T检验的适用条件为样本分布符合正态分布。
T检验的应用条件:
当样本例数较小时,要求样本取自正态总体
做两样本均数比较时,还要求两样本的总体方差相等。T检验的用途:
(1)样本均数与群体均数的比较
(2)两样本均数的比较T检验的三种形式
-
单个样本的t检验
用于检验样本的分布期望是否等于某个值,原假设:
统计量计算:
自由度
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准差,样本数;
(3) 样本来自正态或近似正态总体;单样本T检验实例
检验难产儿样本出生体重与一般婴儿出生体重是否相同?已知一般婴儿出生体重,难产儿样本①建立假设检验:
:难产儿与一般婴儿的体重均数相等,
:难产儿与一般婴儿的体重均数不相等,②确定显著性水平:
③计算检验统计量:
④查相应的界表值,确定P值。得 故不拒绝原假设,不能认为难产儿平均体重与一般婴儿平均体重不相同
-
配对样本的t检验
配对样本t检验针对配对的两组样本。假设两组样本之间的差值服从正态分布。如果该正态分布的期望为零,则说明这两组样本不存在显著差异。原假设:配对方式
①自身配对:同一对象接受2种处理,如同一患者接受不同的治疗药物
②异体配对:将条件相近的实验对象配对,并分别给予不同的处理统计量计算:
:两组样本差值的平均数
:两组样本差值的标准差
:配对样本数配对样本T检验实例
某医院用A、B两种血红蛋白法测量16名健康男青年的血红蛋白,问两者有无差别
: 两种方法测量结果相同
: 两种方法测量结果不相同
显著性水平:
计算统计量
查相应的界表值,确定P值,拒绝,可认为A、B两种测量结果不一致, -
独立样本的t检验
该检验用于检验两组非相关样本均值之间的差异性,从而判断两样本所代表的总体均值是否有差异
统计量计算:
自由度
适用条件:
(1)可计算两样本的均值及标准差
(2)样本来自正态或近似正态总体
(3)总体方差齐次独立样本T检验实例
问独立样本甲和乙均值是否一致?
:
:
显著性水平:
计算统计量
查表得拒绝原假设,可以认为
5、F检验
F检验也称为方差齐次性检验
方差为样本标准差的平方,即:
两组数据就能得到两个值
然后计算的F值与查表得到的F表值比较,如果
F < F表 表明两组数据没有显著差异;
F ≥ F表 表明两组数据存在显著差异。 -
-
Linux系列:Linux常用命令这一篇就够了!(持续更新中)
2020-08-31 23:04:55linux Telnet命令 不通或拒绝的几种情况 查看端口占用状态、查看端口被哪些进程使用、查看端口有哪些外部机器IP连接 SSH远程连接登录 重启网卡的三种方法、查看网卡的三种方法 文件相关 vi 字符串批量替换、...目录
TCP
配置
CPU
内存
网络相关
查看端口占用状态、查看端口被哪些进程使用、查看端口有哪些外部机器IP连接
文件相关
vi 字符串批量替换、vi 跳到最后一行、vi 用/查找到字符切换到下一个、vim清空文件内容
文件拷贝移动:cp、mv使用方法、scp远程文件复制到本地互传
查找文件:find命令使用方法、日志文件搜索关键字(上下几行明细)、日志文件预览(部分查看)
文件数量统计:wc使用方法
查找文件内容: grep过滤、awk拆分、sed替换的使用方法与区别、grep模糊匹配、精确匹配、正则表达式
文件对比:对比两个文件
文件删除rm -rf使用方法
查看文件的inode number:查看文件的inode number、inode的意思理解
查看子目录文件夹大小:查看子目录文件夹大小、ls查看文件大小( M为单位)
查看系统信息
日期转换为整形毫秒、Date时间、Cal日期、clear清理命令用法、 设置日期时间 设置中国时区
CentOS6/7查看和关闭防火墙、centos 7 firewalld 防火墙 开放、删除、查看端口
service systemctl区别、systemctl/service redhat6 redhat7区别
Shell脚本相关
grep -ps wc -l计数不正确的问题、ps -ef含义,排除grep这个进程
用户相关
性能指标有哪些?
-
-
-
-
基于FAR和FRR融合的多模态生物特征识别
2021-02-24 10:48:04通过多生物特征识别融合可以显著地改善系统的识别性能,在多生物特征识别中,匹配分数级融合最常用....将本文方法与几种有代表性的方法进行实验比较,结果表明,这种新融合模式可以有效地改进多生物特征识别系统的性能. -
-
使用过的一些逆向工具.zip
2020-05-29 16:44:17上面只是简述了几种常用逆向方式&防范方式,还有更多技能待了解&学习。 相关学习链接: https://book.crifan.com/books/android_app_security_crack/website/ https://www.jianshu.com/p/c37b1bdb4757 ... -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
linux mysql can't get stat of_mysqlimport: Error: 13, Can''t get stat of问题的解决方法_MySQL
-
一个好用的开源在线时序图/波形图(Timing Diagram)绘制网站
-
【原创工具】代码片段管理器.exe
-
用于全色度屏幕内容的混合色度采样率高效视频编码
-
access应用的3个开发实例
-
功能农业奠基人-农业大健康·万祥军:赵其国安康工作站揭牌
-
前端提示:我将此回购创建为我在社交媒体帐户上发布的各种前端提示的唯一来源,主题是:JavaScript,TypeScript,CSS,Angular,React,RxJs-源码
-
MySQL 备份与恢复详解(高低版本 迁移;不同字符集 相互转换;表
-
2021年 系统分析师 系列课
-
Oracle_11g_Linux到Linux_DataGuard部署
-
发电机-源码
-
PCTO灯泡关闭-源码
-
venetoclax维奈托克购买有哪些?一盒多钱?维奈托克老挝版怎么购买?Python列表操作收集
-
jiji-downlad.zip
-
内河运输-源码
-
MySQL 多平台多模式(安装、配置和连接 详解)
-
sql server 通过链接服务器连接mysql
-
一天学完MySQL数据库
-
2021年软考系统规划与管理师-上午历年真题解析视频课程
-
阿里三面:说说你对Spring ioc启动原理的理解!