精华内容
下载资源
问答
  • C#.net_经典编程例子400个

    热门讨论 2013-05-17 09:25:30
    96 实例077 带复选框的树状菜单 98 2.9 其他控件典型应用 100 实例078 TrackBar的简单应用 100 实例079 SplitContainer的应用 102 实例080 MaskedTextBox控件的简单应用 103 实例081 ...
  • 8.3.1 形式参数和实际参数 101 8.3.2 函数的返回值 102 8.4 函数的调用 106 8.4.1 函数调用的一般形式 106 8.4.2 函数调用的方式 106 8.4.3 被调用函数的声明和函数原型 107 8.5 函数的嵌套调用 108 8.6 函数的递归...
  • 卡方检验和卡方分布

    2019-11-04 18:31:45
    什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是...多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 例子1:四格卡方检验 以下为一个典型的四格...

    什么是卡方检验

    卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

    它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

    例子1:四格卡方检验

    以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:

    感冒人数	未感冒人数	合计	感冒率
    

    喝牛奶组 43 96 139 30.94%
    不喝牛奶组 28 84 112 25.00%
    合计 71 180 251 28.29%

    通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。

    为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%

    所以,理论的四格表应该如下表所示:

    在这里插入图片描述

    即下表:

    在这里插入图片描述

    如果喝牛奶喝感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。

    卡方检验

    卡方检验的计算公式为:

    在这里插入图片描述

    其中,A为实际值,T为理论值。

    x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

    1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
    2. 差异程度与理论值的相对大小

    例1卡方检验

    根据卡方检验公式我们可以得出例1的卡方值为:

    卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

    卡方分布的临界值:

    上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?

    答案是,通过查询卡方分布的临界值表。

    这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。

    对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84。即如果卡方大于3.84,则认为喝牛奶和感冒有95%的概率不相关。

    显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒独立不相关的假设不成立。

    在这里插入图片描述

    上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:

    例子2. 四格卡方检验的标准做法

    我们想知道不吃晚饭对体重下降有没有影响:

    体重下降	体重未下降	合计	体重下降率
    

    吃晚饭组 123 467 590 20.85%
    不吃晚饭组 45 106 151 29.80%
    合计 168 573 741 22.67%

    1. 建立假设检验:

    H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
    H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05

    1. 计算理论值

      体重下降 体重未下降 合计
      吃晚饭组 133.765 456.234 590
      不吃晚饭组 34.2348 116.765 151
      合计 168 573 741

    2. 计算卡方值

    根据公式

    在这里插入图片描述

    计算出卡方值为5.498

    1. 查卡方表求P值

    在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。

    通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。

    附录

    什么是卡方分布

    若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

    R语言实现:

    x1 = rnorm(1000000)
    x2 = rnorm(1000000)
    x3 = rnorm(1000000)
    x4 = rnorm(1000000)
    x5 = rnorm(1000000)
    x6 = rnorm(1000000)

    Q1 = x1^2
    Q2 = x1^2 + x2^2
    Q3 = x1^2 + x2^2 + x3^2
    Q4 = x1^2 + x2^2 + x3^2 + x4^2
    Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
    Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2

    par(mfrow=c(1,1))
    plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = ‘blue’,lwd=2,main=‘chi-square’,xlab = ‘’,ylab=’’)
    lines(density(Q2),col=‘black’,lwd=2)
    lines(density(Q3),col=‘red’,lwd=2)
    lines(density(Q4),col=‘green’,lwd=2)
    lines(density(Q5),col=‘gray’,lwd=2)
    lines(density(Q6),col=‘orange’,lwd=2)
    legend(‘topright’,c(‘k=1’,‘k=2’,‘k=3’,‘k=4’,‘k=5’,‘k=6’),fill = c(‘blue’,‘black’,‘red’,‘green’,‘gray’,‘orange’))

    最后画出来的图是:
    在这里插入图片描述

    由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:
    在这里插入图片描述

    或称X^2检验,主要作用是判定实际统计数据是否符合期望值,之后便可以演变出各种用法,例如:特征选择,变量各类的出现概率,变量是否相互有关联等。

    主要公式:
    在这里插入图片描述
    右侧的X^2代表卡方值,卡方值=[(观测值O-期望值E)/期望值E]所有的组别的累加。

    例子:
    在这里插入图片描述
    假设一果农场,今年水果产量记为观察值,往年产量记为期望值,所生成的四格表如上图所示。

    计算:
    卡方值X2=(28-20)2/20+(38-30)2/30+(34-50)2/50=10.45
    因此卡方值的话是10.45
    卡方值再与卡方鉴定表相比较,如果卡方值<鉴定表中值可以得到:
    H0:行分类变量与列分类变量无关联
    如果卡方值>鉴定表中值可以得到:
    H1:行分类变量与列分类变量有关联

    卡方鉴定表比较:
    在这里插入图片描述

    刚开始学的时候一直觉得这个表要自己算、、、搞了半天,查了半天资料原来表示固定的、、、好了,跑题了。
    查这个表,我们首先得要知道自由度K,而K的值和我们的组别数量有关。如上图,我们有 芒果、苹果、水蜜桃 三种水果,也就是三种组别,因此自由度K=组别-1
    而概率如果没有特别要求,我们一般使用的是5%,也就是0.05这一档。
    查表可得上个例子的鉴定表数值是:5.99
    卡方值X^2=10.45>5.99,因此得到H0:行分类变量与列分类变量无关联,可以得出今年产量不同于往年。
    如果X^2<比较值,我们能得出H1:行分类变量与列分类变量有关联,也就是今年产量类似于往年。

    总结:
    卡方检验的一个典型应用场景是衡量特定条件下的分布是否与理论分布一致,比如:特定用户某项指标的分布与大盘的分布是否差异很大,这时通过临界概率可以合理又科学的筛选异常用户。另外,X2值描述了自变量与因变量之间的相关程度:X2值越大,相关程度也越大,所以很自然的可以利用X^2值来做降维,保留相关程度大的变量。

    R语言卡方检测:
    R语言自带卡方检测的方法,只要调用方法chisq.test(),会自行输出X-squared卡方值, df自由度, p-value概率

    参考博客

    http://blog.sina.com.cn/s/blog_7054a1960102wizu.html

    https://blog.csdn.net/qq_15111861/article/details/80723754

    https://blog.csdn.net/qq_18769269/article/details/98843816

    展开全文
  • 什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个...多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 例子1:四格卡方检验 以下为一个典型...

    什么是卡方检验


    卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。


    它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。


    例子1:四格卡方检验


    以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:


      感冒人数 未感冒人数 合计 感冒率
    喝牛奶组 43 96 139 30.94%
    不喝牛奶组 28 84 112 25.00%
    合计 71 180 251 28.29%

    通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响

    为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%

    所以,理论的四格表应该如下表所示:


      感冒人数 未感冒人数 合计
    喝牛奶组 =139*0.2829 =139*(1-0.2829) 139
    不喝牛奶组 =112*0.2829 =112*(1-0.2829) 112

    即下表:


      感冒人数 未感冒人数 合计
    喝牛奶组 39.3231 99.6769 139
    不喝牛奶组 31.6848 80.3152 112
    合计 71 180 251

    如果喝牛奶喝感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。


    卡方检验


    卡方检验的计算公式为:


    其中,A为实际值,T为理论值。

    x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
    1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
    2. 差异程度与理论值的相对大小


    例1卡方检验


    根据卡方检验公式我们可以得出例1的卡方值为:

    卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077


    卡方分布的临界值:


    上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?

    答案是,通过查询卡方分布的临界值表。


    这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。


    对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84。即如果卡方大于3.84,则认为喝牛奶和感冒有95%的概率不相关。

    显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒独立不相关的假设不成立。




    上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:


    例子2. 四格卡方检验的标准做法

    我们想知道不吃晚饭对体重下降有没有影响:


      体重下降 体重未下降 合计 体重下降率
    吃晚饭组 123 467 590 20.85%
    不吃晚饭组 45 106 151 29.80%
    合计 168 573 741 22.67%

    1. 建立假设检验:

    H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
    H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05

    2. 计算理论值


      体重下降 体重未下降 合计
    吃晚饭组 133.765 456.234 590
    不吃晚饭组 34.2348 116.765 151
    合计 168 573 741

    3. 计算卡方值

    根据公式


    计算出卡方值为5.498

    4. 查卡方表求P值

    在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。



    通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。


    附录


    什么是卡方分布

    若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。


    R语言实现:

    x1 = rnorm(1000000)
    x2 = rnorm(1000000)
    x3 = rnorm(1000000)
    x4 = rnorm(1000000)
    x5 = rnorm(1000000)
    x6 = rnorm(1000000)
    

    Q1 = x1^2
    Q2 = x1^2 + x2^2
    Q3 = x1^2 + x2^2 + x3^2
    Q4 = x1^2 + x2^2 + x3^2 + x4^2
    Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
    Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2

    par(mfrow=c(1,1))
    plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = ‘blue’,lwd=2,main=‘chi-square’,xlab = ‘’,ylab=’’)
    lines(density(Q2),col=‘black’,lwd=2)
    lines(density(Q3),col=‘red’,lwd=2)
    lines(density(Q4),col=‘green’,lwd=2)
    lines(density(Q5),col=‘gray’,lwd=2)
    lines(density(Q6),col=‘orange’,lwd=2)
    legend(‘topright’,c(‘k=1’,‘k=2’,‘k=3’,‘k=4’,‘k=5’,‘k=6’),fill = c(‘blue’,‘black’,‘red’,‘green’,‘gray’,‘orange’))


    最后画出来的图是:


    由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:





    展开全文
  • 什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是...多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。例子1:四格卡方检验以下为一个典型的四格卡方检验...
    展开全文
  • 然后,作者介绍了离散变换(DFT和FFT),离散时间信号与系统分析的工具(z变换),以及DSP的基本运算(相关和卷积),并分析了数字滤波器设计的实际问题。本书还介绍了多抽样率数字信号处理、自适应数字滤波器、谱...
  • 然后,作者介绍了离散变换(DFT和FFT),离散时间信号与系统分析的工具(z变换),以及DSP的基本运算(相关和卷积),并分析了数字滤波器设计的实际问题。本书还介绍了多抽样率数字信号处理、自适应数字滤波器、谱...
  • 各种方法所收集到的目的很可能是不同的,要综合分析,并与相关人员确认 2.2 设计方案 2.2.1 选择具有代表性的功能 最常用的 最耗资源的 2.2.2 设计测试环境 各台机器软硬件配置 系统的各个程序运行在哪台机器...
  • 从系统的独特视角引导读者进行模拟电子技术的学习,不仅涵盖模拟电子技术的基本原理和基础知识,还重点讲解如何将基本概念和元器件应用于模拟系统,并通过系统例子和系统说明来阐明模拟系统的工作原理及其在实际系统...
  • 软件测试规范

    2018-04-23 09:16:12
    边值分析法 .......................................................................................................................................... 8 4.猜错法 ..........................................
  • 精通正则表达式(中英)

    热门讨论 2011-09-08 13:18:58
    解决实际问题 2 作为编程语言的正则表达式 4 以文件名做类比 4 以语言做类比 5 正则表达式的知识框架 6 对于有部分经验的读者 6 检索文本文件:egrep 6 egrep元字符 8 行的起始和结束 8 字符组 9 用点号匹配任意字符...
  • 8.3.3实际例子:五相负载154 8.4总结158 8.5参考文献158 第9章多电平变换器的PWM策略163 9.1多电平和交错并联变换器163 9.2调制器169 9.2.1回顾:两电平调制器169 9.2.2多电平调制器172 9.3不同多电平结构的控制信号...
  • PWM140 8.3带多相负载的逆变器148 8.3.1负载拓扑和相关自由度149 8.3.2实际例子:三相情况152 8.3.3实际例子:五相负载154 8.4总结158 8.5参考文献158 第9章多电平变换器的PWM策略163 9.1多电平和交错并联变换器163 ...
  • 测试培训教材

    2014-04-01 12:10:48
    设置测试失败时邮件通知相关人员: 为测试集添加测试用例 把测试计划树中的“Cruises”包含的所有测试用例以及“Airline Preference”、“Number of Passengers”添加到测试集中: 9、测试过程监控 计划测试...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 136
精华内容 54
热门标签
关键字:

典型相关分析实际例子