精华内容
下载资源
问答
  • 医咖会免费STATA教程学习笔记——卡方检验
    2022-01-13 14:56:04

    准备工作:
    导入数据集:sysuse nisw88, clear
    1.当所有单元格的理论频数(期望频数)≥5时,用Pearson chi2检验
    方法一:
    请依次点击:
    统计——汇总,表格和假设检验——频数表——双向表(关联性分析)——在行变量中选择“race”,在列变量中选择“married”——在“检验统计量”中勾选“Pearson chi2”——在“单元格”内容中勾选“Pearson chi2”和“期望频数”——确定

    方法二:
    在命令窗口输入:
    tabulate race married, chi2
    tabulate race married, cchi2 chi2
    tabulate race married, chi2 expected
    tabulate race married, chi2 cchi2 expected

    2.当至少一个单元格的理论频数(期望频数)<5时,用Fisher exact检验
    方法一:
    统计——汇总,表格和假设检验——频数表——双向表(关联性分析)——在行变量中选择“race”,在列变量中选择“married”——在“检验统计量”中勾选“Fisher exact”——在“单元格”内容中勾选“期望频数”——确定

    方法二:
    tabulate race married, exact
    tabulate race married, exact expected

    更多相关内容
  • stata入门操作大全

    2018-05-29 14:07:07
    stata作为最受欢迎的数据处理软件,经管类人士学会使用它是必不可少的。
  • 卡方检验软件

    2013-02-28 16:38:43
    可用于卡方检验计算,统计数据分析,方便使用,避免SPSS软件的难处
  • CHISQUARECONT 将表示 2x2 列联表的 2x2 矩阵作为输入,并且计算获得观察到的和每个更极端的表的概率基于卡方分布的皮尔逊卡方检验。 这当预期频率的总数增加时,卡方检验可能变得不可靠(列联表中的单元格值)不够...
  • 统计学——卡方检验和卡方分布

    千次阅读 2018-07-15 17:50:56
    什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的...

    什么是卡方检验


    卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。


    它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。


    例子1:四格卡方检验


    以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:


     感冒人数未感冒人数合计感冒率
    喝牛奶组439613930.94%
    不喝牛奶组288411225.00%
    合计7118025128.29%

    通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响

    为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%

    所以,理论的四格表应该如下表所示:


     感冒人数未感冒人数合计
    喝牛奶组=139*0.2829=139*(1-0.2829)139
    不喝牛奶组=112*0.2829=112*(1-0.2829)112

    即下表:


     感冒人数未感冒人数合计
    喝牛奶组39.323199.6769139
    不喝牛奶组31.684880.3152112
    合计71180251

    如果喝牛奶喝感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。


    卡方检验


    卡方检验的计算公式为:


    其中,A为实际值,T为理论值。

    x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
    1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
    2. 差异程度与理论值的相对大小


    例1卡方检验


    根据卡方检验公式我们可以得出例1的卡方值为:

    卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077


    卡方分布的临界值:


    上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?

    答案是,通过查询卡方分布的临界值表。


    这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。


    对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84。即如果卡方大于3.84,则认为喝牛奶和感冒有95%的概率不相关。

    显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒独立不相关的假设不成立。




    上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:


    例子2. 四格卡方检验的标准做法

    我们想知道不吃晚饭对体重下降有没有影响:


     体重下降体重未下降合计体重下降率
    吃晚饭组12346759020.85%
    不吃晚饭组4510615129.80%
    合计16857374122.67%

    1. 建立假设检验:

    H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
    H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05

    2. 计算理论值


     体重下降体重未下降合计
    吃晚饭组133.765456.234590
    不吃晚饭组34.2348116.765151
    合计168573741

    3. 计算卡方值

    根据公式


    计算出卡方值为5.498

    4. 查卡方表求P值

    在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。



    通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。


    附录


    什么是卡方分布

    若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。


    R语言实现:

    1. x1 = rnorm( 1000000)
    2. x2 = rnorm( 1000000)
    3. x3 = rnorm( 1000000)
    4. x4 = rnorm( 1000000)
    5. x5 = rnorm( 1000000)
    6. x6 = rnorm( 1000000)
    7. Q1 = x1^ 2
    8. Q2 = x1^ 2 + x2^ 2
    9. Q3 = x1^ 2 + x2^ 2 + x3^ 2
    10. Q4 = x1^ 2 + x2^ 2 + x3^ 2 + x4^ 2
    11. Q5 = x1^ 2 + x2^ 2 + x3^ 2 + x4^ 2 + x5^ 2
    12. Q6 = x1^ 2 + x2^ 2 + x3^ 2 + x4^ 2 + x5^ 2 + x6^ 2
    13. par(mfrow=c( 1, 1))
    14. plot(density(Q1),xlim=c( 0.23, 6),ylim = c( 0, 1),breaks = 200,col = 'blue',lwd= 2,main= 'chi-square',xlab = '',ylab= '')
    15. lines(density(Q2),col= 'black',lwd= 2)
    16. lines(density(Q3),col= 'red',lwd= 2)
    17. lines(density(Q4),col= 'green',lwd= 2)
    18. lines(density(Q5),col= 'gray',lwd= 2)
    19. lines(density(Q6),col= 'orange',lwd= 2)
    20. legend( 'topright',c( 'k=1', 'k=2', 'k=3', 'k=4', 'k=5', 'k=6'),fill = c( 'blue', 'black', 'red', 'green', 'gray', 'orange'))

    最后画出来的图是:


    由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:




    转自:https://blog.csdn.net/snowdroptulip/article/details/78770088

    展开全文
  • 卡方检验是一种用途很广的基于卡方分布的假设检验方法, 根本思想就是比较理论频数和实际频数的吻合程度或拟合优度问题。 主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类...

    卡方检验是一种用途很广的基于卡方分布的假设检验方法,

    根本思想就是比较理论频数和实际频数的吻合程度或拟合优度问题。

    主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相互独立。

    公式是利用类别变量的观测值频数与期望值频数进行构建的。

    #方法一
    crit = stats.chi2.ppf(q=0.95,df=5)  #95置信水平 df = 自由度
    print(crit) #临界值,拒绝域的边界 当卡方值大于临界值,则原假设不成立,备择假设成立
    P_value = 1-stats.chi2.cdf(x=chi_squared_stat,df=5)
    print('P_value')
    print(P_value) 
    # 方法二 
    stats.chisquare(f_obs=observed, #Array of obversed counts
                    f_exp=expected) #Array of expected counts 

     

    卡方分箱是依赖于卡方检验的分箱方法,在统计指标上选择卡方统计量(chi-Square)进行判别,

    分箱的基本思想是判断相邻的两个区间是否有分布差异,基于卡方统计量的结果进行自下而上的合并,直到满足分箱的限制条件为止。

     

     

    参考:

    https://zhuanlan.zhihu.com/p/128905132

    https://blog.csdn.net/weixin_36437103/article/details/112334482(理解自由度)

    https://blog.csdn.net/weixin_42097808/article/details/80494939(卡方分箱解释实例)

    https://blog.csdn.net/CarryLvan/article/details/108775507(分箱代码)

    https://blog.csdn.net/resourse_sharing/article/details/51852331(卡方计算)

     

    展开全文
  • 白人和黑人在求职路上会有...data = pd.io.stata.read_stata('us_job_market_discrimination.dta') data.head() blacks = data[data.race == 'b'] whites = data[data.race == 'w'] black的数据: whites.call.d.

    白人和黑人在求职路上会有种族的歧视吗?

    import pandas as pd
    import numpy as np
    from scipy import stats
    data = pd.io.stata.read_stata('us_job_market_discrimination.dta')
    data.head()
    blacks = data[data.race == 'b']
    whites = data[data.race == 'w']

    black的数据: 

    whites.call.describe()
    blacks.call.describe()
    count    2435.000000
    mean        0.064476
    std         0.245649
    min         0.000000
    25%         0.000000
    50%         0.000000
    75%         0.000000
    max         1.000000
    Name: call, dtype: float64

    white的数据描述:

    whites.call.describe()
    count    2435.000000
    mean        0.096509
    std         0.295346
    min         0.000000
    25%         0.000000
    50%         0.000000
    75%         0.000000
    max         1.000000
    Name: call, dtype: float64

    卡方检验

    • 白人获得职位
    • 白人被拒绝
    • 黑人获得职位
    • 黑人被拒绝

    假设检验

    • H0:种族对求职结果没有显著影响
    • H1:种族对求职结果有影响
    blacks_called = len(blacks[blacks['call'] == True])#黑人获得职位
    blacks_not_called = len(blacks[blacks['call'] == False])#黑人被拒绝
    whites_called = len(whites[whites['call'] == True])#白人获得职位
    whites_not_called = len(whites[whites['call'] == False])#白人被拒绝
    observed = pd.DataFrame({'blacks': {'called': blacks_called, 'not_called': blacks_not_called},
                             'whites': {'called' : whites_called, 'not_called' : whites_not_called}})
    observed

                               

    num_called_back = blacks_called + whites_called#获得职位总数
    num_not_called = blacks_not_called + whites_not_called#没有获得职位的总数
    
    print(num_called_back)
    print(num_not_called)
    392
    4478
    rate_of_callbacks = num_called_back / (num_not_called + num_called_back)
    rate_of_callbacks
    0.08049281314168377
    expected_called = len(data)  * rate_of_callbacks
    expected_not_called = len(data)  * (1 - rate_of_callbacks)
    print(expected_called)
    print(expected_not_called)
    391.99999999999994
    4478.0
    import scipy.stats as stats
    #观测值
    observed_frequencies = [blacks_not_called, whites_not_called, whites_called, blacks_called]
    #期望值
    expected_frequencies = [expected_not_called/2, expected_not_called/2, expected_called/2, expected_called/2]
    
    #卡方检验
    stats.chisquare(f_obs = observed_frequencies,
                    f_exp = expected_frequencies)
    Power_divergenceResult(statistic=16.879050414270221, pvalue=0.00074839594410972638)

    p值小于0.05,拒绝假设H0:种族对求职结果没有显著影响。

     

    展开全文
  • 四十一、SPSS中的t检验和卡方检验

    千次阅读 2020-05-14 15:47:27
    @Author : By Runsen @Date:2020/5/14 在2020年一月初,也是我大三上的...所以本专栏数据分析将使用Excel,Powerbi,Python,R,Sql,SPSS,stata以及Tableau,后面还会补充BI。 第五章应该是二月份完成的。 文章目
  • 关注运用SPSS进行医学诊断数据的Kappa一致性检验关键词:SPSS、 Kappa导读在医学诊断试验中,经常会遇到将待评价的诊断实验方法的诊断结果与金标准的诊断结果进行比较的情况,或者是将两种不同的诊断方法用于同一...
  • 在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。 什么是列联表? 列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2×22×2频率表,由两...
  • Stata之数据录入

    千次阅读 2020-07-25 18:10:58
    Stata之数据录入1.直接输入数据1.1交互方式输入数据 edit1.2程序方式录入数据 input--end2.导入已有的数据或文本2.1导入dta文件2.2导入文本文件2.3导入Excel文件 在Stata中,录入数据的方法无非是直接输入数据或者...
  • R语言使用pwr包的pwr.chisq.test函数对卡方检验(Chi-square tests)进行效用分析(power analysis)、在已知效应量(effect size)、显著性水平(sig)、效用值(power)的情况下计算需要的样本量(sample size)
  • 因为卡方检验是一个大样本检验,而实证检验所能获得的样本容量通常并不大,如果采用的是大样本,则以卡方检验结果为准。不过,通常情况下,大样本下两个检验结论一致,所以不用担心。综上,F检验适用范围更广。 方法...
  • 卡方拟合优度检验怎么做?

    千次阅读 2021-12-09 11:51:01
    卡方拟合优度检验是一种非参数检验方法,其用于研究实际比例情况,是否与预期比例表现一致,它只针对于类别数据。 卡方拟合优度检验的原理在于通过计算实际频数与预期频数的差值,且对差值进行平方,最
  • 价格透明,不用询价,节省时间现在不说专业高效这些话,相信我的认真负责能够赢得您的认可使用各种统计数据分析软件提供数据分析服务,包含数据整理、处理、清洗、挖掘、探索、建模、假设检验等个人经营非中介,专业...
  • “医统无忧智能统计软件”是一个免费医学统计分析软件,主要用于完成两组间基线数据t检验、非参数比较和卡方检验。 在临床科研中,两组间基线数据的比较是最常见的统计分析需求。绝大部分的科研文章中的第一个表格...
  • 1.卡方检验的介绍 卡方检验是非参数检验的一种,主要比较两个或两个以上的变量之间是否有关联性。也就是在一定显著水平下比较实际次数与理论(期望)次数的差异。卡方值越大代表差异越大,卡方值为0代表实际值完全...
  • @Author : By Runsen @Date:2020/5/14 在2020年一月初,也是我大三上的...所以本专栏数据分析将使用Excel,Powerbi,Python,R,Sql,SPSS,stata以及Tableau,后面还会补充BI。 第五章应该是二月份上完成的。 文章
  • 文章目录1 参数检验与非参数检验2 非参数检验方法2.1 单样本总体分布检验2.1.1 卡方检验2.1.2 二项分布检验2.1.3 游程检验2.1.4 Kolmogorov—Smirnov检验2.2 两独立样本差异性检验2.2.1 Kolmogorov—Smirnov检验...
  • STATA面板数据模型进行Hausman检验

    万次阅读 多人点赞 2019-04-03 10:21:19
    STATA面板数据模型进行Hausman检验 1、导入数据 可以通过如下多种方式导入 1.1 可以通过点击stata软件的图标,输入数据 1.2 通过点击文件->导入 可以导入各种文本格式的数据 例如我将导入xlsx文件 注意勾选第一...
  • 如何在STATA中做格兰杰因果关系检验

    千次阅读 2020-12-20 12:01:43
    格兰杰因果检验相关的stata命令可以有三种。方法一:reg y L.y L.x (滞后1 期)estat ic (显示AIC 与BIC 取值,以便选择最佳滞后期)reg y L.y L.x L2.y L2.xestat ic (显示AIC 与BIC 取值,以便选择最佳滞后期)……...
  • Stata教程】格兰杰因果检验

    千次阅读 2020-12-20 12:01:50
    原标题:【Stata教程】格兰杰因果检验“社会科学中的数据可视化”第432篇推送引言在实证分析中,我们经常需要确定因果关系是x导致y,还是y导致x。对此,Granger提出了一种解决方法:如果x是y的原因,且不存在反向因果...
  • 全文阅读:Stata:线性趋势检验-lintrend| 连享会主页 目录 1. 简介 2. 命令介绍 3. Stata 实操 3.1 探究与高血压有关的因素 3.2 探究与背痛康复有关的特征 4. 参考文献 5. 相关推文     1. 简介...
  • Stata: 快速呈现常用分布临界值表

    千次阅读 2018-10-29 09:08:48
    Stata连享会 精彩推文1 || 精彩推文2 编者按: 这是 UCLA 数字研究与教育研究所介绍的一个教学工具资源,该命令的作用是对几个常用分布的临界值表进行窗口显示。这篇推文帮助我们在教学和学习工作中更快速和便捷的...
  • Stata: Tobit 模型

    万次阅读 多人点赞 2020-01-06 11:05:59
    Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号 Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集   连享会计量方法专题……,https://gitee.com/arlionn/Course   1. Tobit ...
  • KS检验

    千次阅读 2021-04-23 11:18:16
    在统计学中,Kolmogorov–Smirnov检验(K-S检验或KS检验)属于非参数检验,具有一维概率分布的连续(或不连续,请参见第2.2节)均等性,可用于比较一个样本分布与参考概率分布(单一样本K-S检验),或比较两个样本...
  • stata教程03-异方差的检验和处理

    千次阅读 2020-12-10 07:41:15
    下面我们介绍一下如何检验数据是否存在异方差以及出现异方差的情况后如何处理。数据介绍这是Nevlove(1963)的数据, 在之前的教程中一直使用这个数据, 相信大家已经非常熟悉。首先我们载入数据集:1use data/nerlove....
  • Stata建模

    千次阅读 2020-06-26 18:36:24
    判断自变量共线性,在SPSS 中可套用线性回归的共线性检验,看VIF即可。 打开D盘中“20190810北京临床预测模型’中的“03_logistic_regression‘’,点开“1126 training-218.csv”。此为上次SPSS中选出的70%作为预测...
  • 第15章Stata时间序列分析

    千次阅读 2021-07-30 16:30:49
    目录 15.1时间序列的基本操作 案例延伸 延伸1:清除数据的时间序列格式 延伸2:关于数据处理的一般说明 延伸3:关于时间序列运算的有关说明 15.2单位根检验 1.ADF检验 2.PP检验 案例延伸 15.3协整检验 1.EF-ADF...

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 210
精华内容 84
关键字:

stata卡方检验