精华内容
下载资源
问答
  • 常见的统计表有哪三种
    千次阅读
    2020-12-19 14:15:54

    多元统计分析(11个常见的多变量分析方法)在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA)、主成分分析(Principal component analysis)、因子分析(Factor analysis)、典型相关(Canonical correlation analysis)、聚类分析(Cluster analysis)、判别分析(Discriminant analysis)、多维量表分析(Multidimensional scaling),以及近来颇受瞩目的验证性因子分析(Confirmatory factor analysis )或线性结构模型(LISREL)与逻辑斯蒂回归分析等,以下简单说明这些方法的观念和适用时机。

    01、多变量方差分析

    MANOVA适用于同时探讨一个或多个自变量与两个以上因变量间因果关系的统计方法,依照研究者所操作自变量的个数,可以分为单因素(一个自变量)或多因素(两个以上自变量)MANOVA。进行多变量方差分析时,自变量必须是离散的定类或定序变量,而因变量则必须是定距以上层次的变量。

    02、主成分分析

    主成分分析的主要功能在分析多个变量间的相关,以建构变量间的总体性指标(overall indicators)。当研究者测量一群彼此间具有高度相关的变量,则在进行显著性检验钱,为避免变量数过多,造成解释上的复杂与困扰,常会先进行主成分分析,在尽量不丧失原有信息的前提下,抽取少数几个主成分,作为代表原来变量的总体性指标,达到资料缩减(data reduction)的功能。进行主成分分析时,并无自变量和因变量的区别,但是所有的变量都必须是定距以上层次变量。

    03、因子分析

    因子分析与主成分分析常被研究者混用,因为二者的功能都是通过对变量间的相关分析,以达到简化数据功能。但不同的是,主成分分析是在找出变量间最佳线性组合(linear combination)的主成分,以说明变量间最多的变异量;至于因子分析,则在于找出变量间共同的潜在结构(latent structure)或因子,以估计每一个变量在各因子上的负荷量(loading)。进行因子分析时,并无自变量和因变量的区分,但是所有变量都必须是定距以上层次变量。

    04、典型相关

    典型相关可视为积差相关或多元回归分析的扩展,主要功能在分析两个变量间的相关。进行多元回归分析的目的,是在分析一个或多个自变量与一个因变量间的关系,而典型相关中因变量也可以是多个;也就是说,典型相关的目的在于通过计算得到两个变量线性组合的加权系数。以使(maximum)两个变量间的相关达到最大化。进行典型相关时,并无自变量和因变量的区分,但是所有变量都必须是定距以上层次变量。

    05、聚类分析

    聚类分析的主要功能在进行分类(classification),当研究者有观测值时,常会根据观测值的相似性或差异性进行分类,以形成几个性质不同的类别,简化解释的工作。也就是说,聚类分析根据对变量进行测量的观察值进行分类,以达到组内同质、组间异值的目的。其次,聚类分析完成后,通常可以进行判别分析,以识别分类的效度。当然,在某些时候也可以对变量进行分类(此功能类似因子分析,因此多采用因子分析解决问题)。进行聚类分析时,并无自变量和因变量的区分,但是所有变量都必须是定距以上层次变量。

    06、判别分析

    判别分析是多变量分析中应用相当广泛的统计方法,它可以用来对样本进行分类的工作;也可以用来了解不同类别样本在某些变量上的差异情形;同时也可以根据不同类别的样本在某些变量的实际表现,用来预测新的样本属于某一类别的概率。因此,在行为科学中,常见的研究者单独使用判别分析,建立判别函数(discriminant function),以对新样本进行预测;或是多变量方差分析的检验值达到显著性水平后,比较不同组别样本在因变量平均数的差异情形;或是聚类分析后,检验聚类分析的正确性。进行判别分析时,自变量是定距以上层次变量,至于因变量通常是离散变量。

    07、多维量表分析

    多维量表分析基本上也是一种分类的统计方法,他在市场上普遍被应用。当研究者想要解释一群受试者(例如消费者)对一组客体(例如商品)在某些变量上相似性的测量中所包含的信息,此时多维量表分析就是一个相当适用的方法。研究者只要将这一组客体在变量上的测量值转化成多维度的几何表征,就能够将这些客体有效地显示在这个几何空间中,达到分类的目的,同时也可以进一步解释这些几何表征所代表的潜在结构或意义。进行多维量表分析时,并无自变量和因变量的区分,同时变量可以是等距以上变量,也可以是定类或定序变量。

    08、线性结构方程

    线性结构方程是一个相当具有变通与弹性的统计方法,随着研究者对变量间关系界定的差异,LISREL的常见名称包括协方差结构分析,潜变量分析、线性结构模型或验证性因子分析。LISREL可视为多元回归分析与因子分析两个方法论的整合模型,让研究者可以探讨变量间的线性关系(回归分析),并对可测量显变量与不可测量的潜变量见(因子分析)的因果模型作假设检验。

    09、逻辑斯蒂回归分析

    逻辑斯蒂回归可视为传统多元回归分析的一个特列。它和多元回归分析一样,都具有解释自变量与因变量之间的关系,并可进行预测。所不同的是在进行多元回归分析时,包括自变量与因变量都必须是定距以上层次变量;但在进行逻辑斯蒂回归分析时,自变量仍是定距以上层次变量,因变量则是二分的定类变量或多分定类变量或定序变量。

    10、对数线性方程

    在基本统计学中,当研究者面对探讨两个定类或定序变量间关系的研究问题时,都是以卡方检验来进行假设检验。当问题的性质是探讨两个定类变量间是否独立或是关联强度时,是以卡方独立性检验来进行假设检验。进行卡方独立性检验时,研究者必须将样本在两个定类变量上的反应,建立二维列联表(contingency table),以进一步根据列联表中各单元格(cell)的次数反应,进行显著性检验。但当研究者面对三个或三个以上的定类变量时,所建立的多元列联表间变量关联的分析,卡方独立性检验将无法解决这样的问题,此时适合的方法就是对数线性模型。利用对数线性模型来解决多元列联表的问题的目的,主要就在于探讨构成列联表的多个定类变量间的关系,进而在精简原则下构建拟合的解释模型,并根据所建立的模型估计单元格参数值,以了解各变量效果对单元格次数的影响。

    11、Logit对数线性模型

    在对数线性模型中,多个定类变量间是互为因果的关系(即相关关系),并无自变量与因变量的区分,研究目的在于探讨变量间的关联强度和性质。但有时研究者会面临变量间有自变量和因变量的区分的情境。在基本统计学中,当研究者面对的问题性质是两个定类变量间有自变量和因变量的区别,目的在于探讨两个变量间的因果关系时,多是以卡方齐性检验来进行假设检验。但自变量个数在两个以上时,卡方齐性检验就不再适用,而必须改用logit对数线性模型方法来对数据进行分析。Logit对数线性模型的功能与多元回归分析相当类似,都可以用来探讨与解释因变量与自变量间的关系,但不同的是,多元回归分析的变量都是定距以上层次变量,通常以最小二乘法进行模型估计与检验;logit对数线性模型的变量都是定类变量,通常以最大似然估计法进行模型估计与检验。

    更多相关内容
  • 上述三种资料可以相互转换: (1)计量资料可以转换成计数资料:如血压的监测值为计量资料,可根据其血压监测值,分为是否患高血压,即为二分类变量(患高血压>=140mmHg,不患高血压),也可转变为等级资料,如分为...

      1.计量资料:采用定量的方法测定调查对象的结局指标获得数据称为计量资料。如高血压患者的血压监测数据(120mmHg,125mmHg,126mmHg,127mmHg);糖尿病患者的血糖测量值(7.1mmol/L,7.2mmol/L,7.3mmol/L...)等

     (1)连续型计量资料:可连续取值的资料,常含小数点。如升高,体重,血糖值,学生加权成绩等

      (2)离散型计数资料:只取整数的资料,常不含小数点。如班级人数,心率次数等

      

    2.计数资料:将调查对象按照一定的性质进行分组或分类形成的资料:如性别(男,女),职业类型(工人,教师,医生等)包括:二分类/变量,多分类/变量,等级变量/资料。

    【注:这里的资料和变量可以理解为同一个东西】

     (1)二分类变量:按照观察对象的某一特性或特点,将调查对象分为两组的变量。(如性别,是否患高血压/糖尿病等)

      (2)多分类变量:按照观察对象的某一特征,将其分为两组或两组以上的变量(如图二中的职业,共分为了工人、教师、医生、销售员和厨师五个类别。

      (3)等级资料:将观察对象按照其属性的顺序或者等级,并对各组的对象进行计数所得的资料。(下图中的病情改变情况,,分为恶化、无变化、好转、治愈,它具有等级的含义(治疗效果逐渐增加))

      【注:表1为原始数据,整理后的数据如表2(频数表),在进行数据分析是需将表1中的数据进行整理后,在进行进一步的分析】

    表1 
    表2

     

     3.上述三种资料可以相互转换:

    (1)计量资料可以转换成计数资料:如血压的监测值为计量资料,可根据其血压监测值,分为是否患高血压,即为二分类变量(患高血压>=140mmHg,不患高血压<140mmHg),也可转变为等级资料,如分为正常血压,正常高值,高血压三个等级。其实,等级资料也是多分类资料的一种特殊情况(具备了等级的含义)。

     

     

     

     

     

     

     

    展开全文
  • SPSS常用的几种统计分析

    千次阅读 2022-02-18 19:38:11
    将需要进行统计分析的变量选中加载到右边,点击确定得到如下结果(每个变量因子的频数统计表): 4.选中【分析】—【描述统计】—【描述】工具,将需要进行统计分析的变量选中加载到右边,如下图所示:

    实验1:地理数据的统计处理

    实验步骤与结果分析:

    1.点击菜单栏【文件】下拉选项框,打开已经下载好的Excel表“"D:\桌面\计量地理学实习\表2-1某地区有关农业统计数据.xls"”,如下图所示:

    2.点击菜单栏上面的【分析】—【描述统计】—【频率】工具,如下图所示:

    ​3.将需要进行统计分析的变量选中加载到右边,点击确定得到如下结果(每个变量因子的频数统计表):

    4.选中【分析】—【描述统计】—【描述】工具,将需要进行统计分析的变量选中加载到右边,如下图所示:

    5.点击确定得到如下输出结果(每个变量的统计参数):

    ​6.最后将其导出为柱状图,更加直观的查看各个变量之间的统计参数差别,导出图表如下图所示:

    实验2:相关分析

    实验步骤与结果分析

    1.实验数据整理准备后加载到SPSS,如下图所示:

    1. 在进行双变量相关分析前,我们需要对数据进行相关性检验,选中菜单栏【图形】|【回归变量图】

    1. 将两个变量分别加载进来,如下图所示:

    可以看到两者之间是属于负相关。

    4.由于我们的相关分析是两个变量之间的分析,为此我们打开【分析】—【相关】—【双变量】工具,将两个变量【水土流失面积】和【土壤含氮量】加载进去,

    5.从表中可以看到,水土流失面积和土壤含氮量存在相关关系,其相关系数为-0.946,呈现中度相关性,且在0.01的显著性水平上显著,即样本数据中的这个相关性在总体中一样有效。

    实验3:主成分分析

    实验步骤与结果分析:

    1.数据准备,在SPSS载入“"D:\桌面\计量地理学实习\主成分分析.xlsx"”数据,如下图所示:

    2.打开【分析】|【降维】|【因子分析】工具,将数据中除了【城市】这个变量,其余变量全部添加进去,

    3.点击【描述】,勾选新打开界面的【系数】选项和【抽取】中的【碎石图】选项(使得分析结果更为直观),如下图所示:

    1. 点击确定得到主成分分析运算结果。在公因子方差(Communalities)表中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction)。

    ​总方差解释:

    5.该表按顺序排列出主成分得分的方差(Total),在数值上=相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比和方差累计值。由图可知,主成分是两个,都是方差(特征根)大于1的,第一主成分占比重62.602%,第二主成分占比重23.514%,这两个主成分达到85.116%,超过了85%,可以说用这两个指标评价各省份的经济可以近似代替原来的10个指标。主成分的数目可以根据相关系数矩阵的特征根来判定。相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。

    ​6.从碎石图看的话也可以知道由图直观的看出,成分1、2包含了大部分信息,从3开始就基本趋向平稳状态了。

    7.该表是主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。以第一列为例,0.69实际上是总人口与第一个主成分的相关系数。

    8.事实上,有如下关系成立:相关系数矩阵的特征根=方差贡献=主成分得分的方差。两个主成分可以解释各个变量达到了最小72.9%,最大97%,如果我们将8个主成分全部提取,则主成分载荷的行平方和都等1,就是第一张表上面的起始公因子方差。到此可以明白:在Communalities中,Initial对应的是初始公因子方差,实际上是全部主成分的公因子方差,Extraction对应的是提取的主成分的公因子方差,我们提取了两个主成分,故计算公因子方差时只考虑两个主成分。

    提取主成分的原则上要求公因子方差的各个数值尽可能接近,亦即要求它们的方差小,当公因子方差完全相等时,它们的方差为0,这就达到理想状态。实际应用中,只要公因子方差数值彼此不相差太远就行了。从上面给出的结果可以看出:提取两个主成分的时候,变量客运总量(万人)的公因子方差偏小,这暗示提取2个主成分,客运总量(万人)方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度。

    总结,决定主成分数目的3个原则:1.只取λ>1的特征根对应的主成分;2.累计百分比达到80%~85%以上的λ值对应的主成分;3.根据特征根变化的突变点决定主成分的数量;

    9.接下来根据得到的特征值和主成分载荷值(需要复制到excel表中整理在SPSS打开)计算每一个变量的特征向量,打开【转换】|【计算变量】工具,在目标变量中输入新的名字,输入公式:V1(第一主成分的载荷值)/SQRT(第一主成分的特征值6.26),对于第二主成分计算其特征向量也是一样的操作。

    10.两个主成分的特征向量计算结果:

    将Ui与10个变量的标准化值相乘即可得到两个主成分Y1、Y2的表达式:

    Y1=0.28*X1+0.06X2+0.24X3+0.34X4+0.19X5+0.38X6+0.36X7+0.38X8+0.38X9+0.38X10

    Y2=0.42*X1-0.55X2+0.44X3-0.21X4+0.44X5-0.03X6-0.22X7-0.12X8-0.01X9-0.17X10

    实验4:因子分析

    实验步骤与结果分析:

    1.数据准备,在SPSS载入“"D:\桌面\计量地理学实习\因子分析.xlsx"”数据。

    2.打开【分析】|【降维】|【因子分析】工具,将数据中除了【城市】这个变量,其余变量全部添加进去,

    3.分别点击【描述】、【抽取】和【旋转】中的相关选项,如下图所示:

    4.从运行结果上可以看到KMO值为0.762,接近于1,说明这些数据适合进行因子分析。同时Bartlett球形度检验中的Sig值为0.000,小于显著水平0.05,说明变量之间存在相关关系,可以做因子分析。

    公因子方差最小值为0.73,所有的变量都可以使用公因子进行表达。

    这是旋转成份矩阵。

    实验5:聚类分析

    实验步骤与结果分析:

    1.数据准备,在SPSS载入“"D:\桌面\计量地理学实习\聚类分析.xlsx"”数据。

    2.打开【分析】|【分类】|【系统聚类】工具,将数据中所有的变量全部添加进去,并且设置相关选项的设置,具体如下图所示:

    2.首先给出的是样品处理摘要(CaseProcessingSummary)。摘要告诉我们如下内容:有效样品的数目和百分比,缺失样品的数目和百分比,全部样品的数目和百分比。由于没有数据缺失,故全部21个样本参与聚类,有效样品为100%。

    3.从进度表可以看出,第1阶段(Stage1),首先将第12号样品和第13号样品聚为一类,这两个样品的夹角余弦值最大,为623.445。

    4.根据树形图,选择适当的尺度分为若干类。然后对分类结果进行分析,考察结果是否符合实际。

    实验6:多元线性回归分析

    实验步骤与结果分析:

    1.数据准备,在SPSS载入“"D:\桌面\计量地理学实习\多元线性回归分析.xlsx"”数据。

    1. 打开【分析】|【回归】|【线性】工具,将数据中所有的变量全部添加进去,并且设置相关选项的设置,具体如下图所示:

    3.相关选项设置如下图所示:

    将标准化残差“*ZRESID”选入“Y”中,将标准化预测值“*ZPRED”选入“X”中,勾选直方图和正态概率图,点击继续。

    4.结果解读

    由表可知DW值接近于2,自变量的自相关性不明显,模型设计得好,调整后的R方为0.99,模型拟合度非常好。

    显著性表示自变量对因变量的影响程度,小于0.05表示于显著影响,越小影响越大,由表可以知道年降水量和年蒸发量对径流深度有显著影响。

    VIF用于共线性诊断(变量之间的关联度),当0<VIF<10时,不存在多重共线性,由表可知年降水量和年蒸发量之间不存在多重共线性。

    但是根据直方图可以知道直方图和正态曲线较为不吻合,说明残差不符合正态分布。

    实验7:马尔可夫分析

    实验步骤与结果分析:

    1.时间序列数据整理后加载到Excel中,如下图所示:

    ​其中E1、E2和E3分别使用1、2和3代替,年份统一使用1-40代替,

    2.为了计算状态的转移矩阵,我使用二维折线图直观显示3个状态随着年份之间的相互转变:

    由图可知,

    ​从而得到初始转移矩阵

    ​3.2004年是E2状态,也就是2,预测2030年的农业收成,需要求出26步转移矩阵,为此我们需要计算初始转移矩阵的26次方,如下图所示:

    ​经过专业软件计算初始转移矩阵的26次方结果为:

    4.由于2004年的状态向量为(7/13,2/13,4/13),也就是(0.538,0.154,0.308),求出26年后的状态向量:

    计算结果为(0.365,0.353,0.282),为此可以知道在2030年的农业收成状态大概率是E1(很好)。

    展开全文
  • 统计学——几种常见的假设检验

    千次阅读 2020-04-22 17:50:37
    显著性检验是假设检验中最常用的一方法,也是一最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法Z检验...

    1、什么是假设检验?

    假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。

    假设检验的步骤

    ①确定要进行检验的假设,包括原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1
    ②选择检验的方法,计算统计量
    ③根据显著性水平,确定用于做出决策的拒绝域
    ④查看样本结果是否位于拒绝域内
    ⑤做出决策

    假设检验的几个重要概念
    • H 0 H_0 H0(原假设):即要对其进行检验的断言,除非有足够的证据拒绝,否则将接受原假设
    • H 1 H_1 H1(备择假设):在拒绝原假设之后将要接受的断言,通常与原假设对立
    • α \alpha α(显著性水平):指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取 α \alpha α=0.05或 α \alpha α=0.01
    • 单尾检验:拒绝域落在可能的数据集的一侧
    • 双尾检验:拒绝域落在可能的数据集的两侧

    使用单尾检验还是双尾检验取决于备择假设的形式:

    拒绝域的位置原假设备择假设
    双尾 H 0 : θ = θ 0 H_0:\theta=\theta_0 H0:θ=θ0 H 1 : θ ≠ θ 0 H_1:\theta\neq\theta_0 H1:θ=θ0
    左单尾 H 0 : θ ≥ θ 0 H_0:\theta\geq\theta_0 H0:θθ0 H 1 : θ   < θ 0 H_1:\theta\ < \theta_0 H1:θ <θ0
    右单尾 H 0 : θ ≤ θ 0 H_0:\theta\leq\theta_0 H0:θθ0 H 1 : θ   > θ 0 H_1:\theta\ > \theta_0 H1:θ >θ0
    假设检验的基本思想

    小概率原理:小概率事件在一次试验中是几乎不可能发生的,假若在一次试验中事件事实上发生了,那只能认为事件不是来自我们假设的总体,也就是认为我们对总体所做的假设不正确。

    假设检验中的两类错误

    ①第一类错误(弃真错误):原假设事实上正确,可是检验统计量的观察值却落入拒绝域,因而否定了本来正确的假设, p ( 弃 真 ) = α p(弃真)=\alpha p(=α
    ②第二类错误(取伪错误):原假设事实上不正确,可是检验统计量的观察值却落入了接受域,因而没有否定本来不正确的原假设。

    P值

    当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
    如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

    P值碰巧的概率对原假设 H 0 H_0 H0统计学意义
    p > 0.05 p>0.05 p>0.05碰巧出现的可能性大于5%不能否定原假设 H 0 H_0 H0两组差别无显著意义
    p < 0.05 p<0.05 p<0.05碰巧出现的可能性小于5%可以否定原假设 H 0 H_0 H0两组差别有显著意义
    p < 0.01 p<0.01 p<0.01碰巧出现的可能性小于1%可以否定原假设 H 0 H_0 H0两组差别有非常显著意义

    2、卡方检验

    卡方检验的根本思想在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验分为卡方拟合度检验和卡方独立性检验。

    卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布

    卡方检验的思想:卡方检验是以 χ 2 \chi^2 χ2分布为基础的一种常用假设检验方法。
    原假设 H 0 H_0 H0是:观察频数与期望频数没有差别。
    χ 2 = ∑ ( A − E ) 2 E = ∑ i = 1 k ( A i − E i ) 2 E i \chi^2=\sum\frac{(A-E)^2}{E}=\displaystyle\sum_{i=1}^k\frac{(A_i-E_i)^2}{E_i} χ2=E(AE)2=i=1kEi(AiEi)2
    A A A:某个类别的观察频数
    E E E:基于 H 0 H_0 H0原假设计算出的期望频数
    A − E A-E AE:残差

    求和之前除以期望频数的原因:观察频数与期望频数的差距是相对较大还是较小,取决于期望频数的大小。例如期望频数为1000,观察频数为1040和期望频数为10,观察频数为50,差值均为40,但是显然后者的期望与实际的差距显然大于前者的期望和实际的差距。

    χ 2 \chi^2 χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果 χ 2 \chi^2 χ2值小,就倾向于不拒绝 H 0 H_0 H0;如果 χ 2 \chi^2 χ2值大,就倾向于拒绝H0。至于 χ 2 \chi^2 χ2在每个具体研究中究竟要大到什么程度才能拒绝 H 0 H_0 H0,则要借助于卡方分布求出所对应的P值来确定。

    卡方检验的用途
    1、检验某个连续变量的分布是否与理论分布一致
    2、检验某个分类变量各类的出现概率是否等于指定概率
    3、检验某两个分类变量是否相互独立。如吸烟是否与呼吸道疾病有关
    4、检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立

    卡方拟合优度检验的自由度为 d f = k − 1 df=k-1 df=k1,其中k代表分类变量数
    卡方独立性检验的自由度为 d f = ( R − 1 ) ( C − 1 ) df=(R-1)(C-1) df=(R1)(C1),R代表行数,C代表列数

    卡方检验实例

    • 卡方拟合优度检验
      投掷骰子的观察分布是否等于期望分布。
      H 0 H_0 H0:观察分布等于期望分布
      假设投掷骰子共120次,各点数实际出现次数为A,期望出现次数为E,结果如下表:
    点数期望频数实际频数
    12018
    22019
    32023
    42020
    52016
    62024

    卡方值 χ 2 = ∑ ( A − E ) 2 E = 2.3 \chi^2=\displaystyle\sum\frac{(A-E)^2}{E}=2.3 χ2=E(AE)2=2.3
    自由度为 d f = k − 1 = 5 df=k-1=5 df=k1=5
    选择显著性水平 α = 0.05 \alpha=0.05 α=0.05
    根据自由度和显著性水平,得到卡方临界值为 11.0705 11.0705 11.0705
    由于 2.3 < 11.0705 2.3<11.0705 2.3<11.0705,故接受原假设,认为观察分布等于期望分布

    • 卡方独立性检验
      喝牛奶与感冒是否相关
      H 0 H_0 H0:喝牛奶与感冒不相关
      观测情况如下表:
    感冒人数不感冒人数合计感冒率
    喝牛奶439613930.94%
    不喝牛奶288411225.00%
    合计7118025128.29%

    假设喝牛奶与感冒是独立不相关的,则期望情况如下表:

    感冒人数不感冒人数合计
    喝牛奶139*28.29%=39.3231139*(1-28.29%)=99.6769139
    不喝牛奶112*28.29%=31.6848112*(1-28.29%)=80.3152112
    合计71180251

    卡方值 χ 2 = ∑ ( A − E ) 2 E = 1.10 \chi^2=\displaystyle\sum\frac{(A-E)^2}{E}=1.10 χ2=E(AE)2=1.10
    自由度为 d f = ( R − 1 ) ( C − 1 ) = 1 df=(R-1)(C-1)=1 df=(R1)(C1)=1
    选择显著性水平 α = 0.05 \alpha=0.05 α=0.05
    根据自由度和显著性水平,得到卡方临界值为 3.841459 3.841459 3.841459
    由于 1.10 < 3.841459 1.10<3.841459 1.10<3.841459,故接受原假设,认为喝牛奶与感冒是独立不相关的

    3、Z检验

    Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。

    • 检验一个样本的平均值与一个已知总体的平均值是否存在显著差异,Z值计算公式如下:
      z = X ˉ − μ 0 S / n z=\frac{\bar X-\mu_0}{S/\sqrt{n}} z=S/n Xˉμ0
      其中
      X ˉ \bar X Xˉ:样本平均值
      μ 0 \mu_0 μ0:总体均值
      S S S:总体标准差。当总体标准差未知且样本容量大时,取样本标准差
      n n n:样本容量
    • 检验来自两个不同总体的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,Z值计算公式:
      z = X ˉ 1 − X ˉ 2 S 1 2 n 1 + S 2 2 n 2 z=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} z=n1S12+n2S22 Xˉ1Xˉ2
      其中
      X 1 X_1 X1:样本1的均值
      X 2 X_2 X2:样本2的均值
      S 1 S_1 S1:样本1的标准差
      S 2 S_2 S2:样本2的标准差
      n 1 n_1 n1:样本1的样本容量
      n 2 n_2 n2:样本2的样本容量

    Z检验的步骤
    ①确立原假设 H 0 H_0 H0:两个平均数之间没有差异
    ②根据z值计算公式计算出z值
    ③根据显著性关系与z值做出判断

    z值p值差异程度
    ≥ \geq 2.58 ≤ \leq 0.01非常显著
    ≥ \geq 1.96 ≤ \leq 0.05显著
    <1.96>0.05不显著

    Z检验实例
    根据过去大量资料,某厂生产的灯泡使用寿命符合正态分布N~ ( 1020 , 10 0 2 ) (1020,100^2) (1020,1002),从最近生产的一批灯泡中随机抽取100只,测得样本平均值为1080,在0.05的显著性水平下判断这批产品的使用使用寿命是否显著提高。
    H 0 H_0 H0:样本均值与总体均值无显著差异
    根据公式计算Z值为 z = X ˉ − μ 0 S / n = 1080 − 1020 100 / 100 = 6 z=\frac{\bar X-\mu_0}{S/\sqrt{n}}=\frac{1080-1020}{100/\sqrt{100}}=6 z=S/n Xˉμ0=100/100 10801020=6
    在0.05的显著性水平下,由于8>1.96,因此拒绝原假设,认为样本均值与总体均值存在显著差异。

    4、T检验

    T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。T检验是通过比较不同数据的均值,研究两组数据之间是否存在显著差异。

    T检验的适用条件为样本分布符合正态分布。
    T检验的应用条件:
    当样本例数较小时,要求样本取自正态总体
    做两样本均数比较时,还要求两样本的总体方差相等。

    T检验的用途:
    (1)样本均数与群体均数的比较
    (2)两样本均数的比较

    T检验的三种形式
    、

    • 单个样本的t检验
      用于检验样本的分布期望是否等于某个值,原假设: μ = μ 0 \mu=\mu_0 μ=μ0
      统计量计算:
      t = X ˉ − μ 0 S / n t=\frac{\bar X-\mu_0}{S/\sqrt{n}} t=S/n Xˉμ0
      自由度 v = n − 1 v=n-1 v=n1
      适用条件:
      (1) 已知一个总体均数 μ 0 \mu_0 μ0
      (2) 可得到一个样本均数 X ˉ \bar X Xˉ及该样本标准差 S S S,样本数 n n n
      (3) 样本来自正态或近似正态总体;

      单样本T检验实例
      检验难产儿样本出生体重与一般婴儿出生体重是否相同?已知一般婴儿出生体重 μ 0 = 3.30 k g \mu_0=3.30kg μ0=3.30kg,难产儿样本 n = 35 , X ˉ = 3.42 , S = 0.40 n=35,\bar X=3.42,S=0.40 n=35Xˉ=3.42,S=0.40

      ①建立假设检验:
      H o H_o Ho:难产儿与一般婴儿的体重均数相等, μ = μ 0 \mu = \mu _0 μ=μ0
      H 1 H_1 H1:难产儿与一般婴儿的体重均数不相等, μ ≠ μ 0 \mu ≠ \mu _0 μ=μ0

      ②确定显著性水平: α = 0.05 \alpha=0.05 α=0.05

      ③计算检验统计量: t = X ˉ − μ 0 S / n = 3.42 − 3.30 0.40 / 35 = 1.77 , v = n − 1 = 34 t=\frac{\bar X-\mu_0}{S/\sqrt{n}}=\frac{3.42-3.30}{0.40/\sqrt{35}}=1.77,v=n-1=34 t=S/n Xˉμ0=0.40/35 3.423.30=1.77v=n1=34

      ④查相应的界表值,确定P值。得 t = 1.77 < 2.032 t=1.77 < 2.032 t=1.77<2.032 故不拒绝原假设,不能认为难产儿平均体重与一般婴儿平均体重不相同

    • 配对样本的t检验
      配对样本t检验针对配对的两组样本。假设两组样本之间的差值服从正态分布。如果该正态分布的期望为零,则说明这两组样本不存在显著差异。原假设: μ d = 0 \mu_d=0 μd=0

      配对方式
      ①自身配对:同一对象接受2种处理,如同一患者接受不同的治疗药物
      ②异体配对:将条件相近的实验对象配对,并分别给予不同的处理

      统计量计算:
      t = d ˉ S d / n t=\frac{\bar d}{S_d/\sqrt{n}} t=Sd/n dˉ
      d ˉ \bar d dˉ:两组样本差值的平均数
      S d S_d Sd:两组样本差值的标准差
      n n n:配对样本数

      配对样本T检验实例
      某医院用A、B两种血红蛋白法测量16名健康男青年的血红蛋白,问两者有无差别

      H 0 H_0 H0 μ d = 0 \mu_d=0 μd=0 两种方法测量结果相同
      H 0 H_0 H0 μ d ≠ 0 \mu_d≠0 μd=0 两种方法测量结果不相同
      显著性水平: α = 0.05 \alpha = 0.05 α=0.05
      计算统计量 t = d ˉ S d / n = 8.125 13.735 / 16 = 2.366 t=\frac{\bar d}{S_d/\sqrt{n}}=\frac{8.125}{13.735/\sqrt{16}}=2.366 t=Sd/n dˉ=13.735/16 8.125=2.366
      查相应的界表值,确定P值,拒绝 H 0 H_0 H0,可认为A、B两种测量结果不一致,

    • 独立样本的t检验
      该检验用于检验两组非相关样本均值之间的差异性,从而判断两样本所代表的总体均值是否有差异
      统计量计算:
      t = X ˉ 1 − X ˉ 2 ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 ( 1 n 1 + 1 n 2 ) t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}} t=n1+n22(n11)S12+(n21)S22(n11+n21) Xˉ1Xˉ2

      自由度 v = n 1 + n 2 − 2 v=n_1+n_2-2 v=n1+n22
      适用条件:
      (1)可计算两样本的均值及标准差
      (2)样本来自正态或近似正态总体
      (3)总体方差齐次 σ 1 2 = σ 2 2 \sigma_1 ^2= \sigma_2^2 σ12=σ22

      独立样本T检验实例
      问独立样本甲和乙均值是否一致?
      在这里插入图片描述
      H 0 H_0 H0 μ 1 = μ 2 \mu_1 = \mu_2 μ1=μ2
      H 0 H_0 H0 μ 1 ≠ μ 2 \mu_1 ≠\mu_2 μ1=μ2
      显著性水平: α = 0.05 \alpha=0.05 α=0.05
      计算统计量 t = X ˉ 1 − X ˉ 2 ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 ( 1 n 1 + 1 n 2 ) = − 3.785 t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}(\frac{1}{n_1}+\frac{1}{n_2})}}=-3.785 t=n1+n22(n11)S12+(n21)S22(n11+n21) Xˉ1Xˉ2=3.785
      v = 10 + 10 − 2 = 18 v=10+10-2=18 v=10+102=18
      查表得拒绝原假设,可以认为 μ 1 ≠ μ 2 \mu_1 ≠\mu_2 μ1=μ2

    5、F检验

    F检验也称为方差齐次性检验
    方差为样本标准差的平方,即: S 2 = ∑ i n ( x i − x ˉ ) 2 / ( n − 1 ) S^2=∑_i^n(x_i-\bar x)^2/(n-1) S2=in(xixˉ)2/(n1)
    两组数据就能得到两个 S 2 S^2 S2
    F = S 1 2 / S 2 2 F=S_1^2/S_2^2 F=S12/S22
    然后计算的F值与查表得到的F表值比较,如果
    F < F表 表明两组数据没有显著差异;
    F ≥ F表 表明两组数据存在显著差异。

    展开全文
  • 一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等) 不吃西红柿丶 2020-12-04 14:05:00 10860 收藏 60 分类专栏: 数据仓库 文章标签: 数据模型 范式模型 雪花模型 版权 数据仓库 专栏收录该内容 ...
  • Stata 是我们日常生活中比较常见的一种统计图绘制工具,它是一套可以为我们提供数据分析、数据管理以及绘制专业图表的完整型以及整合型统计的软件,了这种软件的出现,可以更加方便的进行各种图表统计和数据管理。...
  • 第3讲:MySQL数据库中常见几种表字段数据类型

    多人点赞 热门讨论 2022-08-01 08:52:45
    在MySQL数据库中,数据类型很多,主要分为大类数值类型、字符串类型、时间日期类型。
  • 如何用excel的表格做一个简单的数字统计常见统计表有几种?(注:统计表)急。。一、常见统计表有两种。单式统计表和复式统计表 。单式统计表一般统计1 项内容;复式统计表一般统计2项内容,它们都是用表格 来表示...
  • 几种常见的软件开发模型

    万次阅读 2017-01-02 19:21:21
    各种模型的比较每个软件开发组织应该选择适合于该组织的软件开发模型,并且应该随着当前正在开发的特定产品特性而变化,以减小所选模型的缺点,充分利用其优点,下列出了几种常见模型的优缺点。 各种模型的优点和...
  • MySQL中的统计数据

    万次阅读 2021-09-06 21:16:28
    基于索引统计数据的成本计算 时候使用索引执行查询时会许多单点区间,例如使用in语句就很容易产生非常多的单点区间,比如下边这个查询(下边查询语句中的…表示还有很多参数): select * from t_emp where ...
  • python统计数据指标的常见方法

    千次阅读 2019-04-15 20:34:39
    文章目录实验环境读取csv文件删除数据中我们不需要的列(假设我不需要ID的属性)统计某一列或多列数据多少不同的值统计某一列多少个等于某个值(测试我这里统计第二列[var3]等于32的值的个数)求取去除缺失...
  • 数学建模13种常见方法

    万次阅读 多人点赞 2018-11-24 10:22:00
    下面来介绍一下数学建模大赛中常用的13中建模方法: 1、层次分析法,简称AHP,是指将与决策总是有关的元素分解成目标、...课题时,应用网络系统理论和多目标综合评价方法,提出的一层次权重决策分析方法。 2、多...
  • 测试用例的几种常见设计方法

    万次阅读 多人点赞 2018-04-28 14:56:27
    测试用例常见的设计方法:等价类划分法、边界值分析法、错误推测法、判定法、正交实验法。 一.等价类划分法 顾名思义,等价类划分,就是将测试的范围划分成个互不相交的子集,他们的并集是全集,从每个子集...
  • MySQL——几种常见的嵌套查询

    千次阅读 2022-02-08 16:28:49
    几种常见的嵌套查询——以学员成绩为例 嵌套查询,也称为子查询,是实际工作中经常用到的一种查询方式。子查询其实就是在已的查询语句中的where后面再嵌套一层查询语句,也就是把内层查询结果当做外层查询参照的...
  • 分库分表的几种常见形式

    千次阅读 2018-02-10 09:56:11
    在谈论数据库架构和数据库优化的时候,我们经常会听到“分库分表”、“分片...“分库分表”那么容易实践吗?为此,笔者整理了分库分表中可能遇到的一些问题,并结合以往经验介绍了对应的解决思路和建议。 垂直分表
  • 数据预处理 常见几种方法

    万次阅读 2018-08-20 10:05:14
    在进行决策时,一般要进行属性值的规范化,主要如下个作用:①属性值多种类型,上述三种属性放在同一个中不便于直接从数值大小判断方案的优劣,因此需要对数据进行预处理,使得中任一属性下性能约优的方案...
  • 常见Excel技巧

    万次阅读 2018-12-09 16:31:39
    EXCEL常见技巧锦集 一、基础操作部分: 001、Excel365基础工作界面介绍 002、光标跳转设置、常用的录入技巧 003、多个单元格内容复制到一个单元格中、CTRL+D填充、快速做序列号 004、实时预览、双击格式刷、...
  • 几种常见的距离计算公式

    万次阅读 2019-10-20 10:41:59
    我们常用的距离计算公式是欧几里得距离公式,但是时候这种计算方式会存在一些缺陷,那么就需要另外的计算方法去加以补充,本文将介绍几种在机器学习中常用的计算距离。 在做很多研究问题时常常需要估算不同样本...
  • (10)常见几种数据库连接池的配置和使用

    万次阅读 多人点赞 2020-03-17 15:59:04
    今天主要介绍常见的数据库连接池 并且对它们的使用做一个总结,本篇文章是以SpringBoot 项目为例,一起随着小编看一下吧! 在文章的开始,提出一个问题: 一.为什么要使用数据库连接池? 影响一个系统使用...
  • 索引使用简介一、 关于索引的知识要写出运行效率高的sql,需要对索引的机制一定了解,下面对索引的基本知识做一介绍。1、 索引的优点和局限索引可以提高查询的效率,但会降低dml操作的效率。所以建立索引时需要...
  • 几种常见的离群点检验方法

    万次阅读 2020-07-29 12:09:41
    一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大都是建立在被检测的总体服从正态分布。基于此,在给定的检出水平或显著水平α...
  • 二、四种常见模型 2.1 维度模型 2.1.1 星型模型 2.1.2 雪花模型 2.1.3 星座模型 2.2 范式模型 2.3 Data Vault模型 2.4 Anchor模型 数据模型的评价标准 小编话 写在前面 大数据时代,维度建模已成为各大厂的...
  • 今天景联文科技给大家介绍10种常见的图像数据标注方法及其应用。 http://www.jinglianwen.com/admin/rest/newsinfo?id=51 1、语义分割 语义分割是指根据物体的属性,对复杂不规则图片进行进行区域划分,并标注...
  • 数据结构——四常见的线性表

    千次阅读 2017-12-14 18:59:18
    数组、链表、栈、队列是四常见的线性表
  • 常见的研究方法哪些?

    千次阅读 2019-10-04 10:46:51
    个案研究有三种基本类型:(1)个 人调查,即对组织中的某一个人进行调查研究;(2)团体调查,即对某个组织或团体进行调查研究;(3)问题调查,即对某个现象或问题进行 调查研究。 #功能分析法 功能分析法是...
  • 这里写目录标题实验目的实验内容实验要求六排序方法细解直接插入排序冒泡排序简单选择排序希尔排序快速排序归并排序六排序好坏分析代码段运行结果 实验目的 1.能够清楚表述主要内部排序方法的设计思路。 2....
  • 浅谈几种常用的报表

    千次阅读 2021-03-31 12:09:23
    自己工作后陆续接触了两三种报表,分别是SpreadJs、Aspose和帆软FineReport,这里回顾下报表相关的知识,方便备查。 第一、SpreadJs 第一个接触的报表,SpreadJs 是一款基于 HTML5 的纯 JavaScript 电子表格和网格...
  • GraphPad绘制几种常见散点图教程

    千次阅读 2020-12-31 04:47:18
    散点图是比较简单的一种数据表现形式,图中的每一个数据点都代表了各自独立的数据,Graphpad能完成的散点图几种形式,虽然都叫散点图,但是每种散点图所对应的数据形式是完全不同的。接下来我们一起看一下...
  • 常见索引类型

    千次阅读 2021-02-15 15:44:17
    日常开发工作中,涉及到的数据存储,要做查询优化或想深入了解存储引擎,需要对索引知识个起码的了解,下面介绍下最常见的四索引结构。 位图索引 哈希索引 BTREE索引 倒排索引 1、位图索引(BitMap) 位图...
  • 常用的统计分析方法

    千次阅读 2020-12-27 12:53:30
    交叉分析、是市场研究的主要工作,大部分研究分析均使用,主要用于分析报告和分析数据源,各种图表等,当然其中也卡方检验和T检验,寻找差异 (Table)分析 类似于Excel的数据透视,连续数据和离散数据均可使用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 177,177
精华内容 70,870
热门标签
关键字:

常见的统计表有哪三种