精华内容
下载资源
问答
  • 单变量描述统计分析报告.doc
  • 变量与多变量描述统计分析PPT课件.pptx
  • R语言笔记-数值型变量描述统计

    千次阅读 2020-10-21 16:55:11
    文章目录不分亚组的描述统计使用向量操作计算单个变量描述统计量计算汇总了多个变量的数据框的描述统计量:``sapply()````psych``包:``describe()``分亚组的描述统计``aggregate()````epiDisplay``包:``summ()``...

    不分亚组的描述统计

    MASS包中的数据集birthwt为示例。

    使用向量操作计算单个变量的描述统计量

    • 单个变量统计函数计算的基本语法:统计函数(数据框$变量名)
    • 关于基本统计函数的更多内容,参见这里

    计算汇总了多个变量的数据框的描述统计量:sapply()

    使用dplyr包中的select,汇总数据框中的数值型变量。为防止重名导致的混淆,包名::函数名特指调用指定包内的函数。

    > data(birthwt,package = "MASS")
    > cont.vars<-dplyr::select(birthwt,age,lwt,bwt)
    

    使用sapply(数据框名,统计函数名),计算该数据框内所有变量的指定描述统计结果。

    > sapply(cont.vars,mean)
          age       lwt       bwt 
      23.2381  129.8148 2944.5873 
    > sapply(cont.vars,sd)
           age        lwt        bwt 
      5.298678  30.579380 729.214295 
    > sapply(cont.vars,min)
    age lwt bwt 
     14  80 709 
    > sapply(cont.vars,max)
     age  lwt  bwt 
      45  250 4990 
    

    注意变量必须全为数值型 (预先使用select()挑选的原因)否则会报错:

    > sapply(birthwt,mean)
             low          age          lwt         race 
              NA   23.2380952  129.8148148           NA 
           smoke          ptl           ht           ui 
              NA    0.1957672           NA           NA 
             ftv          bwt 
       0.7936508 2944.5873016 
    Warning messages:
    1: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
    2: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
    3: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
    4: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
    5: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
    > sapply(birthwt,sd)
    Error in var(if (is.vector(x) || is.factor(x)) x else as.double(x), na.rm = na.rm) : 
      Calling var(x) on a factor x is defunct.
      Use something like 'all(duplicated(x)[-1L])' to test for a constant vector.
    

    psych包:describe()

    psych包下describe()可以汇总的形式计算数据框内所有变量的常见描述统计量,忽略缺失值。注意所有分类变量都会被当作数值变量处理。

    > library(psych)
    > describe(birthwt)
           vars   n    mean     sd median trimmed    mad
    low*      1 189    1.31   0.46      1    1.27   0.00
    age       2 189   23.24   5.30     23   22.90   5.93
    lwt       3 189  129.81  30.58    121  126.07  20.76
    race*     4 189    1.85   0.92      1    1.81   0.00
    smoke*    5 189    1.39   0.49      1    1.37   0.00
    ptl       6 189    0.20   0.49      0    0.08   0.00
    ht*       7 189    1.06   0.24      1    1.00   0.00
    ui*       8 189    1.15   0.36      1    1.07   0.00
    ftv       9 189    0.79   1.06      0    0.62   0.00
    bwt      10 189 2944.59 729.21   2977 2961.76 834.70
           min  max range  skew kurtosis    se
    low*     1    2     1  0.80    -1.36  0.03
    age     14   45    31  0.71     0.53  0.39
    lwt     80  250   170  1.38     2.25  2.22
    race*    1    3     2  0.31    -1.75  0.07
    smoke*   1    2     1  0.44    -1.82  0.04
    ptl      0    3     3  2.76     8.17  0.04
    ht*      1    2     1  3.55    10.67  0.02
    ui*      1    2     1  1.97     1.87  0.03
    ftv      0    6     6  1.56     3.00  0.08
    bwt    709 4990  4281 -0.21    -0.14 53.04
    

    分亚组的描述统计

    aggregate()

    基本语法:aggregate(数据框名,by=list(变量名=数据框名$变量名),统计函数名)。若其中存在分类变量,会报错。

    > aggregate(cont.vars,by=list(smoke=birthwt$smoke),mean)
      smoke      age      lwt      bwt
    1    no 23.42609 130.8957 3055.696
    2   yes 22.94595 128.1351 2771.919
    

    list()中可并列多个分类变量以实现交叉分组下的统计。

    > aggregate(cont.vars,by=list(smoke=birthwt$smoke,race=birthwt$race),mean)
      smoke  race      age      lwt      bwt
    1    no white 26.02273 138.8409 3428.750
    2   yes white 22.82692 126.3077 2826.846
    3    no black 19.93750 149.4375 2854.500
    4   yes black 24.10000 142.6000 2504.000
    5    no other 22.36364 119.1455 2815.782
    6   yes other 22.50000 124.0000 2757.167
    

    epiDisplay包:summ()

    基本语法:summ(变量名,by=数据框名$分类变量名)

    > summ(birthwt$bwt,by=birthwt$smoke)
    For birthwt$smoke = no 
     obs. mean     median  s.d.    min.   max.  
     115  3055.696 3100    752.657 1021   4990  
    
    For birthwt$smoke = yes 
     obs. mean     median  s.d.    min.   max.  
     74   2771.919 2775.5  659.635 709    4238  
    

    除了输出基本统计量之外,同时还会输出一张图,用于探索数据的趋势、离群值很方便:
    在这里插入图片描述

    psych包:describeBy()

    基本语法:describeBy(数据框名,数据框名$分类变量名)

    > describeBy(birthwt,birthwt$smoke)
    
     Descriptive statistics by group 
    group: no
           vars   n    mean     sd median trimmed    mad
    low*      1 115    1.25   0.44      1    1.19   0.00
    age       2 115   23.43   5.47     23   23.09   4.45
    lwt       3 115  130.90  28.43    124  127.62  20.76
    race*     4 115    2.10   0.93      2    2.12   1.48
    smoke*    5 115    1.00   0.00      1    1.00   0.00
    ptl       6 115    0.12   0.38      0    0.01   0.00
    ht*       7 115    1.06   0.24      1    1.00   0.00
    ui*       8 115    1.13   0.34      1    1.04   0.00
    ftv       9 115    0.82   0.98      1    0.68   1.48
    bwt      10 115 3055.70 752.66   3100 3086.14 816.91
            min  max range  skew kurtosis    se
    low*      1    2     1  1.13    -0.74  0.04
    age      14   45    31  0.77     1.00  0.51
    lwt      85  241   156  1.30     2.00  2.65
    race*     1    3     2 -0.19    -1.82  0.09
    smoke*    1    1     0   NaN      NaN  0.00
    ptl       0    2     2  3.19    10.13  0.04
    ht*       1    2     1  3.63    11.24  0.02
    ui*       1    2     1  2.17     2.72  0.03
    ftv       0    4     4  1.20     1.15  0.09
    bwt    1021 4990  3969 -0.28    -0.32 70.19
    --------------------------------------- 
    group: yes
           vars  n    mean     sd median trimmed    mad
    low*      1 74    1.41   0.49    1.0    1.38   0.00
    age       2 74   22.95   5.05   22.0   22.60   5.93
    lwt       3 74  128.14  33.79  120.0  123.58  22.24
    race*     4 74    1.46   0.76    1.0    1.33   0.00
    smoke*    5 74    2.00   0.00    2.0    2.00   0.00
    ptl       6 74    0.31   0.62    0.0    0.18   0.00
    ht*       7 74    1.07   0.25    1.0    1.00   0.00
    ui*       8 74    1.18   0.38    1.0    1.10   0.00
    ftv       9 74    0.76   1.18    0.0    0.53   0.00
    bwt      10 74 2771.92 659.63 2775.5 2782.55 630.10
           min  max range  skew kurtosis    se
    low*     1    2     1  0.38    -1.88  0.06
    age     14   35    21  0.55    -0.73  0.59
    lwt     80  250   170  1.45     2.22  3.93
    race*    1    3     2  1.23    -0.16  0.09
    smoke*   2    2     0   NaN      NaN  0.00
    ptl      0    3     3  2.11     4.46  0.07
    ht*      1    2     1  3.38     9.53  0.03
    ui*      1    2     1  1.67     0.80  0.04
    ftv      0    6     6  1.85     4.03  0.14
    bwt    709 4238  3529 -0.28     0.23 76.68
    

    类似于describe(),该函数会把所有分类变量都会被当作数值变量处理。

    展开全文
  • 连续变量描述统计与SPSS实现

    千次阅读 2020-03-09 23:29:10
    第一个问题,连续变量是什么? 一个人的年级,统计出来1、2、3…… 一个人的年纪,统计出来18、19、20…… 但是,虽然都是数字,只有年纪是连续变量...下面进入正题,连续变量描述统计。 概述 对于统计学和SP...

    第一个问题,连续变量是什么?

    一个人的年级,统计出来有1、2、3……
    一个人的年纪,统计出来有18、19、20……

    但是,虽然都是数字,只有年纪是连续变量。

    为什么?顾名思义,年纪是连续的,18 - 19之间可以无限划分,而年级不行,你只能位于这几个数之间的一个,而不能在他们中间。

    所以我们定义连续变量为:在一定区间内可以任意取值的变量。

    下面进入正题,连续变量的描述统计。

    概述

    对于统计学和SPSS来说,描述统计很直观,非常适合入门,它的作用就是进行描述

    描述一组数据,最普及的当然是平均数了,它属于集中趋势的量数,那么在数据工作中,我们可以从以下几个方面对数据进行描述:

    • 集中趋势 central tendency
    • 离散趋势 dispersion tendency
    • 分布特征 distribution tendency

    下面一个个介绍

    集中量数

    它用来体现一组数据的一般水平,集中意为数据们向某一点集中,众数据奔它而来。
    这一点并不固定,我们会根据数据的不同分布状况进行选择,比如:

    • 算术平均数:观察值总和与总频数之商;这是最常用的指标,但不适合对严重偏态分布的变量进行描述。譬如一个很常用的比分:一名CEO 的薪资为50w,10名员工薪资为3000,他们的算数平均数能代表该公司的平均薪资水平吗?显然不能。
    • 中位数:将全体数据从大到小排列,在数列中处于中间位置的数。
    • 众数:出现次数最多的数。
    • 还有截尾均数、几何均数、调和均数,其中截尾均数用得相对较多,截尾截尾,截去头尾,再求算术平均数;它能够有效防止极端值影响,一个很广泛的场景是:比赛计算得分时,去掉最高分和最低分,再求算术平均数。

    差异量数

    差异量数用来描述数据分布的变异性,能够量化描述数据的延伸、聚集状态,也就是我们常说的分散还是集中。
    集中量数和差异量数密不可分,在推断统计中,我们会同时用这两组数据来进行分析。
    常用的差异量数有以下几种:

    • 全距 range:最大值与最小值之差,很简单,不过也没什么用hhh
    • 百分位数、四分位数、四分位距一起说
      • 百分位数用来表示位置,如P99,就是将观察值分为两部分,理论上有99%的观察值比它小,1%比它大,是非常靠前的位置了。
      • 四分位数就是3个特定的百分位数,P25/P50/P75,可以发现,在同一组数据中,这三个四分位数是按上面的顺序升序排列的。(也可这样表示:Q1=P25;Q2=P50;Q3=P75)
      • 四分位距就是中间50%的数据的全距,也就是P75-P25。
    • 标准差和方差:这是一种算起来麻烦但是应用非常广泛的量数,大概仅次于算数平均数。标准差描述的是分布中每一个个体与均值之间的距离,也就是说,这组数据离中心偏离了多远。
    • 变异系数:当你要比较两组数据离散程度大小的时候,很多时候不能直接比较,主要为以下两种情况:
      • 测量尺度相差太大;比如蚂蚁的体重和大象的体重,显然不是一个量级,大象一点点的变化,在蚂蚁身上都会显得非常大,直接用标准差是不合适的;
      • 数据量纲不同;比如想要比较人的身高和体重离散程度大小,cm和kg如何比较呢?
      • 所以我们推出了变异系数CV(Coefficient of Variation),它的公式很简单,就是**(标准差/平均值)**,用除法消除了量纲,又按照均数大小进行了标准化。

    分布特征

    最常见的分布就是正态分布了,我们知道正态分布的形态,那么偏离的那些如何描述呢?于是偏度系数、峰度系数也被推出来,描述当前数据偏离正态分布的程度。
    这些用得比较少,我们只介绍一下其含义:

    • 偏度:分布不对称的方向和程度,记为g1;他是与正态分布比较而言的。
      • g1>0时,呈正偏态分布,长尾在右边
      • g1=0时,对称
      • g1<0时,呈负偏态分布,长尾在左边
    • 峰度:分布的尖峭程度或峰凸程度,记为g2;仍然是与正态分布相比较而言的统计量。
      • g2>0,峰的形状比较尖
      • g2=0,正态峰
      • g2<0,峰的形状比正态分布要平坦

    SPSS实现

    在SPSS中呢,想要知道这些数据都是非常非常方便的!

    • 他们在哪里?

    • 在“描述统计”子菜单中
      在这里插入图片描述

    • 频率:这里能够产生原始数据的频数表以及百分位数等各种统计数据;
      在这里插入图片描述

    • 最简单的,把你需要统计的变量移到右边的“变量”框内再按“确定”就可以了;

    • 右边的“统计”提供了百分位值、集中量数、差异量数、分布等的选项,勾选了就可以在输出中显示啦;“图表”可以勾选你需要显示的条形图、饼图等噢;默认是全部不勾选的,欢迎diy~

    • 描述:它用于一般性的统计描述,不能作图,可选项也没有那么多,但是简单高效,使用频率非常高,一般用于正态分布。

    • 探索:都是描述统计,为什么explore听起来高级一点?因为他是用于连续性资料分布状况不清时进行探索式分析。除了常用统计量,还可以做截尾均数、极端值列表等,当然也可以画图,功能非常强大。

    其实SPSS对新手真的非常友好,基本就是“所见即所得”,新手可以直接点开一个数据集,尝试各种功能,相信能够进步非常快~

    展开全文
  • SPSS——连续变量描述统计

    千次阅读 2018-09-04 17:41:07
    连续变量统计描述指标体系 集中趋势(位置统计量):均数适用于正态分布和对称分布资料;中位数适用于所有分布资料 离散趋势(尺度统计量):标准差、方差只适用于正态分布资料;四分位数适用于各种分布...

    连续变量的统计描述指标体系

    1. 集中趋势(位置统计量):均数适用于正态分布和对称分布资料;中位数适用于所有分布资料

    2. 离散趋势(尺度统计量):标准差、方差只适用于正态分布资料;四分位数适用于各种分布类型资料

    3. 分布特征:如描述正态分布的偏度系数和峰度系数

    4. 其他趋势:如可同事反应集中趋势和离散趋势的百分位数指标;描述数据的偏态分布、单峰分布和双峰分布;与异常值数据进行描述的M统计量、极端值列表;

    集中趋势描述指标

    算术均数:各个变量值与均数离差之和等于0,说明均数的性质是把总体各单位的差异全部抽象化,采用取长补短的方法把变量值小于平均数的负离差全部用大于0的正离差抵消补齐;算术平均数是误差最小的总体代表值。

    中位数:不受极端值影响的位置平均数,在具有个别极大或极小值的分布中中位数比算术平均数更具有代表性。

    截尾均数:将数据排序后按比例去掉两端数据,用其余数据的均数。若两者相差不大,说明数据不存在极端值,或极端值互相抵消。反之,则用截尾均数反映数据集中趋势。

    几何均数:适用于原始数据不对称,但经过对数转换后呈对称分布的资料。

    众数:特别使用与单峰对称

    离散趋势描述指标

    极差(全距):受极端值影响巨大

    方差和标准差:方差相当于平均了每个数据的离均差的平方值,从而客服了样本含量的影响,实际上适用于正态分布。

    百分位数、四分位数及四分位数间距:四分位数既能排除两端极端值影响,又能反映较多数据的离散程度,是当方差和标准差不适用时较好的离散程度表述指标。

    变异系数:消除尺度和量纲的影响,它是标准差和平均数的比率

    展开全文
  • 1、非连续性变量描述统计 analyze--descriptive statistic--frequencies 直条图、饼图、直方图(适合连续变量,可以画正态分布图线) 主要考虑统计选项里的各个统计值含义 ht...

    1、非连续性变量的描述统计

    analyze--descriptive statistic--frequencies

    直条图、饼图、直方图(适合连续变量,可以画正态分布图线)

     

    主要考虑统计选项里的各个统计值含义

    http://baike.baidu.com/view/592771.htm?subLemmaId=592771&fromenter=descriptive+statistics

     

    描述统计学

    百科名片

    描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。

    编辑本段简介

      描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。

    编辑本段分析

      描述统计是来描绘(describe)或总结(summarize)的观察量的基本情况的统计总称。描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。
      

    描述统计学

      透过对于数据资料的进行图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表(frequencydistributiontable)与图示法,如多边图(polygon)、 直方图(histogram,barchart)、圆形图(piechart)、 散点图(scatterplot)等。
      透过分析数据资料,以了解各变量内的观察值集中与分散的情况。运用的工具有: 集中量数(measureofcentrallocation),如 平均数(Mean)、 中位数(Median,Md)、 众数(Mode,Mo)、几何平均数(Geometricmean,GM)、 调和平均数(Harmonicmean,HM)。与 变异量数(measureofvariation),如 全距(range)、 平均差(averagedeviation,AD)、 标准差(standarddeviation,SD)、相对差、 四分差(quartiledeviation)。
      在推论统计中,测量样本的集中量数与变异量数都是变量(parameter)的不偏估计值,但是以平均数、 变异数、标准差的有效性最高。
      数据的次数分配情况,往往会呈现常态分配。为了表示测量数据与常态分配偏离的情况,会使用偏态(skewness)、峰度(kurtosis)这两种统计数据。
      为了解个别观察值在整体中所占的位置,会需要将观察值转换为相对量数,如 百分等级(percentagerank,PR),或 标准分数(Zscore,Tscore)。

    编辑本段对比

      描述统计学和 推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。
      统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。
      显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。由于在对现实问题的研究中,所获得的数据主要是样本数据,因此,推断统计在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容。当然,这并不等于说描述统计不重要,如果没有描述统计收集可靠的统计数据并提供有效的样本信息,即使再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。

     

    2、连续性变量正态分布的图形÷

    3、连续性变量的统计描述

     

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/27573546/viewspace-741665/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/27573546/viewspace-741665/

    展开全文
  • SPSS如何做离散和连续变量统计描述 离散变量统计描述 原始数据 §频数列表 §百分比 §累计频数 §累计百分比 集中趋势 §众数 连续变量统计描述 频数表 操作步骤:确定组数;确定组距;确定各组...
  • psych包中的describe.by函数是对于数据变量描述统计助于全面了解变量的值情况,且可以按照类别分组统计 pastecs包中stat.desc可以观察数据的置信区间、正态分布统计量等    
  • 该代码旨在提供一个随机变量描述统计数据,您可以通过randi 工具为其分配您想要测试的值。 该代码很简单,但在必须生成离散随机变量并根据描述统计研究它提供的值时很有用
  • 之前提到过描述单个随机变量的一些工具,比如正针对整体总体细节的“分布”、针对总体概述的各种统计量(期望、方差等),也提到过针多元随机变量描述量:协方差和相关系数,现在此总结下多个变量之间关系的研究。...
  • 连续变量统计描述 分类变量统计描述 正太分布 二项分布 参数估计与可信区间 假设检验     二、连续变量统计描述   1、统计方法  1.1 频数表  组数:不宜过多或过少,保证大多数...
  • 来源:http://study.163.com/course/courseMain.htm?courseId=1005232026索引——基本概念连续变量统计描述分类变量统计描述正太分布二项分布参数估计与可信区间假设检验...
  • 随机变量统计

    千次阅读 2019-12-02 21:57:01
    1、随机变量统计量 随机变量的N阶矩定义为: N阶矩 一阶矩(n=1)是随机变量的均值, 二阶矩(n=2)是功率, 如果吧随机变量的均值减去,再求N阶矩,就是N阶中心矩。 N阶中心矩 二阶中心矩称为...
  • ireport使用变量进行统计

    千次阅读 2014-01-20 09:57:45
    当我们需要统计某一列的值的时候,我们通常先定义一个Variables,然后通过给变量赋值来统计某一个Field的值 例如,我们要统计一个Field名为LoadingWeight的列,我们首先定义一个Variables叫做weight,然后给...
  • 社会调查中的资料分析方 第五章社会调查中的资料分析方法 第一节数据库的形成 第二节单变量描述统计分析 第三节变量推论统计分析 第四节双变量描述统计分析 第五节双变量推论统计分析 本章小结 思考题 哲学与社会...
  • 连续变量描述统计量(均值,中位数,四分位数,总和等),例如:聚合函数agg()描述价格变量 直方图 三 分类变量与分类变量描述频数,例如:交叉表crosstab()描述各地区与是否学区房 交叉表——堆叠柱状图 四 ...
  • 单变量分析的主要目的是描述数据并找出其中存在的模式,也就是“用最简单的概括形式反映出大量数据资料所容纳的基本信息”。 本节我们研究的是连续数值型数据的分布。 那么什么样的数据是连续数值型数据呢?什么样...
  • 使用R进行描述统计分析(连续性变量) 对于描述统计来说,R可以实现的方法很多,基础自带的summary()函数,还有其他packages,如Hmisc包,pastecs包,psych包提供了计算更多内容的函数。 基础函数 在R中,...
  • EXCEL中的数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    在百科的解释中,描述统计是通过图表或数学方法,数据资料进行整理、分析,并数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在...
  • 之前提到过描述单个随机变量的一些工具,比如正针对整体总体细节的“分布”、针对总体概述的各种统计量(期望、方差等),也提到过针多元随机变量描述量:协方差和相关系数,现在此总结下多个变量之间关系的研究。...
  • Python中的统计变量

    千次阅读 2018-06-07 20:58:20
    在实际中,大部分统计量在numpy包中定义,小部分变量在scipy包中定义。在本文中,data代表要分析的数据。且首先运行一下代码 import numpy as np import scipy.stats as ss 1,最常见的统计量 名...
  • 单变量线性回归模型与结果解读

    千次阅读 2019-06-09 13:59:19
    模型一般形式 统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量;...故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述变量与因变量间的关系...
  • 随机变量,概率密度及其统计

    千次阅读 2019-04-26 08:24:59
    它非常重要,连它的随机变量独特的名字:  Z . Z的图形是个对称的钟形曲线,图13: 图13 正态分布曲线 通常我们需要求Z在两个数值之间的概率。如 P(0)(Z在0与0.45 之间的概率是多少) 用标准正态...
  • SAS:单变量正态性检验

    万次阅读 2014-05-07 17:44:27
    单变量,正态性检验,PROC UNIVARIATE data maleh; input id sex height weight; cards; 1 1 173 120 5 1 179 135 8 1 168 131 10 1 175 125 12 1 171 119 ; run; ods html; proc univariate data=maleh normal;...
  • 1.分析多自变量对某一个因变量的显著性 在分析里找到,General linear model,然后选择Univariate, 分别把两个自变量TIssue and Speed 输入到Fixed Factor,然后设置Option里的描述,如果需要其他的设置可以自己添加 ...
  • 设是一个随机试验,其样本空间为,若每一个样本点,都唯一确定的实数与之对应,则称上的实值函数是一个随机变量(简记为)。 二、 分布函数的概念和性质 1.分布函数的定义 设是随机变量,称定义在上的实值...
  • 2,描述变量的计算 A excel计算 B SpSS   3, 绘制箱图 方法1 统计的信息 或者方法2   这样三步就好了 最后得到的图进行编辑   1双击,2...
  • 描述统计分析

    万次阅读 2018-06-07 10:56:17
    数据分析之前,需先明确变量的度量类型。变量的度量类型主要分三种:名义、等级、连续; 1、名义变量:如饮料类型; 1.1 描述名义变量的分布:频数表、... 3.1.1 需要对变量进行分布探索,并了解以下情况:  ...
  • 数据分析介绍之三——单变量数据观察之核密度估计

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 173,925
精华内容 69,570
关键字:

对单变量的描述统计有哪些