精华内容
下载资源
问答
  • R语言中各种统计量描述函数

    千次阅读 2020-03-13 16:52:16
    R语言中描述统计量的多种方法summary()、attributes()、describe()、str()等 summary()函数可以获取描述性统计量 可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计 ...

    R语言中描述统计量的多种方法summary()、attributes()、describe()、str()等

    1. summary()函数可以获取描述性统计量
      可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计

    2. misc包中的describe()函数
      可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值

    3.psych包中的describe()函数
    psych包也拥有一个名为describe()的函数,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误

    4.pastecs包中的stat.desc()的函数
    可以计算种类繁多的描述性统计量。使用格式为:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
    其中的x是一个数据框或时间序列。若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果

    5.str()函数
    以简洁的方式显示对象的数据结构及内容,可以查看数据框中每个变量的属性

    1. attributes()函数
      可以提取对象除长度和模式以外的各种属性

    7.aggregate()函数
    仅允许在每次调用中使用平均数、标准差这样的单返回值函数,它无法一次返回若干个统计量

    8.by()函数
    格式为:by(data,INDICES,FUN),其中data是一个数据框或矩阵,INDICES是一个因子或因子组成的列表,定义了分组,FUN是任意函数。

    9.doBy包中的summaryBy()函数
    10.psych包中的describe.by()函数

    展开全文
  • 描述性分析流程的整理前言一、变量说明表二、统计量描述位置的度量变异程度的度量三、统计图描述如何改变文本的样式插入链接与图片设定内容居中、居左、居右KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLow...

    导读
    楼主本人统计学专业在读,这几年也完成了不少数据分析的报告,故而想整理一点写数据类报告的tips。本文先整理了对一份数据进行描述性分析的流程。包括变量说明和利用平均数、方差、偏度峰度等基本统计量进行解读的思路。

    一、数据报告

    一般来说一份数据报告要包含研究目的、描述性分析、特征工程、建模分析、模型检验、模型对比的过程,最后需要加上最重要的结论和建议。其中数据处理的第一步就是描述性分析。

    研究目的
    描述性分析
    特征工程
    建立模型与解读
    模型检验和效果对比
    结论和建议

    有人说不知道描述性分析该描述什么,好像没什么可写。我的理解是,对读者而言,描述性分析其实就是在最开始给读者呈现对数据的初步观察,让其产生对数据的初印象,而建立模型的过程等于深挖这份数据集的特点;对个人而言,我们可以通过描述性分析发现特征的特点,从而对特征进行一些变换和处理,接下来再根据发现的数据特点以及研究目标去选用合适的模型。描述性分析的过程不该太长,以免喧宾夺主,应该指出重点的发现,并且尽量简单直白。接下来将对描述性分析的流程进行梳理,代码部分利用R语言实现

    描述性分析
    变量说明
    单变量统计量描述
    单变量统计图表
    多变量描述

    二、变量说明表

    数据集包含哪些内容?拿到一份数据首先要解决的就是这个问题。通常我们见到的csv格式的数据,都是以数据框形式存在,每一列都是代表一项特征,所以不妨先拿出头几行数据进行观察。这次用的例子是来自狗熊会(公众号:CluBear)的数据集,是二手市场上在售的1289条的汽车的10项指标数据,数据是前几年的,自变量包括汽车描述,排量,性能,级别,车门,车座,马力,发动机和前制动类型等10个变量,那么我们关心的变量是什么呢?这就是数据报告的目的性,本次设定因变量为汽车的价格,探究汽车价格的关键影响指标。下面可以先展示一下数据集的前几行。

    描述价格排量性能级别车门车座马力发动机前制动类型
    奥迪Q3 2017款 30 TFSI 时尚型20.61.4自动紧凑型5588L4通风盘式
    川汽野马F10 2011款 1.5L 手动2.11.5手动小型5588L4盘式
    丰田汉兰达 2015款 2.0T 四驱豪华版 7座27.82自动中型57220L4通风盘式
    奥迪Q5 2013款 40 TFSI 进取型27.882自动中型55211L4通风盘式

    这样一份关于市场上汽车特征的数据集,对于不了解汽车的人来说,每个数值代表的含义就不够明确,比如价格20万元是高还是低呢?级别又代表什么含义?紧凑型比小型大还是小?前制动类型没听说过,什么意思等等。所以为了解释数据,我们需要对这些变量(或特征)进行一个说明。

    变量说明表一般包含变量名、变量说明和取值范围这几个关键因素,变量名称很多时候数据集会以英文命名,所以就需要一个简要说明,对于数值型变量,可以介绍单位;对于类别变量,列出类别数。那么取值范围里面就可以把类别大致写一下,比如级别为大型的汽车就没有出现在前面展示的数据里,所以有必要在取值范围中出现。整理好后就可以看出前制动类型不止有通风盘式还有盘式,级别不仅有紧凑型还有大型。

    下面视情况可以再添加一些备注,备注可以对比较难以理解的变量进行解释,比如级别指的含义其实就是空间大小,或者是展示简单统计信息,如各类型样本的占比等。

    变量类型变量名详细说明取值范围备注
    因变量在售价格单位:万元1.3~280.0
    自变量描述汽车品牌与年份及关键字文字信息
    排量单位:升1.3~6.2
    性能定性变量,2个水平手动,自动手动约占28%,自动72%
    级别定性变量,5个水平小型,紧凑型,中型,中大型,大型左边按照从小到大排序
    车门整数变量2,3,4,5存在部分数据偏差
    车座整数变量4,5,7,8
    马力连续变量85~575
    发动机定性变量,7个水平L3,L4,V5,L6,V8,H4,L5代表不同的气缸排列方式
    前制动类型定性变量,2个水平盘式,通风盘式制动方式,通风盘式造价较高

    三、统计量描述

    还是以汽车价格数据为例,目前我们的因变量是价格,所以首选价格分析。对单变量进行统计量描述的时候可以用常见的统计量来做初步观察,统计量的主要意义在于整合数据,并且呈现出数据告诉我们的关键信息。

    位置的度量

    1. 平均数

    平均数即为样本观测值的总和平均。xi为我们的观察值,n为样本量,则有
    x ˉ = ∑ i = 1 n x i n \bar x=\frac{\sum_{i=1}^n x_i}{n} xˉ=ni=1nxi
    如汽车价格的平均数为17.3万元

    2. 中位数和分位数

    中位数是对数据中心位置的度量。将所有数据按照升序排列,位于中间的数值。
    (a)观测数为奇数时,中位数是位于中间的那个数值;
    (b)观测数为偶数时,中位数是位于中间两个数的平均值。
    百分位数(percentile): 第p百分位数满足条件的一-个数值,至少有p%的观测值小于或等于该值,且至少有(100 - p)%的观测值大于或等于该值。常用到的四分位数即:第25,50,75百分位数。
    如汽车价格的中位数为11.4万元

    R中求平均值、中位数、分位数的函数为mean(x),median(x),和quantiel(x,p)

    3. 两者的对比

    在描述统计的过程中,没有任何一个数字是孤零零地呈现的。我们需要对数字进行一个对比和解释,比如说分组取平均值,这对于类别变量就较为有效

    tapply函数常用对于因子型进行分组计算,按照index分组,对x进行fun的计算, tapply(X, INDEX, FUN )

    #按照级别对价格求均值
    tapply(suv_data$价格,suv_data$级别,mean)
    
        -      大型    紧凑型      小型    中大型      中型 
           NA 102.50000  10.84507   6.47700  52.46496  20.53357 
    

    从上面的分组价格可以看出不同大小的汽车平均价格相差很大,这就给我们提供了一个信息,即这个特征是个区分度高的“好”特征,在建模过程应该持续关注。

    中位数和平均数其实都是耳熟能详的统计量,但是主要的区别在于平均数是一个受异常值影响大的统计量,而中位数则比较稳健。比如说一个公司有1个人是100万元,剩下99个人都是1000元,中位数是1000,但是平均工资就会超过1万元。显然这个平均值没有意义,因为它没有做到呈现关键信息的作用。这时候中位数和众数其实都是相对好的统计量。

    4. 最大值和最小值

    有时候视情况还可以补充一些最大值和最小值之类的数据,就像老师重点关注优生和差生一样,因为他们在集体里具有一定的代表性,某种意义上代表了老师教学成果的上下限。下面简单呈现一些对汽车数据的部分统计结果。

    summary用于一键计算所有特征的统计量,对数值型计刚才提到的所有统计量,类别变量统计频数,还有很多这类统计函数,下次再整理一下

    summary(suv_data)
         价格             排量         性能         级别     车门          车座            马力      
     Min.   :  1.30   Min.   :1.300   手动:359   -     :  4   -:   4   Min.   :4.000   Min.   : 85.0  
     1st Qu.:  7.60   1st Qu.:1.600   自动:930   大型  :  4   2:   8   1st Qu.:5.000   1st Qu.:144.0  
     Median : 11.50   Median :2.000              紧凑型:669   3:   1   Median :5.000   Median :163.0  
     Mean   : 17.52   Mean   :2.099              小型  :160   4:   5   Mean   :5.219   Mean   :180.2  
     3rd Qu.: 20.00   3rd Qu.:2.400              中大型:133   5:1271   3rd Qu.:5.000   3rd Qu.:201.0  
     Max.   :280.00   Max.   :6.200              中型  :319            Max.   :8.000   Max.   :575.0  
                                                                       NA's   :4       NA's   :4      
              
    

    结果给出最大值和最小值之后,可i以重新去数据集里定位它的具体信息。比如汽车数据的价格最高值来自奔驰G级AMG 2016款 AMG G63 Edition 463,为280万元,但是!同样我们需要思考数字的含义,280万是多高呢?很高?还是只是比一般的高一点呢?

    这时我们可以想到中位数和平均数,上面的问题就有了答案,中位数为11.5万元,均值则为17.5万元,说明280万确实是比一般的车贵太多了!这样正常吗?像这样的高价汽车有多少呢?如果我们假设一百万算高价,那么高于100万元的SUV汽车在数据集里总共也只12款,占总体的不到1%,所以说市场上的百万级汽车的数量还是较少,这些汽车价格并非异常,市面上是存在这样的需求的。

    变异程度的度量

    接下来有一些统计量可以描述数据的变化

    1. 方差和标准差

    方差:变异程度的度量,每条数据和平均值的差的平方和,公式如下
    s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n s^2=\frac{\sum_{i=1}^n (x_i-\bar x)^2}{n} s2=ni=1n(xixˉ)2
    而标准差 s s s即为上式开根号

    2. 极差和四分位数间距

    极差(range): 最大值减去最小值。优点,容易计算;缺点,比平均数还容易受异常值影响。
    r a n g e = x ( n ) − x ( 1 ) range=x_{(n)} -x_{(1)} range=x(n)x(1)

    四分位数间距(inter quartile range):
    I Q R = Q 3 − Q 1 IQR=Q3-Q1 IQR=Q3Q1

    即第3四分位数-第1四分位数。所以IQR就是中间的50%的数据的极差。这个统计量不常见到,但是提供了一种度量变异的新想法,可以尝试与极差进行比较

    3.变异系数

    融合了平均数和标准差,值越大说明变异程度越强。 σ \sigma σ为标准差, μ \mu μ为平均值,则样本的变异系数为
    c o e f   o f   v a r i a n c e = s x ˉ × 100 % coef\ of\ variance=\frac{s}{\bar x}\times100\% coef of variance=xˉs×100%

    分布形状的度量

    数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。所以大多时候需要结合统计图来观察。

    1. 偏度

    偏度(Skewness) :描述变量取值分布形态对称性的统计量。其计算公式为:

    β s = m 3 m 2 3 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 3 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) 3 2 \beta_s=\frac{m_3}{m_2^{\frac{3}{2}}}=\frac{\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^3}{(\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^2)^\frac{3}{2}} βs=m223m3=(n1i=1n(xixˉ)2)23n1i=1n(xixˉ)3

    当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,偏度值大于0或小于0。偏度绝对值越大,表示数据分布形态的偏斜程度越大。

    • 偏度大于0表示正偏差值大,称为正偏或右偏,这时
      一般来说,中位数<平均数
    • 偏度值小于0表示负偏差值大,称为负偏或左偏,这时
      一般来说,平均数<中位数
      下面会结合图形解释一下原因

    2. 峰度

    峰度(Kurtosis) :描述变量 取值分布形态陡峭程度的统计量。样本峰度计算公式为:

    β k = m 4 m 2 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 4 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) 2 \beta_k=\frac{m_4}{m_2^2}=\frac{\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^4}{(\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^2)^2} βk=m22m4=(n1i=1n(xixˉ)2)2n1i=1n(xixˉ)4

    • 峰度值等于3,表示数据分布与标准正态分布的陡峭程度相同时,正态分布的峰度即为3
    • 峰度大于3,表示数据的分布比标准正态分布平缓,为平峰分布
    • 峰度小于3,表示数据的分布比标准正态分布更陡峭,为尖峰分布

    timeDate包里有kurtosis和skewness,psych包里的describe也可以计算

    library(timeDate)
    kurtosis(suv_data$价格)
    [1] 43.57262
    attr(,"method")
    [1] "excess"
    
    skewness(suv_data$价格)
    [1] 4.727704
    attr(,"method")
    [1] "moment"
    

    从上面可以看到偏度值是47,远大于0,故而明显右偏,而峰度值则略大于3,即为比正态分布稍微平缓一点。

    3. 示例

    在这里我们结合价格的频数直方图可以更清晰一点。这张图上可以看出右偏指的其实就是峰值靠左边,尾巴在右边。大部分的价格整体集中在0-20万元分段,但是有一小部分汽车价格特别高,这时候这些高价车就会让所有车的平均价格被拉高了,和刚才提到的工资例子一样,这也很明显地服从二八分布的法则。
    在这里插入图片描述
    简单说下二八法则,价格类的数据常常服从一种经济定律,80/20法则,也叫帕累托法则,这是20世纪初意大利统计学家、经济学家维尔弗雷多·帕累托提出的,他指出:在任何特定群体中,重要的因子通常只占少数,而不重要的因子则占多数,因此只要能控制具有重要性的少数因子即能控制全局。这个原理经过多年的演化,已变成当今管理学界所熟知的二八法则——即80%的公司利润来自20%的重要客户,其余20%的利润则来自80%的普通客户。

    这类法则在解释价格分布时有很重要的作用,在研究价格数据这类经济金融相关的数据时,我们可以补充这些相关知识来充实解读,数字永远只是数字,背后的含义才是需要深挖的事情。总的来说,价格的中位数为11.4万元,而均值则为17.3万元,平均值高于中位数,呈现右偏分布。价格明显地服从二八分布,即80%的价格分布在23.5万内,在最大价格的20%以内,故而是少数高价的SUV汽车样本拉高了样本的平均价格。以上就是对于价格单变量的描述分析。关于统计图和多变量之间的描述分析下次继续整理。

    展开全文
  • 充分统计量

    万次阅读 2016-05-11 09:20:42
    充分统计量标签: 模式分类@author lancelot-vim定义我们把任何关于样本集DD的函数都称为一个统计量,一个充分统计量就是一个关于样本集DD的函数ss(允许是向量形式的函数),其中包含了能有助于估计某种参数θ\theta...

    充分统计量

    标签: 模式分类

    @author lancelot-vim


    定义

    我们把任何关于样本集 D 的函数都称为一个统计量,一个充分统计量就是一个关于样本集D的函数 s (允许是向量形式的函数),其中包含了能有助于估计某种参数θ的全部相关信息,就是说我们希望充分统计量的定义能够有这样的约束条件: p(θ|s,D)=p(θ|s)

    举个例子说:对于高斯分布,期望和协方差矩阵就是它的充分统计量,因为如果这两个参数已知,就可以唯一确定一个高斯分布,而对于高斯分布的其他统计量,例如振幅,高阶矩等在这种时候都是多余的。

    因式分解定理

    充分统计量的最基本定义是因式分解定理,即如果 S θ的充分统计量,那么 p(D|θ) 可以写成一个只依赖于 sθ 的函数和一个只与样本有关的函数的乘积,用数学的语言描述如下:

    sθ 的充分统计量,当且仅当 P(D|θ)=g(s,θ)h(D)


    充分统计量和指数族

    假如 sθ 的充分统计量,将 P(D|θ)=g(s,θ)h(D) 代入贝叶斯一般理论公式 p(θ|D)=p(D|θ)p(θ)p(D|θ)p(θ)dθ 可得: p(θ|D)=g(s,θ)p(θ)g(s,θ)p(θ)dθ ,假如我们对 θ 很不确定,那么可以选择一个近似与均匀分布的 p(θ) ,在这种情况下,实际上 p(D|θ) 就几乎等于核函数 g¯(s,θ)=g(s,θ)g(s,θ)dθ

    一个正态分布的示例

    对于一个协方差已知,期望未知的正态分布,假设 p(x⃗ |θ⃗ )N(θ⃗ ,Σ) 有:

    p(D|θ⃗ )=k=1n1(2π)d2|Σ|12exp[12(x⃗ kθ⃗ )TΣ1(x⃗ kθ⃗ )]    =exp[n2θ⃗ TΣ1θ⃗ +θ⃗ TΣ1x⃗ k(x⃗ k)]=g(u⃗ ^n,θ⃗ )×h(D)

    其中 u⃗ ^n=1nnk=1x⃗ k

    根据核函数公式:g¯(s,θ)=g(s,θ)g(s,θ)dθ,可得: g¯(u⃗ ^n,θ⃗ )=1(2π)d2|1nΣ|12exp[12(θ⃗ u⃗ ^n)T(1nΣ)1(θ⃗ u⃗ ^n)]


    指数族函数

    对于可用 p(x⃗ ,|θ⃗ )=α(x⃗ )exp(a(θ⃗ )+b(θ⃗ )Tc(x⃗ ) 来表示的函数叫做指数族函数,其几乎包括了常用的所有分布,对于这种函数,如果它作为某个事件的概率密度,那么总能使用核函数方法来估计分布

    • s⃗ =1nnk=1c(x⃗ k)
    • g(s⃗ ,θ⃗ )=exp[na(θ⃗ +b(θ)Ts⃗ ]
    • h(D)=Πnk=1α(x⃗ k)

    核函数表1.png-107.7kB
    核函数表2.png-93.7kB


    展开全文
  • 数据的统计描述和分析

    千次阅读 多人点赞 2019-04-22 19:25:37
    描述统计就是搜集、整理、加工和分析统计数据, 使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分...

    数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其多相关信息的数值来体现数据样本总体的规律。

    描述性统计就是搜集、整理、加工和分析统计数据, 使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的基本方法。 我们将用 Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析.

    目录

    统计的基本概念 

    1.1  总体和样本             1.2  频数表和直方图             1.3  统计量 

    (i)表示位置的统计量—算术平均值和中位数      

    (ii)表示变异程度的统计量—标准差、方差和极差 

    (iii)中心矩、表示分布形状的统计量—偏度和峰度 

    1.4  统计中几个重要的概率分布 

    1.4.1  分布函数、密度函数和分位数  

    1.4.2  统计中几个重要的概率分布   

    (i)正态分布   (ii)  \small \chi ^{2}分布(Chi square)   (iii)t分布    (iv)F 分布 

    1.4.3  Matlab 统计工具箱(Toolbox\Stats)中的概率分布 

    1.5  正态总体统计量的分布 

    2 参数估计 

    2.1  点估计               2.2  区间估计               2.3  参数估计的 Matlab 实现

    3  假设检验

    3.1  单个总体  均值μ 的检验

      3.1.1    已知\small \sigma ^{2} ,关于μ 的检验(Z 检验)   3.1.2   σ未知,关于μ 的检验(t检验) 

    3.2  两个正态总体均值差的检验(t检验)   

    3.3  分布拟合检验 

    3.3.1   检验法   3.3.2  偏度、峰度检验(留作习题1) 

    3.4  其它非参数检验 

    3.4.1  Wilcoxon秩和检验  

    3.5  中位数检验

    3.5.1  signrank函数   3.5.2  signtest函数        习题:


    统计的基本概念 

    1.1  总体和样本 

    总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及 废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如 x)来表示,如一 件产品是合格品记 x=0 ,是废品记 x=1 ;一个身高 170(cm)的学生记 x=170  。

    从总体中随机产生的若干个个体的集合称为样本,或子样,如n件产品,100 名学 生的身高,或者一根轴直径的 10 次测量。实际上这就是从总体中随机取得的一批数据, 不妨记作 \small x_{1}\, ,x_{2}\, ,\cdots ,x_{n}\, ,n称为样本容量。 简单地说,统计的任务是由样本推断总体。 

    1.2  频数表和直方图 

    一组数据(样本)往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这 组数据的一个初步整理和直观描述将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次 数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一 个阶梯形的图,称为直方图,或频数分布图

    若样本容量不大,能够手工做出频数表和直方图,当样本容量较大时则可以借助 Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。

    例 1  学生的身高和体重 学校随机抽取 100 名学生,测量他们的身高和体重,所得数据如表1.

    (i) 数据输入 

    数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量比 较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件 data.txt 中, 格式如例 1 的表 1,有 20 行、10 列,数据列之间用空格键或 Tab 键分割,该数据文件 data.txt 存放在 matlab\work 子目录下,在 Matlab 中用 load 命令读入数据,具体作法是:
     load data.txt

    这样在内存中建立了一个变量 data,它是一个包含有 20× 10个数据的矩阵。 为了得到我们需要的 100 个身高和体重各为一列的矩阵,应做如下的改变: 

    high=data(:,1:2:9);high=high(:) 
    weight=data(:,2:2:10);weight=weight(:) 

    (ii)作频数表及直方图

    求频数用 hist 命令实现,其用法是: [N,X] = hist(Y,M)

    得到数组(行、列均可)Y 的频数表。它将区间[min(Y),max(Y)]等分为 M 份(缺省时 M 设定为 10),N 返回 M 个小区间的频数,X 返回 M 个小区间的中点。  

     命令 hist(Y,M) 画出数组 Y 的直方图。

        对于例 1 的数据,编写程序如下: 

    load data.txt;
    high=data(:,1:2:9);high=high(:); 
    weight=data(:,2:2:10);weight=weight(:); 
    [n1,x1]=hist(high) 
    %下面语句与hist命令等价 
    %n1=[length(find(high<158.1)),... 
    %   length(find(high>=158.1&high<161.2)),... 
    %   length(find(high>=161.2&high<164.5)),... 
    %   length(find(high>=164.5&high<167.6)),... 
    %   length(find(high>=167.6&high<170.7)),... 
    %   length(find(high>=170.7&high<173.8)),... 
    %   length(find(high>=173.8&high<176.9)),... 
    %   length(find(high>=176.9&high<180)),... 
    %   length(find(high>=180&high<183.1)),... 
    %   length(find(high>=183.1))] 
    [n2,x2]=hist(weight) 
    subplot(1,2,1), hist(high) 
    subplot(1,2,2), hist(weight) 

    计算结果略,直方图如图 1 所示。 

    从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;而体重则看不出 什么规律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统 计量”。直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分 布作假设检验。

       例 2  统计下列五行字符串中字符 a、g、c、t 出现的频数 

    1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg

    2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga

    3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca

    4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc

      解  把上述五行复制到一个纯文本数据文件 shuju.txt 中,放在 matlab\work 子目录 下,编写如下程序:

    clc 
    fid1=fopen('shuju.txt','r'); 
    i=1; 
    while (~feof(fid1)) 
        data=fgetl(fid1); 
        a=length(find(data==97)); 
        b=length(find(data==99)); 
        c=length(find(data==103)); 
        d=length(find(data==116)); 
        e=length(find(data>=97&data<=122)); 
        f(i,:)=[a  b  c  d  e  a+b+c+d]; 
        i=i+1; 
    end 
    f, he=sum(f) 
    dlmwrite('pinshu.txt',f); dlmwrite('pinshu.txt',he,'-append'); 
    fclose(fid1); 

       我们把统计结果后写到一个纯文本文件 pinshu.txt 中,在程序中多引进了几个变 量,是为了检验字符串是否只包含 a、g、c、t 四个字符。 

    1.3  统计量 

    假设有一个容量为n 的样本(即一组数据),记作  \small x_{1}\, ,x_{2}\, ,\cdots ,x_{n}\, ,需要对它进 行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。统计量 就是加工出来的、反映样本数量特征的函数,它不含任何未知量。 下面我们介绍几种常用的统计量。 

    (i)表示位置的统计量—算术平均值和中位数 

    (ii)表示变异程度的统计量—标准差、方差和极差 

    (iii)中心矩、表示分布形状的统计量—偏度和峰度 

    在以上用 Matlab 计算各个统计量的命令中,若 x 为矩阵,则作用于 x 的列,返回 一个行向量。

    对例 1 给出的学生身高和体重,用 Matlab 计算这些统计量,程序如下: 

    clc 
    load data.txt; 
    high=data(:,1:2:9);high=high(:); 
    weight=data(:,2:2:10);weight=weight(:); 
    shuju=[high weight]; 
    jun_zhi=mean(shuju) 
    zhong_wei_shu=median(shuju) 
    biao_zhun_cha=std(shuju) 
    ji_cha=range(shuju) 
    pian_du=skewness(shuju) 
    feng_du=kurtosis(shuju) 
     

    统计量中重要、常用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率 分布有关,因此我们需要知道几个重要分布的简单性质。 

    1.4  统计中几个重要的概率分布 

    1.4.1  分布函数、密度函数和分位数 

    我们前面画过的直方图是频数分布图,频数除以样本容量n,称为频率n充分大 时频率是概率的近似,因此直方图可以看作密度函数图形的(离散化)近似。 

    1.4.2  统计中几个重要的概率分布 

    (i)正态分布 

    正态分布可以说是常见的(连续型)概率分布,成批生产时零件的尺寸,射击中 弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,多数情况下都 服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即在大量相互独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态分布。 

    鉴于正态分布的随机变量在实际生活中如此地常见,记住下面 3 个数字是有用的:
     

    (ii) \small \chi ^{2} 分布(Chi square) 

    (iii)t分布 

     (iv)F 分布 

    1.4.3  Matlab 统计工具箱(Toolbox\Stats)中的概率分布 

          Matlab 统计工具箱中有 27 种概率分布,这里只对上面所述 4 种分布列出命令的字 符: 

              norm  正态分布;         chi2     \small \chi ^{2} 分布(Chi square)   ;       t   t分布            f    F 分布

    工具箱对每一种分布都提供 5 类函数,其命令的字符是:

    pdf 概率密度;  cdf 分布函数;  inv 分布函数的反函数; stat 均值与方差;  rnd 随机数生成

    当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起 来,并输入自变量(可以是标量、数组或矩阵)和参数就行了,如: 

    p=normpdf(x,mu,sigma)   //均值 mu、标准差 sigma 的正态分布在 x 的密度函数 (mu=0,sigma=1 时可缺省)。  

     p=tcdf(x,n)        //  t分布(自由度 n)在 x 的分布函数。

    x=chi2inv(p,n)    //   \small \chi ^{2} 分布(自由度 n)使分布函数 F(x)=p 的 x(即 p 分位数)。

    [m,v]=fstat(n1,n2)     // F 分布(自由度 n1,n2)的均值 m 和方差 v。 

    几个分布的密度函数图形就可以用这些命令作出,如:

    x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2);

    plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)')

    分布函数的反函数的意义从下例看出:

    1.5  正态总体统计量的分布 

    用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机变量,所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时,求某个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量 (均值、标准差)的分布才有便于使用的结果。另一方面,现实生活中需要进行统计推 断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中人们在正态总体的假定下研究统计量的分布,是必要的与合理的。 

    2 参数估计 

    2.1  点估计 

    2.2  区间估计

    2.3  参数估计的 Matlab 实现

    Matlab 统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。 对于正态总体,命令是

    [mu,sigma,muci,sigmaci]=normfit(x,alpha)

    其中 x 为样本(数组或矩阵),alpha 为显著性水平 α (alpha 缺省时设定为 0.05),返 回总体均值 μ 和标准差 σ 的点估计 mu 和 sigma,及总体均值 μ 和标准差 σ 的区间估计 muci 和 sigmaci。当 x 为矩阵时,x 的每一列作为一个样本。

    Matlab 统计工具箱中还提供了一些具有特定分布总体的区间估计的命令,如 expfit,poissfit,gamfit,你可以从这些字头猜出它们用于哪个分布,具体用法参见 帮助系统。

     

    3  假设检验

    统计推断的另一类重要问题是假设检验问题。在总体的分布函数完全未知或只知其 形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。例如, 提出总体服从泊松分布的假设,又如对于正态总体提出数学期望等于 0 μ 的假设等。假设检验就是根据样本对所提出的假设做出判断:是接受还是拒绝。这就是所谓的假设检 验问题

    3.1  单个总体 \small N\left ( \mu ,\sigma ^{2} \right ) 均值μ 的检验

      3.1.1   \small \sigma ^{2} 已知,关于μ 的检验(Z 检验) 

    例 3  某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正 态分布。当机器正常时,其均值为 0.5 公斤,标准差为 0.015 公斤。某日开工后为检验 包装机是否正常,随机地抽取它所包装的糖 9 袋,称得净重为(公斤): 0.497   0.506   0.518   0.524   0.498   0.511  0.520  0.515  0.512  问机器是否正常? 

    Matlab 实现如下:

    x=[0.497   0.506   0.518   0.524   0.498...    
       0.511  0.520  0.515  0.512]; 
    [h,p,ci]=ztest(x,0.5,0.015) 

    求得 h=1,p=0.0248,说明在 0.05 的水平下,可拒绝原假设,即认为这天包装机 工作不正常。 

    3.1.2   σ未知,关于μ 的检验(t检验) 

    x=[159  280  101  212  224  379  179  264 ...    
       222  362  168  250  149  260  485  170]; 
    [h,p,ci]=ttest(x,225,0.05,1) 

    求得 h=0,p=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为 元件的平均寿命不大于 225 小时。

    3.2  两个正态总体均值差的检验(t检验) 

    还可以用t检验法检验具有相同方差的 2 个正态总体均值差的假设。在 Matlab 中 由函数 ttest2 实现,命令为:

    [h,p,ci]=ttest2(x,y,alpha,tail)

    与上面的 ttest 相比,不同处只在于输入的是两个样本 x,y(长度不一定相同), 而不是一个样本和它的总体均值;tail 的用法与 ttest 相似,可参看帮助系统。 

    x=[78.1  72.4  76.2  74.3  77.4  78.4  76.0  75.6  76.7  77.3]; 
    y=[79.1  81.0  77.3  79.1  80.0  79.1  79.1  77.3  80.2  82.1]; 
    [h,p,ci]=ttest2(x,y,0.05,-1) 

    3.3  分布拟合检验 

    在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检 验关于分布的假设。下面介绍 \small \chi ^{2} 检验法和专用于检验分布是否为正态的“偏峰、峰度 检验法”。 

    3.3.1   \small \chi ^{2}检验法 

     例 6  下面列出了 84 个伊特拉斯坎(Etruscan)人男子的头颅的大宽度(mm), 试检验这些数据是否来自正态总体(取 \small \alpha =0.1  )

    141  148  132  138  154  142  150  146  155  158 150  140  147  148  144  150  149  145  149  158 143  141  144  144  126  140  144  142  141  140 145  135  147  146  141  136  140  146  142  137 148  154  137  139  143  140  131  143  141  149 148  135  148  152  143  144  141  143  147  146  150  132  142  142  143  153  149  146  149  138 142  149  142  137  134  144  146  147  140  142 140  137  152  145 

    解  编写 Matlab 程序如下: 

    clc 
    x=[141  148  132  138  154  142  150  146  155  158 ... 
       150  140  147  148  144  150  149  145  149  158 ... 
       143  141  144  144  126  140  144  142  141  140 ... 
       145  135  147  146  141  136  140  146  142  137 ... 
       148  154  137  139  143  140  131  143  141  149 ... 
       148  135  148  152  143  144  141  143  147  146 ... 
       150  132  142  142  143  153  149  146  149  138 ... 
       142  149  142  137  134  144  146  147  140  142 ... 
       140  137  152  145]; 
    mm=minmax(x)   %求数据中的小数和大数 
    hist(x,8)       %画直方图 
    fi=[length(find(x<135)),...    
        length(find(x>=135&x<138)),...    
        length(find(x>=138&x<142)),...    
        length(find(x>=142&x<146)),...    
        length(find(x>=146&x<150)),...    
        length(find(x>=150&x<154)),...    
        length(find(x>=154))]      %各区间上出现的频数 
    mu=mean(x),sigma=std(x)     %均值和标准差 
    fendian=[135,138,142,146,150,154]   %区间的分点 
    p0=normcdf(fendian,mu,sigma)         %分点处分布函数的值 
    p1=diff(p0)                              %中间各区间的概率 
    p=[p0(1),p1,1-p0(6)]                   %所有区间的概率 
    chi=(fi-84*p).^2./(84*p)               
    chisum=sum(chi)                         %皮尔逊统计量的值 
    x_a=chi2inv(0.9,4)     %chi2分布的0.9分位数 

     

    3.3.2  偏度、峰度检验(留作习题1) 

    3.4  其它非参数检验 

    Matlab还提供了一些非参数方法。 

    3.4.1  Wilcoxon秩和检验 

     例7  某商店为了确定向公司 A或公司B 购买某种产品,将 A, B公司以往各次进 货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著 差异。设两公司的商品的次品的密度多只差一个平移,取 \small \alpha =0.05 

          求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零, 且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。 

    3.5  中位数检验

    在假设检验中还有一种检验方法为中位数检验,在一般的教学中不一定介绍,但在 实际中也是被广泛应用到的。在Matlab中提供了这种检验的函数。函数的使用方法简单, 下面只给出函数介绍。 

    3.5.1  signrank函数 

    3.5.2  signtest函数 

    习题:

     

     

     

     

     

    展开全文
  • #SAS统计分析-描述统计

    千次阅读 2019-09-18 10:36:42
    关于统计统计的基础概念之前就大致有整理过了,想要回顾的可以点击:这个主题的文章会侧重于sas关于统计分析的应用的学习整理与讲解,过程中也会补充一些比较重要的统计分析概念...
  • 数据分析方法——01描述统计

    千次阅读 2018-07-12 02:37:08
    描述统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。数据的分布特征:分布的集中趋势,反应各数据向其中心值靠拢或聚集的...
  • 使用学习过的知识(Numpy数值分析基础、Matplotlib数据可视化基础、Pandas统计分析基础),对data.csv用户用户用电数据进行相关处理,其中数据中有编号为1-200的200位电力用户,DATA_DATE表示时间,如2015/1/1表示...
  • 以下基本图形类型作为Python类提供: 图形:此类实现无向图。它忽略两个节点之间的多个边。它确实允许节点与其自身之间的自环边缘。 图:有向图,即有向边的图。有向图(图的子类)共有的操作。 多图:灵活的图类,...
  • 2019年常见Elasticsearch 面试题答案详细解析(下)

    千次阅读 多人点赞 2019-12-26 15:51:03
    (2)你希望收集日志或事务数据,并希望分析和挖掘这些数据,以查找趋势、统计、汇总或异常。在这种情况下,你可以使用loghide (Elasticsearch/ loghide /Kibana堆栈的一部分)来收集、聚合和解析数据,然后让loghide...
  • 数据分析的基本概念: 1.平均数(mean):提供数据中心位置的度量。反映一组数据的平均大小。代表平均水平。平均数和每一个数相关,任何一个数字的变动都会影响到平均数。主要缺点是非常的容易受到极端数据的影响,...
  • 描述性数据分析

    万次阅读 2018-07-22 16:33:38
    一、什么是描述统计分析(Descriptive Analysis) 概念:使用几个关键数据来描述整体的情况 描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对...
  • R语言中的抽样方法与描述统计函数

    千次阅读 2019-04-26 00:46:55
    常见的抽样方法 简单随机抽样 分层抽样 系统抽样 # 导入数据 # 1 金融 2 建筑 3 外语 data <- read.csv("E:\\Github\\code-learning\\R\\data\\第11期资料\\data.csv") # 按照专业和ID排序 data <- data...
  • 几种常见的概率统计谬误

    千次阅读 2020-07-14 22:13:44
    转载自:输出ING 一、幸存者偏差 描述 关注于眼前那些经历了某些过程而幸存下来的人或物,却忽视了不在视线范围内的未幸存下来的人或物。...此次统计的样本,仅包含没有因敌火射击而坠毁并安全返航的轰炸机。
  • SPSS——基本统计概念

    千次阅读 2016-05-12 08:17:45
    SPSS——基本统计概念
  • MySQL 面试题

    万次阅读 多人点赞 2019-09-02 16:03:33
    实际场景下,例如说商品表数据比较大的情况下,会将商品描述单独存储到一个表中。即,使用拆的方案。 MySQL 有哪些存储引擎? MySQL 提供了多种的存储引擎: InnoDB MyISAM MRG_MYISAM MEMORY CSV...
  • } jQuery实现水平和垂直居中 原理:jQuery实现水平和垂直居中的原理就是通过jQuery设置div等块级元素的CSS,获取div等块级元素的左、上的边距偏移,边距偏移的算法就是用页面窗口 的宽度减去该div等块级元素的...
  • 俩者的概念:时间复杂度是指执行这个算法所需要的计算工作;而空间复杂度是指执行这个算法所需要的内存空间。时间和空间(即寄存器)都是计算机资源的重要体现,而算法的复杂性就是体现在运行该算法时的计算机所需...
  • 进程的描述与控制 进程的描述 程序的顺序执行和并发执行 顺序执行的特点 顺序性:每一操作都在下一操作开始前结束,严格按照顺序; 封闭性:程序在封闭环境下执行,程序运行时占全机资源,资源的状态只有...
  • 概率与统计中的基本分布总结

    千次阅读 2018-07-10 18:56:56
    正态分布的例子包括:某国家的人的身高、某个省的各个高程值以及 12 岁学生的数学考试分数。     其中参数:μ代表的是平均值  σ标准差(正数) 正态分布关于平均值、众数和中值对称(都在 μ 处...
  • 【数据库学习】数据库总结

    万次阅读 多人点赞 2018-07-26 13:26:41
    常见数据库管理系统有:Access、mysql、sql server 2)特点 ①数据库数据特点 永久存储、有组织、可共享。 (数据的最小存取单位是数据项) ②数据库系统的特点 数据结构化 数据的...
  • 测试开发笔记

    万次阅读 多人点赞 2019-11-14 17:11:58
    沟通 在测试前期与开发沟通 确认测试重点 确认测试的优先级 了解开发人员技术和业务背景 业务水平 技术水平 代码质量 人员流动性 在测试结束后 对已发现的bug进行统计 知道高发概率bug 在新项目中要进行重点测试 ...
  • java面试题2019_java面试题及答案_java面试题库

    千次阅读 多人点赞 2019-05-16 09:31:30
    1、一个.java源文件中是否可以包括多个类(不是内部类)?有什么限制? 2、Java有没有goto? 3、&和&&的区别? 4、switch语句能否作用在byte上,能否作用在long上,能否作用在String上? 5、short s1 = ...
  • 图像分割综述

    万次阅读 多人点赞 2019-07-09 22:03:48
    ​ 主动轮廓模型(active contours)是图像分割的一种重要方法,具有统一的开放式的描述形式,为图像分割技术的研究和创新提供了理想的框架。在实现主动轮廓模型时,可以灵活的选择约束力、初始轮廓和作用域等,以...
  • 软件测试面试题汇总

    万次阅读 多人点赞 2018-09-27 12:31:09
    )记录都包含了哪些内容?如何提交高质量的软件缺陷( Bug )记录? ...... 8 17 、 Beta 测试与 Alpha 测试有什么区别? ......................................................................................
  • 数理统计: 第一章

    千次阅读 2019-12-21 10:52:58
    基本概念 简单随机样本的两个特征: 代表性, 独立性
  • 统计描述与SAS过程

    千次阅读 2012-09-12 12:00:18
    TABULATE过程制表不是列出观测值,而是计算观测的分类统计量,绘制统计量的表格。对于数据汇总比较有用. PROC TABULATE DATA=数据集名;  CLASS 分类变量;  VAR 分析变量;  TABLE 页维说明,行维说明,列维...
  • 利用灰度共生矩阵可得到描述纹理特征的统计量,常用的有对比度、能量、熵等七个特征。Tammra提出了与人的视觉感受相关的六个纹理特征,分别是粗糙度、对比度、方向性、线性相似性、规则性和粗略度。 (2) 几何法 ...
  • 深度学习入门

    万次阅读 多人点赞 2017-11-05 21:23:46
    “可统计”是很容易理解的,就是说,对于同类数据,它具有一定的统计规律,这是一切统计学习的基本假设。   在哲学上讲,这种非线性状态,是具备了整体性的“复杂系统”,属于复杂性科学范畴。复杂性科学认为,...
  • Python图像处理基础

    千次阅读 多人点赞 2018-01-19 11:38:10
    对我个人而言使用Python图像处理意在取代matlab,集中化使用Python环境保证之后在机器学习和OpenCV的使用上具有一致性,虽然从实验室师兄师姐的口中得知Python的图像处理较之matlab相对复杂(应该只是代码的问题)...
  • 整理的最全 python常见面试题(基本必考)

    万次阅读 多人点赞 2018-05-19 17:30:54
    scrapy是封装起来的框架,他包含了下载器,解析器,日志及异常处理,基于多线程, twisted的方式处理,对于固定单个网站的爬取开发,有优势,但是对于多网站爬取 100个网站,并发及分布式处理方面,不够灵活,不便...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 76,069
精华内容 30,427
关键字:

常见的基本描述统计量包括