精华内容
下载资源
问答
  • R语言整体数据描述性统计分析

    千次阅读 2020-02-19 12:04:08
    R语言整体数据描述性统计分析 在这里主要对连续性变量进行整体统计性分析,包括最大最小值、中位数、均值、方差等统计量,但是这里不会分别进行分析计算,而是使用一个函数进行自动统计。 1、summary 该函数是R语言...

    R语言整体数据描述性统计分析

    在这里主要对连续性变量进行整体统计性分析,包括最大最小值、中位数、均值、方差等统计量,但是这里不会分别进行分析计算,而是使用一个函数进行自动统计。

    1、summary

    该函数是R语言自带的函数,不需要安装任何包,summary()函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。

    分行分列统计数据还可以使用apply()系列函数,详情请点击:apply系列函数

    summary(mtcars)
    

    该函数虽然简单易用,但是统计的内容有限,下面将介绍其他用于统计分析的函数。

    2、 stat.desc()

    pastecs 包中有一个名为 stat.desc() 的函数,它可以计算种类繁多的描述性统计量。使用
    格式为:stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)

    • x 是一个数据框或时间序列
    • basic=TRUE (默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和
    • desc=TRUE (同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数
    • norm=TRUE (不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们
      的统计显著程度)和Shapiro-Wilk正态检验结果。
    install.packages("pastecs")
    library(pastecs)
    pastecs::stat.desc(mtcars,norm = TRUE)
    

    该函数课统计的内容包括最小值、最大值、值域、总和、中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差、变异系数、正态分布统计量(包括偏度和峰度(以及它们 的统计显著程度)和Shapiro-Wilk正态检验结果)。

    3、describe

    psych包拥有一个名为describe()` 的函数,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。

    install.packages("psych")
    library(psych)
    psych::describe(mtcars$mpg)
    
    展开全文
  • 主要是r语言与统计性描述的题目,16页,都有参考答案和R代码。 1.掌握数据预处理的相关操作,包括查看数据集的缺失值,对缺失值进行处理,对异常变量重新赋值 2.掌握使用可视化图表方法进行探索性统计分析。 3.掌握...
  • 通过利用R语言进行数据的探索分析,熟练运用R语言进行数据的位置度量、离散度量、列联表及相关性等的数据分析需求。
  • R语言描述性统计

    千次阅读 2018-10-07 21:47:41
    R语言描述性统计 在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。 集中趋势统计量: 均值...

    R语言描述性统计

    在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。

    集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数

    离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正平方和(USS)

    分布情况统计量:偏度、峰度

    统计量 函数
    均值 mean(x, …);mean(x, trim = 0, na.rm = FALSE, …)
    中位数 median(x, …);median(x, trim = 0, na.rm = FALSE, …)
    频数 table(x, …)
    众数 which.max(table(x))
    五数/描述统计 summary(x, …);fivenum(x, …)
    方差 var(x, na.rm = FALSE)
    标准差 sd(x, na.rm = FALSE)
    偏度 需要先加载moments包或fBasic包,再用函数skewness()
    峰度 需要先加载moments包或fBasic包,再用函数kurtosis()
    极差 range(…, na.rm = FALSE)

    注:

    • trim可设为(0,0.5)之间的值,表示删除x的最大和最小百分几的数,然后对剩下数进行计算,得到的平均值为截尾均值;na.rm表示计算前是否删除NA值
    • summary()与fivenum()计算得出的第一四分位和第三四分位可能会略有不同,原因如下:
      fivenum()是从所有数中找出小于中位数的数,将这些数的中位数设为第一四分位;同理,从所有数中找出大于中位数的数,将这些数的中位数设为第三四分位。因此 fivenum()得到的第一四分位和第三四分位分别被称为四分位低值、四分位高值。
    • 偏度衡量数据的对称性。
      在这里插入图片描述
      若为负,则数据均值左侧的离散度比右侧强,左偏;若为正,则数据均值左侧的离散度比右侧弱,右偏。
      左偏、右偏
    • 峰度 研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。峰值越大,分布越陡峭。
      在这里插入图片描述
      正态分布的峰度系数为3,而均匀分布的峰度为1.8(但是SPSS等软件为了方便比较,先将峰度减去3处理,再将正态分布峰度值定为0)。
      当峰度系数>0,从形态上看,它相比于正态分布要更陡峭或尾部更厚;而峰度系数<0,从形态山看,则它相比于正态分布更平缓或尾部更薄。在实际环境当中,如果一个分部是厚尾的,这个分布往往比正态分布的尾部具有更大的“质量”,即含又更多的极端值。
      在这里插入图片描述
      拉帕拉斯(D),双曲正割(S),逻辑斯底(L)分布的峰度系数均大于0,且他们的峰更陡峭,同时尾部也更厚。而像升余弦©分布,半圆形(W)分布,以及均匀分布U则是峰度系数<0
    • 极差(Range): 描述样本分散性的数字特征.当数据越分散,其极差越大,R函数语法: range(…, na.rm = FALSE),计算公式为:
      在这里插入图片描述
    • 变异系数(CV): 又称离散系数,是刻划数据相对分散性的一种度量,它是一个无量钢的量,用百分数表示,R无对应函数,计算公式为:
      在这里插入图片描述
    • 样本校正平方和(CSS):无R函数,计算公式:
      在这里插入图片描述
    • 样本未校正平方和(USS): 无R函数,计算公式:
      在这里插入图片描述
    • 四分位差(quartile deviation):也称为内距或四分间距(inter-quartile range),它是上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示。计算公式为:
      在这里插入图片描述
    • 标准误:均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量,计算公式为:
      在这里插入图片描述
    展开全文
  • R语言基础教程7:数据描述性统计

    千次阅读 2014-04-23 16:21:04
    R语言基础教程1:数据类型R语言基础教程2:散点图R语言基础教程3:曲线图、误差线和图例R语言基础教程4:柱形图R语言基础教程5:图形页面排版R语言基础教程6:程序设计基础R语言基础教程7:数据描述性统计一、描述...
    R语言基础教程1:数据类型
    R语言基础教程2:散点图
    R语言基础教程3:曲线图、误差线和图例
    R语言基础教程4:柱形图
    R语言基础教程5:图形页面排版
    R语言基础教程6:程序设计基础
    R语言基础教程7:数据描述性统计

    一、描述统计量

    R为描述统计量的计算提供了较全函数。我们用R自带的sunspots数据对这些函数做简单了解:

    > sp <- sunspots
    > class(sp)
    [1] "ts"
    > str(sp)
    Time-Series [1:2820] from 1749 to 1984: 58 62.6 70 55.7 85 83.5 94.8 66.3 75.9 75.5 ...
    > #sunspots是时间序列数据,把它转为矩阵
    > sp <- matrix(sp, ncol=12, byrow=TRUE)
    > rownames(sp) <- 1749:1983
    > colnames(sp) <- 1:12
    > head(sp)
    1 2 3 4 5 6 7 8 9 10 11 12
    1749 58.0 62.6 70.0 55.7 85.0 83.5 94.8 66.3 75.9 75.5 158.6 85.2
    1750 73.3 75.9 89.2 88.3 90.0 100.0 85.4 103.0 91.2 65.7 63.3 75.4
    1751 70.0 43.5 45.3 56.4 60.7 50.7 66.3 59.8 23.5 23.2 28.5 44.0
    1752 35.0 50.0 71.0 59.3 59.7 39.6 78.4 29.3 27.1 46.6 37.6 40.0
    1753 44.0 32.0 45.7 38.0 36.0 31.7 22.2 39.0 28.0 25.0 20.0 6.7
    1754 0.0 3.0 1.7 13.7 20.7 26.7 18.8 12.3 8.2 24.1 13.2 4.2
    >
    > #均值,最大值,最小值,求和,中位数,方差,标准差
    > mean(sp); max(sp); min(sp); sum(sp); median(sp)
    [1] 51.26596
    [1] 253.8
    [1] 0
    [1] 144570
    [1] 42
    >
    > #方差函数var用1向量、2向量和矩阵获得的结果和意义不一样,具体看在线参考
    > #如果是矩阵数据,还有两个相关函数cov()和cor()
    > var(sp[,1])
    [1] 1840.18
    > var(sp[,1], sp[,2])
    [1] 1629.689
    > var(sp)
    1 2 3 4 5 6 7 8
    1 1840.180 1629.689 1545.522 1588.485 1652.158 1577.559 1634.858 1631.202
    2 1629.689 1752.184 1558.727 1573.566 1586.585 1525.066 1575.072 1572.282
    3 1545.522 1558.727 1655.654 1556.592 1583.382 1495.263 1530.311 1556.609
    #输出结果的其他行忽略


    > #标准差sd只能以向量进行计算,如果是矩阵则按行计算(新版)。
    > sd(sp)
    1 2 3 4 5 6 7 8
    42.89732 41.85910 40.68973 42.73195 45.08716 42.51302 43.52788 44.75650
    9 10 11 12
    45.76396 43.98236 43.13204 45.06596
    警告信息:
    sd(<matrix>) is deprecated.
    Use apply(*, 2, sd) instead.
    > sd(sp[1,])
    [1] 27.22469
    > sd(sp[,1])
    [1] 42.89732
    > #求百分位数
    > quantile(sp)
    0% 25% 50% 75% 100%
    0.000 15.700 42.000 74.925 253.800
    > quantile(sp, probs = c(0.1, 0.2, 0.4))
    10% 20% 40%
    5.00 11.60 30.56


    二、数据分布

    1、直方图:hist函数

    > hist(sp)

    > hist(sp, breaks = seq(from=min(sp), to=max(sp), length=1000)) #改变breaks参数可以获得更详细的图形


    R语言基础教程7:数据描述性统计 - xxx - xxx的博客R语言基础教程7:数据描述性统计 - xxx - xxx的博客

    2、核密度估计函数density:

    > d <- density(sp, n=length(sp))
    #密度函数的返回值可以直接作图
    > plot(d, main="")

    #叠加直方图和密度曲线

    > hist(sp, breaks = seq(from=min(sp), to=max(sp), length=100), freq=FALSE, main="")
    > lines(d, col="red")


    R语言基础教程7:数据描述性统计 - xxx - xxx的博客R语言基础教程7:数据描述性统计 - xxx - xxx的博客
     
    3、经验分布曲线(与正态分布曲线比较,初步判断数据是否符合正态分布):

    > ecd <- ecdf(sp) #获得经验分布函数
    > plot(ecd) #经验分布函数可以直接绘图
    > x <- sort(as.vector(sp))
    > lines(x, pnorm(x,mean(x), sd(x)), col="red") #获取该组数据的正态分布曲线,为图中红线


    R语言基础教程7:数据描述性统计 - xxx - xxx的博客R语言基础教程7:数据描述性统计 - xxx - xxx的博客
     4、QQ图:
    用QQ图可以直观判断数据是否符合正态分布:如果符合正态分布,qqnorm应该接近qqline(右上图)

    > qqnorm(sp, pch=".")
    > qqline(sp, col="red") #右上图中的红线

    5、箱线图:
    这个用得很多。对于矩阵数据默认按列统计。

    > boxplot(sp, cex.axis=0.7)

    #如果觉得眼花,加点颜色
    > color <- rainbow(ncol(sp))
    > boxplot(sp, cex.axis=0.7, col=color)


    R语言基础教程7:数据描述性统计 - xxx - xxx的博客R语言基础教程7:数据描述性统计 - xxx - xxx的博客
     6、多变量分组比较:dotchart
    sunspots为1749年1月到1983年12月的数据,取其中一部分进行作图:

    > dotchart(sp[i,1:4], pch=1:4, cex=0.8)
    > i <- c(1,21,41,61)
    > dotchart(sp[i,1:4], pch=1:4, cex=0.8)

    R语言基础教程7:数据描述性统计 - xxx - xxx的博客
    7、其他
    三个变量的数据可以用coplot分析他们之间的关系,更多变量的数据用pairs()做初步分析,或自编绘图函数完成。一些R统计软件包提供了更丰富的函数和参数选项,如需要可自行学习使用。
    展开全文
  • R语言描述性统计分析实战视频课程 WOT峰会讲师,中国R语言大会讲师,数据...

    扫码下载「CSDN程序员学院APP」,1000+技术好课免费看

    APP订阅课程,领取优惠,最少立减5元 ↓↓↓

    订阅后:请点击此处观看视频课程

     

    视频教程-R语言之描述性统计分析实战视频课程-其他

    学习有效期:永久观看

    学习时长:132分钟

    学习计划:3天

    难度:

     

    口碑讲师带队学习,让你的问题不过夜」

    讲师姓名:谢佳标

    数据科学家

    讲师介绍:WOT峰会讲师,中国R语言大会讲师,数据分析师,8年以上数据挖掘建模工作实战经验,部分研究成果获国家专利,攥写《R语言与数据挖掘》、《数据先锋》、《R语言游戏数据分析》书籍

    ☛点击立即跟老师学习☚

     

    「你将学到什么?」

    通过利用R语言进行数据的探索性分析,熟练运用R语言进行数据的位置度量、离散度量、列联表及相关性等的数据分析需求。

     

    「课程学习目录」

    1.描述统计分析基本介绍
    2.均值函数mean介绍
    3.均值函数参数详细介绍
    4.中位数median函数详解
    5.众数和分位数详解
    6.离散指标的详解
    7.描述统计量函数详解
    8.列联表函数详解
    9.相关性分析

     

    7项超值权益,保障学习质量」

    • 大咖讲解

    技术专家系统讲解传授编程思路与实战。

    • 答疑服务

    专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。

    • 课程资料+课件

    超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)

    • 常用开发实战

    企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。

    • 大牛技术大会视频

    2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

    • APP+PC随时随地学习

    满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。

     

    「什么样的技术人适合学习?」

    • 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
    • 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
    • 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。

     

    「悉心打造精品好课,3天学到大牛3年项目经验」

    【完善的技术体系】

    技术成长循序渐进,帮助用户轻松掌握

    掌握其他知识,扎实编码能力

    【清晰的课程脉络】

    浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

    【仿佛在大厂实习般的课程设计】

    课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

     

    「你可以收获什么?」

    通过利用R语言进行数据的探索性分析。

     

    展开全文
  • R语言分组计算描述性统计量 在上一篇博客中介绍了如何计算数据整体的描述性统计量,点击查看。这里将注重介绍如何分组计算描述性统计量,介绍两个函数:aggregate()、dexcribe.by() 1、aggregate 这个函数的功能比较...
  • R语言-统计学 描述性统计

    千次阅读 2018-02-26 21:01:38
    R语言-统计学 描述性统计描述定量数据的数值方法:中心趋势度量 变异的度量 相对位置的度量。1.中心趋势度量 : 算数平均 中位数 众数1.1 在R中计算平均数的函数 mean( )常规的mean() 函数用法 mean(x, trim = 0, ...
  • 通过利用R语言进行数据的探索分析,熟练运用R语言进行数据的位置度量、离散度量、列联表及相关性等的数据分析需求。
  • 这组数据集提供了13个变量——App的名称、Category(分类)、Rating(评分)、Reviews(评论数)、Size(大小)、Installs(下载量)、Type(免费还是付费)、Price(价格)、Content.Rating(内容评级)、Genres(风格)、Last....
  • 4.3分组数据的汇总统计量 attach(red.cell.folate) tapply(folate,ventilation,mean)#提取folate变量,根据ventilation分组,然后对每一组计算均值 N2O+O2,24h N2O+O2,op O2,24h 316.6250 256.4444 278.000...
  • 数据统计分析的第一步就是对数据描述性统计R语言令人头疼的是,提供这项服务的实在太多了 1、summary函数 1 > data("mtcars") 2 > force(mtcars) 3 mpg cyl disp hp drat wt qsec vs am gear ...
  • 4.4分组数据作图 4.4.1直方图 library(ISwR) attach(energy) #将expend变量根据stature因子的值分割成两个向量 expend.lean&lt;-expend[stature=="lean"] expend.obese&lt;-expend[stature=="...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 194
精华内容 77
关键字:

r语言数据描述性统计