精华内容
下载资源
问答
  • 四分位数 线图

    万次阅读 2017-07-28 15:39:08
    四分位数 线图 建议采用Origin来制作线图 作用 线图(Boxplot)也称(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布...

    四分位数 箱线图

    开头语:本人建议采用Origin来制作箱线图


    1、作用

    箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,可以用于多组数据平均水平和变异程度的直观分析比较。

     

    2、什么是四分位数[1]

    1)概念:

    四分位数Quartile)是统计学分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

     

    • 第一四分位数 (Q1),又称"较小四分位数",等于该样本中所有数值由小到大排列后第25%的数字。
    • 第二四分位数 (Q2),又称"中位数",等于该样本中所有数值由小到大排列后第50%的数字。
    • 第三四分位数 (Q3),又称"较大四分位数",等于该样本中所有数值由小到大排列后第75%的数字。

    第三四分位数与第一四分位数的差距又称四分位距InterQuartile Range, IQR)。

     

    2)运算过程:

    关于四分位数值的选择尚存争议,origin软件采用该算法。

    主要选择四分位的百分比值(p),及样本总量(n)有以下数学公式可以表示:



    • 情况1:如果 L 是一个整数,则取 L  L+1 这两个位置数值的平均值
    • 情况2:如果 L 不是一个整数,则取下一个最近的整数。(比如 L=1.2则取位置为第2个的数值)

     

    3)举例:

    一个算法如下:

    1. 利用中位数使数据分成两列(不要把中位数放入已分好的数列),
    2. 第一四分位数为第一组数列的中位数;第三四分位数为第二组数列的中位数。

    以下例子可以用来参考。

    1
    数据总量:

    6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

    由小到大排列的结果:

    6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

    2
    数据总量: 7, 15, 36, 39, 40, 41

    3
    数据总量: 1, 2, 3, 4

    3、箱线图的结构[2]

    箱线图包括一个矩形箱体和上下两条竖线,箱体表示数据的集中范围,上下两条竖线分别表示数据向上和向下的延伸范围,结构如图 1所示。

     

    图 1箱线图的结构

     

    四分位间距框的顶部线条是第三四分位数的位置,即Q3,表示有75%的数据小于等于此值。底部线条是第一四分位数的位置,即Q1,表示有25%的数据小于此值。则整个四分位间距框所代表的是数据集中50%(即75%-25%)的数据,四分位间距框的高度就是这些数据涉及的范围,能够表现出数据的集中程度。Q2是数据中位数的位置。

    Whisker上限是延伸至距框顶部1.5倍框高范围内的最大数据点,Whisker下限是延伸至距框底部1.5倍框高范围内的最小数据点,超出Whisker上限或下限的数值将使用星号"*"表示。

    4、箱线图的绘制

    由于四分位数的选择没有公论,算法有几种,各自取法不同。因此,取用的方式不一样,结果也不一样。

    在Excel中,其利用QUARTILE函数计算四分位数,但是它并非采用本文所介绍的算法,其计算逻辑见附带说明"Excel QUARTILE函数计算逻辑"。另外,在Excel中绘制箱线图需要借助股价图来实现,因此无法展现异常值,Whisker上限将延伸至数据最大值的位置,Whisker下限将延伸至数据最小值的位置[2]

    因此,作者建议采用Origin来制作箱线图,该软件的四分位数计算方式正是采用上述的算法,同时它也解决了Excel提到的问题。

     

    origin的简单操作步骤如下:

    (1)打开Origin,示例数据如下:

    (2)选中该列数据,选择Plot—Statistics—Box Chart

     

    输出结果:

     

     

     

     

    *附带说明:"Excel QUARTILE函数计算逻辑"[3]

    微软网站关于 Excel  QUARTILE()函数的计算逻辑如下:

    1) Find the kth smallest member in the array of values, where: 


    k=(quart/4)*(n-1))+1

    If k is not an integer, truncate it but store the fractional portion (f) for use in step 3. And where(如果k不是整数,截取它并保留小数部分f用于第三步的计算)

    • quart = value between 0 and 4 depending on which quartile you want to find04之间的四分位点)
    • n = number of values in the array(一组数值的个数)

    2) Find the smallest data point in the array of values that is greater than the kth smallest – the (k+1)th smallest member.

    3) Interpolate between the kth smallest and the (k+1)th smallest values:

    Output = a[k]+( f * (a[k+1]-a[k]) )

    其中,a[k] = the kth smallest, a[k+1] = the k+1th smallest

     

    示例:

    计算这组数据0,2,3,5,6,8,9的第3四分位数,步骤如下:

    1)计算kf

    k=TRUNC((3/4*(7-1))+1)=5

    f=(3/4*(7-1))-TRUNC(3/4*(7-1))=.5

    2)k(即5)个最小值是6,k+1(即6)个最小值是8.

    3)计算第3四分位数:

    Q3=6+(.5*(8-6))=7

     

    参考资料:

    [1]维基百科,https://zh.wikipedia.org/wiki/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B0

    [2] http://blog.csdn.net/zhanghongju/article/details/18446131

    [3] http://blog.csdn.net/kiddii/article/details/52690140

    展开全文
  • 四分位数线图

    千次阅读 2019-10-25 11:31:02
    四分位数 四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。 线图 利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与...

    四分位数

    四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

    箱线图

    利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。

     

    四分位差:IQR = Q3-Q1,IQR(interquartile range)

    异常值:OUTLIER<Q1-1.5IQR  or OUTLIER>Q3+1.5IQR
     

    from matplotlib import pyplot as plt
    list = [1,2,3,4,5,6,7,8,20,18,15,100,80,3]
    
    #求list的四分位点
    def quartile_value(list,num):
        list.sort()
        location = num *(len(list)+1)/4
        location_int = int(location)
        quartile = list[location_int-1]*(location_int+1-location)+list[location_int+1-1]*(location-location_int)
        return quartile
    
    Q1 = quartile_value(list,1)
    Q2 = quartile_value(list,2)
    Q3 = quartile_value(list,3)
    
    IQR = Q3 - Q1
    #较小值的内限
    inner_outlier_low = Q1 - 1.5 * IQR
    #较大值的内限
    inner_outlier_high = Q3 + 1.5 * IQR
    
    #较小值的外限
    outer_outlier_low = Q1 - 3 * IQR
    outer_outlier_high = Q3 + 3 * IQR
    
    #温和异常值
    for value in list:
        if outer_outlier_low<value<inner_outlier_low or inner_outlier_high <value <outer_outlier_high:
            print(value)
    
    #极端异常值
    for value in list:
        if value <outer_outlier_low or value > outer_outlier_high:
            print(value)
    
    plt.boxplot(list,labels=['Data Analays'])
    plt.title('Watch Data')
    plt.show()

     

    展开全文
  • boxplotx(data) 无需统计包即可提供线图。 数据可以是向量、矩阵或向量元胞数组。 NaN 可以在数据中,向量可以具有不同的长度。 选项允许设置线图的位置、宽度和颜色。 坚持下去,然后可以添加额外的线图。 ...
  • 四分位数

    千次阅读 2019-09-30 10:41:42
    四分位数是统计学里一个很重要的概念,实际应用中,所画出来的箱图,就使用到了这个概念,只有懂了四分位的概念才能看懂箱图所表达的意思。我这里通过一个实际的案例来说明四分位数的求取过程。 首先我们看下数据的...

    四分位数是统计学里一个很重要的概念,实际应用中,所画出来的箱图,就使用到了这个概念,只有懂了四分位的概念才能看懂箱图所表达的意思。我这里通过一个实际的案例来说明四分位数的求取过程。

     

    首先我们看下数据的情况,如下图所示,数据的总个数为10个

    1、在求取四分位数据时,首先必须做的是要对数据进行升序排序,如下图。

    image

     

    2、四分位求取,首先需要得出该四分位数的位置,如下是四分位数在排序后数据中的位置的公式

    image

    在Excel中使用以上的公式来计算第0、1、2、3、4个四分位值处的位置,得出如下结果

    image

     

    3、四分位数的求取,使用的是以下所说明的一套计算规则

    image

    公式可能看起来较为复杂,说明一下:

    1、四分位数最终的结果由2部分相加得到,其一是四分位位置的整数部分对应的数据,其二是四分位位置的小数部分乘以差值得到

    2、差值是四分位位置整数部分对应数据的下一个数据减去四分位位置整数部分对应的数据。

     

    在Excel中将上面那个公式实现的结果如下:

    image

     

    注意:如果数据的总个数n减去1,得到的结果是4的整数倍的话,那么四分位数的位置都是整数值,各四分位数就可以在升序排序后的数列中直接找到,否则就需要通过以上方式计算小数部分。

    例如:n的值为5、9、13等等,就是可以在数列中直接找到各四分位数。

     

    最后我们用一张图来看看箱图中各个图形元素:

    1、Q1表示第1个四分位值,Q2表示第2个四分位值,即中位数,Q3表示第3个中位数

    2、IQR是第3个中位数与第1个中位数的差值

    3、虚线最左侧的划线表示Q1-1.5倍IQR,虚线最右侧的划线表示Q1+1.5倍IQR

    4、左右的黑点是离群点,最左侧的离群点是最小值,最右侧离群点是最大值

    image

     

    从以上结果可以解答以往对四分位数的误区:

    1、四分之一分位数并非中位数的2倍,也并非是四分之三分为的3倍

    2、不要将箱图虚线左右侧的划线理解为四分之0分位,四分之四分位值,这2个分位值分别是最小值和最大值,它们可能会成为离群点

    转载于:https://www.cnblogs.com/alexywt/p/11408460.html

    展开全文
  • 线图&上下四分位数

    千次阅读 2020-09-01 20:20:28
    文章内容输出来源:拉勾数据...很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据

    箱线图学习笔记

    在这里插入图片描述
    四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。与中位数不同的是,四分位数位置的确定方法有几种,每种方法得到的结果会有一定差异,但差异不会很大。

    箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。

    参考自:百度百科

    展开全文
  • 线图和四分位数

    千次阅读 2018-01-22 18:01:37
    四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。   简介 第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%...
  • 本期给大家介绍的是数据分析基础系列,主要给大家介绍的是四分位数的原理与应用,四分位数的计算方式,并基于四分位数,画出箱体,简要介绍如何通过箱体来检测数据离群值。结合学习成绩与收入的案例分析,内容...
  • spss四分位数

    千次阅读 2016-06-26 19:23:30
    四分位数:将所有数值按大小顺序排列并分成...可四分位数绘制成箱线图,所谓线图就是由数据的最大值、最小值、中位数和两个四分位数绘制的一个箱子和两条线段的图形,线图直观地反映出一组数据的分布特征,并进行多
  • 均值:即平均数,数列中各数总和除以个数。可用numpy.mean函数计算 ...四分位数:将从小到大排列的数列平均分为4段,最小的四分位数称为下四分位数,最大的成为上四分位数,中间的称为中位数 可以用线图展
  • 四分位数介绍

    千次阅读 2019-12-25 00:02:38
    描述统计学就是将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据,其中有4个很重要的知识点,分别是平均值(μ)、四分位数、标准差(σ)、标准分(z) 四分位数简介 ...
  • 本期给大家介绍的是数据分析基础系列,主要给大家介绍的是四分位数的原理与应用,四分位数的计算方式,并基于四分位数,画出箱体,简要介绍如何通过箱体来检测数据离群值。结合学习成绩与收入的案例分析,内容...
  • 上下四分位数
  • 统计学的Python实现-009:四分位数

    千次阅读 2020-05-20 12:10:25
    四分位数有三个,第一个四分位数称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。 统计学解释 四分位数位置的确定方法有两种。其一是Excel函数QUARTILE.EXC的方法...
  • 话不多说,如 上代码 #数组都是按从小到大排过序的 #计算中位数 def count_median(lis): if len(lis) % 2 == 0: mid = float((lis[len(lis) / 2] + lis...#计算上下四分位数 def count_quartiles(lis): ..
  • 方差/标准差/四分位数/z-score公式

    千次阅读 2015-10-28 11:53:24
    一、方差公式 其中公式中μ为平均数,N为这组数据的个数,x1、x2、x3……xN为这组数据具体数值。...上四分位数线图 四分位数Qi所在的位置公式为: 即 Q1的位置= (n+1) × 0.25 Q2的
  • 同比增长: (今年1月-去年1月)/去年一月 的百分比 ...四分位数间距 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR) Q3-Q1 第一四分位数 =QUARTILE.EXC(A1:A7,1) 绘制线图 打开exc
  • 1. 首先介绍Boxplot(箱形)的定义,这里参考:Understanding Boxplots,非常精彩的一篇介绍boxplot的博文。 该图片显示的即是一个boxplot的... 中值或中位数(median), 或第二个四分位数 (second quartile,...
  • R使用正太分布法和分...四分位数范围(箱图四分位数范围(IQR)是数据集中第75百分位数(Q3)和第25百分位数(Q1)之间的差值。它衡量中间50%的价值的传播。 IQR = Q3-Q1 Outliers = Observations>Q3+1.5..
  • [tbl_votes]- id - item_id - vote Of course we can fix this by getting:the smallest observation (so)the lower quartile (lq)the median (me)the upper quartile (uq)and the largest observation (lo)..one-by...
  • 替代 MATLAB 中提供的传统线图(命令线图)。 分类散点还显示了数据点,这有助于可视化基础分布(类似于小提琴)。 该代码旨在成为 MATLAB 中内置 boxplot 函数的高度可定制的替代方案。 语法与 boxplot 的...
  • 替代了MATLAB中提供的传统箱形图和晶须图(命令箱图)。 分类散点图还显示了数据点,这对于可视化基础分布非常有用(类似于小提琴图)。 例子 该代码被设计为MATLAB中内置boxplot函数的极其可定制的替代方案。 语法...
  • 1、准备业务数据 2、连接oracle数据库 pycharm配置Oracle连接访问 可惜没搞清楚... 四分位数情况也是这样的:三年75%点位年龄为 45、46、47岁;25%年龄点位为29--30--31岁 后面 抽空把这个数据以线图的形式展现。
  • 在网关管理系统中,做一个关于网关相应时间的统计报表,统计报表的呈现形式为“线图”。 详细说明 数据解密 医疗保险项目是一个中间件,它会提供一些接口,用来查询提供患者、医院等相关系统数据。它使用的...
  • 线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形的数据形状,线图识别异常值的结果比较客观。...
  • 1 随机样本 2 直方线图 3 抽样分布
  • 位数线图

    2021-01-29 11:00:22
    根据其将数列等分的形式不同可以分为中位数、四分位数、十分位数、百分位数等等。 四分位数(Quartile) 将数据划分为4个部分,每部分大约包含1/4即25%的数据项,其临界点即为四分位数。 Q1=第1四分位数,下分位数,...
  • 一、计算四分位 #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author:ZSW @file:quantile_distance.py @time:2021/02/05 """ import pandas as pd import numpy as np # 读取excle文件 excel_data = pd.read...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,354
精华内容 1,341
关键字:

四分位数箱图