精华内容
下载资源
问答
  • 对统计图中的数据进行分析
    千次阅读
    2021-08-11 16:42:03

    在目前的数据分析领域,常用的分析工具有excel、python等,这几乎已经成为共识,而面对excel和python,谁更适合数据分析,也确实一直被大家讨论。

    Excel VS Python

    excel不用多做介绍,办公必备的表格工具。关于python,这里简单说一下其背景:
    python是一门开源的高级编程语言,拥有强大的社区支持和开发团队。这意味着在各个领域,python都有着丰富的第三方工具库,而且一直不断更新改进。另一方面,python作为胶水语言,有着简洁、易读、流畅、易维护、模块化的优良特性,并且轻松与其它编程语言及软件集成。
    在这里插入图片描述
    为什么python更适合用于数据分析?有以下几点理由:
    1、分析过程可复现
    使用python做数据分析,分析代码可以保存为脚本,有利于不断优化代码版本,并且让改进流程更加清晰。
    在不改变数据源的情况下,代码输出的结果一致,不会随着时间和人员的变化而出现不同的分析结果,可复现性强。
    2、更高的效率和扩展性
    确实,excel被大多数人用于数据分析,但是面对大数据集和复杂运算,excel效率太低。
    python在I/O、复杂计算、数据管道、自动化处理等方面更加快速,而且处理大数据的效率远高于excel。在性能优化方面,python也有更多操作的空间。
    3、集成性
    前面说过,python是一门胶水语言,可以与很多编程语言及应用集成。
    比方说,python可以连接各种数据库,通过写入sql语句,对数据库数据进行提取、写入、更改的操作。
    python还可以连接应用程序API,编写自动化脚本操作应用程序,如excel这样的软件,python有众多的库进行连接,十分高效。
    在数据探索的过程中,python提供pandas这样的数据分析工具,帮助你更清晰快速地进行探索分析,并且有大量的可视化库来做可视化展示。
    你可以轻松的读存xlsx、csv等数据格式文件,让数据操作灵活高效。
    在这里插入图片描述

    python实例应用

    从数据管理系统里导出一家企业的电机运行CSV数据表,计算电机一个月内的负载率分布情况,可以通过以下代码进行处理:
    CSV数据表
    在这里插入图片描述

    电机负载率分布代码

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import glob
    plt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体
    plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
    sum = 0
    sum1 = 0
    sum2 = 0
    sum3 = 0
    sum4 = 0
    sum5 = 0
    for i in glob.glob('金田*.csv'):
        a = pd.read_csv(i, encoding='gbk') #依次读取所在目录下的CSV文件
        b = np.array(a['负载率']) #读取列名为负载率的一列
        for i in b:
            if i > 0 and i < 9:
                sum1 += 1
            elif i == 9:
                sum2 += 1
            elif i > 9:
                sum3 += 1
            else:
                sum4 += 1
        sum5 += len(b) #负载率的总条数
    sum = sum5 - sum4
    print('负载率大于0小于9的个数为:',sum1)
    print('负载率等于9的个数为:',sum2)
    print('负载率大于9的个数为:',sum3)
    print('负载率等于0的个数为:',sum4)
    print('负载率不为0的总条数:',sum)
    print('负载率大于0小于9的比率:{:.2%}'.format(sum1/sum))
    print('负载率等于9的比率:{:.2%}'.format(sum2/sum))
    print('负载率大于9的比率:{:.2%}'.format(sum3/sum))
    c = ['小于9','等于9','大于9']
    d = [sum1/sum,sum2/sum,sum3/sum]
    plt.plot(c,d,linestyle=":",marker='o',color='r',label='负载趋势1')
    plt.title("负载分布")
    plt.legend(('负载趋势',))#转为元组的形式加上逗号,就能全部显示了
    plt.show()
    

    点击运行,得到如下结果:
    在这里插入图片描述
    在这里插入图片描述
    以上的程序运行结果即为负载率分布值及负载分布的趋势变化图,点击运行按钮后只需几秒钟就能获取结果,比起使用电子表格来处理,python的处理效率要高很多。

    更多相关内容
  • 金融数据分析中的随机数 具体知识点与代码请看图示 分析HS300股票的市值和PE的统计规律 pandas.describe()方法 skew: 偏度 kurt: 峰度 numpy通用方法 np.max / np.mean / np.min np.su

    金融领域必备的数据分析技能

    上期讲了金融数据的储存,这期讲解利用Python进行金融数据的统计分析

    下面运行环境没有的,请看第一期内容安装环境

    本节重点:

    1. 分析HS300股票的市值和PE的统计规律

    2. 个股日收益率的统计规律研究

    3. 金融数据分析中的随机数

    具体知识点与代码请看图示

    分析HS300股票的市值和PE的统计规律

    pandas.describe()方法

    • skew: 偏度

    • kurt: 峰度

    numpy通用方法

    • np.max / np.mean / np.min

    • np.sum / np.std / np.median / np.Series.quantile(0,1) 分位数

    • np.Series.skew() / np.Series.kurt()

    分布情况

    • 直方图: Series.hist()在这里插入图片描述

    个股日收益率的统计规律研究

    几个重要方法

    • DataFrame.set_index()
    • DataFrame.dropna()
    • Series.shift(1)
    • Series 加减乘除 Series
    • np.log(Series)

    查询日收盘价信息

    招商银行600036.SH
    在这里插入图片描述

    计算每日的对数收益率
    在这里插入图片描述

    计算日收益率的统计规律
    在这里插入图片描述

    正态分布的检验
    在这里插入图片描述

    计算累计收益率

    • Series.apply(func) 对每个元素调用func,返回另一个Series
      对每个元素调用func,返回另一个Series

    • Series.cumsum() 累加
      在这里插入图片描述

    计算累计收益率 cumsum, cumprod
    在这里插入图片描述

    金融数据分析中的随机数

    • np.random.random()

    • np.random.normal()

    • scipy.stats.normaltest()

    • scipy.stats.kstest()

    在这里插入图片描述

    利用模特卡罗模拟计算

    扔的点越多,结果误差越小

    随机模拟,点落到扇形内部有效

    详细代码与讲解看图示。
    在这里插入图片描述

    后面讲更多数据分析知识,请关注。

    展开全文
  • MATLAB数据分析统计

    万人学习 2017-05-06 13:18:12
    全面学习MATLAB在数据统计分析领域的知识
  • 数据分析之描述性统计分析

    千次阅读 2021-07-02 14:40:03
    \quad \quad描述性统计分析(Description Statistics)是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。 \quad \quad描述性统计分析分为...

    1、概述

    \quad \quad 描述性统计分析(Description Statistics)是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。
    \quad \quad 描述性统计分析分为集中趋势分析和离中趋势分析和相关分析三大部分。

    2、数据的集中趋势分析

    \quad \quad 集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在;集中趋势测度就是寻找数据水平的代表值或中心值。

    2.1 定量数据:平均数

    \quad \quad 平均数可以描述定量数据的集中趋势,只适用于定量数据,而且受极值的影响较大,容易向极值附近移动。有以下几种平均数:

    算数平均数: x ‾ = ∑ i = 1 n x i n \overline{x}= \frac{\sum_{i=1}^nx_i}{n} x=ni=1nxi

    加权平均数: x ‾ = x 1 f 1 + x 2 f 2 + . . . + x n f n n \overline{x}= \frac{x_1f_1+x_2f_2+...+x_nf_n}{n} x=nx1f1+x2f2+...+xnfn

    分组数据中,x表示各组水平值,f代表各组变量值出现的频数。
    

    几何平均数: x ‾ = x 1 x 2 . . . x n \overline{x}= \sqrt{x_1x_2...x_n} x=x1x2...xn

    这几种平均数的应用场景

    • 算数平均数:日常生活中用到最多的平均数,比如计算一个班的平均成绩,平均身高
    • 加权平均数:加权算术平均数一般用于分组数据 。加权平均值是考虑每个值的重要性或权重的平均值。 一个很好的例子是根据学生在各种不同的作业和测验中的表现来计算他们的最终成绩。 通常,个人作业对期末成绩的重视程度不及期末考试的重要程度,例如测验,测试和期末考试的权重都不同。 加权平均值计算为所有值的总和乘以其权重再除以所有权重的总和。
    • 几何平均数:几何平均适用于对比率、指数等进行平均,主要用于平均增长(变化)率,对数正态分布。
    • 几何平均数和算数平均数如何选择
      (1)变量值之间的关系不同
      \quad \quad 如果被平均的各变量值之间是平行关系,相互无影响,则平均数用算数平均数求解。例如,求3人的平均年龄,用算数平均数。如求流水作业的3个车间平均合格率,由于被平均的3个车间合格率之间存在相互影响关系,即其中第一年合格率改变,必然造成第一车间合格品数量也即第二车间的投产数量的改变,最终造成第二车间合格率改变。
      (2)表现形式不同
      \quad \quad 算数平均数求解的变量可以是绝对数、相对数或平均数,几何平均数求解的一般只是相对数。
      (3)用途不同
      \quad \quad 几何平均数在社会经济统计中,主要解决属于流水作业的车间平均合格率问题、平均(本)利率问题和平均增长(发展)速度等问题,除此之外的平均问题基本上属于算数平均数问题。

    2.2 顺序数据:中位数和分位数

    \quad \quad 将数据按大小排序后,处在数据中点位置的数值就是中位数,它将数据一分为二;分位数是特殊的中位数,比如四分位数就是用3个点将有序数据四等分。
    \quad \quad 中位数主要用于测试顺序数据的集中趋势,也适用于定量数据的集中趋势,但不适用于分类数据。 中位数是一个位置代表值,其特点就是不受极端值影响。

    2.3 分类数据:众数

    \quad \quad 众数是一组数据中出现次数最多的值,它不唯一,可能没有,可能不止一个。众数是描述分类数据的集中趋势,一般只有在数据量较大的情况下才有意义。

    2.4 均值 vs 中位数 vs 众数

    优点缺点
    均值充分利用所有数据,适用性强容易受极端值影响
    中位数不受极端值影响缺乏敏感性
    众数不受极端值影响;当数据具有明显的集中趋势时,代表性好缺乏唯一性

    2.5 python实现

    import numpy as np
    import stats as sts #统计模块
    scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
              32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
              43, 25, 24, 23, 24, 44, 23, 14, 52,32,
              42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
    #集中趋势的度量
    print('求和:',np.sum(scores))
    print('个数:',len(scores))
    print('平均值:',np.mean(scores))
    print('中位数:',np.median(scores))
    print('众数:',sts.mode(scores))
    print('上四分位数',sts.quantile(scores,p=0.25))
    print('下四分位数',sts.quantile(scores,p=0.75))
    
    求和: 1137
    个数: 40
    平均值: 28.425
    中位数: 25.5
    众数: 23
    上四分位数 23
    下四分位数 34
    

    3、数据的离中趋势

    \quad \quad 离中趋势是指一组数据向某一中心值分散的程度,它反映的是数据远离其中心点的程度,表示离中趋势的指标主要有极差、四分位距、平均差、方差、标准差和离散系数。

    3.1 极差

    \quad \quad 极差也叫全距,展示了数据的整体跨度,是一个比较粗糙的离中趋势指标。极差越大,数据越分散。

    \quad \quad 极差 = 最大值 - 最小值

    3.2 四分位差

    \quad \quad 四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1, 即位于25%)的差。

    计算公式为: Q = Q 3 − Q 1 Q = Q3-Q1 Q=Q3Q1

    \quad \quad 四分位数是将一组数据由小到大排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。
    \quad \quad 分位差是对全距的一种改进,它剔除掉了两端的极值区域,常用的有四分位距、八分位距、十分位距等; 它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性 (见百分位数示意图)。四分位差放映了数据中间50%部分的离散程度,其数值越小表明数据越集中,数值越大表明数据越离散,同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度,越小代表程度越高,越大代表程度越低。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

    在这里插入图片描述

    3.3 平均差

    \quad \quad 平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数;

    M . D = ∑ ∣ x − x ‾ ∣ n M.D=\frac{ \sum_{}|x-\overline{x}|}{n} M.D=nxx

    \quad \quad 当变量数列是由没有分组的数组组成或分组后每组的次数相等的数据组成时采用。 由于平均差是根据数列中所有的数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。

    3.4 方差与标准差

    \quad \quad 方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用 σ 2 \sigma^2 σ2表示。实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
    σ 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 \sigma^2=\frac{\sum_{i=1}^n{(x_i-\overline{x})^2}}{n-1} σ2=n1i=1n(xix)2

    \quad \quad 标准差是方差开根号。 标准差(Standard Deviation),是用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
    统计学意义:

    \quad \quad 当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小

    3.5 变异系数

    \quad \quad 极差、平均差、标准差评定的离中趋势与变量平均水平的高低有关,如果要比较数据平均水平不同的两组数据的离中程度的大小,我们需要计算它们的相对离中程度指标,即变异系数。

    \quad \quad 在概率论和统计学中,变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比:
    C V = σ x ‾ CV=\frac{\sigma}{\overline{x}} CV=xσ

    • 是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。
    • 当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,变异系数可以消除测量尺度和量纲的影响。

    3.6 总结

    \quad \quad 一般比较数据的离中趋势时,我么首先计算两组数据的极差和四分位距,看看数据的大致跨度,然后计算算术平均数查看数据的大致中心位置,如果平均数相同,可以计算一下平均差或者标准差来查看,如果平均数不同则可计算标准差系数来查看离中趋势。

    3.7 python 实现

    import numpy as np
    import stats as sts #统计模块
    scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
              32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
              43, 25, 24, 23, 24, 44, 23, 14, 52,32,
              42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
    #离散趋势的度量
    print('最大值:',np.max(scores))
    print('最小值:',np.min(scores))
    print('极差:',np.max(scores)-np.min(scores))
    print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
    print('标准差:',np.std(scores))
    print('方差:',np.var(scores))
    print('离散系数:',np.std(scores)/np.mean(scores))          
    
    最大值: 52
    最小值: 12
    极差: 40
    四分位差 11
    标准差: 10.312340907863742
    方差: 106.34437499999999
    离散系数: 0.3627912368641598
    

    4、数据分布的测度

    \quad \quad 在描述性统计中,处理集中趋势和离中趋势,我们还可以用数据的分布形状来分析,数据分布形态主要以正态分布为标准进行衡量。

    4.1数据偏态及其测定

    \quad \quad 数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。在对称分布的情况下,平均数、中位数和众数是相同的;但在偏态分布的情况下,他们是不同的。如果众数在左边,平均数在右边,这说明数据的极端值在右边,数据分布曲线向右延伸,这称为右向偏态(正向偏态);如果众数在右边边,平均数在左边,这说明数据的极端值在左边,数据分布曲线向右延伸,这称为左向偏态(正向偏态)。

    • 左偏分布:尾巴在左(极端值异常值在左)
    • 右偏分布:尾巴在右(极端值异常值在右)

    在这里插入图片描述

    \quad \quad 测定偏态的指标是偏态系数(SK),它说明了数据分布的不对称性(偏斜程度)程度。
    在这里插入图片描述

    SK = 0时,分布是对称的;SK < 0时,样本分布为左偏分布,并且值越小,负偏程度越高;SK > 0时,样本为右偏分布,并且值越大,正偏程度越高。

    4.2 数据峰度及其测定

    \quad \quad 峰度是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。但是这种形态的描述都是相对于正态分布曲线的标准峰度而言的。

    \quad \quad 测定峰度的指标是峰度系数(K)。峰度系数描述的是数据分布曲线上峰的尖峭程度。

    在这里插入图片描述

    K < 0,与正态分布相比该分布一般扁平、瘦尾、肩部较胖;

    K > 0,与正态分布相比该分布一般尖峰、肥尾、肩部较瘦。
    在这里插入图片描述

    4.3 数据偏度和峰度的作用

    \quad \quad 在实际数据分析过程中,偏度和峰度的作用主要表现在以下两个方面:

    • 一是将偏度和峰度结合起来用于检查样本的分布是否属于正态分布,以便判断总体的分布。例如,样本的偏度接近于0而峰度接近于3,可以推测总体分布接近于正态分布。

    • 二是利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推断。一般情况下,不是正态分布时,他们有如下关系:

      右偏:均值>中位数>众数

      左偏:均值<中位数<众数

    \quad \quad 根据经验,一般在偏态适度时,不管是左偏还是右偏,三者的距离有近似的固定关系:中位数与算术平均数的距离约等于众数与算术平均数距离的1/3 。因此,有如下公式: 3 ( 均 值 − 中 位 数 ) = 均 值 − 众 数 3(均值-中位数)=均值-众数 3(=

    4.4 python 实现

    import numpy as np
    import stats as sts #统计模块
    scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
              32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
              43, 25, 24, 23, 24, 44, 23, 14, 52,32,
              42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
    #偏度与峰度的度量
    print('偏度:',sts.skewness(scores))
    print('峰度:',sts.kurtosis(scores))
    
    偏度: 0.2688148840556402
    峰度: -0.8771780901182544
    

    5、数据的展示——统计图

    5.1 条形图与扇形图

    1、 条形图可以清楚的表明各种数量的多少,比较数据之间的差别。

    2、扇形图可以很清楚的表示出各部分数量同总数之间的关系。

    3、条形图和扇形图在描述数据时,一次只能描述一个变量,通常用于较小的数据集分析。

    5.2 折线图

    \quad \quad 折线图不仅可以表示数量的多少,而且还可以反映同一事物在不同的时间里发展变化的情况;主要用于显示时间数列的数据。

    5.3 茎叶图

    \quad \quad 将数的大小基本不变的位作为茎,将变化较多的位作为叶,列在茎的后面,这样就可以清楚的看到每个主干后面的数有多少、是多少。

    \quad \quad 比如有一组两位数的数据,将十位作为茎,个位作为叶,相同茎共用,叶列在茎后面;

         十位(茎)     个位(叶)
    
                   1             02446677789
    
                   2             124467779
    
                   4              22244444799999
    

    5.4 箱线图

    \quad \quad 箱线图又称盒须图、盒式图或箱形图,用于显示一组数据的分散情况。它需要使用到六个数据节点:上边缘,上四分位数、中位数、下四分位数、下边缘、异常值。

    5.5 总结

    \quad \quad 面对一组数据根据分析目的,选择合适的统计图来表明分析的目的。

    在这里插入图片描述

    展开全文
  • 今天我们重点来看一下如何使用应用统计图进行描述性统计分析,在进入到今天的主题之前,小白还需要给大家补充介绍一个做描述性统计分析的工具—表格: 如上图所示,我们需要用到的就是在分析的表这个子菜单...

    昨天跟大家介绍了关于用SPSS做数据分析时如何使用频率、描述以及探索这几个子菜单。今天我们重点来看一下如何使用应用统计图来进行描述性统计分析,在进入到今天的主题之前,小白还需要给大家补充介绍一个做描述性统计分析的工具—表格:

    如上图所示,我们需要用到的就是在分析栏中的表这个子菜单,最后我们选择设定表来到下面的界面中:

    大家可以注意到,进入到这个操作界面以后是不是跟我们平时见到的分析框不太一样啊,那我们应该怎么操作呢?这个时候,我们需要用鼠标把我们用到的变量拖动到界面中行(W)这个位置,然后我们单击界面左下角的摘要统计量这个选项,这个时候会弹出对应的选择窗口,在这个窗口里面可以供用户来选择需要输出的统计指标,例如均值、众数、中位数、方差以及标准差等等统计量。在这次分析中,我们选择了均值、中位数、众数、范围、方差、标准差这几个统计量,最后我们点击应用选择以后,就会在界面中出现相应的预览界面,这几个步骤的相关界面如下:

    在我们将所有的变量设置完以后,并且预览也没有问题,这个时候我们点击确定就能够得到我们本次分析的结果:

    在了解了如何利用表格子菜单来进行分析以后,我们进入到今天的主题当中,看看如何利用应用统计图来进行描述性统计分析。

    昨天跟大家提到,描述性统计分析除了应用已经给大家介绍过的应用数量指标以外,还可以应用各种统计图,比如说条形图、饼图、帕累托图、直方图、箱图、茎叶图等。我们在使用的时候应该从哪里找到它们呢?如果大家在看完上一篇文章有自己下去练习的话应该就能够知道这些图是从哪里出来的。其实条形图、饼图、直方图这三个图是可以在描述统计中的频率子菜单中选择绘制选项就能够做出来,而箱图、茎叶图、直方图和验证数据正态性的Q-Q图又可以从探索子菜单中的绘制选项中做出来。在这里我们需要注意的是,除了帕累托图是位于分析菜单的质量控制子菜单中以外,其他的统计图也都是可以从SPSS的图形栏中得到,我们需要养成一个好的习惯,在进行统计分析之前,把数据先“画出来”,也就是做出相应的统计图。下面,我们就开始进行介绍一些比较重要的图形:

    我们都知道,数据分为定性数据和定量数据,首先我们来介绍定性数据的图形描述,也就是条形图、饼图以及帕累托图。在我们平时研究数据的时候,定性数据的图形描述通常用条形图、饼图或者帕累托图来表示,那这三个图都有什么样的意义呢:

    1.条形图:展示相应每一类的频率(或者相对频率),条形的高度(或水平式的长度)与类的频率或者相对频率是成比例的。

    2.帕累托图:它是按照从高到低顺序排列条形图的长方条形后形成的一种特殊条形图。它是质量控制中常用的一种图形工具,其中长方形的高度通常表示生产过程中产生的问题的频数,而最左边的长方形对应最严重的问题区域。帕累托图位于分析菜单的质量控制子菜单下的排列图。

    3.饼图:它的表示是把一个整圆分成几份,每一份代表一个类,每份中心角与类相对频率成比例。

    上图中展示的是某个企业一定时间内由于不同原因导致生产事故的统计,包含了事故原因、次数以及频率,我们现在就分别用条形图、饼图以及帕累托图来进行数据展示,由于我们这个数据是汇总后的频数数据,所以我们在使用SPSS进行绘制统计图之前,先要对频数进行加权:

    在加权步骤结束以后,我们依旧选择描述统计菜单的频率子菜单,这个时候我们不勾选下方的显示频率表格:

    接下来我们点击图表选项,分别选择条形图与饼图,点击确定即可输出我们需要的条形图与饼图结果:

    在正常绘制出来的图形中刚开始是没有数据展示的,需要我们双击图形,然后选择添加数据标签即可。

    最后我们再来做一个帕累托图,我们通过分析栏中的质量控制子菜单选择排列图,得到下面的帕累托图数据选择对话框:

    我们选择简单对应的图形,下方选择个案组的计数或和,点击定义以后将原因变量选入到类别轴当中,点击确定就可以得到我们需要的帕累托图:

    如上图所示,这就是我们做出来的帕累托图,对于本题来说,我们可以直观的看出程序错误是引起生产事故最可能的原因。

    到这里,我们今天分享的条形图、饼图以及帕累托图就跟大家分享完了,大家还是需要自己动手实操一下,看看如何来绘制这些图。下次会给大家分享如何绘制直方图、茎叶图以及箱图,空闲时间大家可以先了解一下,这样的话到时候会更加容易理解。

    **文章来自公众号【小白数据营】**

    大家可以私信我进入到交流群中参与讨论和交流。

    展开全文
  • 用Python做数据分析之数据统计

    千次阅读 2021-08-17 10:41:06
    Excel 的数据分析功能提供了数据抽样的功能,如下所示。Python 通过 sample 函数完成数据采样。 2、数据抽样 Sample 是进行数据采样的函数,设置 n 的数量就可以了。函数自动返回参与的结果。 1#简单的数据采样 ...
  • SPSS数据分析—描述性统计分析【1】

    万次阅读 多人点赞 2020-06-17 10:52:57
    从今天开始,小白将深入给大家带来关于数据分析工具SPSS的使用和讲解,在这段时间里我会带着大家来一起学习了解如何使用SPSS进行描述性统计分析、假设检验、相关分析、回归分析、聚类分析、主成份分析、因子分析等。...
  • 数据分析实战】北京租房数据统计分析

    千次阅读 热门讨论 2021-07-09 09:45:58
    北京租房数据统计分析前言数据基本介绍数据读取数据预处理重复值和空值处理数据转换类型面积...本文将租房网站上北京地区的租房数据作为参考,运用前面所学到的数据分析知识,一起来分析真实数据,并以图表的形式得到以
  • EXCEL数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,数据资料进行整理、分析,并数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。...
  • 常规论文中对多级的李克特量表数据大多计算均值来进行描述性统计分析,但均值较难表现样本整体分布状况,R中likert package可以协助完成多种可视化图表的描述性统计分析,如下柱状、热力、密度等。相对于传统...
  • 本实验以土地利用landuse和数字高程模型dem数据为例,基于ArcGIS平台,统计了村庄、风景名胜、林地、草地、旱地等多种类型土地利用数据所占用的坡度情况,并生成了柱状土地利用–坡度分级柱状统计图,效果如下图所...
  • 之前跟大家介绍了关于如何利用条形、饼图以及帕累托进行描述性统计分析,当时有跟大家说过,这三个更多的时候是针对定性数据进行图形描述。今天我们就一起来看看针对定量数据的图形描述—直方、茎叶以及...
  • 进行数据分析时,一般要先数据进行描述性统计分析,以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、...
  • 移动端数据可视化数据分析统计图表 Axure 原型

    千次阅读 热门讨论 2021-03-09 01:05:42
    本套移动端数据可视化数据分析统计图表 Axure 原型/组件库/元件库集合包含了常用的可视化图表包括中国地图、世界地图、柱状、条形、折线、面积、饼图、环形、雷达、瀑布、直方、阶梯、散点、...
  • EXCEL数据分析—直方

    万次阅读 2019-09-11 10:10:45
    看到直方这三个字的时候大家脑海里有没有浮现出来一堆用EXCEL做出来的,比如:饼图、折线、散点、条形等等。特别是如果之前有看到过直方的同学可能会问,直方不是和条形、柱状啥的长得一样吗?有...
  • 数据分析之定量数据的描述统计

    千次阅读 2018-07-31 22:10:49
    从集中趋势和离趋势两个方面进行分析: 1、集中趋势度量 (1)均值 主要问题时极端值比较敏感,因此可以使用截断均值来度量。 算术平均数:=mean() 几何平均数:=exp(mean(log())) 计算数据样本的指定阶...
  • Python3股票数据进行分析

    万次阅读 多人点赞 2019-04-19 10:40:17
    三、股票数据分析 1、导入股票时间序列数据 2、绘制股票成交量的时间序列 3、绘制股票收盘价和成交量的时间序列 3、绘制K线(蜡烛) (1)K线理论 (2)K线绘制 4、股票指标相关性分析 (1)...
  • 统计图超级表格微视频关键词: 如何制作统计图「超级表格微视频」第十期提升效率、 增强免疫力,尽在超级表格微视频!请关注每周的公众号更新,3分钟让您玩转超级表格!如何绘制统计图搜索what is统计图这是一张第一...
  • python数据统计分析

    万次阅读 多人点赞 2019-02-17 09:08:25
      scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。  scipy的stats包含一些比较基本的工具...
  • 探索性数据分析(Exploratory Data Analysis ,EDA)是数据进行分析并得出规律的一种数据分析方法。它是一个故事,一个数据试图讲述的故事。EDA是一种利用各种工具和图形技术(如柱状、直方等)分析数据的方法。 ...
  • 购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据分析统计分析)视频培训课程概述:Python统计分析系列课程以Python爬虫为核心工具,结合其工具包进行统计分析实验。课程内容包括数据科学必备的几种...
  • 天气数据进行简单的数据分析

    万次阅读 多人点赞 2018-08-06 22:44:31
    用到的数据是在某地级市政府网站获取的公开数据,现以天气数据为例进行简单的数据分析 初始数据以xlsx格式储存:    初始的数据格式对于后续分析来说不太友好,我希望数据能够具有原子性,所以接下来利用...
  • 箱型图(Boxplot)也称箱须图(Box-whiskerPlot)、盒式图或箱线图,是利用数据中的五个统计量:最小值、上四分位数、位数、下四分位数与最大值来描述数据的一种统计图。它能够直观地显示数据的异常值,分布的离散...
  • 数据分析处理之词频统计

    千次阅读 2019-09-09 21:25:17
    本次项目主要是英文文献进行词频统计,利用给定的数据集中已分好的初级、中级、高级三个等级,英文文献的单词进行分级处理,并得到各个等级所占比重,画出统计图(饼图)。此项目用到python的模块有:tkinter...
  • 描述性分析流程的整理前言一、变量说明表二、统计量描述位置的度量变异程度的度量三、统计图描述如何改变文本的样式插入链接与图片设定内容居中、居左、居右KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLow...
  • 当excel不够用时,如何利用Access进行数据分析

    万次阅读 多人点赞 2019-01-08 09:23:57
    大数据量做报表或数据分析的方案 百兆以上,几十万行excel的数据量:数据库ACCESS+SQL 数据若不是达到亿万级别,直接用BI工具分析 再大,就不是尔等表哥表姐,数据分析师能解决的了。 鉴于大家都有...
  • 数据分析的法宝---箱形(Box Plot)

    千次阅读 多人点赞 2021-09-21 04:14:06
    箱形图又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。箱形图最大的优点就是不受异常值的影响...
  • 描述性统计分析

    千次阅读 2022-04-12 23:54:28
    主要介绍了描述性统计在数学建模的运用。包含频数分布、位置度量、变异度量、分布度量、异常值检验、箱型、用EXCEL&SPSS&MATLAB进行数据分析
  • R统计绘图-VPA(方差分解分析)

    千次阅读 2021-12-01 01:37:23
    方差分解分析(Variance Partitioning Analysis)可用于确定指定环境因子微生物(原生生物/植物/动物等等)群落结构变化的解释比例。要计算指定环境因子与群落结构的...
  • 《Origin 9.0科技绘图与数据分析超级学习手册》以实用为目标,以实例来引导,讲解详实、深入浅出,适合作为理工科研究生、本科生的教学用书,也可以作为广大科研工作者进行科技图形制作的参考书。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 502,521
精华内容 201,008
热门标签
关键字:

对统计图中的数据进行分析