精华内容
参与话题
问答
  • Python数据分析(统计分析)视频培训课程概述:Python统计分析系列课程以Python爬虫为核心工具,结合其工具包进行统计分析实验。课程内容包括数据科学必备的几种分布、统计描述、假设检验、方差分析、相关分析、...
  • 描述性统计分析

    千次阅读 2018-11-28 13:34:44
    描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述...

    描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析 描述性统计分析

    展开全文
  • 数据分析师一定要掌握的基础——描述性统计分析

    千次阅读 多人点赞 2020-03-31 23:20:54
    以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解。 数理统计基础-描述性统计分析1、数理统计基础2、描述性统计分析概述(1)概念(2)变量的类型3、统计量(1)...

    申明:文章内容是作者自己的学习笔记,教学来源是开课吧讲师梁勇老师。

    以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解。

    1、数理统计基础

    数理统计,以概率论为基础,研究大量随机现象的统计规律性。数理统计分为如下两类:

    • 描述统计
    • 推断统计

    数理统计在数据分析领域具有非常重要的地位。

    2、描述性统计分析概述

    (1)概念

    什么是描述性统计分析?

    描述性统计分析,就是从总体数据中提取变量的主要信息(总和、均值等),从而从总体层面上,对数据进行统计性描述。在统计的过程中,通常会配合绘制相关的统计图来进行辅助。

    描述性统计所提取统计的信息,我们称为**统计量**,主要包括以下几个方面:

    • 频数与频率
       - 频数
       - 频率
      
    • 集中趋势分析
       - 均值
       - 中位数
       - 众数
       - 分位数
      
    • 离散程度分析
       - 极差
       - 方差
       - 标准差
      
    • 分布现状
       - 偏度
       - 峰度 
      

    (2)变量的类型

    从统计学角度看,变量可以分为以下两种类型。
    变量的类型:

    • 类别变量(变量的值是一个具体的类别)

      • 无序类别变量(名义变量)
        (变量的各个取值之间没有大小顺序之分)
      • 有序类别变量(等级变量)
        (变量值之间有大小之分)
    • 数值变量(具体的一个数值)

      • 连续变量(区间之内取任意一个值)
      • 离散变量(不能取区间内的任意值,只能取整数值)

    3、统计量

    (1)频数与频率

    数据的频数与频率统计适用于类别变量。

    a. 频数

    频数,指数据中类别变量每个不同取值出现的次数。
    例如:我们去超市买苹果,买了5次,这个就是频数。

    b. 频率

    频率,指每个类别变量的频数与总次数的比值,通常采用百分数表示。
    例如:我们取超市买苹果5次,总公去了10次,那么5/10(50%)就是频率。

    我们以鸢尾花(iris)数据集进行分析:
    鸢尾花数据集中包含150行4列3类数据,每类各50个数据。
    每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。

    》》》导入库、设置图形样式等:

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    import seaborn as sns
    from sklearn.datasets import load_iris
    import warnings
    
    # 设置seaborn绘图的样式。
    # darkgrid 设置成暗色的网格的形式
    sns.set(style="darkgrid")
    # 设置字体
    plt.rcParams["font.family"] = "SimHei"
    # 对符号的支持
    plt.rcParams["axes.unicode_minus"] = False
    # 忽略警告信息。
    warnings.filterwarnings("ignore")
    

    我们来加载数据查看下:

    # 加载鸢尾花数据集。
    iris = load_iris()
    display(iris)
    

    data 就是鸢尾花的数据,我们这里只展示部分数据:
    在这里插入图片描述
    target 就是鸢尾花的类别,类别为0,1,2
    在这里插入图片描述
    三种鸢尾花的类别分别是什么呢?
    在这里插入图片描述
    分类是山鸢尾花(Iris Setosa)、变色鸢尾花(Iris Versicolor)、维吉尼亚鸢尾花(Iris Virginica)。
    接着我们看下具体的数据:
    因为数据太多,我们只利用切片查看前10行数据,类别也查看前10行。

    # iris.data:鸢尾花数据集。
    # iris.target:每朵鸢尾花对应的类别。(取值为0,1,2)
    display(iris.data[:10], iris.target[:10])
    # iris.feature_names:特征列的名称。
    # iris.target_names:鸢尾花类别的名称。
    display(iris.feature_names, iris.target_names)
    

    在这里插入图片描述
    4列(特征列)数据分别代表:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
    接下来我们进行简单的分析
    首先我们需要把鸢尾花的数据和类别拼接到一起:

    # 将鸢尾花数据与对应的类型合并,组合成完整的记录。
    data = np.concatenate([iris.data, iris.target.reshape(-1, 1)], axis=1)
    data = pd.DataFrame(data, 
            columns=["sepal_length", "sepal_width", "petal_length", "petal_width", "type"])
    data.sample(10)
    

    因为鸢尾花的数据iris.data为二维数组,但是类别iris.target为一维数组,此时我们需要通过reshape来将一维数组转换为二维数组。
    axis=1 表示纵向,此时为纵向拼接。
    在这里插入图片描述
    我们以类型(type)列为例,来计算鸢尾花每个类别的频数和频率。

    # 计算鸢尾花数据中,每个类别出现的频数。
    frequency = data["type"].value_counts()
    display(frequency)
    # 计算每个类别出现的频率,通常使用百分比表示。
    percentage = frequency * 100 / len(data)
    display(percentage)
    

    len(data) 鸢尾花数据的总长度;
    因为要用百分比表示所以要乘以100;
    value_counts() 计算个数。
    在这里插入图片描述
    从结果可知,类别中0,1,2分别出现了50次,他们的频率分别为33.333333
    我们用柱形图来看下类别的个数情况:
    在这里插入图片描述

    (2)集中趋势

    a. 均值

    均值,即平均值,其为一组数据的总和除以数据的个数。

    b. 中位数

    将一组数据升序排列,位于该组数据最中间位置的值,就是中位数,如果数据个数为偶数,则取中间两个数值的均值。

    c. 众数

    一组数据中出现次数最多的值。

    关于三者,说明如下:
    在这里插入图片描述
    三者的关系如下图所示:
    在这里插入图片描述
    什么是正态分布(对称分布)?
    正态分布是以均值作为对称的一种分布形式。
    左偏分布:
    存在少数的极小值。
    右偏分布:
    存在少数的极大值。
    怎么区分左偏分布和右偏分布?
    从图形中间切一刀,哪边面积少就是什么分布。
    例如:下面图形右边的面积少,所以就是右偏分布
    这里右边的面积少,所以就是右偏分布

    接下来我们以鸢尾花长度为例,计算其集中趋势:

     # 计算花萼长度的均值。
    mean = data["sepal_length"].mean()
    # 计算花萼长度的中位数。
    median = data["sepal_length"].median()
    # 计算花萼长度的众数。
    s = data["sepal_length"].mode()
    # 注意,mode方法返回的是Series类型。
    mode = s.iloc[0]
    print(mean, median, mode)
    

    mean()均值,median()中位数,mode()众数
    结果:在这里插入图片描述
    我们可以看到结果中鸢尾花的花萼长度列,均值和中位数几乎相等,我们猜想该数据应该是对称分布的,符合正态分布,这也应了自然界的数据都符合正态分布的说法。

    我们也可以使用scipy中的stats模块来求一组数据的众数。

    from scipy import stats
    stats.mode(data["sepal_length"]).mode
    

    结果:array([5.]),可以看到和Series算出来的众数是一样的。
    接下来把上面的数据进行可视化:

    # 绘制数据的分布(直方图 + 密度图)。
    sns.distplot(data["sepal_length"])
    # 绘制垂直线。
    plt.axvline(mean, ls="-", color="r", label="均值")
    plt.axvline(median, ls="-", color="g", label="中值")
    plt.axvline(mode, ls="-", color="indigo", label="众数")
    plt.legend()
    

    distplot 核密度图
    在这里插入图片描述

    d. 分位数

    在这里插入图片描述
    把数据集分成若干个区间,分为几就为几分位数。
    先排序再分位,分位大致相等的若干区间。
    在这里插入图片描述
    给定一组数据,假设存放在数组中,我们要如何计算其四分位值呢?首先要明确一点,四分位值未必一定等同于数组中的某个元素。
    在Python中四分位值的计算方式如下:

    1. 首先,计算四分位的位置。
      在这里插入图片描述
      其中,位置索引index从0开始,n为数组中元素的个数。
      假设现在n=5,我们来计算下四分位值分别是多少?
      在这里插入图片描述
    2. 根据位置计算四分位值。
      在这里插入图片描述
      如果n-1不能被4整除又该怎么办呢?
      假设有这么一组数据:
      在这里插入图片描述
      n=6,四分位处的值会得出一个小数,这时候我们就不能用索引的方式直接计算。
      Q1结果等于5 * 1/4 = 1.25,1.25是介于1和2之间
      在这里插入图片描述
      但更接近于索引1,也就离12这个数更近,说明12这个数的权重更高。
      怎么计算权重呢?
      用1减去小数部分,就是左边的权重,小数部分本身就是右边的权重。
      用1-0.25=0.75,0.75就是12的权重,那么13的权重就是0.25。
      当我们得到权重之后,怎么计算四分位数呢,例如计算1/4(Q1):
      Q1=12 * 0.75+13 * 0.25,结果就是1/4位数。
      剩下Q2、Q3是类似的方法计算即可。

    index为整数的情况
    我们首先来计算四分位的位置:

    x = np.arange(10, 19) #9个数
    n = len(x)
    # 计算四分位的索引(index)。
    q1_index = (n - 1) * 0.25
    q2_index = (n - 1) * 0.5
    q3_index = (n - 1) * 0.75
    print(q1_index, q2_index, q3_index)
    

    结果:2.0 4.0 6.0
    拿着2.0 4.0 6.0的索引值去找对应的四分位值即可。但是因为索引值没有小数,需要把0去掉转为整数类型:

    # 将index转换成整数类型。
    index = np.array([q1_index, q2_index, q3_index]).astype(np.int32)
    print(x[index])
    

    结果:[12 14 16],即1/4位,中位,3/4位数。

    可视化呈现:

    plt.figure(figsize=(15, 4))
    plt.xticks(x)
    plt.plot(x, np.zeros(len(x)), ls="", marker="D", ms=15, label="元素值")
    plt.plot(x[index], np.zeros(len(index)), ls="", marker="X", ms=15, label="四分位值")
    plt.legend()
    

    在这里插入图片描述

    index不是整数的情况
    当index不是整数时,我们使用最近位置的两个整数,加权计算来得到四分位的位置。每个整数的权重为距离的反比。

    x = np.arange(10, 20)
    n = len(x)
    q1_index = (n - 1) * 0.25
    q2_index = (n - 1) * 0.5
    q3_index = (n - 1) * 0.75
    print(q1_index, q2_index, q3_index)
    

    结果:2.25 4.5 6.75
    可以看到计算结果不是整数
    我们使用该值临近的两个整数来计算四分位值。

    index = np.array([q1_index, q2_index, q3_index])
    # 计算左边元素的值。
    left = np.floor(index).astype(np.int32)
    # 计算右边元素的值。
    right = np.ceil(index).astype(np.int32)
    # 获取index的小数部分weight与整数部分_ 。
    weight, _ = np.modf(index)
    # 根据左右两边的整数,加权计算四分位数的值。权重与距离成反比。
    q = x[left] * (1 - weight) + x[right] * weight
    print(q)
    

    结果:[12.25 14.5 16.75],1/4分位12.25,2/4分位14.5,3/4分位16.75

    weight, _ = np.modf(index) 中下划线的解释:
    Python中我们对于不使用的变量,习惯用 _ 来命名变量。
    也就是在2.25 4.5 6.75中,2,4,6整数部分我们不用,所以定义成下划线即可。

    可视化呈现:

    plt.figure(figsize=(15, 4))
    plt.xticks(x)
    plt.plot(x, np.zeros(len(x)), ls="", marker="D", ms=15, label="元素值")
    plt.plot(q, np.zeros(len(q)), ls="", marker="X", ms=15, label="四分位值")
    for v in q:
        plt.text(v, 0.01, s=v, fontsize=15)
    plt.legend()
    

    在这里插入图片描述
    结论:
    四分位值不一定出现在我们数据的元素中。

    我们刚才自行计算了每个四分位的值,但是,其实在Python中,Numpy与Pandas提供了相关的方法,无需我们自行计算。

    Numpy中计算四分位数:

    x = [1, 3, 10, 15, 18, 20, 23, 40]
    # quantile与percentile都可以计算分位数,不同的是,quantile方法,
    # q(要计算的分位数)的取值范围为[0, 1],而percentile方法,q的
    # 取值范围为[0, 100]。
    print(np.quantile(x, q=[0.25, 0.5, 0.75]))
    print(np.percentile(x, q=[25, 50, 75]))
    

    结果:
    [ 8.25 16.5 20.75]
    [ 8.25 16.5 20.75]

    Numpy 中quantile与percentile计算四分位数的区别:
    quantile方法, q(要计算的分位数)的取值范围为[0, 1]
    percentile方法,q的取值范围为[0, 100]。

    Pandas中计算四分位数:

    x = [1, 3, 10, 15, 18, 20, 21, 23, 40]
    s = pd.Series(x)
    print(s.describe())
    

    在这里插入图片描述
    在上面的结果中,我们如何将四分之一分位的值提取出来呢?

    s.describe()[4]
    s.describe()['25%']
    s.describe().iloc[4]
    s.describe().loc['25%']
    s.describe().ix[4]
    s.describe().ix['25%']
    

    建议使用 s.describe().iloc[4] 和 s.describe().loc[‘25%’] 这两种方式取值,因为更具有针对性,分别是位置索引和标签索引取值,不容易产生错误。

    默认情况下,describe 方法会统计各个四分位的值,我们可以通过percentiles参数来自定义需要统计的分为(百分位)。
    在这里插入图片描述

    (3)离散程度

    a. 极差

    极差指一组数据中,最大值和最小值之差。

    b. 方差

    方差体现的是一组数据中,每个元素与均值偏离的大小。
    在这里插入图片描述

    c.标准差

    标准差为方差的开方。

    关于极差、方差和标准差:
    在这里插入图片描述

    我们以花萼长度来看下离散程度:

    # 计算极差。
    sub = data["sepal_length"].max() - data["sepal_length"].min()
    # 计算方差。
    var = data["sepal_length"].var()
    # 计算标准差。
    std = data["sepal_length"].std()
    print(sub, var, std)
    

    var()方差、std()标准差
    结果:
    3.6000000000000005 0.6856935123042505 0.8280661279778629

    可视化显示:

    plt.figure(figsize=(15, 4))
    plt.ylim(-0.5, 1.5)
    plt.plot(data["petal_length"], np.zeros(len(data)), ls="", marker="o", ms=10, color="g", label="花瓣长度")
    plt.plot(data["petal_width"], np.ones(len(data)), ls="", marker="o", ms=10, color="r", label="花瓣宽度")
    plt.axvline(data["petal_length"].mean(), ls="--", color="g", label="花瓣长度均值")
    plt.axvline(data["petal_width"].mean(), ls="--", color="r", label="花瓣宽度均值")
    plt.legend()
    

    在这里插入图片描述
    从图形可以看出:
    花瓣宽度(红色的)围绕均值更加集中,而花瓣长度(绿色的)围绕均值更加分散。
    从方差或者标准差的角度绿色的方差就会大,而红色的方差就会小。

    (4)分布形状

    a. 偏度

    偏度是统计数据分布倾斜方向和程度的度量,是统计数据分布非对称程度的数学特征。
    在这里插入图片描述
    在这里插入图片描述

    # 构造左偏分布数据。
    t1 = np.random.randint(1, 11, size=100)
    t2 = np.random.randint(11, 21, size=500)
    t3 = np.concatenate([t1, t2])
    left_skew = pd.Series(t3)
    # 构造右偏分布数据。
    t1 = np.random.randint(1, 11, size=500)
    t2 = np.random.randint(11, 21, size=100)
    t3 = np.concatenate([t1, t2])
    right_skew = pd.Series(t3)
    # 计算偏度。
    print(left_skew.skew(), right_skew.skew())
    # 绘制核密度图。
    sns.kdeplot(left_skew, shade=True, label="左偏")
    sns.kdeplot(right_skew, shade=True, label="右偏")
    plt.legend()
    

    偏度结果:
    -0.858626159687255 0.8159924321369632
    核密度(概率密度分布)图:
    在这里插入图片描述

    有极大或极小值时,也就是出现左偏或者右偏分布数据的时候,不适用使用均值,因为均值会被异常值所影响,这个时候可以使用中位数或者众数说明,又或者我们提前把异常值处理掉再使用也可以。

    b. 峰度

    峰度是描述总体中所有取值分布形态陡缓程度的统计量。可以将峰度理解为数据分布的高矮程度。峰度的比较是相对于标准正态分布的。

    在这里插入图片描述

    standard_normal = pd.Series(np.random.normal(0, 1, size=10000))
    print("标准正态分布峰度:", standard_normal.kurt(), "标准差:", standard_normal.std())
    print("花萼宽度峰度:", data["sepal_width"].kurt(), "标准差:", data["sepal_width"].std())
    print("花瓣长度峰度:", data["petal_length"].kurt(), "标准差:", data["petal_length"].std())
    sns.kdeplot(standard_normal, label="标准正态分布")
    sns.kdeplot(data["sepal_width"], label="花萼宽度")
    sns.kdeplot(data["petal_length"], label="花瓣长度")
    

    结果:
    在这里插入图片描述
    在这里插入图片描述
    和标准正态分布比较:
    峰度越大,标准差越小并且小于标准正态分布的标准差,其图形月窄。
    峰度越小,标准差越大并且大于标准正态分布的标准差,其图形越宽。

    4、总结

    • 描述性统计分析的概念和应用。
    • 频率与频数的使用。
    • 集中趋势与离散程度。
    • 数据分析形状之偏度和峰度。
    • 各种统计量使用Python实现。
    展开全文
  • 统计分析学习

    千次阅读 2015-04-06 23:39:53
    统计分析学习,SPSS数据分析,R语言数据分析,Python数据分析,SAS统计分析
    展开全文
  • MATLAB统计分析-描述性统计

    千次阅读 2019-11-20 18:35:18
    主要介绍MATLAB统计分析中描述性统计部分的内容,包括集中趋势、离中趋势的描述、频数分析和相关统计图形绘制等。 【课程收益】 描述性统计量 频数分析和统计图形 视频教程入口 第一章:描述集中趋势 1. 算术...

    【课程介绍】
    主要介绍MATLAB统计分析中描述性统计部分的内容,包括集中趋势、离中趋势的描述、频数分析和相关统计图形绘制等。
    【课程收益】
    描述性统计量
    频数分析和统计图形

    视频教程入口

    第一章:描述集中趋势

        1. 算术平均值/中值/截尾均值 10:04
        2. 调和均值/几何均值 6:41
    

    第二章:描述离中趋势

        1. 极差/方差/标准差 5:27
        2. 均值绝对差/内四分极值/百分位数 5:55
    

    第三章:描述形状

        1. 峰度 3:59
        2. 偏度 4:20
    

    第四章:其他描述

        1. 分组数据描述 10:18
        2. 包含缺失数据的样本描述 4:06
        3. 中心矩 3:20
    

    第五章:频数分析

        1. 原理 3:15
        2. 函数和示例 3:37
    

    第六章:统计图形

        01. 常用统计图形 8:04
        02. 误差条图 4:56
        03. 散点图 5:45
        04. 帕累托图 5:11
        05. 箱形图 8:51
        06. 直方图 6:08
        07. 经验累加分布函数图 4:37
        08. 正态概率图和概率图 5:42
        09. q-q图 7:31
        10. 威布尔图 2:30
    

    视频教程入口

    展开全文
  • 统计分析--对应分析

    千次阅读 2019-05-19 20:24:19
    统计分析–对应分析sas/r实现 --------仅用于个人学习知识整理和sas/R语言/python代码整理 1.前言 对应分析,主要适用于有多个类别的分类变量,可以揭示同一个变量各个类别之间的差异,以及不同变量各个类别...
  • 数据来自《SPSS for Windows 统计分析》。 目 录 问题一:选择那些变量进行聚类?——采用“R型聚类” 问题二:20中啤酒能分为几类?——采用“Q型聚类” 问题三:用于聚类的变量对聚类过程、结果又贡献么...
  • #SAS统计分析-描述性统计

    千次阅读 2019-09-18 10:36:42
    关于统计性统计的基础概念之前就大致有整理过了,想要回顾的可以点击:这个主题的文章会侧重于sas关于统计分析的应用的学习整理与讲解,过程中也会补充一些比较重要的统计分析概念...
  • 数据统计分析方法

    万次阅读 2018-08-10 20:17:52
    数据统计分析方法: 描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、主成分与因子分析、时间序列分析、决策树。 回归分析 研究自变量与因变量之间的关系、可以用来预测因变量的值、 线性回归使用...
  • 统计分析方法

    千次阅读 2014-02-13 21:09:15
    统计分析方法:对比分析法、平均和变异分析法、综合评价分析法、结构分析法、平衡分析法、动态分析法、因素分析法、相关分析法等。
  • Python数据分析之pandas统计分析

    万次阅读 多人点赞 2017-07-27 11:03:58
    pandas模块为我们提供了非常多的描述性统计分析的指标函数,如总和、均值、最小值、最大值等,我们来具体看看这些函数:1、随机生成三组数据import numpy as np import pandas as pdnp.random.seed(1234) d1 = pd....
  • 多元统计分析基础

    千次阅读 2016-03-27 20:12:40
    1.多元统计分析(Multivariate Statistical Analysis)  多元统计分析研究的是客观事物中多个变量(多个因素)之间相互依赖的统计规律性。假如说一个数据它有n维特征,我们称它为多元数据,而分析多元数据的统计...
  • 数据特征分析技能—— 统计分析

    千次阅读 2018-05-03 10:53:57
    数据特征分析技能——统计分析 统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline ...
  • 数组统计分析

    千次阅读 2013-08-29 13:57:40
    转载自:数组统计分析 给定数组A,大小为n,数组元素为1到n的数字,不过有的数字出现了多次,有的数字没有出现。请给出算法和程序,统计哪些数字没有出现,哪些数字出现了多少次。能够在O(n)的时间复杂度,O(1)的...
  • 多元统计分析 (一):聚类分析

    千次阅读 2019-04-26 21:38:04
    多元分析(multivariate analyses)是多变量的统计分析方法,是数理统计中应用广 泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广 泛使用,并在使用中不断完善和创新。由于变量的...
  • ORACLE 统计分析

    千次阅读 2012-12-02 14:30:06
    ORACLE 统计分析 统计分析主要包括产生表及索引的统计信息 表的统计信息主要包括表的行数,每行的平均长度(字节),空闲块,统计时间等信息 索引的统计信息主要包括行数、层数、叶块数、统计时间等信息。 ...
  • 统计分析之为什么需要统计

    千次阅读 2018-07-22 08:44:01
    从本周起,小斗开始写统计分析相关的文章。 特征的优劣直接决定了模型是否奏效,特征提取的关键则是理解数据。一名优秀的算法工程师,一定先是一名优秀的统计工程师。那么,为什么需要统计? 统计 看过三国演义...
  • Q1.什么是单因素分析和多因素分析?  单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析。目的在于描述事实。...分析依据是:(1)根据统计分析目的和经济现象的内在联系确定指数体系;(2)...
  • bug统计分析初步

    千次阅读 2015-02-27 10:49:33
    bug 统计分析初步
  • 16种常用统计分析软件介绍

    万次阅读 2019-05-13 18:41:19
    SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入...
  • R语言统计分析-方差分析

    千次阅读 2017-03-24 10:30:02
    R语言统计分析-方差分析 一、方差分析简单的例子  测试6中杀虫剂的效果,目标值为虫子个数,对方差进行分析。 1.导入数据 data(InsectSprays) 2.平方根转换,分析 aov.spray aov()左边为左边相应变量,右边...
  • python数据统计分析

    万次阅读 多人点赞 2019-02-17 09:08:25
    1. 常用函数库   scipy包中的stats模块和statsmodels包是python... scipy的stats包含一些比较基本的工具,比如:t检验,正态性检验,卡方检验之类,statsmodels提供了更为系统的统计模型,包括线性模型,时序分析...
  • Pandas:基本统计分析

    千次阅读 2019-04-17 23:07:07
    基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一个四分位值,中值,第三个四分位值以及最大值。 描述性统计分析函数为describe,该函数返回值有均值,标准差,最大值,最小值,分位数等。括号中...
  • 密码统计分析工具pipal

    千次阅读 2017-08-28 10:05:42
    密码统计分析工具pipal
  • 常用统计分析软件介绍

    万次阅读 2018-03-08 08:45:12
    SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入...
  • [GIS原理] 10 空间统计分析

    千次阅读 多人点赞 2018-10-14 21:03:49
    文章目录背景空间分析和空间数据分析地统计分析空间统计分析目的主要内容空间统计分析基本流程空间数据空间统计中的问题空间自相关可变区域单位汇总生态学谬误空间尺度空间非均一性和边界效应空间数据关系空间格局...
  • Python 统计分析--单因素方差分析

    万次阅读 2018-07-13 16:53:03
    Python 统计分析–单因素方差分析 方差分析的主要工作就是将观测数据的总变异(波动)按照变异的原因的不同分解为因子效应与试验误差,并对其作出数量分析,比较各种原因在总变异中所占的重要程度,以此作为进一步...
  • 一、描述性统计分析  所谓描述性分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征值以及其所代表的总体的特征。描述性统计分析的项目很多,常用的如平均数、标准差、中位数、频数分布、正态...
  • APP统计分析 用户画像 对程序员来说,用户画像就是用户的属性和行为;通俗地说,用户画像是包括了个人信息、兴趣爱好、日常行为等血肉丰满的客户实体。用户画像是精准营销的产物,企业通过收集用户的行为,然后...

空空如也

1 2 3 4 5 ... 20
收藏数 75,561
精华内容 30,224
关键字:

统计分析