精华内容
下载资源
问答
  • 统计学基本知识

    千次阅读 2018-07-14 11:10:21
    本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间...

      本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间序列分析及指数是金融方面的应用,也一并略去,如有需要请查阅相关书籍。

    参考书籍:

          贾俊平.《统计学》.第六版

          王喜之.《统计学:从数据到结论》.第四版


     1.统计学基本概念

          统计学:收集、处理、分析、解释数据并从中得出结论的科学。

          数据分析的方法可分为描述统计和推断统计。

                                                            


          注意:分类变量如“行业”,其变量值可以为“零售业”、“旅游业”、“汽车制造业”;顺序变量如“产品等级”,其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。

     2.数据的收集


          注意:    在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式,收集数据也可以采用自填、电访、面访相结合的方式以节省成本。    在间接来源中,注意对二手数据评估,可以考虑:数据是谁收集的?为什么目的收集的?数据怎么收集的?什么时候收集的?避免对二手数据的错用、误用、滥用。

     3.数据的描述

    3.1数据的概括性度量

     

          注意:在excel 数据---“数据分析---描述统计 中能得到所有指标值。

    3.2数据的图表展示


          说明:不同的箱线图对应的分布如下

          注意事项:图表应简洁、合理的表达统计目的,不应在图形的修饰上花费太多时间。在绘制图形时,应避免一切不必要的装饰,注重图形所要表达的信息,图形产生的视觉效果应与数据所体现的事物特征一致,不得歪曲数据。

          统计表是用于展示数据的另一个基本工具,一般由表头、行标题、列标题和数字资料组成,必要时在统计表的下方添加数据来源、变量注释和说明等。统计表的横竖比例要适当,避免出现过高或过宽的情况;表头标题应满足3W原则(when、where、what),统计表中应注明单位,表的上下两条线一般用粗线,中间的其它线用细线;通常情况下,统计表左右两边不封口,列标题之间在必要时可用竖线分开,而行标题通常不必用横线分开;表中数据一般是右对齐,有小数点时小数点对齐,小数点位数统一,对于没有数字的单元,一般用“—”表示,表中不应出现空白单元格。

     4.回归与分类

    4.1回归:数值型变量(因)——数值型变量(自)

     拟合优度指标检验方法是否需要假设分布背景准确度排名
    线性回归判定系数 R2F统计量、t统计量4
    决策树判定系数 R2交叉验证5
    boosting判定系数 R2交叉验证2
    随机森林判定系数 R2交叉验证
    支持向量机判定系数 R2交叉验证

          线性回归属于经典统计学,模型能够写成公式,而其它几种方式属于现代方法,模型体现在算法之中,这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上,在无法假定任何分布背景的情况下,在面对众多竞争模型,算法模型较经典模型有着不可比拟的优越性。  

    4.2分类:分类变量(因)——数值型变量(自)

      拟合优度指标 检验方法是否需要假设分布背景 准确度排名
    Logistic回归    是因变量只能为2个变量
     线性判别分析(Fisher判别法) 错分比例 交叉验证 否 4
     决策树 错分比例 交叉验证 否 5
     boosting 错分比例 交叉验证 3
     随机森林 错分比例 交叉验证 否 1
     支持向量机 错分比例 交叉验证 否 2

          说明:Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

    4.3分类:分类变量(因)——分类变量(自)

      拟合优度指标检验方法是否需要假设分布背景准确度排名
     决策树 错分比例交叉验证 否2
    boosting 错分比例交叉验证 否1
    随机森林 错分比例交叉验证 否1

    附:

    列联分析:分类变量是否相关

          列联表是若干分类变量的各种可能取值组合的出现频数分布表,主要目的是看这些变量是否想关。如:


    方差分析:分类变量对数值型变量是否有显著影响

          方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量(分类型)对因变量(数值型)是否有显著影响。可分为单因素方差分析,双因素方差分析。如:

        


     5.多元分析

    5.1寻找多个变量的代表:主成分分析和因子分析

    5.2把对象分类:聚类分析

          详见《多元统计分析》、《实用多元统计分析》

    展开全文
  • 统计学基本知识 总体:问题涉及的所有数据 样本:总体的部分数据 统计即用样本估计总体 期望值:一组数据的平均情况 概率分布:离散数据的分布 概率密度函数:连续数据的分布 总体方差:无偏方差,真实的...

    统计学基本知识

    总体:问题涉及的所有数据
    样本:总体的部分数据
    统计即用样本估计总体
    期望值:一组数据的平均情况
    概率分布:离散数据的分布
    概率密度函数:连续数据的分布
    总体方差:无偏方差,真实的方差
    样本方差:有偏方差,样本的方差,用来评估总体方差
    标准差:方差开根号

    简单分布

    二项分布

    多次伯努利实验(抛硬币)
    假设实验成功的概率为p
    E(x) = np
    D(x) = np(1-p)

    泊松分布

    单位时间内随机事件发生的次数。泊松分布跟时间的起点无关,只跟时间的长度有关,这被称为泊松分布的无记忆性。
    最典型的一个例子是一辆公交车到达一个车站的次数满足泊松分布,平均一辆公交车达到这个站点是10分钟,已知一个乘客等公交等了5分钟,那么他还需要等待10分钟才能等到公交车。(当然现实的公交车到达车站不是满足泊松分布)
    E(x) =
    D(x) =

    正态分布

    广泛存在于自然界中的分布,又称钟型曲线。

    基本定理

    大数定律

    随着实验次数的增多,随机变量的算术平均值向期望值收敛。
    经典例子,随着抛硬币的次数增长,硬币朝上的频率稳定在1/2(概率)。

    致谢:

    khan Academy https://www.khanacademy.org/math/ap-statistics

    展开全文
  • 统计学基本知识

    千次阅读 2019-02-26 13:12:21
    由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。...

    声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。

    均值:一组数相加后除以这一组数的个数。

    中位数:一组数从小到大排列,最中间的那个数,如果是偶数个,两个相加后除以2,得到中位数。

    众数:这一组数中出现多的一个数字。

    极差:指一组数中最大数和最小数的差值,它描述这些数字分开的有多远, 差值越小,数据分布得越紧密。

    中程数:指数据集中最大数和最小数的平均值,是考虑集中趋势的又一种方式,是考虑中间值的有一种方法。

    象形统计图的目的主要是为了使统计数据更为直观、通俗易懂。如下图一滴血表示8个人,来统计各种血型的人数。

    条形图(利用条形分类来表述数据的一种方式)。下图是五个人的期中、期末成绩,比较谁进步最大。由每个人的前后条形差值中可以得出结论。

    线形图适合用来表示随时间变化的事物,展示变化趋势,如下图是股价随着每一个月的变化趋势。

    但是要注意

    观察线形图趋势,特别是相互比较的时候,要注意刻度,避免被误导,最好是在同一图中画出比较。如下图,不看刻度的话,还以为右图的变化趋势更大。

    饼图非常适合用来标志各个部分所占的比例,即部分与整体的关系。例如下图的旅行社每个月份销售额,一眼能看出哪个月份是销售最高的。

    茎叶图Stem-and-Leaf plot:将数组中的数按位数进行比较,数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。如下图是每个球员的得分。

    盒须图(box and whiskers):又称为箱形图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。

    1.将数组中的数据升序排序

    2.求出中位数(Xm),上四分位数(Q1),下四分位数(Q3)

    3.画数轴,度量单位大小和数组的单位一致,起点比最小值稍小,长度比该数组的全距稍长

    4.画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q1和Q3)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。 

    如下图是箱线图的一个具体示例。

    outlier--离群值:与其它数不一样的数,有此数时,中位数和众数比算术平均数更能体现该组数的集中趋势。 如下图100就是离群值。

    sample(样本),population(总体)

    μ = population mean (总体均值)

    X(上面带一条横线)= sample mean(样本均值)

    总体方差:知道了集中趋势(平均值),但我们不知道数据是接近集中趋势还是远离集中趋势,所以可以用方差去衡量。如下图是总体方差的计算公式。

    样本方差:如果按照总体方差计算的话,当选择的样本偏离总体均值是,样本方差会低估总体方差。如下图所示

    故用下图,也就是分母换成(n-1),也称为总体方差的无偏估计

    标准差:方差的平方根,平均离中趋势用标准差表示时单位一致。是对数离均值平均远近程度的一种衡量。

     

    方差和期望的关系

    随机变量:它并非传统意义上的变量,而更像是从随即过程映射到数值的函数。例如仍骰子的出现点数。

    概率密度函数

    1离散随机变量中每个变量概率有值且有意义

    2连续随机变量中某个具体变量概率值为0,而一个变量范围内的概率有值且有意义,概率密度是一个函数,用于计算连续变量某一范围空间内的概率。

    离散分布:伯努力分布,二项分布,possion分布

    1,伯努力分布

    import matplotlib.pyplot as plt
    from scipy import stats
    #执硬币
    x_arr=np.array([0,1])
    #x为1的概率
    p=0.7
    #0 1分布
    #由PMF生成对应的概率  离散事件
    pr_arr=stats.bernoulli.pmf(x_arr,p)
    plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
    plt.vlines(x_arr,0,pr_arr)
    plt.xlabel('Events')
    plt.ylabel('Bernoulli distribution(p=0.7)')
    plt.show()

    2,二项分布

    #二项分布  数量多时:像正态分布
    n=100 #实验次数
    p=0.5
    x_arr=np.arange(0,n+1,1)
    pr_arr=stats.binom.pmf(x_arr,n,p)
    print(pr_arr)
    plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
    plt.vlines(x_arr,0,pr_arr)
    plt.xlabel('Events')
    plt.ylabel('Probability')
    plt.title('Bernoulli distribution(n={},p={})'.format(n,p))
    plt.show()

    次数到达100次就像正态分布,可以看出连续情况下可得到正态分布。

    期望:随机变量的期望值是总体的均值,但因是无穷,所以采取每个结果可能出现的概率作为权重后计算。

    对于二项分布的期望,E(X)=np,其中n是试验次数,p是每次成功的概率。

    推导E(X)=np:

    3,poisson分布

    假设知道期望值E(X),即一个小时内通过多少辆车,先假设满足二项分布,E(X)=np,p=E(X)/n(n分钟数) 再求k分钟出现车的概率C(n,k)p^k(1-p)^(n-k).不断扩大n到无穷大则是泊松分布,其推导过程如下:

    #poisson分布
    #求某路口每小时发生k次交通事故的概率,已知每小时平均发生的次数为2
    mu=2
    k=10
    p = 0.5
    x_arr=np.arange(0,k+1,1)
    pr_arr=stats.poisson.pmf(x_arr,mu)
    print(pr_arr)
    plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
    plt.vlines(x_arr,0,pr_arr)
    plt.xlabel('Events')
    plt.ylabel('Probability')
    plt.title('Bernoulli distribution(k={},p={})'.format(k,p))
    plt.show()
    #

    4,高斯(正态分布)

    mu=0#平均值
    sigma=1#标准差
    x_arr=np.arange(-5,5,0.1)
    #概率分布函数
    y_arr=stats.norm.pdf(x_arr,mu,sigma)
    plt.plot(x_arr,y_arr)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title('Gaussion distribution(mu={},sigma={})'.format(mu,sigma))
    plt.show()

    正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

    横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。

    横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

    由于“小概率事件”和“假设检验”的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。 

    大数定理:如果样本量足够大,那么样本均值将趋近于期望值。

     

     

     

    展开全文
  • 统计学基本知识

    2019-03-04 22:55:41
    代码可以参考之前的博客: ... ... 声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。 线性回归:二维坐标上有n个点,存在一条直线y=mx+b,其中误差error...

    代码可以参考之前的博客:

    https://blog.csdn.net/fanzonghao/article/details/85643653

    https://blog.csdn.net/fanzonghao/article/details/81637669

    声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。

    线性回归:二维坐标上有n个点,存在一条直线y=mx+b,其中误差error(1)=y1-(mx1+b),,,error(n)=y(n)-(mx(n)+b),直线的平方误差SE(line)=error1^2+...+error(n)^2,求相应的m、b的值使SE最小。

    决定系数:

    描述的是X波动对Y波动的影响度。

    决定系数 R平方 = 1 - SE line (Y对于回归线距离的平方和)/ SE Y均 (Y对于 Y平均值距离的平方和)。

    当R平方接近于1时,说明直线拟合的很好。

    协方差:covariance 两随机变量离各自均值之积的期望值。

    cov(x,y)=E[(x-E[x])(y-E[y])] 上述展开化简可得 E(xy)-E(x)*E(y)

    线性回归的斜率m=COV(X,Y)/COV(X,X)

    卡方分布:即从标准正态分布:X~N(0,1)中随机抽样,对每个抽样的随机变量平方。所有随机取一个随机变量平方的,服从自由度为1卡方分布;随机取2个随机变量平方的,服从自由度为2的卡方分布。

    方差分析:

    自由度等于m*n-1

    总方差=组内方差+组间方差,自由度也是两者的相加。

    相关性与因果性:

    相关性是指两个或多个事物同时发生,具有关联;因果性是指因为A所以B,两者具有明显的差异。

    归纳推理:寻找规律或趋势然后推广,也就是用已有信息进行趋势外推;

    演绎推理:则是从一些数据或事实出发。

    不同点:归纳推理在推广时,并不确定趋势是否会继续,只是假设它会继续。演绎推理是从事实出发得到其他事实。

     

    展开全文
  • 统计学基本知识

    2019-02-28 21:46:01
    声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。 中心极限定理:随着样本容量n的增加,样本均值或者样本和的频率图将很接近正态分布。 如下图就在求解样本均值。 ...如下图就是样本均值的频率图,很...
  • 1.统计学基本知识 https://blog.csdn.net/hiwallace/article/details/82183089 2.二项分布 https://blog.csdn.net/huangjx36/article/details/77990392 3.泊松分布 ...
  • Task 1统计学基本知识

    2019-08-05 21:07:44
    Sample & Population random sample: sample of the population x mean of the sample μ:mean of the population Law of large Numbers 大数定律 N足够大,样本均值趋于总体均值。 100个硬币,投掷正面向上的...
  • 统计学 分布的描述 偏态 表示数据分布的不对称性,指数据分布的偏斜方向和程度。测定指标用偏态系数SK表示。偏态有正负之分。 峰度 表示数据分布的尖峭程度或峰凸程度,根据变量值的集中与分散程度,峰度一般可表现...
  • 统计学_11.集中趋势2.样本和总体3.总体方差4.样本方差5.标准差6.诸方差公式7.随机变量介绍8.概率密度函数9.二项分布10.期望值而E(X)11.二项分布的期望值12.泊松分布 一切围绕数据进行, 描述性统计学 推理统计学 1...
  • 机器学习之(八)统计学基本知识

    千次阅读 2016-10-28 17:34:56
    本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间...
  • 按照网易云课堂可汗学院统计学进度,从第1课~ 描述性统计 数据展示 条形图 线型图 饼图 箱线图 茎叶图 各种作用就不一一阐述了,比较基础。 数据数字特征 表示数据集中趋势:反映了一组数据向某一...
  • 统计学--基本知识

    2019-04-04 21:20:45
    12-26集 统计学基本知识、二项及泊松分布 学习内容 2 27-34集 大数定律、正态分布 1、统计学基本知识 1.1 描述集中趋势的统计变量 均值:算术平均数,代表了这组数据的集中趋势,对这组数据有一定的代表性。 ...
  • 6.1 统计学基本原理

    2021-03-03 17:56:55
    统计学基本原理 1. 描述统计 1.1 统计分析的目的 描述性统计 推断性统计 1.2 统计学的本质——抽样 1.3 统计分析的关键概念 4种测量尺度 ----集中趋势---- 均值 (课外)偏态分布 中位数 众数 ----离散趋势---- 极差...
  • 统计学基础知识

    2019-04-05 10:45:00
    统计学基本知识 1、总体和样本基本概念:(1) 总体:表示研究对象的整个群体。(2) 样本:表示从总体中选取的一部分。 2、总体方差和样本方差:(1) 定义:总体方差:总体方差是一组资料中各数值与其算术平均数离差平方...
  • 学习统计学基本概念

    2014-06-13 00:56:00
    还是要回到基础,打好基础。 打好基础的重要条件是做好笔记,...从《all of statistics》出发,打好统计学的基础! 明天总结前三章的知识,嗯,加油! 转载于:https://www.cnblogs.com/chenhuanfa/p/3784986.html...
  • 统计学知识

    2015-06-07 15:13:49
    统计学知识 1、置信区间
  • [统计学笔记一] 统计学基本概念
  • 统计学任务1

    2019-04-04 09:02:16
    统计学任务1统计学基本知识二项分布泊松分布大数定律正态分布 统计学基本知识 二项分布 泊松分布 大数定律 正态分布
  • 统计学知识回顾(一)统计学基本知识样本和总体总体方差样本方差标准差诸方差公式期望概率密度函数二项分布一个简单的案例二项分布的期望值泊松过程泊松分布大数定理正态分布标准正态分布Z分数经验法则 统计学基本...
  • 大学统计学基础知识笔记

    千次阅读 2020-06-17 10:22:54
    本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间...
  • 统计学中学习机器学习的基本知识梳理 前言: 本文从统计学入手,梳理统计学中机器学习的基本知识,从概念和思想上理解统计学的基础以及监督学习,非监督学习,半监督学习和强化学习。 一、统计学框架 统计学:研究...
  • 还没关注?快动动手指!数据分析师,无疑是数据时代最耀眼的职业之一,统计学,又是数据分析师必备的基础知识知识点汇总:1.集中趋势(Central Tendency)2.变...
  • 统计学】论统计学知识

    千次阅读 2018-10-30 14:55:24
    文章目录论统计学知识点前言一、 图形可视化说明具有哪些图形?二、数据度量标准三、概率分布四、统计假设检验五、相关和回归总结 论统计学知识点 前言      &...
  • 这篇文章主要介绍了什么是统计学,以及构成统计学基本框架,是统计学这门学科的基本面貌。01什么是统计学?《行为科学统计精要》一书对统计学的定义是:“统计学是一套组织、总结和解释信息的数学过...
  • 统计学知识梳理

    2018-10-25 22:10:42
    统计学大体可以分为两类: 描述性统计学:希望在不告诉别人所有数据的情况下介绍这些数据的情况。 推论统计学:从总体中获得一些样本,利用样本的数学计算,推断出总体的情况。...统计学的主要知识基本包括:...
  • 下面将从具体的实例入手,用Python并结合统计学知识对数据进行探索分析,从而了解数据分析所用到的一些统计学概念。 前言 数据分析步骤 数据分析一般包括以下步骤: 提出有价值的问题,好的问题就像是瞄准了...
  • - 总体(Population) 抽样(Sample) ...μ=∑i=1NxiN\mu = \frac{\sum_{i=1}^{N}{x_i}}{N}μ=N∑i=1N​xi​​ ...x‾=∑i=1nxin\overline{x}=\frac{\sum_{i=1}^{n}{x_i}}{n}x=n∑i=1n​xi​​ ...σ2=∑i=1N(xi−μ)...
  • 统计学笔记1

    2019-08-05 22:06:48
    统计学笔记1可汗学院统计学课程统计学基本知识二项分布与泊松分布大数定理与正态分布 可汗学院统计学课程 第二遍看可汗学院的统计学了,之前看国内大学的公开课,觉得就在念PPT没什么意思,看人家推荐可汗学院的就来...
  • 统计学知识点总结

    千次阅读 2016-03-19 13:28:27
    商务统计学知识点简单总结

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 25,017
精华内容 10,006
关键字:

统计学基本知识