精华内容
下载资源
问答
  • 因此运用恰当的图表实现数据可视化非常重要,本文归结图表的特点,汇总出一张思维导图,帮助大家更快地选择展现数据特点的图表类型。 ▲图表类型-思维指南(点击可放大) 接下来我将依次介绍常用图表类型,分析其...

    导读:随着时代的发展,越来越多的数据量堆积,然而这些密密麻麻的数据的可读性较差并且毫无重点,而数据可视化更加直观有意义,更能帮助数据更易被人们理解和接受。


    因此运用恰当的图表实现数据可视化非常重要,本文归结图表的特点,汇总出一张思维导图,帮助大家更快地选择展现数据特点的图表类型。


    640?wx_fmt=png

    ▲图表类型-思维指南(点击可放大)


    接下来我将依次介绍常用图表类型,分析其适用场景和局限,从而帮助大家通过图表更加直观的传递所表达的信息。


    1. 柱状图


    640?wx_fmt=other

    ▲柱状图


    展示多个分类的数据变化和同类别各变量之间的比较情况。


    • 适用:对比分类数据。

    • 局限:分类过多则无法展示数据特点。


    相似图表:


    1. 堆积柱状图。比较同类别各变量和不同类别变量总和差异。

    2. 百分比堆积柱状图。适合展示同类别的每个变量的比例。


    2. 条形图


    640?wx_fmt=other

    ▲条形图


    类似柱状图,只不过两根轴对调了一下。


    • 适用:类别名称过长,将有大量空白位置标示每个类别的名称。

    • 局限:分类过多则无法展示数据特点 。


    相似图表:


    1. 堆积条形图。比较同类别各变量和不同类别变量总和差异。

    2. 百分比堆积条形图。适合展示同类别的每个变量的比例。

    3. 双向柱状图。比较同类别的正反向数值差异。


    3. 折线图


    640?wx_fmt=other

    ▲折线图


    展示数据随时间或有序类别的波动情况的趋势变化。


    • 适用:有序的类别,比如时间。

    • 局限:无序的类别无法展示数据特点。


    相似图表:


    1. 面积图。用面积展示数值大小。展示数量随时间变化的趋势。

    2. 堆积面积图。同类别各变量和不同类别变量总和差异。

    3. 百分比堆积面积图。比较同类别的各个变量的比例差异。


    4. 柱线图


    640?wx_fmt=png

    ▲柱线图[1]


    结合柱状图和折线图在同一个图表展现数据。


    • 适用:要同时展现两个项目数据的特点。

    • 局限:有柱状图和折线图两者的缺陷。


    5. 散点图


    640?wx_fmt=jpeg

    ▲散点图


    用于发现各变量之间的关系。


    • 适用:存在大量数据点,结果更精准,比如回归分析。

    • 局限:数据量小的时候会比较混乱。


    相似图表:


    • 气泡图。用气泡代替散点图的数值点,面积大小代表数值大小。


    6. 饼图


    640?wx_fmt=jpeg

    ▲饼图


    用来展示各类别占比,比如男女比例。


    • 适用:了解数据的分布情况。

    • 缺陷:分类过多,则扇形越小,无法展现图表。

    相似图表:


    1. 环形图。挖空的饼图,中间区域可以展现数据或者文本信息。

    2. 玫瑰饼图。对比不同类别的数值大小。

    3. 旭日图。展示父子层级的不同类别数据的占比。


    7. 地图


    640?wx_fmt=other

    ▲地图


    用颜色的深浅来展示区域范围的数值大小。


    • 适合:展现呈面状但属分散分布的数据,比如人口密度等。

    • 局限:数据分布和地理区域大小的不对称。通常大量数据会集中在地理区域范围小的人口密集区,容易造成用户对数据的误解。


    相似图表:


    1. 气泡地图。用气泡大小展现数据量大小。

    2. 点状地图。用描点展现数据在区域的分布情况。

    3. 轨迹地图。展现运动轨迹。


    8. 热力图


    640?wx_fmt=jpeg

    ▲热力图[2]


    以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。


    • 适合:可以直观清楚地看到页面上每一个区域的访客兴趣焦点。

    • 局限:不适用于数值字段是汇总值,需要连续数值数据分布。


    9. 矩形树图


    640?wx_fmt=jpeg

    ▲矩形树图[3]


    展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,比如商品品类等。


    • 适用:展示父子层级占比的树形数据。

    • 缺陷:不适合展现不同层级的数据,比如组织架构图,每个分类不适合放在一起看占比情况。


    10. 指标卡


    640?wx_fmt=jpeg

    ▲指标卡[4]


    突出显示一两个关键的数据结果,比如同比环比。


    • 适合:展示最终结果和关键数据。

    • 缺陷:没有分类对比,只展示单一数据。


    11. 词云


    640?wx_fmt=jpeg

    ▲词云[5]


    展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,比如用户画像的标签。


    • 适合:在大量文本中提取关键词。

    • 局限:不适用于数据太少或数据区分度不大的文本。


    12. 仪表盘


    640?wx_fmt=jpeg

    ▲仪表盘


    展现某个指标的完成情况。


    • 适合:展示项目进度。

    • 局限:只适合展现数据的累计情况,不适用于数据的分布特征等。


    13. 雷达图


    640?

    ▲雷达图[6]


    将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点。


    • 适用:了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异。

    • 局限:分类过多或变量过多,会比较混乱。


    14. 漏斗图


    640?wx_fmt=png

    ▲漏斗图[7]


    用梯形面积表示某个环节业务量与上一个环节之间的差异。


    • 适用:有固定流程并且环节较多的分析,可以直观地显示转化率和流失率。

    • 局限:无序的类别或者没有流程关系的变量。


    15. 瀑布图


    640?wx_fmt=jpeg

    ▲瀑布图


    采用绝对值与相对值结合的方式,展示各成分分布构成情况,比如各项生活开支的占比情况。


    • 适合:展示数据的累计变化过程。

    • 局限:各类别数据差别太大则难以比较。


    16. 桑葚图


    640?wx_fmt=jpeg

    ▲桑葚图


    一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,起始流量总和始终与结束流量总和保持平衡。比如能量流动等。


    • 适合:用来表示数据的流向。

    • 局限:不适用于边的起始流量和结束流量不同的场景。比如使用手机的品牌变化。

    相似图表:


    • 和弦图。展现矩阵中数据间相互关系和流量变化。数据节点如果过多则不适用。


    17. 箱线图


    640?wx_fmt=jpeg

    ▲箱线图


    是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。


    • 适用:用来展示一组数据分散情况,特别用于对几个样本的比较。

    • 局限:对于大数据量,反应的形状信息更加模糊。

    ————————————————

    作者:安琪Angela(已获授权);
    来源:
    https://www.jianshu.com/p/28c4b43c396d;

    版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

    关联阅读

    原创系列文章:

    1:从0开始搭建自己的数据运营指标体系(概括篇)

    2 :从0开始搭建自己的数据运营指标体系(定位篇)

    3 :从0开始搭建自己的数据运营体系(业务理解篇)

    4 :数据指标的构建流程与逻辑

    5 :系列 :从数据指标到数据运营指标体系

    6:   实战 :为自己的公号搭建一个数据运营指标体系

    7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

    数据运营 关联文章阅读:  

    运营入门,从0到1搭建数据分析知识体系    

    推荐 :数据分析师与运营协作的9个好习惯

    干货 :手把手教你搭建数据化用户运营体系

    推荐 :最用心的运营数据指标解读

    干货 : 如何构建数据运营指标体系

    从零开始,构建数据化运营体系

    干货 :解读产品、运营和数据三个基友关系

    干货 :从0到1搭建数据运营体系

    数据分析、数据产品 关联文章阅读:

    干货 :数据分析团队的搭建和思考

    关于用户画像那些事,看这一文章就够了

    数据分析师必需具备的10种分析思维。

    如何构建大数据层级体系,看这一文章就够了

    干货 : 聚焦于用户行为分析的数据产品

    如何构建大数据层级体系,看这一文章就够了

    80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

    从底层到应用,那些数据人的必备技能

    读懂用户运营体系:用户分层和分群

    做运营必须掌握的数据分析思维,你还敢说不会做数据分析

    合作请加qq:365242293  


    更多相关知识请回复:“ 月光宝盒 ”;

    数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

    640?wx_fmt=png

    展开全文
  • {Xm,z;m,n≥1}是两个下标的独立同分布随机序列,m(b)(m,n)表示Xm,1,…,Xm,z的第k个最大值,Y(l)(m,n;k)表示M(k)(1,n),…,M(k)(m,n)的第l个最大值。...k)的重极限分布,证明了其极限分布是三大经典极值类型之一.
  • matlab画温度分布

    千次阅读 2021-04-18 12:09:17
    传热学MATLAB温度分布大作业完整版_工学_高等教育_教育专区。东南大学能源与环境学院 课程作业报告作业名称:传热学大作业——利用 matlab 程序解决热传导问题 院系:......三维火柴杆图。 >> x=[1:0.5:20]; >...

    传热学MATLAB温度分布大作业完整版_工学_高等教育_教育专区。东南大学能源与环境学院 课程作业报告作业名称:传热学大作业——利用 matlab 程序解决热传导问题 院系:......

    三维火柴杆图。 >> x=[1:0.5:20]; >> y=sqrt(x); >> z=sqrt(x.^2+y.^2); >> stem3(x,y,z,'filled') 37、绘制高斯分布函数的三维瀑布图......

    传热学MATLAB温度分布大作业完整版_物理_自然科学_专业资料。传热学大作业(...

    MATLAB 求解法对于大多数导热问题, 求解温度场时很难得到 解析解, 只能利用...采用 Elliptic 模型得 到的平壁点热源导热温度分布三维图, 即为稳定时 的温度......

    Matlab 画各种概率分布函数曲线 help PDF PDF Density ...

    三维火柴杆图。 >> x=[1:0.5:20]; >> y=sqrt(x); >> z=sqrt(x.^2+y.^2); >> stem3(x,y,z,'filled') 37、绘制高斯分布函数的三维瀑布图......

    matlab 中如何在指定一点画一个填充颜色的小圆 plot(1,1,'r.','markersize',50) 二维作图 绘图命令 plot 绘制 x-y 坐标图;loglog 命令绘制对数坐标图; ......

    用MATLAB将传递函数化为零极点增益模型并绘制零极点图 将传递函数化为零极点增益模型 并绘制零极点图 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? >> ......

    习题与作业: 如图传输线特性阻抗 Z0=50, 求线上电压分布, 并画出与 z 的关系曲线(用 matlab 划出曲线图)。 matlab 代码如下: clear;clc;close all;format......

    。 MATLAB 绘制威布尔分布曲线威布尔分布概率密度函数: f ( x, m, a) a ( x ) e a1 ( x/m)a mm 威布尔分布概率分布函数: F x 1 e(mx)a 其中 ......

    Matlab画地形图_计算机软件及应用_IT/计算机_专业资料。根据采样点用 Matlab 实现地形地貌及物质 元素分布的绘制及分析(自做) 元素分布的绘制及分析(自做) 学号:......

    matlab概率分布 5页 免费 用Matlab进行画图 7页 免费 matlab画图 5页 免费 matlab画分布函数和概率... 22页 免费 喜欢此文档的还喜欢 matlab画分布函数和......

    实验二 MATLAB绘制图形(一) 实验类型:验证性 (二) 实验类别:基础实验...

    MAP图绘制,附完整matlab代码_数学_自然科学_专业资料。该文档适用于MAP图绘制教学,附有全代码 MAP 图绘制教程与程序代码 MAP 图全名是等高图图或等势云图,是在......

    Matlab绘制color map 伪色图_上传文库_数学_自然科学_专业资料。MATLAB绘制伪色图 1, 以数据来自于 FDTD solutions 导出的电场强度分布数据 txt 为例。打开 txt,......

    利用matlab画中国地图的几种方法 angelangel6666 |2012-...

    双画线 w 白 d 菱形 diamond hexagon pentagon square 第四章 MATLAB图形绘制 4.1 绘制二维图(一)plot函数格式2:plot(X,Y,’s’) X、Y为同维向量时,绘制......

    Matlab图形绘制经典案例---受用无穷 1、 三维曲线 >> t...

    =rand(500,1); >> y=randn(500,1); >> z=randn(500,1); >> scatter3(x,y,z,'p','r') 12 MATLAB 绘图案例 37、绘制高斯分布函数的三维瀑布图......

    与空图1 物理模型示意图 3 导热问题的 MATLAB 求解法 对于大多数导热问题 , 求解温度场时很难得到 解析解 ,只能利用计算机得到数值解来无限接近代 混合微分差分......

    展开全文
  • 而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到这个世界的概率分布的最优表达。 本科期间学习的概率论与数理统计更多涉及的是...

    频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派。

    这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到这个世界的概率分布的最优表达。

    本科期间学习的概率论与数理统计更多涉及的是频率学派的经典统计学观点,贝叶斯学派的观点也有接触,但是难以分清楚二者的区别。所以整理这篇博客,梳理关于这两个学派的一些知识。

    这篇博客从三个方面来整理关于这两个学派的一些重要知识:

    1、频率学派和贝叶斯学派的区别

    2、先验分布、后验分布和共轭分布

    3、最大似然估计和最大后验概率估计

     

    一、频率学派和贝叶斯学派的区别

    除了文章开头那段话以外,还可以从以下几个方面来理解两个学派的区别。

    1、从三种信息的角度来理解

    首先理解三个概念:总体信息、样本信息和后验信息。

    数理统计学的任务是通过样本推断总体。把样本视为随机变量时,它有概率分布,称为总体分布。如果我们已经知道了总体的概率分布,那我们得到的这种信息就叫做总体信息。

    另一种信息是样本信息,就是从总体中抽取的样本所提供的信息。我们希望通过对样本的加工、整理,从而对总体的分布或对总体的某些数字特征作出统计推断。

    总体信息和样本信息放在一起,也称为抽样信息。

    第三种信息是后验信息(prior information),就是在抽样之前,根据经验和历史资料,得到的有关统计推断问题中未知参数的信息。

    那么基于总体信息和样本信息进行统计推断的理论和方法称为经典(古典)统计学,它的基本观点是:把样本看成是来自于有一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身。

    而基于总体信息、样本信息和后验信息进行统计推断的方法和理论则称为贝叶斯统计学,它与经典统计学的主要区别在于是否利用先验信息。在使用样本上也存在差别,贝叶斯统计学重视已出现的样本,对尚未发生的样本值不予考虑。于是贝叶斯学派非常重视先验信息的收集、挖掘和加工,使之形成先验分布而参与到统计推断中,以提高统计推断的效果。

    2、从两个学派的争论来理解

    频率学派坚持概率的频率解释,对数理统计学中的概念、结果和方法性能的评价等都必须在大量重复的意义上去理解。频率学派对贝叶斯学派的批评主要集中在以下两点:

    (1)主观概率以及先验分布的确定。贝叶斯学派提出了主观概率,把主观概念理解为主体对事件发生的概率的相信程度,即不同的人对同一事件的概率可以得到不同的结果。而频率学派认为一个事件的概率要由大量重复试验下的频率来解释,不应该因人而异,必须具有客观性,而且先验分布是主观随意性的产物,不可以接受。

    (2)贝叶斯也要以样本分布为出发点,而样本分布通常都是在频率意义上去解释的。可是贝叶斯学派在否定频率学派的同时,却使用了频率学派这个工具。

    而贝叶斯学派对频率学派的批评集中在以下两点:

    (1)涉及“频率解释”本身。许多应用问题是一次性的,在严格或大致相同条件下让这一个问题重复出现是不可能的。比如预测特朗普当选的概率,预测水灾发生的概率,都是不可能在相同条件下重复出现的,不可能通过重复抽样得到。因此贝叶斯学派认为只能在现有样本的基础上去处理问题。

    (2)事前规定精度和可靠度不合理。频率学派基于概率的频率解释,所导出的方法(点估计、区间估计和假设检验)的精度和可靠度是在事前(抽样前)就定下的,称为“事前精度”和“事前可靠度”。贝叶斯学派认为统计推断的精度和可靠度,应该与实际的样本值有关,应当采用“事后精度”和“事后可靠度”。

    3、从对未知参数的认识上来理解

    频率学派把未知参数θ看成一个未知的固定量,仅把样本看做随机变量,而贝叶斯学派把未知参数也看做是随机变量。

     

    二、先验分布、后验分布和共轭分布

    贝叶斯统计学与经典统计学的不同之处在于,贝叶斯统计学在统计推断时除了利用抽样信息外,还利用参数的先验信息,所以贝叶斯方法的一个主要问题是如何确定先验分布。先验分布的确定有很大的主观性和随意性,当先验分布完全未知或部分未知时,如果人为给定的先验分布与实际情形偏离较大时,贝叶斯解的性质就比较差。首先来了解先验分布、后验分布、共轭分布,这是贝叶斯统计学中才有的概念,然后给出基于共轭分布来计算后验分布的方法。

    1、先验分布:

    参数空间Θ上的任一概率分布都称为先验分布(prior distribution)。用π(θ)来表示随机变量θ的概率函数(当θ为连续型随机变量时,π(θ)表示θ的密度函数;当θ为离散型随机变量时,π(θi)表示概率p(θ=θi),i=1,2,...,n)。

    先验分布π(θ)是在抽样样本X之前对参数θ可能取值的认识,在获取样本之后,由于样本X中也包含了θ的信息,故人们对θ的认识发生了变化,于是对θ的取值进行调整,就得到了参数θ的后验分布π(θ|x)。先验分布的两种重要类型是无信息先验分布和共轭先验分布。

    2、后验分布:

    在获得样本X后,θ的后验分布(posterior distribution)就是在给定X=x条件下θ的条件分布,记为π(θ|x)。求后验分布用的是贝叶斯公式

    (1)连续型

    θ为连续型随机变量时,其后验分布的密度函数为:

    其中,h(x, θ)=f(x|θ)π(θ)是X和θ的联合密度,f(x|θ)是样本的概率密度函数。而m(x):

    为X的边缘分布。

     (2)离散型

    当θ是离散型随机变量时,先验分布可用先验分布列{π(θi),i=1,2,...,n}来表示,这时的后验分布是如下离散形式:

    那么后验分布可以看做是人们用总体信息和样本信息(统称为抽样信息)对先验分布作调整的结果,是总体信息、样本信息和先验信息的综合。

    3、似然函数和共轭分布

    (1)似然函数

    对于后验分布计算公式中的f(x|θ),从不同的角度看有不同的含义:

    ①概率密度函数:若参数θ已知,而x是未知变量,那么描述的是不同样本点的概率,叫做概率密度函数;

    ②似然函数:若x是已经确定的,而参数θ是变量,那么描述的是对于不同的参数θ,某一个样本出现的概率,一般写作l(θ|x),叫做参数θ的似然函数。

    从上面已知,后验分布=样本的密度函数×先验分布/边缘分布,也可以看做:后验分布=似然函数×先验分布/边缘分布。

    (2)共轭分布

    已知后验分布=似然函数×先验分布/边缘分布,那么如果后验分布与先验分布有相同的形式,比如都服从贝塔分布,那么就称似然函数和先验分布是共轭的,互为共轭分布,先验分布是似然函数的共轭先验分布。对照上面的公式,后验分布为π(θ|x),先验分布为π(θ),似然函数为f(x|θ),π(θ|x) = f(x|θ) × π(θ) / m(x)。计算后验分布的概率密度:

    如果计算出来的π(θ|x)和π(θ)有相同的分布类型,那么称f(x|θ)和π(θ)互为共轭分布,π(θ)是f(x|θ)的共轭先验分布。

    (3)共轭分布的证明

    要证明先验分布为样本概率分布的共轭分布,只要计算后验分布,然后得出后验分布与先验分布形式相同的结论。下面证明泊松分布和伽玛分布是共轭分布。

     

    (4)常见的共轭分布

    二项分布与贝塔分布是共轭分布,多线分布和狄里克雷分布是共轭分布,泊淞分布和伽玛分布是共轭分布。

    而正态分布的共轭分布是正态分布。

    4、后验分布的简化计算

    了解了共轭先验分布的概念,那么当先验分布为共轭先验分布(或无信息先验分布)时,可用下面的方法来简化计算后验分布,其他情形只能用上面求解后验分布的公式去求。

    (1)后验分布的新表示方法

    我们知道,后验密度的计算公式为:

    f(x|θ)是样本的密度函数,或者说参数θ的似然函数。m(x)为X的边缘密度,由于m(x)与θ无关,故将1/m(x)看做是一个常数,有

    符号∝表示“正比于”,即符号左边的式子和右边的式子只差了一个与参数θ无关的常数因子。

    (2)后验密度的简化计算

    于是可以按下面的步骤来简化后验分布的求解过程:

    ① 写出样本概率密度函数(θ的似然函数)f(x|θ)的核,即f(x|θ)中仅与θ有关的因子;再写出先验密度π(θ)的核,即π(θ)中仅与参数θ有关的因子。

    ② 写出后验密度的核,即:

    即“后验密度的核”是“样本概率函数的核”和“先验密度的核”的乘积。

    ③ 在符号∝右边添加一个正则化因子(可以与x有关),就可以得到后验密度:

    π(θ|x) = 正则化因子 × {f(x|θ)的核} × {π(θ)的核}

     

    举个例子,设样本服从二项分布,即X~B(n, θ),取参数θ的先验分布为贝塔分布Be(a, b),求θ的后验分布。

    解:已知二项分布与贝塔分布是共轭分布,用简化的方法来求后验分布。

    样本X的概率分布为:

    那么似然函数(样本密度函数)的核是θx(1-θ)n-x

    贝塔分布概率密度函数的形式为:

    于是参数θ的概率密度函数π(θ)的核为θa-1(1-θ)b-1。

    于是得到:

    观察可知,符号最右边的式子为贝塔分布Be(x+a, n-x+b)的核,又已知二项分布与贝塔分布是共轭分布,于是添加正则化因子,构造贝塔分布的密度函数,得到后验密度:

     

    三、最大似然估计(MLE)和最大后验概率估计(MAP)

    统计要解决的问题是,手头有一堆数据,要利用这堆数据去推测模型和参数,而最大似然估计和最大后验概率估计就是推断模型和参数的两种不同方法。

    1、最大似然估计

    最大似然估计是求参数θ, 使似然函数p(X|θ)最大频率学派采用最大似然估计来推断模型的参数。最大似然估计的含义是根据已经采集到的样本,希望通过调整模型参数使得这些样本被选中的概率最大。

    样本的似然函数为p(X|θ),可以理解为已知样本集合X的情况下,所有样本点同时出现的概率,是关于参数θ的函数,因此最大似然估计就是要最大化似然函数。

    最大似然估计的目标函数为:

    2、最大后验概率估计

    最大后验概率估计则是想求参数θ,使p(x|θ)p(θ)即后验概率最大。求得的θ不单让似然函数大,θ本身出现的先验概率也得大。贝叶斯学派采用最大后验概率估计来推断模型的参数。最大后验概率估计的含义是基于对参数的一个先验假设,并根据已经收集到的样本,通过调整参数使得这些样本被选中的后验概率最大。模型参数本身满足某种分布,不再一味地依赖数据样例。

    如果以密度函数来进行计算,最大后验概率估计的目标函数就是:

     3、二者的联系

    最大似然估计比较依赖较大的数据量和大数定律,在样本量较少时,参数估计的结果容易出现较大偏差。

    最大后验概率估计允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的。但是随着样本量的增大,参数估计的结果主要受数据量的影响,先验假设的影响会越来越小。

    如果参数θ服从于均匀分布U(0,1)时,有先验概率为p(θ)=1,此时最大似然估计和最大后验概率估计是等价的。

     

     

     

     

     

    参考资料:

    1、韦来生:《贝叶斯统计》

    2、周志华:《机器学习》

    3、频率学派还是贝叶斯学派?

    https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78999639

    4、详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

    https://blog.csdn.net/u011508640/article/details/72815981

    5、极大似然估计,最大后验概率估计(MAP),贝叶斯估计

    https://blog.csdn.net/vividonly/article/details/50722042

    转载于:https://www.cnblogs.com/Luv-GEM/p/10638480.html

    展开全文
  • 计算与推断思维 九、经验分布

    万次阅读 2017-12-31 13:33:38
    九、经验分布 原文:Empirical Distributions 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 大部分数据科学都涉及来自大型随机样本的数据。 在本节中,我们将研究这些样本的一些属性。我们将从一...

    九、经验分布

    原文:Empirical Distributions

    译者:飞龙

    协议:CC BY-NC-SA 4.0

    自豪地采用谷歌翻译

    大部分数据科学都涉及来自大型随机样本的数据。 在本节中,我们将研究这些样本的一些属性。

    我们将从一个简单的实验开始:多次掷骰子并跟踪出现的点数。 die表包含骰子面上的点数。 所有的数字只出现一次,因为我们假设骰子是平等的。

    die = Table().with_column('Face', np.arange(1, 7, 1))
    die
    Face
    1
    2
    3
    4
    5
    6

    概率分布

    下面的直方图帮助我们可视化,每个面出现概率为 1/6 事实。 我们说直方图显示了所有可能的面的概率分布。 由于所有的条形表示相同的百分比几率,所以这个分布成为整数 1 到 6 上的均匀分布。

    die_bins = np.arange(0.5, 6.6, 1)
    die.hist(bins = die_bins)

    递增值由相同的固定量分隔,例如骰子面上的值(递增值由 1 分隔),这样的变量被称为离散值。上面的直方图被称为离散直方图。它的桶由数组die_bins指定,并确保每个条形的中心是对应的整数值。

    重要的是要记住,骰子不能显示 1.3 个点或 5.2 个点 - 总是显示整数个点。但是我们的可视化将每个值的概率扩展到条形区域。虽然在本课程的这个阶段这看起来有些随意,但是稍后当我们在离散直方图上叠加平滑曲线时,这将变得很重要。

    在继续之前,让我们确保轴域上的数字是有意义的。每个面的概率是 1/6,四舍五入到小数点后两位的概率是 16.67%。每个桶的宽度是 1 个单位。所以每个条形的高度是每单位 16.67%。这与图形的水平和垂直比例一致。

    经验分布

    上面的分布由每个面的理论概率组成。 这不基于数据。 不投掷任何骰子,它就可以被研究和理解。

    另一方面,经验分布是观测数据的分布。 他们可以通过经验直方图可视化。

    让我们通过模拟一个骰子的投掷来获得一些数据。 这可以通过 1 到 6 的整数的带放回随机抽样来完成。为了使用 Python 来实现,我们将使用Tablesample方法,它带放回地随机抽取表中的行。它的参数是样本量,它返回一个由选定的行组成的表。 with_replacement=False的可选参数指定了应该抽取样本而不放回,但不适用于投掷骰子。

    这是一个十次骰子投掷的结果。

    die.sample(10)
    Face
    5
    3
    3
    4
    2
    2
    4
    1
    6
    6

    我们可以使用相同的方法来模拟尽可能多的投掷,然后绘制结果的经验直方图。 因为我们要反复这样做,所以我们定义了一个函数empirical_hist_die,它以样本量为参数;该函数根据其参数多次投掷骰子,然后绘制直方图。

    def empirical_hist_die(n):
        die.sample(n).hist(bins = die_bins)

    经验直方图

    这是十次投掷的经验直方图。 它看起来不像上面的概率直方图。 运行该单元格几次,看看它如何变化。

    empirical_hist_die(10)

    当样本量增加时,经验直方图开始看起来更像是理论概率的直方图。

    empirical_hist_die(100)

    empirical_hist_die(1000)

    当我们增加模拟中的投掷次数时,每个条形的面积接近 16.67%,这是概率直方图中每个条形的面积。

    我们在实例中观察到了一般规则:

    平均定律

    如果偶然的实验在相同的条件下独立重复,那么从长远来看,事件发生的频率越来越接近事件的理论概率。

    例如,从长远来看,四点的比例越来越接近 1/6。

    这里“独立地且在相同的条件下”意味着,无论所有其他重复的结果如何,每个重复都以相同的方式执行。

    从总体中取样

    当随机样本来自较大总体时,平均定律也成立。

    作为一个例子,我们将研究航班延误时间的总体。 united表包含 2015 年夏天从旧金山出发的美联航国内航班的数据。数据由美国运输部运输统计局公布。

    这里有 13,825 行,每行对应一个航班。 列是航班日期,航班号,目的地机场代码和以分钟为单位的出发延误时间。有些延误时间是负的;那些航班提前离开。

    united = Table.read_table('united_summer2015.csv')
    united
    DateFlight NumberDestinationDelay
    6/1/1573HNL257
    6/1/15217EWR28
    6/1/15237STL-3
    6/1/15250SAN0
    6/1/15267PHL64
    6/1/15273SEA-6
    6/1/15278SEA-8
    6/1/15292EWR12
    6/1/15300HNL20
    6/1/15317IND-10

    (省略了 13815 行)

    一个航班提前 16 分钟起飞,另一个航班延误 580 分钟。 其他延迟时间几乎都在 -10 分钟到 200 分钟之间,如下面的直方图所示。

    united.column('Delay').min()
    -16
    
    united.column('Delay').max()
    580
    
    delay_bins = np.append(np.arange(-20, 301, 10), 600)
    united.select('Delay').hist(bins = delay_bins, unit = 'minute')

    就本节而言,仅仅关注部分数据就足够了,我们忽略延迟超过 200 分钟的 0.8% 的航班。 这个限制只是为了视觉便利。 该表仍然保留所有的数据。

    united.where('Delay', are.above(200)).num_rows/united.num_rows
    0.008390596745027125
    
    delay_bins = np.arange(-20, 201, 10)
    united.select('Delay').hist(bins = delay_bins, unit = 'minute')

    [0,10)的条形高度不到每分钟 3%,这意味着只有不到 30% 的航班延误了 0 到 10 分钟。 这是通过行的计数来确认的:

    united.where('Delay', are.between(0, 10)).num_rows/united.num_rows
    0.2935985533453888

    样本的经验分布

    现在让我们将这 13,825 个航班看做一个总体,并从中带放回地抽取随机样本。 将我们的分析代码打包成一个函数是有帮助的。 函数empirical_hist_delay以样本量为参数,绘制结果的经验直方图。

    def empirical_hist_delay(n):
        united.sample(n).select('Delay').hist(bins = delay_bins, unit = 'minute')

    正如我们用骰子所看到的,随着样本量的增加,样本的经验直方图更接近于总体的直方图。 将这些直方图与上面的总体直方图进行比较。

    empirical_hist_delay(10)

    empirical_hist_delay(100)

    最一致的可见差异在总体中罕见的值之中。 在我们的示例中,这些值位于分布的最右边。 但随着样本量的增加,这些值以大致正确的比例,开始出现在样本中。

    empirical_hist_delay(1000)

    样本的经验直方图的总结

    我们在本节中观察到的东西,可以总结如下:

    对于大型随机样本,样本的经验直方图类似于总体的直方图,概率很高。

    这证明了,在统计推断中使用大型随机样本是合理的。 这个想法是,由于大型随机样本可能类似于从中抽取的总体,从样本中计算出的数量可能接近于总体中相应的数量。

    轮盘赌

    上面的分布让我们对整个随机样本有了印象。但有时候我们只是对基于样本计算的一个或两个量感兴趣。

    例如,假设样本包含一系列投注的输赢。那么我们可能只是对赢得的总金额感兴趣,而不是输赢的整个序列。

    使用我们的几率长期行为的新知识,让我们探索赌博游戏。我们将模拟轮盘赌,它在拉斯维加斯和蒙特卡洛等赌场中受欢迎。

    在内华达,轮盘赌的主要随机器是一个带有 38 个口袋的轮子。其中两个口袋是绿色的,十八个黑色,十八个红色。轮子在主轴上,轮子上有一个小球。当轮子旋转时,球体跳起来,最后落在其中一个口袋里。这就是获胜的口袋。

    wheel表代表内华达轮盘赌的口袋。

    wheel
    PocketColor
    0green
    00green
    1red
    2black
    3red
    4black
    5red
    6black
    7red
    8black

    (省略了 28 行)

    你可以对轮盘赌桌上展示的几个预先指定的口袋下注。 如果你对“红色”下注,如果球落在红色的口袋里,你就赢了。

    红色的下注返回相等的钱。 也就是说,它支付一比一。为了理解这是什么意思,假设你在“红色”下注一美元。 第一件事情发生之前,即使在车轮旋转之前,你必须交出你的一美元。 如果球落在绿色或黑色的口袋里,你就失去它了。 如果球落在红色的口袋里,你会把你的钱拿回来(让你不输不赢),再加上另外一美元的奖金。

    函数red_winnings以一个颜色作为参数,如果颜色是红色,则返回1。 对于所有其他颜色,它返回-1。 我们将red_winnings应用于wheelColor列,来获得新的表bets,如果你对红色下注一美元,它显示每个口袋的净收益。

    def red_winnings(color):
        if color == 'red':
            return 1
        else:
            return -1
    bets = wheel.with_column(
        'Winnings: Red', wheel.apply(red_winnings, 'Color')
        )
    bets
    PocketColorWinnings: Red
    0green-1
    00green-1
    1red1
    2black-1
    3red1
    4black-1
    5red1
    6black-1
    7red1
    8black-1

    (省略了 28 行)

    假设我们决定对红色下注一美元,会发生什么呢?

    这里是一轮的模拟。

    one_spin = bets.sample(1)
    one_spin
    PocketColorWinnings: Red
    14red1

    这轮的颜色是Color列中的值。 无论你的赌注如何,结果可能是红色,绿色或黑色。 要看看这些事件发生的频率,我们可以模拟许多这样的单独轮次,并绘制出我们所看到的颜色的条形图。 (我们可以称之为经验条形图。)

    为了实现它,我们可以使用for循环。 我们在这里选择了重复 5000 次,但是当你运行这个单元格时,你可以改变它。

    num_simulations = 5000
    
    colors = make_array()
    winnings_on_red = make_array()
    
    for i in np.arange(num_simulations):
        spin = bets.sample(1)
        new_color = spin.column("Color").item(0)
        colors = np.append(colors, new_color)
        new_winnings = spin.column('Winnings: Red')
        winnings_on_red = np.append(winnings_on_red, new_winnings)
    
    Table().with_column('Color', colors)\
           .group('Color')\
           .barh('Color')

    38 个口袋里有 18 个是红色的,每个口袋都是等可能的。 因此,在 5000 次模拟中,我们预计大致(但可能不是完全)看到18/38*5000或者 2,368 次红色。模拟证明了这一点。

    在模拟中,我们也记录了你的奖金。 这些经验直方图显示了,你对红色下注的不同结果的(近似)几率。

    Table().with_column('Winnings: Red', winnings_on_red)\
           .hist(bins = np.arange(-1.55, 1.65, .1))

    每个模拟的唯一可能的结果是,你赢了一美元或输了一美元,这反映在直方图中。 我们也可以看到,你赢的次数要比输的次数少一点。 你喜欢这个赌博策略吗?

    多次游戏

    大多数轮盘赌玩家玩好几轮。 假设你在 200 次独立轮次反复下注一美元。 你总共会赚多少钱?

    这里是一套 200 轮的模拟。 spins表包括所有 200 个赌注的结果。 你的净收益是Winnings: Red列中所有 +1 和 -1 的和。

    spins = bets.sample(200)
    spins.column('Winnings: Red').sum()
    -26

    运行几次单元格。 有时你的净收益是正的,但更多的时候它似乎是负的。

    为了更清楚地看到发生了什么,让我们多次模拟 200 轮,就像我们模拟一轮那样。 对于每次模拟,我们将记录来自 200 轮的总奖金。 然后我们将制作 5000 个不同的模拟总奖金的直方图。

    num_spins = 200
    
    net_gain = make_array()
    
    for i in np.arange(num_simulations):
        spins = bets.sample(num_spins)
        new_net_gain = spins.column('Winnings: Red').sum()
        net_gain = np.append(net_gain, new_net_gain)
    
    Table().with_column('Net Gain on Red', net_gain).hist()

    注意横轴上 0 的位置。 这就是你不赚不赔的地方。 通过使用这个赌博策略,你喜欢这个赚钱几率吗?

    如果对红色下注不吸引人,也许值得尝试不同的赌注。 “分割”(Split)是轮盘赌桌上两个相邻号码的下注,例如 0 和 00。分割的回报是 17 比 1。

    split_winnings函数将口袋作为参数,如果口袋是 0 或 00,则返回 17。对于所有其他口袋,返回 -1。

    表格more_bets是投注表格的一个版本,扩展的一列是对 0/00 分割下注的情况下,每个口袋的奖金。

    def split_winnings(pocket):
        if pocket == '0':
            return 17
        elif pocket == '00':
            return 17
        else:
            return -1
    more_bets = wheel.with_columns(
        'Winnings: Red', wheel.apply(red_winnings, 'Color'),
        'Winnings: Split', wheel.apply(split_winnings, 'Pocket')
        )
    more_bets
    PocketColorWinnings: RedWinnings: Split
    0green-117
    00green-117
    1red1-1
    2black-1-1
    3red1-1
    4black-1-1
    5red1-1
    6black-1-1
    7red1-1
    8black-1-1

    (省略了 28 行)

    下面的代码模拟了两个投注的结果 - 红色和 0/00 分割 - 在 200 轮中。 代码与以前的模拟相同,除了添加了 Split。 (注意:num_simulationsnum_spins之前分别定义为 5,000 和 200,所以我们不需要再次定义它们。)

    net_gain_red = make_array()
    net_gain_split = make_array()
    
    for i in np.arange(num_simulations):
        spins = more_bets.sample(num_spins)
        new_net_gain_red = spins.column('Winnings: Red').sum()
        net_gain_red = np.append(net_gain_red, new_net_gain_red)
        new_net_gain_split = spins.column('Winnings: Split').sum()
        net_gain_split = np.append(net_gain_split, new_net_gain_split)
    
    Table().with_columns(
        'Net Gain on Red', net_gain_red,
        'Net Gain on Split', net_gain_split
        ).hist(bins=np.arange(-200, 200, 20))

    横轴上 0 的位置表明,无论你选择哪种赌注,你都更有可能赔钱而不是赚钱。在两个直方图中,不到 50% 的区域在 0 的右侧。

    然而,分割的赌注赚钱几率更大,赚取超过 50 美元的机会也是如此。 金色直方图有很多区域在五十美元的右侧,而蓝色直方图几乎没有。 那么你应该对分割下注吗?

    这取决于你愿意承担多少风险,因为直方图还表明,如果你对分割下注,你比对红色下注更容易损失超过 50 美元。

    轮盘赌桌上,所有赌注的单位美元的预期净损失相同(除了线注,这是更糟的)。 但一些赌注的回报比其他赌注更为可变。 你可以选择这些赌注,只要你准备好可能会大输一场。

    统计量的经验分布

    平均定律意味着,大型随机样本的经验分布类似于总体的分布,概率相当高。

    在两个直方图中可以看到相似之处:大型随机样本的经验直方图很可能类似于总体的直方图。

    提醒一下,这里是所有美联航航班延误的直方图,以及这些航班的大小为 1000 的随机样本的经验直方图。

    united = Table.read_table('united_summer2015.csv')
    delay_bins = np.arange(-20, 201, 10)
    united.select('Delay').hist(bins = delay_bins, unit = 'minute')
    plots.title('Population');

    sample_1000 = united.sample(1000)
    sample_1000.select('Delay').hist(bins = delay_bins, unit = 'minute')
    plots.title('Sample of Size 1000');

    两个直方图明显相似,虽然他们并不等价。

    参数

    我们经常对总体相关的数量感兴趣。

    在选民的总体中,有多少人会投票给候选人 A 呢?
    在 Facebook 用户的总体中,用户最多拥有的 Facebook 好友数是多少?
    在美联航航班的总体中,起飞延误时间的中位数是多少?

    与总体相关的数量被称为参数。 对于美联航航班的总体,我们知道参数“延误时间的中位数”的值:

    np.median(united.column('Delay'))
    2.0

    NumPy 函数median返回数组的中值(中位数)。 在所有的航班中,延误时间的中位数为 2 分钟。 也就是说,总体中约有 50% 的航班延误了 2 分钟以内:

    united.where('Delay', are.below_or_equal_to(2)).num_rows/united.num_rows
    0.5018444846292948

    一半的航班在预定起飞时间的 2 分钟之内起飞。 这是非常短暂的延误!

    注意。 由于“重复”,百分比并不完全是 50,也就是说,延误了 2 分钟的航班有 480 个。数据集中的重复很常见,我们不会在这个课程中担心它。

    united.where('Delay', are.equal_to(2)).num_rows
    480

    统计

    在很多情况下,我们会感兴趣的是找出未知参数的值。 为此,我们将依赖来自总体的大型随机样本的数据。

    统计量(注意是单数!)是使用样本中数据计算的任何数字。 因此,样本中位数是一个统计量。

    请记住,sample_1000包含来自united的 1000 个航班的随机样本。 样本中位数的观测值是:

    np.median(sample_1000.column('Delay'))
    2.0

    我们的样本 - 一千个航班 - 给了我们统计量的观测值。 这提出了一个重要的推论问题:

    统计量的数值可能会有所不同。 使用基于随机样本的任何统计量时,首先考虑的事情是,样本可能不同,因此统计量也可能不同。

    np.median(united.sample(1000).column('Delay'))
    3.0

    运行单元格几次来查看答案的变化。 通常它等于 2,与总体参数值相同。 但有时候不一样。

    统计量有多么不同? 回答这个问题的一种方法是多次运行单元格,并记下这些值。 这些值的直方图将告诉我们统计量的分布。

    我们将使用for循环来“多次运行单元格”。 在此之前,让我们注意模拟中的主要步骤。

    模拟统计量

    我们将使用以下步骤来模拟样本中位数。 你可以用任何其他样本量来替换 1000 的样本量,并将样本中位数替换为其他统计量。

    第一步:生成一个统计量。 抽取大小为 1000 的随机样本,并计算样本的中位数。 注意中位数的值。

    第二步:生成更多的统计值。 重复步骤 1 多次,每次重新抽样。

    第三步:结果可视化。 在第二步结束时,你将会记录许多样本中位数,每个中位数来自不同的样本。 你可以在表格中显示所有的中位数。 你也可以使用直方图来显示它们 - 这是统计量的经验直方图。

    我们现在执行这个计划。 正如在所有的模拟中,我们首先创建一个空数组,我们在其中收集我们的结果。

    • 上面的第一步是for循环的主体。
    • 第二步,重复第一步“无数次”,由循环完成。 我们“无数次”是5000次,但是你可以改变这个。
    • 第三步是显示表格,并在后面的单元格中调用hist

    该单元格需要大量的时间来运行。 那是因为它正在执行抽取大小为 1000 的样本,并计算其中位数的过程,重复 5000 次。 这是很多抽样和重复!

    medians = make_array()
    
    for i in np.arange(5000):
        new_median = np.median(united.sample(1000).column('Delay'))
        medians = np.append(medians, new_median)
    
    Table().with_column('Sample Median', medians)
    Sample Median
    3
    2
    2
    3
    2
    2
    2
    3
    1
    3

    (省略了 4990 行)

    Table().with_column('Sample Median', medians).hist(bins=np.arange(0.5, 5, 1))

    你可以看到样本中位数很可能接近 2,这是总体中位数的值。 由于 1000 次航班延误的样本可能与延误总体相似,因此这些样本的延误中位数应接近总体的延误中位数,也就不足为奇了。

    这是一个例子,统计量如何较好估计参数。

    模拟的威力

    如果我们能够生成所有可能的大小为 1000 的随机样本,我们就可以知道所有可能的统计量(样本中位数),以及所有这些值的概率。我们可以在统计量的概率直方图中可视化所有值和概率。

    但在许多情况下(包括这个),所有可能的样本数量足以超过计算机的容量,概率的纯粹数学计算可能有些困难。

    这是经验直方图的作用。

    我们知道,如果样本量很大,并且如果重复抽样过程无数次,那么根据平均定律,统计量的经验直方图可能类似于统计量的概率直方图。

    这意味着反复模拟随机过程是一种近似概率分布的方法,不需要在数学上计算概率,或者生成所有可能的随机样本。因此,计算机模拟成为数据科学中的一个强大工具。他们可以帮助数据科学家理解随机数量的特性,这些数据会以其他方式进行分析。

    这就是这种的模拟的经典例子。

    估计敌军飞机的数量

    在第二次世界大战中,为盟军工作的数据分析师负责估算德国战机的数量。 这些数据包括盟军观察到的德国飞机的序列号。 这些序列号为数据分析师提供了答案。

    为了估算战机总数,数据分析人员必须对序列号做出一些假设。 这里有两个这样的假设,大大简化,使我们的计算更容易。

    • 战机有N架,编号为 1,2, ..., N

    • 观察到的飞机从N架飞机中均匀、随机带放回地抽取。

    目标是估计数字N。 这是未知的参数。

    假设你观察一些飞机并记下他们的序列号。 你如何使用这些数据来猜测N的值? 用于估计的自然和简单的统计量,就是观察到的最大的序列号。

    让我们看看这个统计量如何用于估计。 但首先是另一个简化:现在一些历史学家估计,德国的飞机制造业生产了近 10 万架不同类型的战机,但在这里我们只能想象一种。 这使得假设 1 更易于证明。

    假设实际上有N = 300个这样的飞机,而且你观察到其中的 30 架。 我们可以构造一个名为serialno的表,其中包含序列号1N。 然后,我们可以带放回取样 30 次(见假设 2),来获得我们的序列号样本。 我们的统计量是这 30 个数字中的最大值。 这就是我们用来估计参数N的东西。

    N = 300
    serialno = Table().with_column('serial Number', np.arange(1, N+1))
    serialno
    serial number
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10

    (省略了 290 行)

    serialno.sample(30).column(0).max()
    291

    与所有涉及随机抽样的代码一样,运行该单元几次;来查看变化。你会发现,即使只有 300 个观测值,最大的序列号通常在 250-300 范围内。

    原则上,最大的序列号可以像 1 那样小,如果你不幸看到了 30 次 1 号机。如果你至少观察到一次 300 号机,它可能会增大到 300。但通常情况下,它似乎处于非常高的 200 以上。看起来,如果你使用最大的观测序列号作为你对总数的估计,你不会有太大的错误。

    模拟统计

    让我们模拟统计,看看我们能否证实它。模拟的步骤是:

    第一步。从 1 到 300 带放回地随机抽样 30 次,并注意观察到的最大数量。这是统计量。

    第二步。重复步骤一 750 次,每次重新取样。你可以用任何其他的大数值代替 750。

    第三步。创建一个表格来显示统计量的 750 个观察值,并使用这些值绘制统计量的经验直方图。

    sample_size = 30
    repetitions = 750
    maxes = make_array()
    
    for i in np.arange(repetitions):
        sampled_numbers = serialno.sample(sample_size)
        maxes = np.append(maxes, sampled_numbers.column(0).max())  
    
    Table().with_column('Max Serial Number', maxes)
    Max Serial Number
    280
    253
    294
    299
    298
    237
    296
    297
    293
    295

    (省略了 740 行)

    every_ten = np.arange(1, N+100, 10)
    Table().with_column('Max Serial Number', maxes).hist(bins = every_ten)

    这是 750 个估计值的直方图,每个估计值是统计量“观察到的最大序列号”的观测值。

    正如你所看到的,尽管在理论上它们可能会小得多,但估计都在 300 附近。直方图表明,作为飞机总数的估计,最大的序列号可能低了大约 10 到 25 个。但是,飞机的真实数量低了 50 个是不太可能的。

    良好的近似

    我们前面提到过,如果生成所有可能的样本,并计算每个样本的统计量,那么你将准确了解统计量可能有多么不同。事实上,你将会完整地列举统计量的所有可能值及其所有概率。

    换句话说,你将得到统计量的概率分布和概率直方图。

    统计量的概率分布也称为统计量的抽样分布,因为它基于所有可能的样本。

    但是,我们上面已经提到,可能的样本总数往往非常大。例如,如果有 300 架飞机,你可以看到的,30 个序列号的可能序列总数为:

    300**30
    205891132094649000000000000000000000000000000000000000000000000000000000000

    这是很多样本。 幸运的是,我们不必生成所有这些。 我们知道统计量的经验直方图,基于许多但不是全部可能的样本,是概率直方图的很好的近似。 因此统计量的经验分布让我们很好地了解到,统计量可能有多么不同。

    确实,统计量的概率分布包含比经验分布更准确的统计量信息。 但是,正如在这个例子中一样,通常经验分布所提供的近似值,足以让数据科学家了解统计量可以变化多少。 如果你有一台计算机,经验分布更容易计算。 因此,当数据科学家试图理解统计的性质时,通常使用经验分布而不是精确的概率分布。

    参数的不同估计

    这里举一个例子来说明这一点。 到目前为止,我们已经使用了最大的观测序号作为飞机总数的估计。 但还有其他可能的估计,我们现在将考虑其中之一。

    这个估计的基本思想是观察到的序列号的平均值可能在1到N之间。 因此,如果A是平均值,那么:

    因此,可以使用一个新的统计量化来估计飞机总数:取观测到的平均序列号并加倍。

    与使用最大的观测数据相比,这种估计方法如何? 计算新统计量的概率分布并不容易。 但是和以前一样,我们可以模拟它来近似得到概率。 我们来看看基于重复抽样的统计量的经验分布。 为了便于比较,重复次数选择为 750,与之前的模拟相同。

    maxes = make_array()
    twice_ave = make_array()
    
    for i in np.arange(repetitions):
        sampled_numbers = serialno.sample(sample_size)
    
        new_max = sampled_numbers.column(0).max()
        maxes = np.append(maxes, new_max)
    
        new_twice_ave = 2*np.mean(sampled_numbers.column(0))
        twice_ave = np.append(twice_ave, new_twice_ave)
    
    
    results = Table().with_columns(
        'Repetition', np.arange(1, repetitions+1),
        'Max', maxes,
        '2*Average', twice_ave
    )
    
    results
    RepetitionMax2*Average
    1296312.067
    2283290.133
    3290250.667
    4296306.8
    5298335.533
    6281240
    7300317.267
    8295322.067
    9296317.6
    10299308.733

    (省略了 740 行)

    请注意,与所观察到的最大数字不同,新的估计值(“平均值的两倍”)可能会高估飞机的数量。 当观察到的序列号的平均值接近于N而不是1时,就会发生这种情况。

    下面的直方图显示了两个估计的经验分布。

    results.drop(0).hist(bins = every_ten)

    你可以看到,原有方法几乎总是低估; 形式上,我们说它是有偏差的。 但它的变异性很小,很可能接近真正的飞机总数。

    新方法高估了它,和低估的频率一样,因此从长远来看,平均而言大致没有偏差。 然而,它比旧的估计更可变,因此容易出现较大的绝对误差。

    这是一个偏差 - 变异性权衡的例子,在竞争性估计中并不罕见。 你决定使用哪种估计取决于对你最重要的误差种类。 就敌机而言,低估总数可能会造成严重的后果,在这种情况下,你可能会选择使用更加可变的方法,它一半几率都是高估的。 另一方面,如果高估导致了防范不存在的飞机的不必要的高成本,那么你可能会对低估的方法感到满意。

    技术注解

    事实上,“两倍均值”不是无偏的。平均而言,它正好高估了 1。例如,如果N等于 3,来自1,2,3的抽取结果的均值是22 x 2 = 4,它比N多了 1。“两倍均值”减 1 是N的无偏估计量。

    展开全文
  • 概率论中高斯分布(正态分布)介绍及C++11中std::normal_distribution的使用
  • 深度强化学习实验室官网:http://www.neurondance.com/来源:微软研究院AI头条授权转载编辑:DeepRL值分布强化学习(Distributional Reinfo...
  • USB信号线布线经验教训——应使用差分布线 前言 通用串行总线(英语:Universal Serial Bus,缩写:USB)是一种快速、双向、同步传输、廉价、方便使用的可热拔插的串行接口。由于数据传输快,接口方便,支持热插拔等...
  • Python概率分布大全(含可视化)

    千次阅读 多人点赞 2020-04-27 10:30:51
    贝塔分布,二项分布,卡方分布,狄利克雷分布,指数分布,F分布,伽玛分布,几何分布,耿贝尔分布,超几何分布,拉普拉斯分布,逻辑斯谛分布 正态分布(高斯分布),对数正态分布,对数分布,多项分布,多元正态分布...
  • 分布滞后模型

    千次阅读 2021-01-31 21:15:26
    即模型中不仅包含解释变量的当前值,还包含它们的滞后值(过去值),这样的模型称为分布滞后模型(distribution-lag model),不能直接使用最小二乘法(OLS)估计,会遇到多重共线性、损失自由度、滞后长度难以确定...
  • MySQL 日期类型函数及使用

    千次阅读 2021-01-20 20:16:07
    1 MySQL 数据库中有五种与日期时间有关的数据类型,各种日期数据类型所占空间如下图所示:2 datetime 与 datedatetime 占用8字节,是占用空间最多的一种日期格式。它显示日期,同时也显示时间。5.5及以前的版本不...
  • C语言内存分布

    千次阅读 2018-05-24 10:48:58
    ELF分为三种类型:.o 可重定位文件(relocalble file),可执行文件以及共享库(shared library),三种格式基本上从结构上是一样的,只是具体到每一个结构不同。下面我们就从整体上看看这3种格式从文...
  • 统计学原理-----概率分布

    千次阅读 2019-11-10 19:04:36
    某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布,会用一个函数来表达概率分布。显然,包含了所有事件的话,分布的概率之和(连续随机变量则时概率密度函数的积分)肯定就等于1。 当随机变量为...
  • 卡方分布、方差分析

    千次阅读 2019-08-11 21:08:03
    卡方分布: 首先我们先把现代数学中的数理统计中的卡方分布已经烂大街的定义先放下来,我先回到卡方检验的诞生的之地。 在1900年,皮尔森发表了著名的关于卡方检验的文章,该文章被认为是现代统计学的基石之一。...
  • 经典--浅析Erlang分布的核心技术

    千次阅读 2011-05-26 18:09:00
    本文简单介绍了Erlang系统的核心技术和几个重要特性:分布、多核心支持、fp;并对erlang最强大的特性——分布特性做了重点介绍。   Erlang系统在我看来有3个特性: 1. 分布 2. 多核心支持 3. fp。 这3...
  • 基于幂定律假设的超新星(SN)膨胀中半径... 假定星际介质遵循Plummer类型的密度分布,其eta =6。动能相对论性流的级数解允许以数值方式得出GRB的持续时间。 在这里,我们分析两种宇宙学:标准宇宙学和等离子体宇宙学。
  • R语言经典实例(中+英)

    热门讨论 2014-12-03 18:46:15
    R语言经典实例(中+英) 第1章 R入门和获得帮助 7  1.1 下载和安装R软件 8  1.2 开始运行R软件 10  1.3 输入R命令 13  1.4 退出R 15  1.5 中断R正在运行的程序 16  1.6 查看帮助文档 17  1.7 获取函数的帮助...
  • 操龙兵:非独立同分布学习

    千次阅读 2019-06-04 21:40:30
    原文地址:非独立同分布 AIDL简介 “人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流,对于硕士、...
  • 最近在做的项目的数据集里的数据分布非常不平衡,虽然是简单的二分类任务,但是两类数据的比例相差有两个数量级。因此查了一些解决数据分布不平衡的方法,在这里先总结一下,后面会单独挑出一些方法实现,并针对相应...
  • 费米能级与温度,半导体类型,杂质含量以及能量零点的选择有关。是一参考能级标志着电子填充能级的水平。半导体的费米能级一般在禁带内。处于热平衡状态的系统有统一的化学势,所以处于热平衡状态的电子系统有统一的...
  • 提高日常工作和发表论文的效率,2020年8月起,JMP资深用户、JMP特约专栏作者、资深统计学家冯国双博士及其团队将在JMP数据分析平台为大家分享一系列统计及数据分析、JMP实战操作等干货内容,每期一个经典话题,帮助...
  • linux进程中的内存分布

    千次阅读 多人点赞 2020-06-18 11:10:48
    进程空间分布概述 对于一个进程,其空间分布如下图所示: 程序段(Text):程序代码在内存中的映射,存放函数体的二进制代码。 初始化过的数据(Data):在程序运行初已经对变量进行初始化的数据。 未初始化过的数据...
  • 点击下方“AI算法与图像处理”,一起进步! 重磅干货,第一时间送达目前的监督学习模型是基于label作为学习目标,那么是否可以添加经典算法(如排序)来作为约束?深度学习可以不断优化,很重...
  • MySQL经典面试题

    千次阅读 多人点赞 2019-09-17 09:52:15
    select_type:查询中每个 select 子句的类型。 table:名字,被操作的对象名称,通常的表名(或者别名),但是也有其他格式。 partitions:匹配的分区信息。 type:join 类型。 possible_keys:列出可能会...
  • 最近在翻阅一本旧的统计教科书时我发现了一个熟悉的正态分布方程: 任何在大学上过统计学课程的人都遇到过这个等式。 我自己也看过很多次了,但这次重新看,立刻想到了两个问题: 这东西究竟是如何形成正态分布的...
  • 正态分布的前世今生(靳志辉)

    千次阅读 2014-03-18 08:39:28
    神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差就服从了正态分布。 创世纪-数理统计 (上) 一、正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布...
  • 不同学者对体系域的分类及体系域界面的划分有不同的理解,甚至在体系域的发育和分布上,不同盆地都会得出不同的研究结论。滨线迁移类型决定了特定沉积趋势下地层单元的外形和堆积模式,即体系域类型。文中把体系域划分...
  • 一、 概念  指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种... 正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gaus
  • 第三篇:随机变量和分布 第四篇:多元线性回归和残差分析 第五篇:现代投资组合理论 第六篇:市场风险 第七篇:Fama-French 多因子模型 介绍 在上一章中,我们学习了均值和方差的定义,这是一种点估计方法。...
  • Python 机器学习经典实例

    千次阅读 多人点赞 2018-04-12 10:41:40
    2. 统计机器学习算法中并不现实的“独立同分布”假设如何解决;3. 深度学习得益于硬件革命,是否会取代统计机器学习;4. 机器学习用的都是经典的概率统计、代数逻辑,而目前仅有倒向微分方程用于预测,微分几何的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 41,835
精华内容 16,734
关键字:

经典分布类型