精华内容
下载资源
问答
  • 常用概率分布

    2018-12-27 17:13:18
    本文主要介绍了常用的概率分布,包括他们的定义公式和图像
  • Excel图表—标准正态分布概率分布图(概率密度函数图及累积概率分布图)的绘制.pdf
  • 联合概率分布 小明玩扔飞镖,飞镖偏离靶心是不确定的,所以适合用概率模型来描述。先已知飞镖偏离靶心与标靶距离和风速都有关。假定标靶距离可以是10-20米,风速可以是1-10米/秒,现统计每个标靶距离、每个风速下...

    一. 联合概率分布

          小明玩扔飞镖,飞镖偏离靶心是不确定的,所以适合用概率模型来描述。先已知飞镖偏离靶心与标靶距离和风速都有关。假定标靶距离可以是10-20米,风速可以是1-10米/秒,现统计每个标靶距离、每个风速下,小明所扔飞镖小于1厘米的概率。

    距离(米)风速(米/秒)偏离小于1厘米的概率偏离大于1厘米的概率
    10199%1%
    11198%2%
    12197%3%
    ……………………
    10289%11%
    11288%12%
    12287%13%

          以上就是距离和风速的联合概率分布  

    二. 条件概率分布

    距离(米)风速(米/秒)偏离小于1厘米的概率偏离大于1厘米的概率
    10199%1%
    11198%2%
    12197%3%

          固定风速不变,那么偏离靶心小于1厘米的概率只和距离有关系了,这就是条件概率事件。(条件是风速)

    三. 边缘概率分布

          一组概率的加和就是边缘概率分布。我们在计算概率加和的时候,求和结果往往都放在这一列的最上方或最下方,这就是最靠边缘的位置。所以概率的求和值就是边缘概率分布。

    参考:https://baijiahao.baidu.com/s?id=1572040894908676&wfr=spider&for=pc

    展开全文
  • 概率分布汇总

    千次阅读 2019-08-29 15:22:26
    概率分布、总体分布、抽样分布,一开始很容易搞混,还以为是同一个理论,不同的概念,毕竟都是分布,又都是统计学里面的概率。今天就来理解理解这个东西吧。 概率分布是指随机变量的各取值与该取值对应的概率之间...

    概率分布、总体分布、抽样分布,一开始很容易搞混,还以为是同一个理论,不同的概念,毕竟都是分布,又都是统计学里面的概率。今天就来理解理解这个东西吧。

    概率分布是指随机变量的各取值与该取值对应的概率之间呈现的规律。这里,随机变量具体指什么是根据我们提供的数据的变化而变化的。当我们需要得到数据总体的取值分布时,随机变量表征的就是数据总体,此时,概率分布就是总体分布。在抽样时,我们对数据总体做n次抽样,每次抽m个数据作为样本,每次抽样后,计算样本的均值或者方差等,n次抽样得到的n各均值的函数表征就是当下的随机变量,根据这个随机变量得到的概率分布就是抽样分布。因此,概率分布是一个更为广泛的概念,而总体分布、抽样分布是概率分布的特殊应用。

    概率分布挺神奇的,也很复杂。各种不同的分布,中心极限定理,各种分布之间的转换,...,感觉都是大学问。今天呢,先罗列目前收集到的常见的分布。后续再一个个啃。


    1.伯努利分布

    伯努利分布也就是二项式分布,个人总结为“抛硬币”分布。

    每周学一点统计学——概率分布大汇总

     

    在伯努利试验中,只有两个事件:A和B,我们可以把抛硬币抛出“花”定为A,它的概率为p;抛出“币值”定为B,它的概率为q,事件A和B是互斥的,且p+q=1。随机变量X表示在n次试验中,事件A发生了x次,这样一来,X的取值范围为[0,n]之间的整数。该分布的函数

    每周学一点统计学——概率分布大汇总

    伯努利分布概率函数

    2.正态分布

    “钟形”曲线,是概率分布中特别重要的分布,也是应用最广泛的概率分布,由高斯最先在天文学研究中应用,后来成为中心极限定理中其他分布的渐进目标。它的重要统计量,均值u和标准差sigma。它的概率密度函数为

    每周学一点统计学——概率分布大汇总

    正态分布概率密度函数

    分布的累积概率函数为

    每周学一点统计学——概率分布大汇总

    正态分布概率累积函数

    当期望为0,标准差为1时,就是标准正态分布了。

    3.泊松分布、指数分布和韦伯分布

    3.1. 泊松分布

    泊松分布是与世间和速度相关的分布,其随机变量X表示的在一段时间内,事件发生的次数,例如,每个月,某个航班晚点的次数。泊松分布中的随机变量不是毫无证据乱估计的,它带了一个先验参数lambda,这个参数表示以往的先验数据中该事件在单位时间内的平均发生率,如,根据前2年的数据统计出,某航班每月平均晚点次数为8次,lambda=8,那么我们可以通过泊松分布计算当月晚点x次的概率。

    泊松分布的概率函数:

    每周学一点统计学——概率分布大汇总

    泊松分布概率函数

    3.2 指数分布

    和泊松分布一样与世间相关的分布还有指数分布和韦伯分布。泊松分布所使用的速率参数lambda是直接为事件频数,而指数分布更多表征那些不常发生的事件,如故障,交通事故,发生频数很低,用指数分布就更合适。指数分布如下

    每周学一点统计学——概率分布大汇总

    指数分布概率函数

    3.3 韦伯分布

    泊松分布和指数分布都不考虑时间在周期内发生变化,这种用于处理事件比较固定或者改变更长很长的事件是没有问题的。但是,有些事件会随着时间变化而改变,韦伯分布引入形状参数beta允许事件发生率变化和比例参数eta表示事件的生命周期特征。概率函数为

    每周学一点统计学——概率分布大汇总

    weibull分布概率函数

    4.多项分布

    伯努利分布是二项分布,事件只有两个,但是,实际上很多问题都不会只有两个事件。类比于伯努利分布,最简单的例子如掷骰子,可能掷出的点数有1,2,3,4,5,6,就有6个事件。我们可以设定1-6个随机变量,每个随机变量表示n次投掷后,某个点数被投掷出来的次数。例如,1点被投中的次数为X1, 2点被投中的次数为X2,3点被投中的次数为X3,......6个随机变量的概率和为1。这6个随机变量的概率分布就是一个多项分布。

    每周学一点统计学——概率分布大汇总

     

    多项分布的概率函数为

    每周学一点统计学——概率分布大汇总

     

    在投掷单个骰子中,k=6。

    5.均匀分布

    每周学一点统计学——概率分布大汇总

     

    均匀分布是一定范围内,随机变量各取值的概率相等。个人理解,就是一个袋子里面有n颗球,每个球的大小、材料、制作工艺都是完全一样的,不同的是印了不同编号,这些球被随机打乱。然后有个人伸一只手进去摸一个,摸中每个球的机会可以看做是均等的,这n颗球的编号就是随机变量,随机变量的概率是均等的,也就是均匀分布。

    每周学一点统计学——概率分布大汇总

    均分分布的概率密度函数

    每周学一点统计学——概率分布大汇总

    均匀分布的概率函数

    6.柯西分布

    这个分布完全没研究过,暂时也不知道到底可以干啥,或者是从哪里来的,先列在这儿,后续再啃。

    每周学一点统计学——概率分布大汇总

    柯西分布概率密度函数

    其中,a是超参数,当a为1的时候是个特例,估计就和标准正态分布一样吧。


    7.贝塔分布及其涉及到的函数以及相关分布

    7.1 伽玛函数和贝塔函数

    贝塔分布涉及到两个函数——伽马函数和贝塔函数,其中伽玛函数是接下来的好几个分布都会用到的。

    伽玛函数是欧拉在解决哥德巴赫提出的一个问题时导出来的,它长这样子

    每周学一点统计学——概率分布大汇总

    伽玛函数

    这个积分并不复杂,从公式上很容易看出它所具有的特性

    每周学一点统计学——概率分布大汇总

     

    经过证明(证明过程暂时没搞懂)可以等到

    每周学一点统计学——概率分布大汇总

     

    这个公式是贝塔函数用伽玛函数表示的重要基石。首先,贝塔函数

    每周学一点统计学——概率分布大汇总

    贝塔函数

    贝塔函数可以由伽玛函数很优雅的表示出来。

    7.2 伽玛分布

    伽玛分布是一种连续分布,他包含两个参数,alpha和beta,其随机变量x表示等到第alpha件事发生需要等到多长时间。和泊松分布系列是不是有点异曲同工?其中,alpha是形状参数,感觉和韦伯分布中的形状参数有点关联,beta是尺度参数,和韦伯参数中的eta比例参数关联。

    每周学一点统计学——概率分布大汇总

    伽玛分布概率密度函数

    样子长得和泊松分布有点像,但是泊松分布随机变量的取值是正整数,而伽玛分布的取值是正实数,一个离散一个连续。

    到这里,想提一下分布间不算特点的特点,二项分布、泊松系列分布、以及这里的伽玛分布和贝塔分布的随机变量都只有一个,也就是一维的;而多项分布以及后面会提到的狄利克雷分布,随机变量都是多个的,是多维的;正态分布、均匀分布可以是一维,也可以是多维的。

    7.3 贝塔分布

    贝塔分布可看做是某个事件发生的概率的概率分布,它的随机变量x是事件发生的概率,因此必须满足所有概率变量都必须满足的条件

    每周学一点统计学——概率分布大汇总

     

    并且贝塔分布和二项分布是共轭的。这里共轭是什么样的呢?就是根据先验beta分布经过二项分布数据加入后,得到的后验分布依然是beta分布。回顾抛硬币事件和伯努利分布,我们把伯努利分布的随机变量定为n次投掷中投出“花”的次数x’,也就是说伯努利是次数的概率。同样,我们用抛硬币事件来解释贝塔分布。beta分布的随机变量就是n次中投出“花”的次数为x’的各种概率x,其概率密度为

    每周学一点统计学——概率分布大汇总

     

    7.4 狄利克雷分布

    贝塔分布和伯努利分布共轭,狄利克雷分布和多项分布共轭。狄利克雷是贝塔的多维度随机变量延伸。

    每周学一点统计学——概率分布大汇总

     

    其中,B是多维贝塔函数,表示为

    每周学一点统计学——概率分布大汇总

     

    这一块挺重要的,后续需要深入理解。


    8.卡方分布、学生t分布和F分布

    8.1 卡方分布

    这三个分布在统计学中很常见也挺重要的。在早期文本特征抽取中,卡方检验经常被使用。卡方分布的随机变量是一系列服从标准正态分布的随机变量的平方和,即

    每周学一点统计学——概率分布大汇总

     

    累积概率函数为

    每周学一点统计学——概率分布大汇总

    卡方分布的累积概率函数

    其中,v是随机变量的自由度。哈哈,伽玛函数又出现了。

    8.2 学生t分布

    t分布有个有趣的又来,最初是由吉尼斯啤酒公司的员工发现的,和啤酒居然能产生联系。t分布也是钟形曲线。只是正态分布是由数据总体的均值和标准差决定的,而在早年没有计算机的时代,数据量稍微大一点,计算就很费劲,总体的标准差计算起来就更费劲。因此,抽样后,用样本标准差作为总体标准差的估计量,所以,t分布也是钟形曲线。

    每周学一点统计学——概率分布大汇总

    t分布的概率密度函数

    其中t是分布的随机变量,这个随机变量可以由标准正态分布的随机变量经过t变换得来。当然,实际应用中应该是由t变换成标准正态分布中的随机变量吧。变换过程

    每周学一点统计学——概率分布大汇总

     

    其中卡方是标准正态分布中自由度为v的随机变量的卡方值。

    8.3 F分布

    两个随机变量X, Y,X服从自由度为m的卡方分布,Y服从自由度为n的卡方分布,且这两个卡方分布彼此独立,那么变量

    每周学一点统计学——概率分布大汇总

     

    服从F分布。F分布的概率密度函数

    每周学一点统计学——概率分布大汇总

     

    总的来说,这三个分布都跟标准正态分布密切相关,同时有都跟卡方计算相关。


    总的来说,这些个分布尽管从不同的试验中来,或者表征不同的统计问题,但他们之间总能彼此关联上,例如,伯努利分布通过中心极限定理可以逼近正态分布;泊松分布系列又和贝塔系列分布扯得上关系,同时,泊松系列分布也可逼近正态分布;卡方系列分布与标准正态分布密切相关,以及伽玛函数出现在很多分布中。种种关系很复杂,却也很有趣,后续继续加油吧。

    展开全文
  • 概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。 从随机事件说起 回忆我们在学习概率论时的经历,随机事件是第一个核心的概念,它定义为可能发生也可能不发生的事件,因此是否发生...

    1. 概率函数

    概率函数,就是用函数的形式来表达概率。
    p i = P ( X = a i ) ( i = 1 , 2 , 3 , 4 , 5 , 6 ) p_i=P(X=a_i)(i=1,2,3,4,5,6) pi=P(X=ai)(i=1,2,3,4,5,6)
    在这个函数里,自变量(X)是随机变量的取值,因变量( p i p_i pi)是取值的概率。这就叫啥,这叫用数学语言来表示自然现象!它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。
    从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。

    2. 概率分布

    概率分布,就是概率的分布,这个概率分布还是讲概率的。我认为在理解这个概念时,关键不在于“概率”两个字,而在于“分布”这两个字。为了理解“分布”这个词,我们来看一张图。
    在这里插入图片描述
    在很多教材中,这样的列表都被叫做离散型随机变量的“概率分布”。其实严格来说,它应该叫“离散型随机变量的值分布和值的概率分布列表”,这个名字虽然比“概率分布”长了点,但是对于我们这些笨学生来说,肯定好理解了很多。因为这个列表,上面是值,下面是这个取值相应取到的概率,而且这个列表把所有可能出现的情况全部都列出来了!

    举个例子吧,一颗6面的骰子,有1,2,3,4,5,6这6个取值,每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的”概率分布“?
    在这里插入图片描述
    长得挺像的,上面是取值,下面是概率,这应该就是骰子取值的“概率分布”了吧!大错特错!少了一个最重要的条件!对于一颗骰子的取值来说,它列出的不是全部的取值,把6漏掉了!

    这么一说你就应该明白概率分布是个什么鬼了吧。

    3. 分布函数

    说完概率分布,就该说说分布函数了。这个分布函数又是个简化版的东西!我真的很讨厌我们的教材中老是故弄玄虚,卖弄概念!你就老老实实的写成”概率分布函数“,让我们这些笨学生好理解一些不行吗?

    看看下图中的分布律!这又是一个不统一叫法的丑恶典型!这里的分布律明明就是我们刚刚讲的“概率函数”,完全就是一个东西嘛!但是我知道很多教材就是叫分布律的。
    在这里插入图片描述
    我们来看看图上的公式,其中的F(x)就代表概率分布函数啦。这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了大于等于号的公式。你再往右看看,这是一个一个的概率函数的累加!发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!其实,我觉得叫它累积概率函数还更好理解!!

    概率函数和概率分布函数就像是一个硬币的两面,它们都只是描述概率的不同手段!

    4. 概率密度函数

    概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。

    4.1 从随机事件说起

    研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!
    回忆我们在学习概率论时的经历,随机事件是第一个核心的概念,它定义为可能发生也可能不发生的事件,因此是否发生具有随机性。例如,抛一枚硬币,可能正面朝上,也可能反面朝上,正面朝上或者反面朝上都是随机事件。掷骰子,1到6这6种点数都可能朝上,每种点数朝上,都是随机事件。
    在这里插入图片描述
    在这里插入图片描述

    4.2 整数集与实数集

    高中时我们学过集合的概念,并且知道整数集是z,实数集是R。对于有限集,可以统计集合中元素的数量即集合的基数(cardinal number,也称为集合的势cardinality)。对于无限集,元素的个数显然是无穷大,但是,都是无穷大,能不能分个三六九等呢?

    回忆微积分中的极限,对于下面的极限:
    在这里插入图片描述

    虽然当x趋向于正无穷的时候,x和exp(x)都是无穷大,但它们是有级别的,在exp(x)面前,x是小巫见老巫。

    同样的,对于整数集和实数集,也是有级别大小的。任意两个整数之间,如1与2之间,都密密麻麻的分布着无穷多个实数,而且,只要两个实数不相等,不管它们之间有多靠近,如0.0000001和0.0000002,在它们之间还有无穷多个实数。在数轴上,整数是离散的,而实数则是连续的,密密麻麻的布满整个数轴。因此,实数集的元素个数显然比整数要高一个级别。

    4.3 随机变量

    变量是我们再熟悉不过的概念,它是指一个变化的量,可以取各种不同的值。随机变量可以看做是关联了概率值的变量,即变量取每个值有一定的概率。例如,你买彩票,最后的中奖金额x就是一个随机变量,它的取值有3种情况,以0.9的概率中0元,0.09的概率中100元,0.01的概率中1000元。变量的取值来自一个集合,可以是有限集,也可以是无限集。对于无限集,可以是离散的,也可以是连续的,前者对应于整数集,后者对应于实数集。

    4.3.1 离散型随机变量

    随机变量是取值有多种可能并且取每个值都有一个概率的变量。它分为离散型和连续型两种,离散型随机变量的取值为有限个或者无限可列个(整数集是典型的无限可列),连续型随机变量的取值为无限不可列个(实数集是典型的无限不可列)。
    在这里插入图片描述

    4.3.2 连续型随机变量

    把分布表推广到无限情况,就可以得到连续型随机变量的概率密度函数。此时,随机变量取每个具体的值的概率为0,但在落在每一点处的概率是有相对大小的,描述这个概念的,就是概率密度函数。你可以把这个想象成一个实心物体,在每一点处质量为0,但是有密度,即有相对质量大小。
    在这里插入图片描述
    在这里插入图片描述
    在概率论和统计学中,拉普拉斯是一种连续概率分布。由于它可以看做是俩个不同位置的指数分布背靠背拼在一起,所以它也叫做双指数分布。如果随机变量的概率密度函数分布为:
    在这里插入图片描述
    那么他就是拉普拉斯分布。u为位置参数,b>0是尺度参数。与正态分布相比,正态分布是用相对于u平均值的差的平方来表示,而拉普拉斯概率密度用相对于差的绝对值来表示。因此,拉普拉斯的尾部比正态分布更加平坦。
    在这里插入图片描述

    在这里插入图片描述
    概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可!
    在这里插入图片描述
    左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

    两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!这样看起来是不是特别直观,特别爽!!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的!

    但是,可能读者会有这样的问题:
    Q:概率密度函数在某一点的值有什么意义?
    A:比较容易理解的意义,某点的 概率密度函数 即为 概率在该点的变化率(或导数)。很容易误以为 该点概率密度值 为 概率值.
    比如: 距离(概率)和速度(概率密度)的关系.某一点的速度, 不能以为是某一点的距离,没意义,因为距离是从XX到XX的概念,所以, 概率也需要有个区间.
    这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

    4.4 期望E(X)与方差Var(X)

    随机变量(Random Variable)X是一个映射,把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特这。

    期望(Expectation, or expected value)是度量一个随机变量取值的集中位置或平均水平的最基本的数字特征;

    方差(Variance)是表示随机变量取值的分散性的一个数字特征。 方差越大,说明随机变量的取值分布越不均匀,变化性越强;方差越小,说明随机变量的取值越趋近于均值,即期望值。
    在这里插入图片描述

    4.4.1 期望和方差的运算性质

    4.4.1.1 期望运算性质

    在这里插入图片描述

    4.4.1.2 方差的运算性质

    在这里插入图片描述
    在这里插入图片描述

    4.4.1.3 期望与方差的联系

    在这里插入图片描述

    4.4.2 协方差

    在这里插入图片描述

    4.4.2.1 协方差的运算性质

    在这里插入图片描述

    4.4.3 相关系数

    4.4.3.1 定义

    相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
    在这里插入图片描述

    4.4.3.2 性质

    1、有界性
    相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。

    2、统计意义
    值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

    在这里插入图片描述

    5. 常见概率分布

    5.1 均匀分布(Uniform Distribution)

    在这里插入图片描述
    在这里插入图片描述

    5.2 伯努利分布(Bernoulli Distribution)

    在这里插入图片描述

    在这里插入图片描述

    5.3 二项分布(Binomial Distribution)

    二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。
    在这里插入图片描述

    从定义可以看出,伯努利分布是二项分布在n=1时的特例

    在这里插入图片描述

    5.4 负二项分布(Negative Binomial Distribution)

    在这里插入图片描述
    在这里插入图片描述

    5.5 几何分布(Geometric Distribution)

    假定我们有一系列伯努利试验,其中每一个的成功概率为 p p p,失败概率为 q = 1 − p q=1-p q=1p。在获得一次成功前要进行多次试验?
    注意,这里的随机变量的概率分布就是一种几何分布。具体如下:

    在这里插入图片描述
    几何分布的概率分布图如下,见之会有更形象地认知。
    在这里插入图片描述
    为什么单独把几何分布和二项分布单独列出,一方面其代表的概率试验的普适性,另一方面其期望和方差都是有特殊技巧。
    在这里插入图片描述
    其实有意思的是,这里面的求解过程;但是本文不具体涉及了。因为像几何分布和二项分布这种可能要多写几章,当然是否连续写就不知道了。本着实用主义来。
    一般简单地肯定在前面讲,复杂一些得也更有意思一些的肯定是在后面,比如二项分布明显就在几何分布后面了。

    不同于几何分布描述的运行到第几次才成功,二项分布描述是的N次试验里有多少次成功。具体如下:
    在这里插入图片描述

    在这里插入图片描述

    5.6 超几何分布(Hypergeometric Distibution)

    在这里插入图片描述

    5.7 正态/高斯分布 (Normal / Gaussian Distribution)

    正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:

    • 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
    • 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.7.1 一维正态分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.7.2 多维正态分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.8 拉普拉斯分布

    在这里插入图片描述

    5.9 泊松分布(Poisson Distribution)

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    5.10 指数分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.11 伽马分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    5.12 贝塔分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.13 狄拉克分布

    在这里插入图片描述

    5.14 多项式分布与狄里克雷分布

    多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

    扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是
    在这里插入图片描述
    在这里插入图片描述

    5.15 混合概率分布

    在这里插入图片描述

    5.16 总结

    在这里插入图片描述

    在这里插入图片描述

    https://www.jianshu.com/p/b570b1ba92bb
    https://zhuanlan.zhihu.com/p/48140593
    https://www.bookstack.cn/read/huaxiaozhuan-ai/spilt.4.6f06ed449f5ed789.md
    https://zhuanlan.zhihu.com/p/94181395
    https://zhuanlan.zhihu.com/p/64859161
    https://blog.csdn.net/touristman5/article/details/56281887
    https://zhuanlan.zhihu.com/p/32932782

    展开全文
  • 概率分布概率分布函数

    万次阅读 多人点赞 2018-05-21 21:25:14
    大学的时候,我的《概率论和数理统计》这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分。你可以想象我的《概率论》这...今天我就讲讲应该如何理解概率分布函数和概率密度函数的问题。是不是乍一...

    今天在面试小米算法工程师的时候,遇到这么一个面试问题,给定一个x取值范围属于[a,b],

    它的概率密度函数为f(x),求如何生成一系列随机数,满足这个概率分布。

    这个问题首先要明白概率密度函数表达的是什么意思

    先说均匀分布:

        均匀分布的概率密度函数:f(x)=1/(b-a)

        直接:np.random.random()*(b-a) + a

                  或者Math.random()*(b-a) + a 

    这个分布式个性化的所以。直接上图。


    所以如果图中的条形框分布的足够的细腻,其实就变成了对应的取值了,取f(x)然后找对应的f(x)所对应的x,

    即可以采样得到满足概率分布的数据


    离散型概率分布:把离散的值所有的值列出来,然后分别计算取值的概率。

    离散型的概率分布函数:看定义,F(x)=P(X<x),F(x)会取X<=x的概率的取值累加和,所以也叫做累加概率。

    连续型函数的概率分布,换了一个名字叫概率密度函数。说白了,概率密度函数f(x),其实就是 x取某一点的概率,

                                    所以作为概率密度函数应该有下面三个性质

                                    

                                    ①
       
                                    ②
       
                                    ③
     

    连续型概率分布函数,F(X)其实就是从负无穷到x的积分值

                                        

    下面给出其他网友的关于概率分布(概率密度函数),概率分布函数

    大学的时候,我的《概率论和数理统计》这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分。你可以想象我的《概率论》这门课学的是有多差了。后来,我工作以后,在学习数据分析技能时,又重新把《概率论》这本书学了一遍。原来之前一直没学好这门课的很重要一个原因就是,这门课涉及很多基础的概念,而我当初就是对这些概念非常不理解。

    今天我就讲讲应该如何理解概率分布函数和概率密度函数的问题。是不是乍一看特别像,容易迷糊。如果你感到迷糊,恭喜你找到我当年的感觉了。

    先从离散型随机变量和连续性随机变量说起

    对于如何分辨离散型随机变量和连续性随机变量,我这里先给大家举几个例子:

    1、一批电子元件的次品数目。

    2、同样是一批电子元件,他们的寿命情况。

    在第一个例子中,电子元件的次数是一个在现实中可以区分的值,我们用肉眼就能看出,这一堆元件里,次品的个数。但是在第二个例子中,这个寿命它是一个你无法用肉眼数的过来的数字,它需要你用笔记下来,变成一个数字你才能感受它。在这两个例子中,第一例子涉及的随机变量就是离散型随机变量,第二个涉及的变量就是连续型随机变量。

    在贾俊平老师的《统计学》教材中,给出了这样的区分:

    如果随机变量的值可以都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。

    我始终觉得,贾老师这么说,对于我们这些脑子笨又爱钻牛角尖的学生来说,还是不太好理解。所以我就告诉大家一个不一定非常严谨,但是绝对好区分的办法。

    只要是能够用我们日常使用的量词可以度量的取值,比如次数,个数,块数等都是离散型随机变量。只要无法用这些量词度量,且取值可以取到小数点2位,3位甚至无限多位的时候,那么这个变量就是连续型随机变量!

    对了,如果你连随机变量这个概念还不理解的话,我送你一句贾俊平老师的话:

    如果微积分是研究变量的数学,那么概率论与数理统计是研究随机变量的数学。

    再来理解离散型随机变量的概率分布,概率函数和分布函数

    在理解概率分布函数和概率密度函数之前,我们先来看看概率分布和概率函数是咋回事。一下子又冒出来两个长得差不多的概念!没事,他们长得差不多,实际代表的含义其实也差不多!

    在讲概率函数和概率分布之前,我想先讲讲为什么我们花这么大的力气去研究这个概念。因为它实在太重要了,为什么呢?在这里,我直接引用陈希孺老师在他所著的《概率论与数理统计》这本书中说的:

    研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!

    这句是本文的核心内容,你要牢牢记得,我们这篇文章里的所有概念都在是描述一件东西,那就是概率!概率!概率!什么概率密度啦,概率分布啦,概率函数啦,都是在描述概率!

    概率分布和概率函数这两个概念,我想先从概率函数开始讲。概率函数,就是用函数的形式来表达概率。

    pi=P(X=ai)(i=1,2,3,4,5,6)

    在这个函数里,自变量(X)是随机变量的取值,因变量(pi)是取值的概率。这就叫啥,这叫用数学语言来表示自然现象!它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。

    接下来讲概率分布,顾名思义就是概率的分布,这个概率分布还是讲概率的。我认为在理解这个概念时,关键不在于“概率”两个字,而在于“分布”这两个字。为了理解“分布”这个词,我们来看一张图。

    离散型随机变量的值和概率的分布列表

    在很多教材中,这样的列表都被叫做离散型随机变量的“概率分布”。其实严格来说,它应该叫“离散型随机变量的值分布和值的概率分布列表”,这个名字虽然比“概率分布”长了点,但是对于我们这些笨学生来说,肯定好理解了很多。因为这个列表,上面是值,下面是这个取值相应取到的概率,而且这个列表把所有可能出现的情况全部都列出来了!

    举个例子吧,一颗6面的骰子,有1,2,3,4,5,6这6个取值,每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的”概率分布“?

    长得挺像的,上面是取值,下面是概率,这应该就是骰子取值的“概率分布”了吧!大错特错!少了一个最重要的条件!对于一颗骰子的取值来说,它列出的不是全部的取值,把6漏掉了!

    这么一说你就应该明白概率分布是个什么鬼了吧。说完概率分布,就该说说分布函数了。这个分布函数又是个简化版的东西!我真的很讨厌我们的教材中老是故弄玄虚,卖弄概念!你就老老实实的写成”概率分布函数“,让我们这些笨学生好理解一些不行吗?

    看看下图中的分布律!这又是一个不统一叫法的丑恶典型!这里的分布律明明就是我们刚刚讲的“概率函数”,完全就是一个东西嘛!但是我知道很多教材就是叫分布律的。

    概率分布函数就是把概率函数累加

    我们来看看图上的公式,其中的F(x)就代表概率分布函数啦。这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了大于等于号的公式。你再往右看看,这是一个一个的概率函数的累加!发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!其实,我觉得叫它累积概率函数还更好理解!!

    概率函数和概率分布函数就像是一个硬币的两面,它们都只是描述概率的不同手段!

    连续型随机变量也有“概率函数”和“概率分布函数”吗?

    有!连续型随机变量也有它的“概率函数”和“概率分布函数”,但是连续型随机变量的“概率函数”换了一个名字,叫做“概率密度函数”!为啥要这么叫呢?我们还是借用大师的话来告诉你,在陈希孺老师所著的《概率论与数理统计》这本书中,

    如果这么解析你还是不太懂的话,看看下面的这个公式:

    概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可!


    左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

    两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!这样看起来是不是特别直观,特别爽!!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的!

    这篇文章只是我个人对于这些概念的一些比较取巧的理解,如果你想更加深刻,精确的理解这些概念,我推荐大家读一下陈希孺老师的《概率论与数理统计》这本书,这本书对于这些概念的理解非常有帮助!



    作者:产品经理马忠信
    链接:https://www.jianshu.com/p/b570b1ba92bb
    來源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    展开全文
  • 衡量两个概率分布P(x);Q(x) 的距离 包括 Kullback–Leibler divergence和Jensen–Shannon divergence
  • 联合概率分布及相关概念理解 刚开始学机器学习的时候,很多概念都没有理解清楚,现在对一些基础概念进行一下整理 概率密度和概率分布的区别 首先要理解概率密度函数,就要先分清离散型随机变量和连续型随机变量。 ...
  • 均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个...
  • 最大熵和概率分布

    千次阅读 2019-06-02 13:04:55
    但是如果我们可以用分布去表示这些数据,就只需要均值或者方差分布参数,大大节省了存储空间。 离散型随机分布 伯努利分布:一次实验,结果只有两种结果。p(k)=pk(1−p)(1−k),k∈{0,1}p(k)=p^k(1-p)^{(1-k)}, k\in\...
  • 今天突然看到概率分布、概率密度函数等概念,有点懵,赶紧复习以下。 理解相关概念首先要区分的是变量类型,离散变量与连续变量,不同的变量对应不同的概率描述方法,我们分开来看。 离散变量 概率分布、概率密度是...
  • 【机器学习】几种常见的概率分布

    千次阅读 2019-08-10 10:49:20
    之前你已经了解概率的基础知识(如果还不知道概率能干啥,在生活中有哪些应用的例子,可以看我这个:人工智能时代,用概率思维发现人生机会​www.zhihu.com今天我们来聊聊几种特殊的概率分布。这个知识目前来看,还...
  • Matlab求一维概率密度概率分布,编写n(1,1/4)的一维概率密度概率分布
  • 八种概率分布模型

    千次阅读 2020-01-03 12:39:38
    0-1分布 几何分布 二项分布 泊松分布 超几何分布 均匀分布 指数分布 正态分布
  • 条件概率分布与边缘概率分布

    千次阅读 2018-11-07 13:21:54
    1.条件概率分布 这是理解马尔科夫链的重要概念,单独成文 参考百科:http://baike.baidu.com/view/1969485.htm?fr=aladdin 大家都能理解概率分布,但加了条件二字,就难理解了。我比较讨厌官方的定义,术语太绕,...
  • 概率分布概率分布函数

    千次阅读 2019-05-31 13:48:02
    概率函数是用函数的形式表示概率 Pi=P(X=ai)(i=1,2,3,4,5,6)P_i=P(X=a_i)(i=1,2,3,4,5,6)Pi​=P(X=ai​)(i=1,2,3,4,5,6) 在这个函数里,自变量 X 是随机变量的取值,因变量 PiP_iPi​是取值的概率。它就代表了每...
  • 概率分布:离散概率分布和连续概率分布 随机变量:量化的随机世界的函数 分布:数据在统计图中的形状 概率分布:用统计图来表示随机变量所有可能的结果和对应结果发生的概率 离散的概率计算是体积; 连续的...
  • 离散型概率分布

    千次阅读 2019-03-21 16:24:16
    1.2 离散型概率分布 1.3 数学期望与方差、标准差 1.3.1 数学期望 1.3.2 方差 1.3.3 标准差 1.3.4 线性变换的通用公式 1.3.5 独立观测值 1.4 二项概率分布(binomial probability distribution) 1.5 泊松...
  • 知道了离散型随机变量的概率分布后,那么就来说一下离散型随机变量的概率分布函数,在介绍离散型随机变量的概率分布函数之前,先看一下概率分布函数的定义,注意这里 没有区分是离散型还是连续型随机变量 : 设 X X...
  • 本代码主要利用MATLAB工具实现MATLAB——极值分布向量的实际概率分布和理论概率分布,简单明了,易于理解
  • 常见分布及其概率分布

    万次阅读 多人点赞 2019-05-09 16:40:49
    概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。 离散概率分布也称为概率质量函数(probability mass function)。离散概率分布包括: 伯努利分布(Bernoulli distribution) 二项...
  • 概率分布就是说随机变量(自变量)和每个随机变量对应的概率,这就是概率分布。 上图的随机变量是离散的,如果随机变量是连续的,那么概率分布就可以叫概率密度。 概率函数和概率分布、概率密度是一样的,只是说...
  • 教你在EXCEL中怎么制作概率分布
  • 离散型随机变量的概率分布

    千次阅读 2020-12-16 16:51:59
    这一小节我们一起学习几个离散型随机变量里的特殊的概率分布:几何分布、二项分布和泊松分布。 几何分布 乘风破浪的姐姐最近正在热播,还记得万茜小姐姐第一次个人solo的那段吉他弹唱吗?第一次她在台上弹错了,第二...
  • 概率分布概率分布是描述获得事件可能值的数学函数。概率分布可以是离散的,也可以是连续的。离散分布是指数据只能取某些值,而连续分布是指数据可以取特定范围内的任何值(可能是无限的)。 ​ 离散概率分布有很...
  • 通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布。混合分布由一些组件分布构成。每次实验,样本是由哪个组件分布产生的取决于从一个 Multinoulli分布中采样的结果: P...
  • 连续性变量的概率分布

    千次阅读 2020-11-07 10:47:23
    前一篇文章写的是离散型随机变量的概率分布,今天我们来聊聊连续型随机变量的概率分布。 并非所有的数据都是连续的,根据数据类型的不同,有不同的求概率的方法,对于离散型随机变量的概率分布,我们关心的是取某一...
  • matlab 二维 正态 概率密度 二维概率分布
  • SPSS概率分布函数

    2010-07-13 18:55:05
    SPSS概率分布函数SPSS概率分布函数SPSS概率分布函数SPSS概率分布函数SPSS概率分布函数
  • 常用的连续概率分布汇总

    千次阅读 2021-10-23 10:37:30
    在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。 CDF曲线是 累积分布...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 225,951
精华内容 90,380
关键字:

概率分布