精华内容
下载资源
问答
  • 概率论几种常见分布

    千次阅读 2020-02-27 21:03:31
    概率论几种常见分布正态分布概要分析泊松分布适用范围伽玛分布对数正态分布 本文也算是一种对大学知识的回顾吧!学习数据分析看到几种统计方法,没办法,过来总计一下吧,反正感觉我以后用的次数还多着哩。 正态分布...


    本文也算是一种对大学知识的回顾吧!学习数据分析看到几种统计方法,没办法,过来总计一下吧,反正感觉我以后用的次数还多着哩。

    正态分布

    在这里插入图片描述
    正态分布(normal distribution)又名高斯分布,是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。

    概要

    正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的,理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如,采样分布均值是近似地正态的,即使被采样的样本的原始群体分布并不服从正态分布。另外,正态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布。

    分析

    正态分布是一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。 服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到较大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

    正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。

    生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

    正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。
    在这里插入图片描述

    正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。

    正态分布一种概率分布,也称“常态分布”。正态分布具有两个参数μ和σ^2 的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2 是此随机变量的方差,所以正态分布记作N(μ,σ^2)。服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。

    正态分布的密度函数的特点是:关于μ对称,并在μ处取较大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ^2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。

    以下变量非常接近正态分布:

    1. 人群的身高

    2. 成年人的血压

    3. 扩散后的粒子的位置

    4. 测量误差

    5. 人群的鞋码

    6. 员工回家所需时间

    泊松分布

    在这里插入图片描述
    泊松分布(法语:loi de Poisson,英语:Poisson distribution)又称帕松分布、普阿松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配、泊松小数法则(Poisson law of small numbers),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松在1838年时发表。

    泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

    适用范围

    泊松分布使用范围
      Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数. 即需满足以下四个条件:[1]

    1、给定区域内的特定事件产生的次数,可以是根据时间,长度,面积来定义;

    2、各段相等区域内的特定事件产生的概率是一样的;

    3、各区域内,事件发生的概率是相互独立的;

    4、当给定区域变得非常小时,两次以上事件发生的概率趋向于0。

    例如:

    1、放射性物质在单位时间内的放射次数;

    2、在单位容积充分摇匀的水中的细菌数;

    3、野外单位空间中的某种昆虫数等。

    伽玛分布

    在这里插入图片描述
    在这里插入图片描述
    Gamma分布常用于概率统计模型,它在水文学和气象学、可靠性和生存分析等领域都有广泛的应用。因此,对Gamma分布特别是Gamma分布的参数估计展开研究有着重要意义。本文对现有的Gamma分布的性质和参数估计方法进行总结,并且提出一种新的参数估计方法——参数分离法,最后用MATLAB进行数值模拟,计算三种估计的估计值和均方误差,并在均方误差的准则下,比较这三种估计方法的优劣。对于回归,一直以来研究最多的是多元线性回归模型,但在许多实际问题中,响应变量及其期望并不都满足其假定条件,因此常常应用其直接推广的模型,即广义线性模型。其中Gamma回归模型以及Gamma分布好其它指数族分布的混合模型有着广泛的应用,因此本文对Gamma回归展开深入的研究。

    对数正态分布

    在这里插入图片描述
    在概率论与统计学中,任意随机变量的对数服从正态分布,则这个随机变量服从的分布称为对数正态分布。如果 Y 是正态分布的随机变量,则 exp(Y)(指数函数)为对数正态分布;同样,如果 X 是对数正态分布,则ln X为正态分布。 如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。
    对数正态分布通常用于对失效模式具有疲劳应力性质的单元的寿命进行建模。由于这包括大多数(如果不是全部)机械系统,因此对数正态分布可以得到广泛应用。因此,当尝试对这些类型的单位建模时,对数正态分布是Weibull分布的良好伴侣。顾名思义,对数正态分布与正态分布具有某些相似性。如果随机变量的对数为正态分布,则随机变量为对数正态分布。因此,两个分布之间存在许多数学相似性。

    展开全文
  • 几种常见的数学分布

    千次阅读 2018-11-03 21:48:20
    1. 什么是数学期望 ...(1) 几种常见分布 https://wenku.baidu.com/view/dc16311a777f5acfa1c7aa00b52acfc789eb9f04.html (2) 如何通俗理解泊松分布 https://blog.csdn.net/ccnt_2012/article/details/81114920

    1. 什么是数学期望

     举个例子:某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个
    (0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11
     数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和
    0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11

    2. 概率密度与累积分布

     概率密度一般的写法是:P(X=a) = …,即X等于某个值a的可能性
     累积分布一般的写法是:P(X<=a) = …,即X小于等于某个值a的所有可能性累加之和
     这二者千万别弄混,否则就会被各种公式绕晕。下图是增量分布的概率密度图(橙色)和累积分布图(蓝色)。

    3. 常见的分布

    (1) 离散分布:
     伯努利分布(零一分布,两点分布),二项分布,几何分布,泊松分布(Poisson分布)

    (2) 连续分布:
     指数分布,正态分布(高斯分布),均匀分布

    (3) 抽样分布:
     卡方分布(X2分布),F分布,T分布

    (4) 其它分布:
     多项分布,Beta分布,Dirichlet分布

    4. 伯努利分布

    (1) 应用场景
     应用于两种实验结果。要么成功,要么失败,一定程度上是二元的性质。比如:一个硬币抛一次人结果。

    (2) 描述
     进行一次事件试验,该事件发生的概率为p,不发生的概率为1-p,任何一个只有两种结果的随机现象都服从0-1分布。

    5. 二项分布

    (1) 应用场景
     在独立n次实验中成功次数,比如:一个硬币抛n次,k次正面朝上。

    (2) 描述

     上图是n=100, p=0.5(抛硬100次, 每一枚硬币正面朝上的概率为0.5),图中横轴为正面朝上的次数,纵轴为概率,可以看出正面朝上50次的可能性最大,为0.08左右。

    6. 泊松分布

    (1) 应用场景
     某一区间内发生随机事件次数的概率分布,比如:每小时出生3个婴儿,某网站平均每分钟有2次访问。

    (2) 描述
     一个离散型随机变量X 满足:

     这样看起来就很抽象了,推荐看一看参考中的《如何通俗理解泊松分布》,简单地说一下上述公式怎么用,以出生婴儿为例,λ是每小时出生的婴儿的平均数,k是3个婴儿,P(X=3)是每小时出生3个婴儿的概率。从λ中我们就能看出单位时间和发生事件的大概关系。

     上图是λ=2时(平均每小时出生2个婴儿),出生0个的概率为0.14,出生1个的概率为0.27…

    7. 几何分布

    (1) 应用场景
     第一次成功所进行的试验次数,比如:考几次能通过,抛几次硬币能出现正面。

    (2) 描述
     几何分布由n次伯努利分布构成,随机变量X表示第一次成功所进行试验的次数

     从公式中很容易看出,经历了k-1次不中,和一次命中,以抛硬币为例,P(X=3)是抛三次能抛到一次正面向上概率,前两次都是背面朝上,第三次正面朝上。如果单个硬币正面朝上的概率为0.5,那么期望是2次。 与二项分布相比,二项分布是抛n次硬币,有几次正面朝上,几何分布是抛几次出现第一次正布朝上。

     上图是p=0.5时的几何分布,横轴是次数,可见抛一次就中的可能性最大为0.5,两次中的可能性为0.25…,次数越多,概率越小,整体平均下来基本是两次左右,因此,期望为2。从期望就可以看出,抛第几次能出正面,主要还是取决于硬币本身正面朝上的概率。

    8. 指数分布

    (1) 应用场景
     两次随机事件发生时间间隔的概率分布,比如:婴儿出生的时间间隔,网站访问的时间间隔。

    (2) 描述
     指数分布满足以下概率密度函数公式

     λ> 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数,还是生小孩为例,公式中的x是生两个孩子的时间间隔。
     假设平均每一小时出生两个婴儿,则单位时间1小时出生2个婴儿,λ=2,期望e=0.5(平均间隔0.5小时),如左图所示。

     假设平均每两小时出生一个婴儿,则单位时间1小时出生0.5个婴儿,λ=0.5,期望E=2(平均间隔2小时),如右图所示。 λ越大,曲线下降越快,可见,指数分布是几何分布的加强版。

     上图中x轴是时间间隔,y轴是概率,不是说概率之和为1吗?为什么间隔为0的概率大于1呢?因为这是连续分布,某一点概率大于1(但它所在区域很窄),也不影响函数线下面积之和为1。

    9. 正态分布

    (1) 应用场景
     连续型数据或者数据离散性小,数据基本符合正态分布特点。比如:群体的身高,智商,考试分数(中间多两边少)。

    (2) 描述
     若随机变量X服从一个数学期望为μ、方差o^2 为的高斯分布,记为N(μ,o^2)

     上图是μ=1, o=2.0的正态分布,简单地说,就是基本都分布在以μ为中心,分散在o范围之内,比如:全班平均分80分,考100的也少,不及格的也少。

    10. 抽样分布

    (1) 一些概率

    i. 抽样
     如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。

    ii. 统计量
     统计量是根据样本数据计算出来的一个量,他是样本的函数,通常我们所关心的样本统计量有品均数、样本标准差等等。

    iii. 抽样分布
     抽样分布也称统计量分布,以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。卡方分布,T分布,F分布都是抽样分布。

    (2) 卡方分布
     设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.

    (3) T分布
     设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/((X2/n)^(1/2)) 所服从的分布为自由度为n的t分布。

    (4) F分布

     设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n 。

    11. 参考

    (1) 几种常见的分布
    https://wenku.baidu.com/view/dc16311a777f5acfa1c7aa00b52acfc789eb9f04.html

    (2) 如何通俗理解泊松分布
    https://blog.csdn.net/ccnt_2012/article/details/81114920

    展开全文
  • 文章目录一:伯努利分布/0-1分布二:二项分布三:泊松分布 一:伯努利分布/0-1分布 如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的...


    一:伯努利分布/0-1分布

    如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和1,而不管观测条件是什么。
    在这里插入图片描述
    推导过程:
    在这里插入图片描述

    注:就是一次实验下的结果。不是0就是1.


    二:二项分布

    本质: 就是n次实验下的伯努利分布。
    在这里插入图片描述
    期望和方差
    在这里插入图片描述


    三:泊松分布

    1.引入

    很多场合下,我们感兴趣的试验进行了很多次,但其中成功的却发生的相当稀少。例如一个芯片的生厂商想要把生产出的芯片做一番检测后再出售。每个芯片都有一个不能正常工作的微小概率p,在数量为n的一大批芯片中,出现r个故障芯片的概率是多少?

    在这里插入图片描述
    所以,当n很大、p很小的时候,这种类似的情况,不在适合用二项分布,而是泊松分布,但是泊松分布是由二项分布推导来的。

    2.推导:

    在这里插入图片描述
    在这里插入图片描述
    注:可以看到其过程还是有点复杂,借助了微积分和级数,这里了解就好,主要记住是当n很大、p很小的时候,一般用泊松分布。


    3.性质
    在这里插入图片描述
    所以参数需要>0.

    注: 这里的泰勒展开参考下面:

    在这里插入图片描述
    4.期望和方差
    在这里插入图片描述
    在这里插入图片描述

    5.应用
    在这里插入图片描述
    6.理解

    例子1:
    在这里插入图片描述
    注:n–100年、发生洪水的概率p–0.01、在这100年里发生的次数可以用泊松过程。—哈哈,终于明白了,数学可太难了。

    例子2:
    在这里插入图片描述

    例子参考:https://blog.csdn.net/xinxiangwangzhi_/article/details/107377489?biz_id=102&utm_term=%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83%E4%BE%8B%E5%AD%90&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-0-107377489&spm=1018.2118.3001.4449


    四:正态分布

    定义:
    在这里插入图片描述
    在这里插入图片描述
    期望和方差推导: 不用看----
    在这里插入图片描述
    在这里插入图片描述


    五:均匀分布

    定义:
    在这里插入图片描述
    在这里插入图片描述
    期望和方差推导:
    在这里插入图片描述


    六:指数分布

    定义:
    指数分布(Exponential distribution)是一种连续型概率分布,可以用来表示独立随机事件发生的时间间隔的概率,比如婴儿出生的时间间隔、旅客进入机场的时间间隔、打进客服中心电话的时间间隔、系统出现bug的时间间隔等等。


    推导:
    指数分布与泊松分布存在着联系,它实际上可以由泊松分布推导而来。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    重要特性–无记忆性
    在这里插入图片描述
    在这里插入图片描述
    注:上面的X>s应该是X>t.
    在这里插入图片描述
    理解:
    脑子目前炸裂!!!
    参考:https://www.cnblogs.com/bigmonkey/p/12374393.html

    期望和方差:
    对于X~E(λ)的指数分布来说,它的期望是1/λ,方差是1/λ2。
    在这里插入图片描述


    参考链接:
    https://www.bilibili.com/read/cv4031613/
    https://www.cnblogs.com/bigmonkey/p/12219198.html
    https://www.cnblogs.com/bigmonkey/p/12255964.html
    https://www.cnblogs.com/bigmonkey/p/12374393.html

    展开全文
  • 【机器学习】几种常见的概率分布

    千次阅读 2019-08-10 10:49:20
    之前你已经了解概率的基础知识(如果还不知道概率能干啥,在生活中有哪些应用的例子,可以看我这个:人工智能时代,用概率思维发现人生机会​www.zhihu.com今天我们来聊聊几种特殊的概率分布。这个知识目前来看,还...

    之前你已经了解概率的基础知识(如果还不知道概率能干啥,在生活中有哪些应用的例子,可以看我这个:

    人工智能时代,用概率思维发现人生机会 www.zhihu.com图标

    今天我们来聊聊几种特殊的概率分布。这个知识目前来看,还没有人令我满意的答案,因为其他人多数是在举数学推导公式。我这个人是最讨厌数学公式的,但是这并不妨碍我用统计概率思维做很多事情。相比熟悉公式,我更想知道学的这个知识能用到什么地方。可惜,还没有人讲清楚。今天,就让我来当回雷锋吧。


    首先,你想到的问题肯定是:

    1. 什么是概率分布?

    2. 概率分布能当饭吃吗?学了对我有啥用?

    好了,我们先看下:什么是概率分布?


    1. 什么是概率分布?

    要明白概率分布,你需要知道先两个东东:

    1)数据有哪些类型 2)什么是分布

    数据类型(统计学里也叫随机变量)有两种。第1种是离散数据。

    离散数据根据名称很好理解,就是数据的取值是不连续的。例如掷硬币就是一个典型的离散数据,因为抛硬币的就2种数值(也就是2种结果,要么是正面,要么是反面)。

    你可以把离散数据想象成一块一块垫脚石,你可以从一个数值调到另一个数值,同时每个数值之间都有明确的间隔。


    第2种是连续数据。连续数据正好相反,它能取任意的数值。例如时间就是一个典型的连续数据1.25分钟、1.251分钟,1.2512分钟,它能无限分割。连续数据就像一条平滑的、连绵不断的道路,你可以沿着这条道路一直走下去。


    什么是分布呢?

    数据在统计图中的形状,叫做它的分布。


    其实我们生活中也会聊到各种分布。比如下面不同季节男人的目光分布.。


    各位老铁,来一波美女,看看你的目光停在哪个分布的地方。


    美女也看了,现在该专注学习了吧。现在,我们已经知道了两件事情:

    1)数据类型(也叫随机变量)有2种:离散数据类型(例如抛硬币的结果),连续数据类型(例如时间) 2)分布:数据在统计图中的形状

    现在我们来看看什么是概率。概率分布就是将上面两个东东(数据类型+分布)组合起来的一种表现手段:

    概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。



    很显然的,根据数据类型的不同,概率分布分为两种:离散概率分布,连续概率分布。

    那么,问题就来了。为什么你要关心数据类型呢?

    因为数据类型会影响求概率的方法。

    对于离散概率分布,我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:p(x=正面)=1/2

    而对于连续概率分布来说,我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值。

    例如,你在咖啡馆约妹子出来,你提前到了。为了给妹子留下好印象,你估计妹子会在5分钟之内出现,有可能是在4分钟10秒以后出现,或者在4分钟10.5秒以后出现,你不可能数清楚所有的可能时间,你更关心的是在妹子出现前的1-5分钟内(范围),你把发型重新整理下(虽然你因为加班头发 已经秃顶了,但是发型不能乱),给妹子留个好印象。所以,对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。


    2. 概率分布能当饭吃吗?学了对我有啥用?

    当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究他们的规律,根据这些规律来解决特定条件下的问题。



    想起,当年为了备战高考,我是准备了一个自己的“万能模板”,任何作文题目过来,我都可以套用该模板,快速解决作文这个难题。当你,我高考的作文分数还是不错的。(我聪明吧)

    同样的,记住概率里这些特殊分布的好处就是:

    下次遇到类似的问题,你就可以直接套用“模板”(这些特殊分布的规律)来解决问题了。

    酷不酷?爽不爽?

    接下里,我们一起来聊聊常见的4种概率分布。

    1)3种离散概率分布

    二项分布 泊松分布 几何何分布

    2)1种连续概率分布

    正态分布

    在开始介绍之前,你先回顾下这两个知识:

    期望:概率的平均值 标准差:衡量数据的波动大小。


    第1种:二项分布

    我们从下面3个问题开聊:

    1. 二项分布有啥用? 2. 如何判断是不是二项分布? 3. 二项分布如何计算概率?


    1. 二项分布有啥用呢?

    当你遇到一个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。

    例如你按我之前的《投资赚钱与概率》买了这5家公司的股票(谷歌,Facebook,苹果,阿里巴巴,腾讯),为了保底和计算投入进去多少钱,你想知道只要其中3个股票帮你赚到钱(成功的次数)的概率多大,那么这时候就可以用二项分布计算出来。

    牛掰吧?

    2. 如何判断是不是二项分布?

    首先,为啥叫二项,不叫三项,或者二愣子呢?故明思义,二项代表事件有2种可能的结果,把一种称为成功,另外一种称为失败。

    生活中有很多这样2种结果的二项情况,例如你表白是二项的,一种成功(恭喜你表白成功,可以恋爱了,兴奋吧?),一种是失败(被拒绝了,伤不伤心?)。你向老板提出加薪的要求,结果也有两种(二项)。一种是成功(加薪成功,老板我爱你),一种是失败(麻蛋,不给涨薪老子不干了,像是这种有统计概率思维的人,是很稀缺的,明天就投简历出去)


    那么,什么是二项分布呢?只要符合下面3个特点就可以判断某事件是二项分布了:

    1)做某件事的次数(也叫试验次数)是固定的,用n表示。

    (例如抛硬币3次,投资5支股票),

    2)每一次事件都有两个可能的结果(成功,或者失败)

    (例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。

    每一次投资美股有2个结果:投资成功,投资失败)。

    3)每一次成功的概率都是相等的,成功的概率用p表示

    (例如每一次抛硬币正面朝上的概率都是1/2。

    你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同)

    4)你感兴趣的是成功x次的概率是多少。那么就可以用二项分布的公式快速计算出来了。

    (你已经知道了我前面讲的5家美股的赚钱概率最大,所以你买了这5家公司的股票,假设投资的这5家公司成功的概率都相同,那么你关心其中只要有3个投资成功,你就可以赚翻了,所以想知道成功3次的概率)


    根据这4个特点,我们就知道抛硬币是一个典型的二项分布,还有你投资的这5支股票也是一个典型的二项分布(在假设每家公司投资成功的前提下)。


    3. 二项分布如何计算概率?

    怎么计算符合二项分布事件的概率呢?也就是你想知道下面的问题:

    你抛硬币3次,2次正面朝上的概率是多少? 你买了这5家公司的股票,3支股票赚钱的概率是多大?

    上面我们已经知道了二项分布的4个特点,并知道每个特点的表示方法:

    1)做某件事次数是固定的,用n表示
    2)每一次事件都有两个可能的结果(成功,或者失败)
    3)每一次成功的概率都是相等的,成功的概率用p表示
    4)你感兴趣的是成功x次的概率是多少

    这时候,二项分布的公式就可以发挥威力了:

    这里你也别害怕数学公式,每一项的含义我前面已经讲的很清楚了。这个公式就是计算做某件事情n次,成功x次的概率的。很多数据分析工具(Excel,Python,R)都提供工具让你带入你研究问题的数值,就能得到结果。

    例如,抛硬币5次(n),恰巧有3次正面朝上(x=3,抛硬币正面朝上概率p=1/2),可以用上面的公式计算出出概率为31.25%(用Excel的BINOM.DIST函数,Python,R都可以快速计算)


    二项分布经常要计算的概率还有这样一种情况:

    抛硬币5次,硬币至少有3次正面朝上(即x>=3)的概率是多少?

    你能直接想到的简单方法是:将恰巧有3次,恰巧有4次,恰巧有5次的概率相加,结果便是至少3次,为50%。

    但是如果次数很多,这样的办法简直是给自己挖了一个大大的坑。

    我们用逆向思维换个思路,至少3次正面朝上的反向思考是什么呢?


    反向思路就是最多2次正面朝上。只要我们先计算出最多2次正面朝上的概率p(x<=2),那么至少3次正面朝上的概率就是1-p(x<=2)。

    这样用逆向思维,就把一个复杂的问题,化解为简单的问题。因为求做多2次朝上的概率比较简单:

    p(x<=2)=p(0)+p(1)+p(2)


    最好提下二项分布的:

    期望E(x)=np (表示某事情发生n次,预期成功多少次。)

    知道这个期望有啥用呢?

    做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大约3次你可以抛出正面。

    在比如你之前投资的那5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望E(x)=5*80%=4,也就是预期会有4只股票投资成功帮你赚到钱。


    第2种:几何分布

    其实我一直把几何分布,叫做二项分布的孪生兄弟,因为他两太像了。只有1点不同,就像海尔兄弟只有内裤不同一样。

    我们还是从下面这个套路聊起来一起找出这个不同的“劲爆点”:

    1 . 几何分布有啥用? 2. 如何判断是不是几何分布? 3. 几何分布如何计算概率?


    1.几何分布有啥用?

    如果你需要知道尝试多次能取得第一次成功的概率,则需要几何分布。

    2. 如何判断是不是几何分布?

    只要符合下面4个特点就可以判别你做的事情是就是几何分布了:

    1)做某事件次数(也叫试验次数)是固定的,用n表示
    (例如抛硬币3次,表白5次),
    2)每一次事件都有两个可能的结果(成功,或者失败)
    (例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。
    每一次表白有2个结果:表白成功,表白失败)。
    3)每一次“成功”的概率都是相等的,成功的概率用p表示
    (例如每一次抛硬币正面朝上的概率都是1/2。
    假设你是初出茅庐的小伙子,还不是老油条,所以你表白每一次成功的概率是一样的)
    4)你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大。
    (例如你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是滴1次成功)正面朝上的概率是多大。

    你表白你的暗恋对象,你希望知道要表白3次,心仪对象答应和你手牵手的概率多大。)

    正如你上面看到的,几何分布和二项分布只有第4点,也就是解决问题目的不同。这个点够不够劲爆?(嘻嘻)

    3. 几何分布如何计算概率?

    用下面公式就可以了:

    p为成功概率,即为了在第x次尝试取得第1次成功,首先你要失败(x-1)次。

    假如在表白之前,你计算出即使你尝试表白3次,在最后1次成功的概率还是小于50%,还没有抛硬币的概率高。那你就要考虑换个追求对象。或者首先提升下自己,提高自己每一次表白的概率,比如别让自己的鼻毛长出来。我之前读书的一个师兄,每天鼻毛长出来,看的我都恶心,何况其他人呢。


    几何分布的期望是E(x)=1/p。代表什么意思呢?

    假如你每次表白的成功概率是60%,同时你也符合几何分布的特点,所以期望E(x)=1/p=1/0.6=1.67

    所以你可以期望自己表白1.67次(约等于2次)会成功。这样的期望让你信息倍增,起码你不需要努力上100次才能成功,2次还是能做到的,有必要尝试下。

    几何分布的标准差:

    第3种泊松分布

    还是同样的味道,还是同样的讨论,我们一起通过下面3个问题了解这个泊松分布。

    1. 泊松分布有啥用? 2. 如何判断是不是泊松分布? 3. 泊松分布如何计算概率?


    1. 泊松分布有啥用?

    如果你想知道某个时间范围内,发生某件事情x次的概率是多大。这时候就可以用泊松分布轻松搞定。比如一天内中奖的次数,一个月内某机器损坏的次数等。

    知道这些事情的概率有啥用呢?

    当然是根据概率的大小来做出决策了。比如你搞了个抽奖活动,最后算出来一天内中奖10次的概率都超过了90%,然后你顺便算了下期望,再和你的活动成本比一下,发现要赔不少钱。那这个活动就别搞了。

    泊松分布的形状会随着平均值的不同而有所变化,无论是一周内多少人能赢得彩票,还是每分钟有多少人会打电话到呼叫中心,泊松分布都可以告诉我们它们的概率。




    2. 什么是泊松分布?

    符合以下3个特点就是泊松分布:

    1)事件是独立事件
    (之前如果你看过我的《投资赚钱与概率》已经知道赌徒谬论了,所以类似抽奖这样的就是独立事件)
    2)在任意相同的时间范围内,事件发的概率相同
    (例如1天内中奖概率,与第2天内中间概率相同)
    3)你想知道某个时间范围内,发生某件事情x次的概率是多大
    (例如你搞了个促销抽奖活动,想知道一天内10人中奖的概率)

    用x代表事情发的次数(例如中奖10个人中奖),u代表给定时间范围内事情发生的平均次数(例如你搞的抽奖活动1天平均中奖人数是5人),概率计算公式为:

    可别被上面的公式吓到,数学公式就是纸老虎,现在有很多工具(Excel,Python,R)都可以直接计算出来这个概率,所以也别记住这个公式,用的时候知道泊松分布适合啥时候用就妥了。

    例如你搞了个促销抽奖活动,只知道1天内中奖的平均个数为5个,你想知道1天内恰巧中奖次数为7的概率是多少?

    此时x=7,u=5(区间内发生的平均次数),代入公式求出概率为10.44%。Excel中的函数为POISSON.DIST就可以立马算出来。


    泊松概率还有一个重要性质,它的数学期望和方差相等,都等于u

    1. 什么是概率分布?

    概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。

    2. 概率分布能当饭吃吗?学了对我有啥用?

    下次遇到类似的问题,你就可以直接套用“模板”(这些特殊分布的规律)来求得概率了。

    3.特殊的概率分布有哪些?

    3种离散概率分布,分别代表了解决3种问题的“万能模板”

    二项分布(Binomial distribution)

    符合以下4个特点的就是二项分布

    1)做某件事的次数是固定的。

    2)每一次事件都有两个可能的结果(成功,或者失败)

    3)每一次成功的概率都是相等的

    4)你感兴趣的是成功x次的概率是多少

    案例:

    抛5次硬币,有2次正面朝上的概率是多少

    你买了之前我介绍你的5家公司的股票,假设投资的这5家公司成功的概率都相同,那么你关心其中只要有3个投资成功,你就可以赚翻了,所以想知道成功3次的概率多大。

    几何何分布(Geometric distribution)

    只要符合下面4个特点就可以判别你做的事情是就是几何分布了:

    1)做某事件次数(也叫试验次数)是固定

    2)每一次事件都有两个可能的结果

    3)每一次“成功”的概率都是相等的,成功的概率用p表示

    4)你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大。

    案例:例如你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是滴1次成功)正面朝上的概率是多大。

    表白3次,第3次成功的概率多大

    泊松分布(poisson distribution)

    符合以下3个特点就是泊松分布:

    1)事件是独立事件

    2)在任意相同的时间范围内,事件发的概率相同

    3)你想知道某个时间范围内,发生某件事情x次的概率是多大

    案例:例如你搞了个促销抽奖活动,想知道一天内10人中奖的概率

    例如你是公司质检管理员,想知道一个月内某机器损坏的10次(假如超过10次一句认为不合格)的概率是多少。

    1种连续概率分布:正态分布(Normal distribution)

    这个分布在生活中太有用了,给我一种相见恨晚的“劲爆感”,留着下次聊

    reference

    来自这位大佬,这里主要是为了学习,如有侵权请联系我删除

    展开全文
  • 几种常见的概率密度、数学期望、方差
  • 常见几种概率分布 1 二项分布 所谓的二项式分布就是只有两个可能结果的分布,例如:阴和阳、成功和失败、得到和丢失等,每一次尝试成功或失败的概率相等。如果在实验中成功的概率为0.9,则失败的概率可以很容易地...
  • 阵列天线的几种激励的加权分布,包括傅里叶,泰勒和切比雪夫等
  • 常见几种概率分布

    万次阅读 2017-06-10 18:02:44
    常见几种概率分布
  • 几种常见的概率分布律PPT教案
  • 几种常见的数据分布

    万次阅读 2018-07-17 20:25:21
    学习机器学习算法过程中,少不了概率分布的概念,说起概率分布我的脑中除了正太分布那条线就再也没有其他印象了,这个缺陷使我在推导公式过程中遇到很多坑,也在理解数据特征中错过很多。模型的基线取决于数据的好坏...
  • 研究了两密度函数Kullback-Leibler距离,计算了几种常见分布的Kullback-Leibler距离,得到了几个简单的距离公式。
  • 下面介绍几种常见的概率分布。 离散概率分布 关于期望和方差的计算,说明如下: 首先假设有一个伯努利试验。试验有两个可能的结果:1和0,前者发生的概率为p,后者的概率为1 − p。该试验的期望值等于μ = 1 ·...
  • 针对几种常见分布的总体在均值未知情况下,讨论了总体均值方差的联合经验似然估计,又利用均值的无偏估计量X
  • 随机变量及其分布几种常见分布

    万次阅读 2018-05-27 21:47:09
    符号 ( I ) ...(0-1)分布 ...伯努利试验,二项分布 ...泊松分布 ...几何分布 ...超几何分布 ...均匀分布 ...指数分布 ...正态分布 ...标准正态分布: ...,它们是 两两互不相容 的,故在 n n n 次试验中 A A A 发生 k ...
  • 概率论中的六种常用分布

    万次阅读 2018-09-29 17:54:38
    版权声明:本文为博主原创文章,欢迎转载,请标明出处。... 每天学习一点点: ...概率论中的六种常用分布,即(0-1)分布、二项分布、泊松分布、均匀分布、指数分布和正态分布。 ...
  • 搞清楚了下面的几种分布,在置信区间估计、显著性检验等问题中就会收到事半功倍的效果。come on~! 正态分布:正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望...
  • 11概率分布,你了解个?

    千次阅读 2021-03-31 10:43:33
    点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自:视学算法了解常见的概率分布十分必要,它是概率统计的基石。这是昨天推送的从概率统计到深度...
  • R中的几种统计分布常用模型

    千次阅读 2018-05-04 10:26:49
    简单介绍一下R中的几种统计分布及常用模型 转载自:https://www.cnblogs.com/nxld/p/6060360.html 统计学上分布有很多,在R中基本都有描述。因能力有限,我们就挑选几个常用的、比较重要的简单介绍一下每种分布的...
  • 【补课】【概率论】几种分布概述

    千次阅读 2016-08-10 17:39:42
    正态分布:又名高斯分布。若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。期望值μ决定了其位置,其标准差σ决定了分布的幅度——中轴线所在的位置横坐标为μ,标准差越大则曲线起伏越...
  • 常用的统计学分布总结

    千次阅读 2019-09-30 18:35:53
    伯努利分布(Bernoulli Distribution),是一离散分布,又称为 “0-1 分布” 或 “两点分布”。例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两可能,试验结果相互独立且对立...
  • ----------------------------------------------------------二项分布------------------------------------------------------------------------------------- 一.伯努利概型 定义:在一定条件下进行n次独立...
  • 常见的数学分布

    千次阅读 2018-09-26 10:29:52
    伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布、连续分布(正态分布)、大数定理、中心极限定理、贝叶斯理论 ** 机器学习中常遇到关于各种分布的问题,不过这些知识都已经忘得差不多了,就搜了点资料,...
  • 几种概率分布

    千次阅读 2019-01-09 10:33:03
    转载:... 常见离散概率分布Bernoulli、Binomial、Poisson伯努利分布对单次抛硬币的建模,X~Bernoulli(p)的PDF为随机变量X只能取{0, 1}。对于所有的pdf,都要归一化!而对于伯努利分布,已...
  • 几种常见的概率分布.ppt 概率是对随机事件发生可能性大小的测定。频率与概率都是介于0与1之间的分数,当被研究对象是总体的全部单位时,频率就是概率;当被研究对象是总体的部分单位时,频率就只是试验概率;当...
  • 常用统计量及其常见分布

    千次阅读 2020-05-26 16:04:19
    2. 常用统计量 ①. 样本均值: ②. 样本方差: ③. 修正样本方差: ④. 样本k阶原点矩: ⑤. 样本k阶中心距: 3. 统计量的分布 样本均值的期望与方差 样本方差的期望与方差以及样本均值与样本方差的协方差 ...
  • 常见分布的概率分布及期望方差

    千次阅读 2020-04-07 20:58:01
    文章转载:https://www.jianshu.com/p/c05bafb52877
  • 概率论 随机变量及常用6大分布整理

    千次阅读 2021-06-03 10:42:23
    分布函数 分布函数定义: F(X)=P(X<=x) 离散型随机变量的分布函数: 连续性随机变量的分布函数: 分布函数的性质: 1.非降性 F(x)是一个非递减函数 2.归一性 在x趋向于+∞时,F(x)趋向于1 3右连续性 因为 F(x...
  • 概率论-八种分布

    千次阅读 2020-09-08 15:54:23
    卡方分布 t分布 F分布 样本均值

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 227,962
精华内容 91,184
关键字:

常用的几种分布