精华内容
下载资源
问答
  • f分布
    千次阅读
    2021-07-11 16:45:29


    高斯分布又叫正态分布,是统计学中最重要的连续概率分布。研究表明,在物理科学和经济学中,大量数据的分布通常是服从高斯分布, 所以当我们对数据潜在分布模式不清楚时,可以优先用高斯分布近似或精确描述。

    遵循高斯分布的随机变量是假设在给定范围内的任何值,比如某小学学校学生的身高,它可以取任何值,但是会限制在0到2米范围内,这个限制是根据实际生活中强加的,但是在高斯分布中,没有随机变量这个范围限制,可以扩展到整个实数范围内,最终会得到一个很好的平滑曲线,这样的随机变量被称为连续变量,高斯分布的作用在于给定某个值在特定范围内的概率,它是一种研究误差服从一个什么样的分布。

    高斯分布定义

    高斯分布相关概念在高中数学学到过,估计大家都忘了差不多,先稍微回顾下。

    假设随机变量X服从高斯分布,即
    X ∼ N ( μ , σ 2 ) X\sim N(\mu ,\sigma^{2} ) XN(μ,σ2)
    其概率密度函数为:
    f ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu }{\sigma })^{2}}\\ f(x)=σ2π 1e21(σxμ)2
    其 中 , σ 为 总 体 标 准 差 , μ 为 总 体 均 值 , π 为 3.14159 , e 为 2.71828 其中,\sigma为总体标准差,\mu为总体均值,\\ \pi为3.14159,e为2.71828 σμπ3.14159e2.71828

    在这里插入图片描述
    以上高斯分布曲线取决于两个因素:均值和标准差。分布的均值决定了图形中心的位置,标准差决定了图像的高度和宽度。标准差大时,曲线呈现出“矮胖”,标准差小时,曲线呈现出“高瘦”。因此通过改变均值和标准差,根据其概率密度函数得到不同的高斯分布,如下图所示。
    在这里插入图片描述
    那么高斯分布曲线具有什么样的性质呢?
    ①曲线下的总面积为1
    ②随机变量X等于任何特定值的概率为0
    ③X大于a的概率等于以a为界到正无穷大的曲线下的面积
    ④X小于a的概率等于从负无穷大到以a为界的曲线下的面积

    此外,高斯分布(无论其均值和标准差如何)都符合以下性质
    ①大约 68% 的曲线下面积落在平均值的 1 个标准偏差内
    ②大约 95% 的曲线下面积落在平均值的 2 个标准差内
    ③大约 99.7% 的曲线下面积落在平均值的 3 个标准差内

    这些点统称为经验法则或 68-95-99.7 法则。 显然,给定一个高斯分布,大多数结果将在平均值的 3 个标准偏差内。

    标准形式
    因为改变 μ 和 σ 的效果只是使曲线沿 x 轴移动,或者只是分别加宽或缩小它。 因此,我们可以定义一个新的随机变量 Z 来适应这些变化:
    z = ( x − μ ) / σ z=(x-\mu)/\sigma z=(xμ)/σ
    以上,z称为标准化高斯分布,是高斯分布的一种特例,其中标准的高斯分布的随机变量称为标准分数或者z分数,每个高斯随机变量X可以通过以上等式转换为z-score。就这个标准变量而言,高斯分布可以简化为
    f ( x ) = 1 σ 2 π e − 1 2 z 2 f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}z^{2}} f(x)=σ2π 1e21z2
    这个分布的参数为 μ=0,σ=1,因此Z∼N(0,1)。

    高斯分布意义

    首先举几个小栗子:
    ①在高尔顿钉板实验中,从漏斗形上口掉落的小球会遇上一系列排列成三角形的“钉子”。每当小球从正上方下落到一个“钉子”上时,它总是会有50%的概率跑到左边,50%的概率跑到右边。在经过数次这样随机的“左右选择”之后,小球掉落到下方的格子中。
    最终,格子中小球的数量直观地体现了这一过程的概率分布。小球落入某个格子的概率符合二项分布,而当钉子、格子和小球的数量足够多时,小球的分布会接近高斯分布。
    在这里插入图片描述
    ②再比如,疫情期间隔离为14天,为啥一定是14天?这个数字就是来源于高斯分布;在流行病学中,疾病的潜伏期通常可以用对数高斯分布来近似,对数高斯随机分布都存在一个长尾,尽管长尾部分的概率很小但不是零,如果样本量足够大,长尾部分的小概率事件还是有可能发生的。
    在这里插入图片描述

    ③超市某牛奶为250ml,但是实际过程中肯定会有误差,真实值是服从均值为250ml的高斯分布,但是这里的方差肯定很小,不然会招到顾客投诉;
    ④惊奇的是,智商测试的分数也是服从高斯分布,因此大部分人的智商都是正常的,像爱因斯坦这种聪明绝顶的属于高斯分布的顶尖;
    在这里插入图片描述

    生活中有好多例子都是服从高斯分布 ,那么高斯分布还能做些什么呢?
    答案是能够估算出数据的位置。
    就比如每次考试出题目,好的考卷并不是题目都很容易,或者都很难,它的目的是为了区分人才,因此这里的标准差就起到了很大的作用。

    重点来啦
    以上,现实世界中的现象遵循高斯(或接近高斯)分布,这使研究人员可以使用高斯分布作为评估与现实世界现象相关的概率模型。 通常,分析包括两个步骤。
    Step1:转换原始数据。通常,原始数据不是 z-score的形式,需要使用前面通过转换方程将它们转换为 z-score:z = (X - μ) / σ。
    Step2:寻找概率。将数据转换为z-score后,可以使用标准高斯分布表、在线计算器或手持绘图计算器来查找与 z-score相关的概率。

    高斯分布的概率密度函数推导

    如上所述,高斯分布的概率密度函数为
    f ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu }{\sigma })^{2}} f(x)=σ2π 1e21(σxμ)2
    简化形式为
    f ( x ) = 1 2 π σ e − x 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{x^{2}}{2\sigma ^{2}}} f(x)=2π σ1e2σ2x2
    现对以上公式进行推导。
    假设误差密度函数为f(x),现有n个独立观测值x1,x2,…,xn,真实值为x,则似然估计函数(不懂的快去补基础知识)为:
    L ( x ) = f ( x 1 − x ) ⋅ f ( x 2 − x ) ⋅ ⋅ ⋅ f ( x n − x ) L(x)=f(x_{1}-x)\cdot f(x_{2}-x)\cdot \cdot \cdot f(x_{n}-x) L(x)=f(x1x)f(x2x)f(xnx)
    为了将似然估计函数取得最大值,一般求导,并将导函数等于0,即可求得极值,但是直接求导太麻烦,因此这里会做一个取对数的操作,就是为了方便计算。
    所以,等式两边取对数,则有
    l n L ( x ) = ∑ i = 1 n l n f ( x i − x ) lnL(x)= \sum_{i=1}^{n}lnf(x_{i}-x) lnL(x)=i=1nlnf(xix)
    再对x进行求导,有
    d l n L ( x ) d x = − ∑ i = 1 n f ′ ( x i − x ) f ( x i − x ) = 0 \frac{dlnL(x)}{dx}=-\sum_{i=1}^{n}\frac{f^{'}(x_{i}-x)}{f(x_{i}-x)}=0 dxdlnL(x)=i=1nf(xix)f(xix)=0

    g ( x ) = f ′ ( x ) f ( x ) g(x)=\frac{f^{'}(x)}{f(x)} g(x)=f(x)f(x)

    ∑ i = 1 n g ( x i − x ) = 0 \sum_{i=1}^{n}g(x_{i}-x)=0 i=1ng(xix)=0
    这里,高斯做了一个大胆的假设,认为真实值x的估计为 x ‾ , 其 中 x ‾ = x 1 + x 2 + ⋅ ⋅ ⋅ x n n \overline{x},其中\overline{x}=\frac{x_{1}+x_{2}+\cdot \cdot \cdot x_{n}}{n} xx=nx1+x2+xn
    g ( x 1 − x ˉ ) + g ( x 2 − x ˉ ) + . . . + g ( x n − x ˉ ) = 0 g(x_{1}-\bar{x})+g(x_{2}-\bar{x})+...+g(x_{n}-\bar{x})=0 g(x1xˉ)+g(x2xˉ)+...+g(xnxˉ)=0
    因此对上式x1进行求偏导,得
    g ′ ( x 1 − x ˉ ) ⋅ ( 1 − ∂ x ˉ ∂ x 1 ) + g ′ ( x 2 − x ˉ ) ⋅ ( − ∂ x ˉ ∂ x 1 ) + . . . = 0 g^{'}(x_{1}-\bar{x})\cdot (1-\frac{\partial \bar{x}}{\partial x_{1}})+g^{'}(x_{2}-\bar{x})\cdot (-\frac{\partial \bar{x}}{\partial x_{1}})+...=0 g(x1xˉ)(1x1xˉ)+g(x2xˉ)(x1xˉ)+...=0
    因为
    ∂ x ˉ ∂ x 1 = 1 n \frac{\partial \bar{x}}{\partial x_{1}}=\frac{1}{n} x1xˉ=n1
    同理,分别对x2,x3…xn进行求导,写成矩阵形式为:
    ( 1 − 1 n − 1 n . . . − 1 n − 1 n 1 − 1 n . . . − 1 n ⋮ ⋮ ⋱ ⋮ − 1 n − 1 n ⋯ 1 − 1 n ) ( g ′ ( x 1 − x ˉ ) g ′ ( x 2 − x ˉ ) ⋮ g ′ ( x n − x ˉ ) ) = 0 \begin{pmatrix} 1-\frac{1}{n} & -\frac{1}{n} & ... & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & ... & -\frac{1}{n}\\ \vdots & \vdots &\ddots &\vdots \\ -\frac{1}{n} & -\frac{1}{n} & \cdots & 1-\frac{1}{n} \end{pmatrix}\begin{pmatrix} g^{'}(x_{1}-\bar{x})\\ g^{'}(x_{2}-\bar{x})\\ \vdots \\ g^{'}(x_{n}-\bar{x}) \end{pmatrix}=0 1n1n1n1n11n1n1......n1n11n1g(x1xˉ)g(x2xˉ)g(xnxˉ)=0
    以上为齐次线性方程组,利用齐次线性方程组性质:
    x = c ( 1 , . . . , 1 ) τ x=c\begin{pmatrix} 1,...,1 \end{pmatrix}^{\tau } x=c(1,...,1)τ

    g ′ ( x 1 − x ˉ ) = g ′ ( x 2 − x ˉ ) = ⋯ = g ′ ( x n − x ˉ ) = c g^{'}(x_{1}-\bar{x})=g^{'}(x_{2}-\bar{x})=\cdots =g^{'}(x_{n}-\bar{x})=c g(x1xˉ)=g(x2xˉ)==g(xnxˉ)=c
    则,g(x)=cx+b
    0 = ∑ i = 1 n g ( x i − x ) = ∑ i = 1 n c ( x i − x ) + n b 0=\sum_{i=1}^{n}g(x_{i}-x)=\sum_{i=1}^{n}c(x_{i}-x)+nb 0=i=1ng(xix)=i=1nc(xix)+nb
    所以,b=0
    因为:
    f ′ ( x ) f ( x ) = c x \frac{f^{'}(x)}{f(x)}=cx f(x)f(x)=cx
    根据分离变量求解,得
    f ( x ) = k e 1 2 c x 2 f(x)=ke^{\frac{1}{2}cx^{2}} f(x)=ke21cx2
    由于
    ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty }^{+\infty}f(x)dx=1 +f(x)dx=1
    若要收敛,则c<0

    c = − 1 σ 2 c=-\frac{1}{\sigma ^{2}} c=σ21
    利用
    ∫ − ∞ + ∞ e − x 2 d x = π / 2 ( 需 要 自 证 ) \int_{-\infty }^{+\infty }e^{-x^{2}}dx=\sqrt{\pi }/2(需要自证) +ex2dx=π /2

    k = 1 2 π σ k=\frac{1}{\sqrt{2\pi}\sigma } k=2π σ1
    所以
    f ( x ) = 1 2 π σ e − x 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{x^{2}}{2\sigma ^{2}}} f(x)=2π σ1e2σ2x2

    以上推导两大创新之处:
    ①直接构造极大似然函数
    ②逆向思维,即对真值x的估计

    更多相关内容
  • 概率密度函数都同时作用于多个随机变量的概率分布被称为**联合概率分布**(joint probability distribution),联合概率分布可以看做是一组变量的概率分布,如果需要了解其中一个子集的概率分布,则就是边缘概率分布...

    一、引言

    本文是《人工智能数学基础–概率与统计3:随机变量与概率分布》的后续篇,本文中的公式编号从15开始,前面14个公式请参考人工智能数学基础–概率与统计3:随机变量与概率分布》。

    二、联合分布概念

    2.1、概述

    人工智能数学基础–概率与统计3:随机变量与概率分布》的随机变量分布函数的概念推广到两个或更多个随机变量的情形对应的概率分布就是联合分布。即离散随机变量的概率质量函数和连续随机变量的概率密度函数都可以同时作用于多个随机变量,这种多个随机变量的概率分布被称为联合概率分布(joint probability distribution)。

    考虑两个随机变量的典型情形,它们或者两个都是离散的或者两个都是连续的。至于一个变量是离散的而另一个是连续的情形,则只要适当修改就容易解决,推广为两个以上变量的情形,也能解决。

    2.2、 离散随机变量情形

    若X和Y是两个离散的随机变量,我们用下式来定义X和Y的联合概率函数

    P(X = x,Y= y)=f(x,y)       (13)

    其中:
    (1)、f(x,y)≥0;
    (2)、ΣΣf(x,y)=1,即对概率密度函数基于x和y两个维度叠加求和后的值为1。

    假定X可取m个值x1,x2,…,xm中的任一个,Y可取n个值y1,y2,…,yn中的任一个,则事件X=xj和Y=yk的概率由下式给出:

    P(X= xj,Y=yk)=f(xj,yk)       (14)

    X和Y的联合概率函数可以用表2-3中的联合概率来描述。X=xj的概率可对所有在对应于xj的行上各项相加,用下式得到:
    在这里插入图片描述

    公式(15)中 j=1,2,…,m,该公式对应表2-3的最右边的列或边缘,为每行所有单元小格的和。类似地,Y=yk的概率可对所有在对应于yk的列上各项相加,用下式得到
    在这里插入图片描述

    对k=1,2,…,n,分别对应在表2-3的最下边的行或边缘,表示为各列单元和。由于概率(15)和(16)是从表的边缘得到的,我们常常把f1(xj)和f2(yk)(或简记为f1(x)和f2(y))分别称为X和Y的边缘概率函数(marginal probability function)。也应该注意到
    在这里插入图片描述
    它可以写成
    在这里插入图片描述

    X和Y的联合分布函数由下式定义
    F(x,y)=P(X≤x,Y≤y)=ΣΣf(u,v)    (19)

    在表2-3中,F(x,y)是所有满足工xj≤x和yk≤y的单元小格的总和。

    2.3、 连续情形

    丙个变量都是连续的情形,只要对离散的情形中的求和用积分代替就可类似地得到,因此,随机变量X和Y的联合概率函数(或通常称之为X和Y的联合密度函数)被定义为
    在这里插入图片描述

    x=f(x,y)的图形描绘出一块曲面,称为概率曲面,像图2-4所显示的那样。按上述性质2,界于该曲面与xy平面之间的总体积等于1。

    对于X属于a与b之间而Y属于c与d之间的概率,在几何上,由图2-4中阴影部分的体积给出,在数学上由下式给出:
    在这里插入图片描述

    更一般地,若A 代表任一个事件,对应它的是xy平面上的一个区域RA,在此情形中,我们可用RA上的积分来求A的概率,即:
    在这里插入图片描述

    在该情形中,X和Y的联合分布函数被下式定义:
    在这里插入图片描述
    下列式子与《人工智能数学基础–概率与统计3:随机变量与概率分布》中的(11)式类似:
    在这里插入图片描述

    即密度函数由对分布函数关于x与y求导而得到。

    从(22)式得到:
    在这里插入图片描述

    我们分别称(24)和(25)式为X和Y的边缘分布函数或简称分布函数,则(24)和(25)式关于x和y的导数就称为X和Y的边缘密度函数,或简称密度函数,并用下式给出:
    在这里插入图片描述

    三、小结

    概率密度函数都同时作用于多个随机变量的概率分布被称为联合概率分布(joint probability distribution),联合概率分布可以看做是一组变量的概率分布,如果需要了解其中一个子集的概率分布,则就是边缘概率分布。

    对于离散随机变量,某个子集的边缘概率计算就是将带该子集变量的所有其他子集可能取值求和,对于连续随机变量,则是对该子集变量外的其他子集求积分。

    说明:

    本文内容是老猿学习美版M.R.斯皮格尔等著作的《概率与统计》的总结,有需要高数原教材电子版以及OpenCV、Python基础知识、图像处理原理介绍相关电子资料,或对文章内有有疑问咨询的,请扫博客首页左边二维码加微信公号,根据加微信公号后的自动回复操作。

    更多人工智能数学基础请参考专栏《人工智能数学基础》。

    写博不易,敬请支持:

    如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!

    关于老猿的付费专栏

    1. 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
    2. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
    3. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录
    4. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

    前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。

    对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。

    如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。

    老猿Python,跟老猿学Python!

    ☞ ░ 前往老猿Python博文目录 https://blog.csdn.net/LaoYuanPython

    展开全文
  • 泊松分布和指数分布

    千次阅读 多人点赞 2020-10-05 15:31:26
    日常生活中,大量事件是有固定频率的。 某医院平均每小时出生3个...泊松分布就是描述某段时间内,事件具体的发生概率。 上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量

    一、泊松分布

    1.1 泊松分布的定义

    日常生活中,大量事件是有固定频率的。

    • 某医院平均每小时出生3个婴儿
    • 某公司平均每10分钟接到1个电话
    • 某超市平均每天销售4包xx牌奶粉
    • 某网站平均每分钟有2次访问

    它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

    有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。

    泊松分布就是描述某段时间内,事件具体的发生概率。
    在这里插入图片描述
    上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。

    接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。
    在这里插入图片描述
    接下来一个小时,至少出生两个婴儿的概率是80%。
    在这里插入图片描述
    泊松分布的图形大概是下面的样子。
    在这里插入图片描述
    可以看到,在频率附近,事件的发生概率最高,然后向两边对称下降,即变得越大和越小都不太可能。每小时出生3个婴儿,这是最可能的结果,出生得越多或越少,就越不可能。

    1.2 如何理解泊松分布?

    1.2.1 甜在心馒头店

    公司楼下有家馒头店:
    在这里插入图片描述
    每天早上六点到十点营业,生意挺好,就是发愁一个事情,应该准备多少个馒头才能既不浪费又能充分供应?
    在这里插入图片描述
    你“甜在心馒头店”又不是小米,搞什么饥饿营销啊?老板当然也知道这一点,就拿起纸笔来开始思考。

    1.2.2 老板的思考

    老板尝试把营业时间抽象为一根线段,把这段时间用T来表示:
    在这里插入图片描述
    把T均分为四个时间段:
    在这里插入图片描述
    此时,在每一个时间段上,要不卖出了(一个)馒头,要不没有卖出:
    在这里插入图片描述
    在每个时间段,就有点像抛硬币,要不是正面(卖出),要不是反面(没有卖出)
    T内那么卖出3个馒头的概率,就和抛了4次硬币(4个时间段),其中3次正面(卖出3个)的概率一样了。
    在这里插入图片描述
    在这里插入图片描述

    1.2.3 p的计算

    “那么”,老板用笔敲了敲桌子,“只剩下一个问题,概率p怎么求?”
    在这里插入图片描述

    1.2.4 泊松分布

    在这里插入图片描述

    1.2.5 馒头店的问题的解决

    老板依然蹙眉,不知道 μ \mu μ啊?

    没关系,刚才不是计算了样本均值:

    X ‾ = 5 \overline{X}=5 X=5

    可以用它来近似:

    X ‾ ≈ μ \overline{X}\approx\mu Xμ

    于是:

    P ( X = k ) = 5 k k ! e − 5 P(X=k)=\frac{5^k}{k!}e^{-5} P(X=k)=k!5ke5

    画出概率质量函数的曲线就是:
    在这里插入图片描述
    可以看到,如果每天准备8个馒头的话,那么足够卖的概率就是把前8个的概率加起来:
    在这里插入图片描述
    这样93%的情况够用,偶尔卖缺货也有助于品牌形象。

    老板算出一脑门的汗,“那就这么定了!”

    1.2.6 总结

    这个故事告诉我们,要努力学习啊,要不以后馒头都没得卖。

    生活中还有很多泊松分布。比如物理中的半衰期,我们只知道物质衰变一半的时间期望是多少,但是因为不确定性原理,我们没有办法知道具体哪个原子会在什么时候衰变?所以可以用泊松分布来计算。

    1.3 泊松分布使用范围

    Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数. 即需满足以下四个条件:

    1、给定区域内的特定事件产生的次数,可以是根据时间,长度,面积来定义;

    2、各段相等区域内的特定事件产生的概率是一样的;

    3、各区域内,事件发生的概率是相互独立的;

    4、当给定区域变得非常小时,两次以上事件发生的概率趋向于0。

    例如:

    1、放射性物质在单位时间内的放射次数;
    2、在单位容积充分摇匀的水中的细菌数;
    3、野外单位空间中的某种昆虫数等。

    1.4 泊松分布的期望和方差

    由泊松分布知 E [ N ( t ) − N ( t 0 ) ] = D [ N ( t ) − N ( t 0 ) ] = λ ( t − t 0 ) E[N(t) − N(t_0)] = D[N(t) − N(t_0)] = λ(t − t_0) E[N(t)N(t0)]=D[N(t)N(t0)]=λ(tt0)

    特别的,令 t 0 = 0 t_0=0 t0=0.由于假设 N ( 0 ) = 0 N(0)=0 N(0)=0,故可推知泊松过程的均值函数和方差函数分别为 E [ N ( t ) ] = λ t , D [ N ( t ) ] = λ t E[N(t)] = λt,D[N(t)] = λt E[N(t)]=λt,D[N(t)]=λt,

    泊松过程的强度 λ \lambda λ(常数)等于单位长时间间隔内出现的质点数目的期望值。即对泊松分布有: E ( X ) = D ( X ) = λ E(X) = D(X) = \lambda E(X)=D(X)=λ

    15. 泊松分布的特征

    1、泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量 n n n必须很大。

    2、 λ \lambda λ是泊松分布所依赖的唯一参数。 λ \lambda λ值愈小,分布愈偏倚,随着 λ \lambda λ的增大,分布趋于对称。

    3、当 λ = 20 \lambda= 20 λ=20时,分布泊松接近于正态分布;当 λ = 50 \lambda= 50 λ=50时,可以认为泊松分布呈正态分布。在实际工作中,当时就可以用正态分布来近似地处理泊松分布的问题。

    二、指数分布

    2.1 指数分布的定义

    指数分布是事件的时间间隔的概率。

    下面这些都属于指数分布。

    • 婴儿出生的时间间隔
    • 来电的时间间隔
    • 奶粉销售的时间间隔
    • 网站访问的时间间隔

    指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间 t ,就等同于 t 之内没有任何婴儿出生。
    在这里插入图片描述
    反过来,事件在时间 t 之内发生的概率,就是1减去上面的值。
    在这里插入图片描述
    接下来15分钟,会有婴儿出生的概率是52.76%。
    在这里插入图片描述
    接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%。
    在这里插入图片描述
    指数分布的图形大概是下面的样子。
    在这里插入图片描述
    可以看到,随着间隔时间变长,事件的发生概率急剧下降,呈指数式衰减。想一想,如果每小时平均出生3个婴儿,上面已经算过了,下一个婴儿间隔2小时才出生的概率是0.25%,那么间隔3小时、间隔4小时的概率,是不是更接近于0?

    指指数分布的概率密度为:
    在这里插入图片描述
    式中: x x x是给定的时间; λ \lambda λ为单位时间事件发生的次数; e = 2.71828 e=2.71828 e2.71828

    指数分布概率密度曲线如下图:
    在这里插入图片描述

    2.2 指数分布的特征

    指数分布具有以下特征:

    (1)随机变量 X X X的取值范围是从0到无穷;

    (2)极大值在 x = 0 x=0 x0处,即 f ( x ) = λ f(x)=\lambda f(x)λ

    (3)函数为右偏,且随着 x x x的增大,曲线稳步递减;

    (4)随机变量的期望值和方差为 μ = 1 / λ , σ 2 = 1 / λ 2 \mu=1/\lambda,\sigma^2=1/\lambda^2 μ1/λσ21/λ2

    通过对概率密度函数的积分,就可以得到相应的概率,其表达式有两种

    P ( X ≥ x ) = e − λ x P(X\geq x)=e^{-\lambda x} P(Xx)eλx

    P ( X ≤ x ) = 1 - e − λ x P(X\leq x)=1-e^{-\lambda x} P(Xx)1eλx

    例:某电视机生产厂生产的电视机平均10年出现大的故障,且故障发生的次数服从泊松分布。

    问(1)该电视机使用15年后还没有出现大故障的比例;(2)如果厂家想提供大故障免费维修的质量担保,但不能超过全部产量的20%,试确定提供担保的年数。

    解:

    (1)设X为电视机出现大故障的时间。已知 μ = 10 \mu=10 μ10年,则 λ = 1 / μ = 0.1 \lambda=1/\mu=0.1 λ1/μ0.1,于是, P ( X ≥ x ) = e − λ x = e − 0.1 ∗ 15 ≈ 0.223 P(X≥x)=e^{-λx}=e^{-0.1*15}≈0.223 P(Xx)eλxe0.1150.223。则15年后,没有出现大故障的电视机约占22.3%。

    (2)问题要求比例不超过20%,这是求X的右侧概率面积,现在根据公式确定适当的X值。

    在这里插入图片描述

    从表中可以看到:担保2年时,出现大故障的比例是18.1%,不超过20%。担保3年时,出现大故障的比例为25.9%,已经超过20%。所以,厂家应以2年为担保期。

    三、总结

    一句话总结:泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。

    请注意是”独立事件”,泊松分布和指数分布的前提是,事件之间不能有关联,否则就不能运用上面的公式。

    泊松分布是二项式分布的细分,当n→∞,p非常小的时候。
    在这里插入图片描述

    https://www.matongxue.com/madocs/858/
    http://www.woshipm.com/pmd/163461.html
    https://www.cnblogs.com/think-and-do/p/6483335.html

    展开全文
  • 如何通俗理解泊松分布

    万次阅读 多人点赞 2019-04-12 14:48:40
    鉴于二项分布与泊松分布的关系,可以很自然的得到一个推论,当二项分布的   很小的时候,两者比较接近: 7 总结 这个故事告诉我们,要努力学习啊,要不以后馒头都没得卖。 生活中还有很多泊松分布。...

    1 甜在心馒头店

    公司楼下有家馒头店:

    每天早上六点到十点营业,生意挺好,就是发愁一个事情,应该准备多少个馒头才能既不浪费又能充分供应?

    老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据):

    \begin{array}{c|c} \qquad\qquad&\qquad销售\qquad\\\hline\color{SkyBlue}{周一}& 3 \\ \hline \color{blue}{周二}& 7 \\ \hline \color{orange}{周三}&4\\\hline \color{Goldenrod}{周四}&6\\ \hline \color{green}{周五}&5\\\end{array}\\

    均值为:

    \overline{X}=\frac{3+7+4+6+5}{5}=5\\

    按道理讲均值是不错的选择(参见如何理解最小二乘法?),但是如果每天准备5个馒头的话,从统计表来看,至少有两天不够卖,40\% 的时间不够卖:

    \begin{array}{c|c}\qquad\qquad&\qquad销售\qquad&\quad备货五个\\\hline\color{SkyBlue}{周一}& 3 \\\hline \color{blue}{周二}& 7&\color{red}{不够} \\ \hline \color{orange}{周三}&4\\ \hline \color{Goldenrod}{周四}&6&\color{red}{不够}\\\hline \color{green}{周五}&5\\\end{array}\\

    你“甜在心馒头店”又不是小米,搞什么饥饿营销啊?老板当然也知道这一点,就拿起纸笔来开始思考。

    2 老板的思考

    老板尝试把营业时间抽象为一根线段,把这段时间用 T 来表示:

    然后把周一的三个馒头(“甜在心馒头”,有褶子的馒头)按照销售时间放在线段上:

    把 T 均分为四个时间段:

    此时,在每一个时间段上,要不卖出了(一个)馒头,要不没有卖出:

    在每个时间段,就有点像抛硬币,要不是正面(卖出),要不是反面(没有卖出):

    T 内卖出3个馒头的概率,就和抛了4次硬币(4个时间段),其中3次正面(卖出3个)的概率一样了。

    这样的概率通过二项分布来计算就是:

    \binom{4}{3}p^3(1-p)^1\\

    但是,如果把周二的七个馒头放在线段上,分成四段就不够了:

    从图中看,每个时间段,有卖出3个的,有卖出2个的,有卖出1个的,就不再是单纯的“卖出、没卖出”了。不能套用二项分布了。

    解决这个问题也很简单,把 T 分为20个时间段,那么每个时间段就又变为了抛硬币:

    这样,T 内卖出7个馒头的概率就是(相当于抛了20次硬币,出现7次正面):

    \binom{20}{7}p^7(1-p)^{13}\\

    为了保证在一个时间段内只会发生“卖出、没卖出”,干脆把时间切成 n 份:

    \binom{n}{7}p^7(1-p)^{n-7}\\

    越细越好,用极限来表示:

    \lim_{n\to\infty}\binom{n}{7}p^7(1-p)^{n-7}\\

    更抽象一点,T 时刻内卖出 k 个馒头的概率为:

    \lim_{n\to\infty}\binom{n}{k}p^k(1-p)^{n-k}\\

    3 p 的计算

    “那么”,老板用笔敲了敲桌子,“只剩下一个问题,概率 p 怎么求?”

    在上面的假设下,问题已经被转为了二项分布。二项分布的期望为:

    E(X)=np=\mu\\

    那么:

    p=\frac{\mu}{n}\\

    4 泊松分布

    有了 p=\frac{\mu}{n}了之后,就有:

    \lim_{n\to\infty}\binom{n}{k}p^k(1-p)^{n-k}=\lim_{n\to\infty}\binom{n}{k}\left(\frac{\mu}{n}\right)^k(1-\frac{\mu}{n})^{n-k}\\

    我们来算一下这个极限:

    \begin{align}\lim_{n\to\infty}\binom{n}{k}\left(\frac{\mu}{n}\right)^k(1-\frac{\mu}{n})^{n-k}&= \lim_{n\to\infty}\frac{n(n-1)(n-2)\cdots(n-k+1)}{k!}\frac{\mu^k}{n^k}\left(1-\frac{\mu}{n}\right)^{n-k}\\ &=\lim_{n\to\infty}\frac{\mu^k}{k!}\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}\left(1-\frac{\mu}{n}\right)^{-k}\left(1-\frac{\mu}{n}\right)^n\end{align}\\

    其中:

    \lim_{n\to\infty}\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}\left(1-\frac{\mu}{n}\right)^{-k}=1\\

     

    \lim_{n \to \infty}\left(1-\frac{\mu}{n}\right)^n = e^{-\mu}\\

    所以:

    \lim_{n\to\infty}\binom{n}{k}\left(\frac{\mu}{n}\right)^k(1-\frac{\mu}{n})^{n-k}=\frac{\mu^k}{k!}e^{-\mu}\\

    上面就是泊松分布的概率密度函数,也就是说,在 T 时间内卖出 k 个馒头的概率为:

    P(X=k)=\frac{\mu^k}{k!}e^{-\mu}\\

    一般来说,我们会换一个符号,让 \mu=\lambda ,所以:

    P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\

    这就是教科书中的泊松分布的概率密度函数。

    5 馒头店的问题的解决

    老板依然蹙眉,不知道 \mu 啊?

    没关系,刚才不是计算了样本均值:

    \overline{X}=5\\

    可以用它来近似:

    \overline{X}\approx\mu\\

    于是:

    P(X=k)=\frac{5^k}{k!}e^{-5}\\

    画出概率密度函数的曲线就是:

    可以看到,如果每天准备8个馒头的话,那么足够卖的概率就是把前8个的概率加起来:

    这样 93\% 的情况够用,偶尔卖缺货也有助于品牌形象。

    老板算出一脑门的汗,“那就这么定了!”

    6 二项分布与泊松分布

    鉴于二项分布与泊松分布的关系,可以很自然的得到一个推论,当二项分布的 p 很小的时候,两者比较接近:

    7 总结

    这个故事告诉我们,要努力学习啊,要不以后馒头都没得卖。

    生活中还有很多泊松分布。比如物理中的半衰期,我们只知道物质衰变一半的时间期望是多少,但是因为不确定性原理,我们没有办法知道具体哪个原子会在什么时候衰变?所以可以用泊松分布来计算。

    还有比如交通规划等等问题。

    顺着这个故事我们还可以讲解:如何理解指数分布?

    文章最新版本在(有可能会有后续更新):如何理解泊松分布?

    展开全文
  • 原创 | 一文读懂泊松分布,指数分布和伽马分布

    千次阅读 多人点赞 2021-01-20 17:00:00
    本文约3400字,建议阅读6分钟本文以简单直白的方式让大家能够理解泊松分布,指数分布和伽马分布的实际含义和作用,并且由此推导其概率密度函数。在开始之前,我们需要预习一下二项分布。还是丢硬...
  • 列举MATLAB中一些常见的概率分布
  • 泊松分布

    万次阅读 2020-09-08 10:04:20
    泊松分布定义:如果随机事件A发生的概率是P,进行n次独立试验,恰巧发生了k次,则相应的概率可以用这样一个公式来计算: 在实际事例中,当一个事件以固定的平均速率出现时随机且独立地出现时,那么这个时间在单位...
  • 数据科学分布——泊松分布

    千次阅读 2022-04-20 11:25:57
    泊松分布概念λ的影响产生随机值概率质量函数累积概率密度函数绘制λ 概念 Poisson分布,是一种统计与概率学里常见到的离散概率分布。 现实生活多数服从泊松分布。 泊松分布的概率函数为: 泊松分布的参数λ是单位...
  • 离散型变量 如:二项分布、泊松分布 三者之间的关系 二项分布(Binomial distribution) 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机...
  • 高斯分布和卡方分布

    千次阅读 2019-08-25 12:49:38
    高斯分布和卡方分布高斯分布和卡方分布高斯分布1 单元高斯分布1.1 一维随机变量1.2 标准正太分布1.3 numpy中使用正太分布2 多元高斯分布2.1 独立多元/维高斯分布2.2 举例-画2维独立不相关高斯图2.3 相关系数2.3 举例...
  • 实数上最常用的分布就是正态分布,也称为高斯分布: N(x∣μ,σ2)=12πσ2e−(x−μ)22σ2N(x|\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}N(x∣μ,σ2)=2πσ21​​e−2σ2(x−μ...
  • 有很多统计推断是基于正态分布的假设,以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有显式表达式,它们被称为统计中的“三...
  • 大千世界随机现象众多,其分布各异。按数据变量类型划分可以分为离散型与连续性两类:离散型变量根据名称很好理解,就是数据的取值是不连续的。例如掷硬币就是一个典型的离散数据,因为抛硬币的就2种结果。你可以把...
  • 浅谈两点分布,二项分布,伽马分布,指数分布,泊松分布,卡方分布,t分布,F分布,均匀分布,正态分布,β分布,狄利克雷分布。(红丸子,白丸子,四喜丸子。。。) 我们知道,在数理统计中,经常是和各种分布打...
  • ​常见的8个概率分布公式和可视化

    千次阅读 2022-04-21 10:48:33
    “概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。” 了解数据的分布有助于更好地模拟我们周围的世界。它可以帮助我们确定各种结果的可能性,或估计事件的可变性。所有这些都使得了解不同的概率...
  • 几何分布(一种离散分布

    千次阅读 2022-02-16 10:48:50
    几何分布 几何分布是伯努利分布的推广,不断重复伯努利试验,直到首次成功为止,随机变量XXX表示首次成功时已经完成的试验次数,我们称 XXX 是一个服从几何分布的随机变量 截图来源:Geometric distribution ...
  • 概率密度函数(Probability Density Functions,简称PDF),概率密度函数是概率论里面最...连续型随机变量的分布函数:详解常用的分布函数(均匀分布、指数分布、二项分布、正态(高斯)分布、泊松分布等)。.........
  • 在统计学上,我们会遇到一些常见的分布,除了正态分布外,,如t检验对应的t分布,检验对应的分布,方差分析对应的F分布等。这些分布是统计学的基础,在假设检验、方差分析等领域都起着至关重要的作用。在此,我们对...
  • 伽马分布分布分布函数)

    千次阅读 2021-04-20 11:34:45
    相信很多人对于伽马分布分布分布函数)并不是非常的了解,因此小编在这里为您详解的讲解一下相关信息!卡方(n)~gamma(n/2,1/2) 指数分布exp(k)~gamma(1,k)伽玛分布是统计学中的一种连续概率函数,包含两个参数α...
  • 伯努利分布(Bernoulli Distribution) 又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量...
  • u分布(u分布和t分布)

    千次阅读 2021-01-16 09:24:40
    分别是这样缩写的 B二项分布 binomial distribution P泊松分布 poisson's distribution U均匀分布 uniform distribution E指数分布 exponential distribution N正态分布 .u分布是标准正态分布,是以0为平均值,以1为...
  • 共轭分布(conjugacy):后验概率分布函数与先验概率分布函数具有相同形式 先验概率和后验概率的关系为: p o s t e r i o r = l i k e l i h o o d ∗ p r i o r posterior = likelihood * prior posterior=...
  • 概率分布汇总

    千次阅读 2019-08-29 15:22:26
    概率分布、总体分布、抽样分布,一开始很容易搞混,还以为是同一个理论,不同的概念,毕竟都是分布,又都是统计学里面的概率。今天就来理解理解这个东西吧。 概率分布是指随机变量的各取值与该取值对应的概率之间...
  • 1.指数分布 两种定义: 1. 1λe−x/λ\frac{1}{\lambda}e^{-x/\lambda}λ1​e−x/λ 2. λe−λx\lambda e^{-\lambda x}λe−λx 1.1 指数分布的第一种定义 1.1.1 概率密度函数(PDF) 第一种指数分布的概率密度...
  • 文章目录伯努利分布二项分布多项分布贝塔分布狄利克雷分布高斯分布 伯努利分布 伯努利分布(Bernoulli distribution)又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial)。 伯努利...
  • 正态分布(也称为高斯分布)是统计中最常用的连续分布。正态分布在统计中至关重要,主要有以下三个原因:商业中常见的许多连续变量的分布与正态分布非常相似。正态分布可用于近似各种离散的概率分布。由于正态分布与...
  • T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4...
  • 指数分布,卡方分布和伽马分布

    千次阅读 2021-06-17 16:37:42
    指数分布和卡方分布都是伽马分布的一种特殊情况。 伽马分布 伽马分布一般用符号:X∼Γ(α,β)X\sim \Gamma(\alpha,\beta)X∼Γ(α,β),概率密度函数如下所示。 f(x)={1βαΓ(α)xα−1e−xβ,x>00,x≤0\begin{...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,255,304
精华内容 502,121
关键字:

f分布