泊松分布 订阅
Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。 展开全文
Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
信息
外文名
poisson distribution
时    间
1838年
分    类
数学
期望E(x)
λ
台    译
卜瓦松分布
方差D(x)
λ
中文名
泊松分布
提    出
西莫恩·德尼·泊松
泊松分布命名原因
泊松分布(Poisson distribution),台译卜瓦松分布(法语:loi de Poisson,英语:Poisson distribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,他在1838年时发表。这个分布在更早些时候由贝努里家族的一个人描述过。
收起全文
精华内容
下载资源
问答
  • 泊松分布
    千次阅读
    2021-01-17 09:24:57

    一个故事:你已经做了10年的自由职业者了。到目前为止,你的平均年收入约为8万美元。今年,你觉得自己陷入了困境,决定要达到6位数。要做到这一点,你需要先计算这一令人兴奋的成就发生的概率,但你不知道怎么做。

    在世界上有许多场景,其中存在某个随机事件的已知概率,企业希望发现该事件在未来发生的概率大于或小于这个概率。例如,已经知道自己平均销售额的零售商所有者会试图猜测他们在黑色星期五或双十一等特殊日子能多赚多少钱。这将帮助他们储存更多的产品,并相应地管理他们的员工。

    在这篇文章中,我们将讨论用于模拟上述情况的泊松分布背后的理论,如何理解和使用它的公式,以及如何使用Python代码来模拟它。

    离散型概率分布

    这篇文章假设你对概率有一个基本的了解。在我们开始真正的文章之前,我们将建立一些对离散概率分布的理解。

    首先,让我们定义离散的含义。在描述统计学中,离散数据是通过计数记录或收集的任何数据,即整数。例如考试分数、停车场里的汽车数量、医院里的分娩数量等。

    然后,有一些随机实验会产生离散的结果。例如,抛硬币有两种结果:正面和反面(1和0),掷骰子有6种离散结果,以此类推。如果用一个随机变量X来存储离散实验的可能结果,那么它将具有离散概率分布。

    概率分布记录了随机实验的所有可能结果。

    作为一个简单的例子,让我们来构建一次抛硬币的分布:

    这很容易。如果我们想以编程的方式记录这个分布,它应该是Python列表或Numpy数组的形式:

    然而,你可以想象,对于有许多可能结果的大型实验,用这种方法建立分布并找到概率是不可能的。值得庆幸的是,每个概率分布都有自己的公式来计算任何结果的概率。对于离散概率分布,这些函数称为概率质量函数(PMF)。

    泊松分布

    我们将通过一个案例来开始理解泊松分布。假如你真的很喜欢在医院里看新生儿。根据你的观察和报告,你知道医院平均每小时出生6个新生儿。

    你发现你明天要出差,所以在去机场之前,你想最后一次去医院。因为你要离开好几个月,你想看到尽可能多的新生儿,所以你想知道在起飞前一小时是否有机会见到10个或更多的婴儿。

    如果我们把观察新生儿作为一个随机实验,结果将遵循经典的泊松分布。原因是它满足泊松分布的所有条件:

    有一个已知的事件速率:平均每小时有6个新生儿

    事件是独立发生的:1婴儿的出生并不影响下一个婴儿的出生时间

    已知的出生率随时间是不变的:平均每小时婴儿的数量不随时间变化

    两件事不会在同一时刻发生(每个结果都是离散的)

    泊松分布具有许多重要的业务含义。企业通常使用他来预测某一天的销售额或客户数量,因为他们知道每天的平均价格。做出这样的预测有助于企业在生产、调度或人员配备方面做出更好的决策。例如,库存过多意味着销售活动减少,或者没有足够的商品意味着失去商机。

    简而言之,泊松分布有助于发现事件在固定时间间隔内发生的概率大于或小于已经记录的速率(通常表示为λ(lambda))。

    其概率质量函数为:

    这个公式的字母含义如下:

    1. k是成功的次数(期望发生的次数)
    2. λ是给定的速率
    3. e为欧拉数,e = 2.71828…
    4. k !是k的阶乘吗

    使用这个公式,我们可以求出看到10个新生儿知道平均出生率为6的概率:

    不幸的是,只有大约4%的几率能看到10个孩子。

    我们不会详细讲解这个公式是如何推导出来的,但如果你感兴趣,请观看可汗学院的视频。

    还有一些要点你必须记住。即使有一个已知的速率,它只是一个平均值,所以事件的时间可能是完全随机的。例如,你可以观察两个背靠背出生的婴儿,或者你可能会为下一个婴儿等待半个小时。

    而且,在实践中,λ的速率可能不总是恒定的。这甚至适用于我们的新生儿实验。即使这个条件不成立,我们仍然可以认为分布是泊松分布,因为泊松分布足够接近,可以模拟情况的行为。

    模拟泊松分布

    利用numpy从泊松分布中模拟或抽取样本非常容易。我们首先导入它,并使用它的随机模块进行模拟:

    import numpy as np
    

    从泊松分布中提取样本,我们只需要速率参数λ。我们把它插入np,随机的。泊松函数,并指定样本个数:

    poisson = np.random.poisson(lam=10, size=10000)
    

    这里,我们模拟了一个速率为10的分布,有10k个数据点。为了看到这个分布,我们将绘制其PMF的结果。虽然我们可以手工完成,但已经有一个非常好的包叫empiricaldist,由艾伦·b·唐尼(Allen B. Downey)撰写,他是《ThinkPython》(ThinkPython)和《ThinkStats》(ThinkStats)等著名著作的作者。我们将安装并导入其Pmf函数到我们的环境中:

    from empiricaldist import Pmf  # pip install empiricaldist
    

    Pmf有一个名为from_seq的函数,它接受任何分布并计算Pmf:

    poisson = np.random.poisson(lam=10, size=10000)
    pmf_poisson = Pmf.from_seq(poisson)
    pmf_poisson
    

    回想一下,PMF显示了每个唯一结果的概率,所以在上面的结果中,结果被作为指数和概率下的概率给出。让我们使用matplotlib来绘制它:

    # Create figure and axes objects
    fig, ax = plt.subplots(figsize=(20, 10))
    
    # Plot the PMF
    ax.plot(pmf_poisson, marker='.')  # label each data point with a dot
    
    # Labelling
    ax.set(title='Probability Mass Function of Poisson Distribution',
           ylabel='P (X = x)', xlabel='Number of events')
    
    plt.show();
    

    正如预期的那样,最高的概率是均值(速率参数,λ)。

    现在,让我们假设我们忘记了泊松分布的PMF公式。如果我们做观察新生儿的实验,我们如何求出看到10个新生儿而比率为6的概率呢?

    首先,我们用给定的速率作为参数来模拟完美泊松分布。同时,为了获得更好的精度,我们会绘制大量的样本:

    child_births = np.random.poisson(lam=6, size=1000000)
    

    我们对一个速率为6,长度为100万的分布进行抽样。接下来,我们看看他们中有多少人有10个孩子:

    births_10 = np.sum(child_births == 10)
    
    >>> births_10
    41114
    

    所以,我们在41114个试验中观察了10个婴儿(每个小时可以考虑有一个试验)。然后,我们用这个数除以样本总数:

    >>> births_10 / 1e6
    
    0.041114
    

    如果您回想一下,使用PMF公式,结果是0.0413,我们可以看到我们手工编写的解决方案非常接近。

    结论

    关于泊松分布仍有许多值得探讨的地方。我们讨论了这个词的基本用法及其在商业世界中的含义。泊松分布还有一些有趣的地方比如它和二项分布的关系。

    作者:Bex T.

    https://towardsdatascience.com/how-to-use-poisson-distribution-like-you-know-what-you-are-doing-c095c1e477c1

    界中的含义。泊松分布还有一些有趣的地方比如它和二项分布的关系。

    作者:Bex T.

    deephub翻译组

    更多相关内容
  • 一个非常简单的程序,给出泊松概率 P(m,n),其中 m 是平均结果,n 是一个确定的结果。
  • matlab泊松分布验证代码概率分布比较 该项目是B.Tech三年级概率和随机过程课程的一部分,在该课程中,我试图验证以下近似值并绘制不同概率分布的概率分布函数/概率质量函数以进行比较。 二项分布趋于正态分布 二项...
  • 研究了泊松分布点估计及区间估计,并证明了样本均值是参数λ的优良估计量。利用贝叶斯统计分析方法,在取先验分布为共轭分布的情形下,给出了最大后验密度可信区间,即最短可信区间,并通过实例与经典区间估计进行了比较...
  • 本实验从用MATLAB编程软件模拟了泊松过程,并利用Kolmogorov-Smirnov检验数据是否服从泊松分布
  • 泊松分布仿真程序,生成泊松分布随机序列
  • 一个服从泊松分布的随机变量X,表示在具有比率参数(rate parameter)λ的一段固定时间间隔内,事件发生的次数。参数λ告诉你该事件发生的比率。随机变量X的平均值和方差都是λ。 代码实现: # Poisson分布 x =...
  • 计算带有参数lambda的泊松分布的偏度。 lambda可以是number , array ,typed array或matrix 。 var matrix = require ( 'dstructs-matrix' ) , data , mat , out , i ; out = skewness ( 4 ) ; // returns ~0...
  • 利用产生泊松分布的随机变量的方法发生c语言的泊松分布,再用MATLAB仿真。
  • 用matlab绘制泊松分布Poisson distribution图形
  • 用Python进行泊松分布,代码分析
  • 如何通俗理解泊松分布

    万次阅读 多人点赞 2019-04-12 14:48:40
    鉴于二项分布与泊松分布的关系,可以很自然的得到一个推论,当二项分布的   很小的时候,两者比较接近: 7 总结 这个故事告诉我们,要努力学习啊,要不以后馒头都没得卖。 生活中还有很多泊松分布。...

    1 甜在心馒头店

    公司楼下有家馒头店:

    每天早上六点到十点营业,生意挺好,就是发愁一个事情,应该准备多少个馒头才能既不浪费又能充分供应?

    老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据):

    \begin{array}{c|c} \qquad\qquad&\qquad销售\qquad\\\hline\color{SkyBlue}{周一}& 3 \\ \hline \color{blue}{周二}& 7 \\ \hline \color{orange}{周三}&4\\\hline \color{Goldenrod}{周四}&6\\ \hline \color{green}{周五}&5\\\end{array}\\

    均值为:

    \overline{X}=\frac{3+7+4+6+5}{5}=5\\

    按道理讲均值是不错的选择(参见如何理解最小二乘法?),但是如果每天准备5个馒头的话,从统计表来看,至少有两天不够卖,40\% 的时间不够卖:

    \begin{array}{c|c}\qquad\qquad&\qquad销售\qquad&\quad备货五个\\\hline\color{SkyBlue}{周一}& 3 \\\hline \color{blue}{周二}& 7&\color{red}{不够} \\ \hline \color{orange}{周三}&4\\ \hline \color{Goldenrod}{周四}&6&\color{red}{不够}\\\hline \color{green}{周五}&5\\\end{array}\\

    你“甜在心馒头店”又不是小米,搞什么饥饿营销啊?老板当然也知道这一点,就拿起纸笔来开始思考。

    2 老板的思考

    老板尝试把营业时间抽象为一根线段,把这段时间用 T 来表示:

    然后把周一的三个馒头(“甜在心馒头”,有褶子的馒头)按照销售时间放在线段上:

    把 T 均分为四个时间段:

    此时,在每一个时间段上,要不卖出了(一个)馒头,要不没有卖出:

    在每个时间段,就有点像抛硬币,要不是正面(卖出),要不是反面(没有卖出):

    T 内卖出3个馒头的概率,就和抛了4次硬币(4个时间段),其中3次正面(卖出3个)的概率一样了。

    这样的概率通过二项分布来计算就是:

    \binom{4}{3}p^3(1-p)^1\\

    但是,如果把周二的七个馒头放在线段上,分成四段就不够了:

    从图中看,每个时间段,有卖出3个的,有卖出2个的,有卖出1个的,就不再是单纯的“卖出、没卖出”了。不能套用二项分布了。

    解决这个问题也很简单,把 T 分为20个时间段,那么每个时间段就又变为了抛硬币:

    这样,T 内卖出7个馒头的概率就是(相当于抛了20次硬币,出现7次正面):

    \binom{20}{7}p^7(1-p)^{13}\\

    为了保证在一个时间段内只会发生“卖出、没卖出”,干脆把时间切成 n 份:

    \binom{n}{7}p^7(1-p)^{n-7}\\

    越细越好,用极限来表示:

    \lim_{n\to\infty}\binom{n}{7}p^7(1-p)^{n-7}\\

    更抽象一点,T 时刻内卖出 k 个馒头的概率为:

    \lim_{n\to\infty}\binom{n}{k}p^k(1-p)^{n-k}\\

    3 p 的计算

    “那么”,老板用笔敲了敲桌子,“只剩下一个问题,概率 p 怎么求?”

    在上面的假设下,问题已经被转为了二项分布。二项分布的期望为:

    E(X)=np=\mu\\

    那么:

    p=\frac{\mu}{n}\\

    4 泊松分布

    有了 p=\frac{\mu}{n}了之后,就有:

    \lim_{n\to\infty}\binom{n}{k}p^k(1-p)^{n-k}=\lim_{n\to\infty}\binom{n}{k}\left(\frac{\mu}{n}\right)^k(1-\frac{\mu}{n})^{n-k}\\

    我们来算一下这个极限:

    \begin{align}\lim_{n\to\infty}\binom{n}{k}\left(\frac{\mu}{n}\right)^k(1-\frac{\mu}{n})^{n-k}&= \lim_{n\to\infty}\frac{n(n-1)(n-2)\cdots(n-k+1)}{k!}\frac{\mu^k}{n^k}\left(1-\frac{\mu}{n}\right)^{n-k}\\ &=\lim_{n\to\infty}\frac{\mu^k}{k!}\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}\left(1-\frac{\mu}{n}\right)^{-k}\left(1-\frac{\mu}{n}\right)^n\end{align}\\

    其中:

    \lim_{n\to\infty}\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}\left(1-\frac{\mu}{n}\right)^{-k}=1\\

     

    \lim_{n \to \infty}\left(1-\frac{\mu}{n}\right)^n = e^{-\mu}\\

    所以:

    \lim_{n\to\infty}\binom{n}{k}\left(\frac{\mu}{n}\right)^k(1-\frac{\mu}{n})^{n-k}=\frac{\mu^k}{k!}e^{-\mu}\\

    上面就是泊松分布的概率密度函数,也就是说,在 T 时间内卖出 k 个馒头的概率为:

    P(X=k)=\frac{\mu^k}{k!}e^{-\mu}\\

    一般来说,我们会换一个符号,让 \mu=\lambda ,所以:

    P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\

    这就是教科书中的泊松分布的概率密度函数。

    5 馒头店的问题的解决

    老板依然蹙眉,不知道 \mu 啊?

    没关系,刚才不是计算了样本均值:

    \overline{X}=5\\

    可以用它来近似:

    \overline{X}\approx\mu\\

    于是:

    P(X=k)=\frac{5^k}{k!}e^{-5}\\

    画出概率密度函数的曲线就是:

    可以看到,如果每天准备8个馒头的话,那么足够卖的概率就是把前8个的概率加起来:

    这样 93\% 的情况够用,偶尔卖缺货也有助于品牌形象。

    老板算出一脑门的汗,“那就这么定了!”

    6 二项分布与泊松分布

    鉴于二项分布与泊松分布的关系,可以很自然的得到一个推论,当二项分布的 p 很小的时候,两者比较接近:

    7 总结

    这个故事告诉我们,要努力学习啊,要不以后馒头都没得卖。

    生活中还有很多泊松分布。比如物理中的半衰期,我们只知道物质衰变一半的时间期望是多少,但是因为不确定性原理,我们没有办法知道具体哪个原子会在什么时候衰变?所以可以用泊松分布来计算。

    还有比如交通规划等等问题。

    顺着这个故事我们还可以讲解:如何理解指数分布?

    文章最新版本在(有可能会有后续更新):如何理解泊松分布?

    展开全文
  • 二项分布可以由泊松分布近似:
  • 泊松分布MATLAB代码贝氏体 贝叶斯巫术的大锅,用于念老鼠 全贝叶斯神经解码的沙箱 该代码由卢克·阿伦德(Luke Arend)和伯特利大学(Bethel University)约翰逊实验室的成员维护。 该代码库包含一些实用程序,用于...
  • 将产出的正态分布随机数、瑞丽分布随机数和泊松分布随机数用matlab绘制出相应的分布直方图和理论曲线,便于进一步分析
  • 瑞利&泊松分布.zip

    2019-10-30 11:33:24
    通信系统建模与仿真课程作业,C语言编写的瑞利与泊松分布,运行通过
  • 此 m 文件返回具有泊松参数 P 的泊松分布的偏度、峰态和峰态超量。S、K 和 E 是输入参数的大小。 语法:函数 [s,k,e] = poisskekur(lambda) 输入: lambda - 泊松参数输出: s - 偏度k - 峰态e - 峰度过剩
  • 复合泊松分布的 CDF/PDF 和随机数生成器根据 iid 伽马分布(并且独立于泊松过程)分布的跳跃。
  • 用解析方法导出了单模激光场的Mandel因子,从而给出了产生亚泊松分布的泵浦条件。
  • 泊松分布作为大量试验中稀有事件出现的频数的概率分布的数学模型,它具有很多性质。研究了泊松分布的一些性质,并讨论了这些性质在实际生活中的重要作用。
  • 电力系统规划与可靠性:3 二项分布和泊松分布.ppt
  • 方差 分布。 随机变量的为 其中lambda > 0是平均参数。安装$ npm install distributions-poisson-variance 要在浏览器中使用,请使用 。用法var variance = require ( 'distributions-poisson-variance' ) ;方差...
  • 在给定的泊松样本X1,X2,…,Xn下,研究了泊松分布参数λ的贝叶斯估计问题。在p,q对称损失函数L(λ,δ)=(λ/δ)p+(δ/λ)q-2(p,q∈Z+)下,得到了参数λ的贝叶斯估计的精确形式并讨论了它的可容许性,最后研究了参数λ的...
  • 峰度过高 分布。 随机变量的为 其中lambda > 0是平均参数。安装$ npm install distributions-poisson-ekurtosis 要在浏览器中使用,请使用 。用法var ekurtosis = require ( 'distributions-poisson-ekurtosis' ) ;...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,305
精华内容 7,322
关键字:

泊松分布

友情链接: STATCOM850.rar