精华内容
下载资源
问答
  • 二项分布

    千次阅读 2019-07-06 20:22:59
    二项分布的四个特点: 1. 做某件事的次数是固定的,用n表示 2. 每件事都有两种可能的结果(正面或反面,成功或失败等) 3. 每一次成功的概率都是相等的,用概率p表示 4. 你感兴趣的是成功x次的概率是多少 ...

    二项分布的四个特点:

    1. 做某件事的次数是固定的,用n表示

    2. 每件事都有两种可能的结果(正面或反面,成功或失败等)

    3. 每一次成功的概率都是相等的,用概率p表示

    4. 你感兴趣的是成功x次的概率是多少

     

    二项分布的公式

    p(x)=C_{n}^{x} p^x(1-p)^{n-x}     (成功x次的概率)

     

    二项分布的期望和方差

    期望:E(x)=np(表示某事情发生n次,预期成功了多少次)

    方差:\sigma ^2(x)=np(1-p)

     

    展开全文
  • 离散型变量 如:二项分布、泊松分布 三者之间的关系 二项分布(Binomial distribution) 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机...

    变量类型:

    1. 连续型变量         如:指数分布、正态分布
    2. 离散型变量         如:二项分布、泊松分布

    三者之间的关系

    二项分布(Binomial distribution)

    二项分布(Binomial distribution)n重伯努利试验成功次数的离散概率分布,记作B(n,\pi )伯努利试验是只有两种可能结果的单次随机试验。

    伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等

    • 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
    • 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布,伯努利分布(Bernoulli distribution)又名两点分布或0-1分布。

    二项分布的三个特点:

    • 每次实验结果,只能是两个互斥的结果之一。
    • 各次实验独立,各次的实验结果互不影响。。
    • 相同的实验条件下,每次实验中事件A的发生具有相同的概率\pi

    二项分布的概率函数P(X)可用公式

    P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}

    其中,C_{n}^{X}=\frac{n!}{X!(n-X)!}

    对于任何二项分布,总有\sum_{X=0}^{n}P(X)=1

    例1.如果某地钩虫感染率为13%,随机观察当地150人,其中恰好有10人感染钩虫的概率有多大?

    分析: 
    (1)钩虫感染只有两个互斥的结果,即感染与非感染;
    (2)每个人被钩虫感染的概率相同;
    (3)人与人之间钩虫感染可假设为相互独立的,所以感染钩虫的人数 X 可认为服从 n = 150,π = 0.13的二项分布。

    P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}

    P(X=10)=\frac{150!}{10!(150-10)!}\times (0.13^{10}\times 0.87^{(150-10)})=0.0055

    二项分布的特征

    • n,\pi是二项分布的两个参数,所以二项分布的形状取决于n,\pi(阳性率)。
    • \pi =0.5时分布对称,近似对称分布。
    • \pi ≠0.5时,分布呈偏态,特别是 n 较小时,\pi 偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着n的增大,分布逐渐逼近正态。
    • \pi1-\pi 不太小,而 n足够大,通常 n\pin(1-\pi )大于或等于5,我们常用正态近似的原理来处理二项分布的问题。

    二项分布的正态近似

    • 根据中心极限定理,在n较大,n\pin(1-\pi )均大于或等于5时,二项分布接近与正态分布。
    • n无穷大时,二项分布B(n,\pi)的极限分布是总体均数为\mu =n\pi,总体标准差为\sigma =\sqrt{n\pi (1-\pi )}的正态分布N(n\pi ,n\pi (1-\pi )),此时可用该正态分布进行估计。

    二项分布的均数和标准差

    对于任何一个二项分布B(n,\pi ),如果每次试验出现“阳性” 结果的概率均为\pi,则在 n 次独立重复实验中:

    1、出现  X 次阳性结果

    总体均数(出现阳性结果的次数X的均值):\mu_{X} =n\pi

    标准差(出现阳性结果的次数X的标准差):\sigma_{X} =\sqrt{n\pi (1-\pi )}

    2、阳性结果的频率记做为P=\frac{X}{n}

    P的总体均数(出现阳性结果频率P的均值):\mu_{P} =\pi

    标准差(出现阳性结果频率P的标准差):\sigma_{P} =\sqrt{\frac{\pi (1-\pi )}{n}}

    \sigma_{P}是频率P的标准误,反映阳性频率的抽样误差的大小。

    泊松分布(Poisson distribution)

    泊松分布是二项分布在阳性率特别小时的一种情形,用于描述单位时间、空间、面积等的罕见事件发生次数的概率分布,如:

    • 每毫升水中的大肠杆菌数
    • 单位时间(如1分钟)内放射性质点数
    • 每1000个新生儿中某出生缺陷、多胞胎、染色体异常等事件出现的例数

    泊松分布的三个特点:

    泊松分布是二项分布当中的一种特殊情况,则泊松分布也遵循二项分布的三个特点:

    • 观察结果相互独立
    • 每次试验只有两个结果
    • 发生的概率\pi不变

    如,人群中传染性疾病首例出现后便成为传染源,会增加后续病例出现的概率,因此病例数的分布不能看作是Poisson分布。

    又如,污染的牛奶中细菌成集落存在,单位容量牛奶中细菌数不能认为服从Poisson分布。 

    泊松分布分布一般记作P(\lambda ),其概率函数为: 

    P(X)=e^{-\lambda }\frac{\lambda ^{X}}{X!}

    式中,\lambda=n\pi为Poisson分布的总体均数(\pi表示概率);X 为观察单位内某稀有事件的发生次数;e 为自然对数的底,为常数,约等于2.71828,自然对数的底数e是由一个重要极限给出的:当n趋于无限时,\lim_{n \to +\propto }(1+\frac{1}{n})^n=e

    泊松定理(泊松分布是二项分布当中的一种特殊情况)

    设随机变量X(X=1,2,3,...)服从二项分布,即P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}。其中,\pi(0<\pi <1)是与n有关的数,且设n\pi =\lambda >0是常数,则有\lim_{X \to \propto }P(X)=e^{-\lambda }\frac{\lambda ^{X}}{X!}X=1,2,3,...

    证明:依题设有\pi =\frac{\lambda }{n},代入P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}中,有

    \begin{align}P(X) &=\frac{n(n-1)(n-2)...(n-X+1)}{X!}(\frac{\lambda }{n})^{X}(1-\frac{\lambda }{n})^{n-X} \\&=\frac{\lambda ^{X}}{X!}[\frac{n}{n}\cdot \frac{n-1}{n}\cdot \frac{n-2}{n}...\cdot \frac{n-X+1}{n}]\cdot(1-\frac{\lambda }{n}) ^{n}\cdot(1-\frac{\lambda }{n}) ^{-X} \\&=\frac{\lambda ^{X}}{X!}[1\cdot (1-\frac{1}{n})\cdot(1- \frac{2}{n})...\cdot (1-\frac{X-1}{n})]\cdot(1-\frac{\lambda }{n}) ^{n}\cdot(1-\frac{\lambda }{n}) ^{-X} \end{align}

    对于固定的X,有

    \lim_{n \to +\propto }1\cdot (1-\frac{1}{n})\cdot(1- \frac{2}{n})...\cdot (1-\frac{X-1}{n})=1

    \lim_{n \to +\propto }(1-\frac{\lambda }{n}) ^{n}=\lim_{n \to +\propto }(1-\frac{\lambda }{n}) ^{(-\frac{n}{\lambda })\cdot (-\lambda) }=e^{-\lambda }(根据\lim_{n \to +\propto }(1+\frac{1}{n})^n=e

    \lim_{n \to +\propto }(1-\frac{\lambda }{n}) ^{-X}=1

    所以\lim_{X \to \propto }P(X)=e^{-\lambda }\frac{\lambda ^{X}}{X!}X=1,2,3,...

    可见,二项分布的极限分布是泊松分布,当n很大,\pi很小时,可用e^{-\lambda }\frac{\lambda ^{X}}{X!}近似代替C_{n}^{X}\pi^{X}(1-\pi )^{n-X}(n\pi =\lambda ),一般n\geq 20,\pi \leq 0.05时,可采用上次近似公式代替。

    泊松分布的特征

    • 随着\lambda的增大,Poisson分布逐渐趋于对称分布。
    • \lambda>20时,Poisson分布可视为近似正态分布。

    下图表示出了\lambda对泊松分布的影响,\lambda表示泊松分布的均值。当\lambda变大时,不仅整个分布模式向右移动,数据也更加分散,方差随之变大。

    泊松分布的特性

    • 总体均数与总体方差相等:均为\lambda
    • 可加性:从总体均数分别为\lambda1 和\lambda2 的两个Poisson分布总体中各自随机抽出一份样本,其中稀有事件的发生次数分别为X_{1}X_{2} ,则合计发生数T=X_{1}+X_{2 }也服从Poisson分布,总体均数为\lambda1 +\lambda2 。

    可加性的运用:分5次,每次都是监测5毫升的水样,得到的\lambda都比20小,但是5次\lambda相加的之后形成的\lambda比20大的话,我们就可以10毫升水样当中的细菌数的分布用正态近似法了

    例:某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为  360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。

    \begin{align} P(X>400) & = 1-P(X\leq 400)\approx 1-\Phi (\frac{400+0.5-360}{\sqrt{360}}) \\ & = 1-\Phi(2.135)=0.0164 \end{align}

    其中,0.5表示连续型校正,表示处理离散型变量,应用到连续型的正态分布的时候,效果更佳的一种修正。

    注意:泊松分布不具备可乘性。

    指数分布

    设随机变量X的分布密度函数为

    f(x)=\left\{\begin{matrix} \lambda e^{-\lambda x},x>0\\ 0,x\leq 0 \end{matrix}\right.

    其中\lambda >0为常数,我们称X服从参数为\lambda的指数分布,记作X\sim E(\lambda ),其相应的分布函数为

    F(x)=\left\{\begin{matrix} 1-e^{-\lambda x},x>0 \\ 0,x\leq 0 \end{matrix}\right.

    f(x)F(x)的图形见下图。

    指数分布的特性

    • 总体均数E(X)=\frac{1}{\lambda},总体方差D(X)=\frac{1}{\lambda ^{2}}

    指数分布通常用作各种“寿命”的分布。例如,无线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有广泛的应用。

    例、某电子元件的使用寿命X是一个连续型随机变量,其概率密度为

    f(x)=\left\{\begin{matrix} k e^{-\frac{x}{100}},x>0\\ 0,x\leq 0 \end{matrix}\right.

    (1)确定常数k

    (2)求寿命超过100小时的概率

    (3)已知该元件已经正常使用200小时,求它至少还能正常使用100小时的概率。

    解:

    (1)由概率密度函数性质2知

    \int_{0}^{+\propto }ke^{-\frac{x}{100}}dx=[-100ke^{-\frac{x}{100}}]|_{0}^{+\propto}=100k=1,得k=0.01

    (2)寿命超过100小时的概率为

    P(X>100)=1-F(100)=1-(1-e^{-0.01\times 100})=e^{-1}\approx 0.3679

    (3)条件概率

    \begin{align} P(X>300|X>200) &=\frac{P(X>300,X>200)}{P(X>200)}\\&=\frac{P(X>300)}{P(X>200)}\\&=\frac{e^{-3}}{e^{-2}}=e^{-1}\approx 0.3679 \end{align}

    由(2),(3)可知,该元件寿命超过100小时的概率等于已使用200小时的条件下至少还能使用100小时的概率,这个性质称为指数分布的“无记忆性”。

    若随机变量X对任意的s>0,t>0都有P(X>s+t|X>s)=P(X>t),则称X的分布具有无记忆性。

    因此,指数分布具有无记忆性,若某元件或动物的寿命服从指数分布,则上式表明,如果已知寿命长于s年,则再“活”t年的概率与s无关,即对过去的s时间没有记忆,也就是说只要在某时刻s仍“活”着,它的剩余寿命的分布和原来的寿命分布相同,所以人们也戏称指数分布是“永远年轻的”。

    正态分布(Normal distribution)

    正态分布的概率密度函数(即纵向的曲线高度)

    f(X)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}-\infty < X< +\infty

    \sigma规定了曲线的形状,\mu反应了其在横轴上的位置不同。

    正态分布的特征

    • 关于x=\mu对称,即正态分布以均数为中心,左右对称。
    • x=\mu处取得概率密度函数的最大值,在x=\mu\pm \sigma处有拐点,表现为 钟形曲线。即正态曲线在横轴上方均数处最高。
    • 正态分布有两个参数,即均数\mu和标准差\sigma\mu是位置参数,\sigma是变异度参数(形状参数)。常用N(\mu ,\sigma ^{2})表示均数为\mu,标准差为\sigma的正态分布;用N(0 ,1)表示标准正态分布。
    • 正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于1(也常写作100%)。

    正态方程的积分式(概率分布函数):

    概率分布函数即为正态概率密度曲线下的面积 。

    F(X)=\frac{1}{\sigma \sqrt{2\pi }}\int_{-\infty }^{X}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}dX

    F(X)为正态变量X的累计分布函数,反映正态曲线下,横轴尺度自-\inftyX的面积,即下侧累计面积。

    标准正态分布

    均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布

    对于任意一个服从正态分布N(\mu ,\sigma ^{2})的随机变量,可作如下的标准化变换,也称Z(z-score)变换

    其中,Z=\frac{X-\mu }{\sigma },标准正态分布的概率密度函数:f(Z)=\frac{1}{\sqrt{2\pi }}e^{-\frac{Z^{2}}{2}}

    标准正态分布方程积分式(概率分布函数):

    \Phi (Z)=\frac{1}{2\pi }\int_{-\infty }^{Z}e^{-\frac{Z^{2}}{2}}dZ

    \Phi (Z)为标准正态变量Z的累计分布函数,反映标准正态曲线下,横轴尺度自-\inftyZ的面积,即下侧累计面积,如下图所示。 

    标准正态分布表

    用查表代替计算必须注意:

    • 表中曲线下面积为-\inftyZ的面积。
    • \mu,\sigmaX已知时,先求出Z值, Z=\frac{X-\mu }{\sigma },再用Z值查表,得所求区间占总面积的比例。
    • \mu\sigma未知时,要用样本均数\overline{X}和样本标准差S来估计Z值,Z=\frac{X-\overline{X} }{S}
    • 曲线下对称于0的区间,面积相等。 
    • 曲线下横轴上的面积为1 (即100% )。

    正态分布是一种对称分布,其对称轴为直线X=\mu,即均数位置。

    理论上:

    • \mu \pm 1\sigma范围内曲线下的面积占总面积的68.27%
    • \mu \pm 1.96\sigma范围内曲线下的面积占总面积的95%
    • \mu \pm 2.58\sigma范围内曲线下的面积占总面积的99% 

    实际上:

    • \overline{X} \pm 1S范围内曲线下的面积占总面积的68.27%
    • \overline{X} \pm 1.96S范围内曲线下的面积占总面积的95%
    • \overline{X} \pm 2.58 S范围内曲线下的面积占总面积的99% 

    实际应用中,我们一般将1.96看似成2,2.58看似成3。

    标准正态分布的\mu=0,\sigma=1,则 

    • \mu \pm 1\sigma相当于区间(­1,1)
    • \mu \pm 1.96\sigma相当于区间(­1.96,1.96)
    • \mu \pm 2.58\sigma相当于区间(­2.58,2.58)
    • 区间(­1,1)的面积:1-2\Phi (-1)=1­-2×0.1587=0.6826=68.26% 
    • 区间(­1.96,1.96)的面积:1-2\Phi (-1.96 )=1­-2×0.0250=0.9500=95.00%
    • 区间(­2.58,2.58)的面积:1-2\Phi (-2.58)=1­-2×0.0049=0.9902=99.02% 

    例: 已知某地1986年120名8岁男童身高均数 \overline{X}=123.02cmS=4.79cm,估计(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高界于120cm~128cm者占该地8岁男孩总数的比例;(3)该地80%男孩身高集中在哪个范围?

    (1)先做标准化转换:

    Z=\frac{X-\overline{X} }{S}=\frac{130-123.02}{4.79}=1.46

    \Phi (-Z)=\Phi (-1.46)=0.0721         根据标准正态分布的对称性

    理论上该地8岁男孩身高在130 cm以上者占该地8岁男孩总数的7.21%。

    (2)

    Z_{1}=\frac{X_{1}-\overline{X} }{S}=\frac{120-123.02}{4.79}=-0.63      \Phi (Z_{1})=\Phi (-0.63)=0.2643

    Z_{2}=\frac{X_{2}-\overline{X} }{S}=\frac{128-123.02}{4.79}=1.04         \Phi (Z_{2})=1-\Phi (-1.04)=0.8508

    \Phi (Z_{2})-\Phi (Z_{1})=0.8508-0.2643=0.5865

    (3)

    查标准正态分布界值表,标准正态分布曲线下左侧面积为0.10所对应的Z值为­1.28,所以80%的8岁男孩身高值集中在\overline{X} \pm 1.28S区间内,即116.9cm~129.2cm

    正态分布的应用

    制定参考值范围的步骤:

    • 选择足够数量的正常人作为调查对象。
    • 样本含量足够大。
    • 确定取单侧还是取双侧正常值范围。

    有些指标过高过低都是异常的,我们需要制定双侧的正常值范围

    有些指标过低才是异常的,比如肺活量,我们只要制定单侧的正常值范围

    • 选择适当的百分界限。

    在实际操作当中,我们一般将正常人中的5%排除在外,计算95%参考值范围。

    • 选择适当的计算方法。

    正态近似法:适用于正态分布或近似正态分布的资料。

    例1  某地调查120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L  ,试估计该地正常女性血红蛋白的95%医学参考值范围。

    分析:正常人的血红蛋白过高过低均为异常,要制定双侧正常值范围。

     \overline{X} \pm 1.96S=117.4\pm 1.96\times 10.2 = 97.41\sim 137.39

    该指标的95%医学参考值范围为97.41~137.39(g/L) 

    百分位数法:适用于偏态分布资料。 

    例2 某年某市调查了200例正常成人血铅含量(μg/100g)  如下,试估计该市成人血铅含量的95%医学参考值范围。

    分析:血铅的分布为偏峰分布,且血铅含量只以过高为异常,要用百分位数法制定单侧上限。

    P_{95}=L+\frac{i}{f_{x}}(n\cdot x \%-\sum f_{L})=38+\frac{5}{7}(200\times 95\%-189)=38.7\mu g /100g

     

     

     

    展开全文
  • 几何分布和二项分布有什么区别?

    万次阅读 多人点赞 2018-09-16 13:19:07
    各种常见的分布中,二项分布和几何分布经常同时出现,在前面讲泊松分布的时候也简单提到了二项分布。那么,几何分布是什么分布?和二项分布又有什么区别? 几何分布 讲泊松分布的时候提到,二项分布的概率公式如下...

    ● 每周一言

    越长大越渺小。

    导语

    各种常见的分布中,二项分布和几何分布经常同时出现,在前面讲泊松分布的时候也简单提到了二项分布。那么,几何分布是什么分布?和二项分布有什么区别?

    几何分布

    讲泊松分布的时候提到,二项分布的概率公式如下:

    P=Ckn×pk×(1p)nk P = C n k × p k × ( 1 − p ) n − k

    这里不妨进一步明确一下适用于二项分布的条件,一共有三个。

    fig1

    其一,某个事件发生的次数(或者实验次数)有限且固定,用n表示。比如抛十次硬币。

    其二,事件每次发生(或者实验)的结果有且只有两种(成功或失败),其中一种结果的概率为p,另一种则是1-p。比如硬币正面朝上的概率是p,翻面朝上则是1-p。

    其三,事件每次发生(或者实验),出现相同结果的概率相等。比如每次抛硬币相同面朝上的概率是一样的。

    fig2

    大家知道,抛硬币实验是最经典的二项分布实验,一般是求n次抛硬币实验中有k(k ≤ n)次正面朝上的概率。而几何分布和二项分布很像,所适用的条件和二项分布也一样,不过其计算更为简单。

    与二项分布关心的“n次实验k次成功的概率”不同,几何分布关心的是,事件发生(或者实验)n次中,在第x次取得成功的概率。其发生的概率P为:

    P=(1p)x1×p P = ( 1 − p ) x − 1 × p

    fig3

    这个便是几何分布公式,几何分布公式的数学期望 μ = 1/p。和二项分布一样,几何分布也是一种离散概率分布。

    以上便是几何分布和二项分布的区别,敬请期待下节内容。

    结语

    感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

    face

    展开全文
  • 以上这些的特点都是:条件相同、独立重复性试验、发生或者不发生、发生的概率相同 例子: 投掷一枚图钉,设针尖向上的概率为p, 则针尖向下的概率为q = 1 - p. 连续投掷一枚图钉3次,仅出现1次针尖向上的概率是多少?...

    概率试验

    • 1.投掷一个骰子投掷5次
    • 2.某人射击1次,击中目标的概率是0.8, 他射击10次;
    • 3.一个盒子中装有5个球(3红2白),有放回依次从中抽取5个球
    • 4.生产一种零件,出现次品的概率是0.04,生产这种零件4件

    以上这些的特点都是:

    • 条件相同
    • 独立重复性试验
    • 发生或者不发生
    • 发生的概率相同

    例子

    投掷一枚图钉,设针尖向上的概率为p, 则针尖向下的概率为q = 1 - p. 连续投掷一枚图钉3次,仅出现1次针尖向上的概率是多少?

    分析:这是一个条件相同,独立重复性试验: P = C 3 1 p q 2 = 3 p q 2 P = C_3^1 p q^2 = 3 p q^2 P=C31pq2=3pq2

    扩展:如果连续投3次图钉,出现k(0 <= k <= 3)次针尖向上的概率是多少?

    • 出现0次: P ( B 0 ) = P ( A 1 ˉ A 2 ˉ A 3 ˉ ) = q 3 P(B_0) = P(\bar{A_1} \bar{A_2} \bar{A_3}) = q^3 P(B0)=P(A1ˉA2ˉA3ˉ)=q3
    • 出现1次: P ( B 1 ) = P ( A 1 A 2 ˉ A 3 ˉ ) + P ( A 1 ˉ A 2 A 3 ˉ ) + P ( A 1 ˉ A 2 ˉ A 3 ) = 3 q 2 p P(B_1) = P(A_1\bar{A_2}\bar{A_3}) + P(\bar{A_1}A_2\bar{A_3}) + P(\bar{A_1}\bar{A_2}A_3) = 3q^2p P(B1)=P(A1A2ˉA3ˉ)+P(A1ˉA2A3ˉ)+P(A1ˉA2ˉA3)=3q2p
    • 出现2次: P ( B 2 ) = P ( A 1 A 2 A 3 ˉ ) + P ( A 1 ˉ A 2 A 3 ) + P ( A 1 A 2 ˉ A 3 ) = 3 q p 2 P(B_2) = P(A_1A_2\bar{A_3}) + P(\bar{A_1}A_2A_3) + P(A_1\bar{A_2}A_3) = 3qp^2 P(B2)=P(A1A2A3ˉ)+P(A1ˉA2A3)+P(A1A2ˉA3)=3qp2
    • 出现3次: P ( A 1 A 2 A 3 ) = p 3 P(A_1A_2A_3) = p^3 P(A1A2A3)=p3
    • 总结: P ( B k ) = C 3 k p k q 3 − k , k = 0 , 1 , 2 , 3 P(B_k) = C_3^kp^kq^{3-k}, k=0,1,2,3 P(Bk)=C3kpkq3k,k=0,1,2,3

    伯努利分布

    • 伯努利分布(Bernoulli distribution) 又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial)
    • 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:伯努利试验都可以表达为"是或否"的问题
    • 例如:抛一次硬币是正面朝上吗?刚出生的孩子是男孩吗?等
    • 如果试验E是一个伯努利试验,将E独立重复进行n次,则称这一串重复的独立试验为n重伯努利试验
    • 进行一次伯努利试验,成功(X=1)概率为p(0 <= p <= 1), 失败(X=0)概率为1-p,则称随机变量X服从伯努利分布,伯努利分布是离散型概率分布

    二项分布

    • 在n次独立重复试验中,设事件A发生的次数是X, 且在每次试验中事件A发生的概率是p, 那么事件A恰好发生k次的概率是 P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . , n P(X=k) = C_n^kp^k(1-p)^{n-k}, k = 0, 1, 2, ..., n P(X=k)=Cnkpk(1p)nk,k=0,1,2,...,n
    • 于是得到随机变量X的概率分布如下:q = 1 - p
      • X: 0, 1, …, k, …, n
      • p: C n 0 p 0 q n , C n 1 p 1 q n − 1 , . . . , C n k p k q n − k , . . . , C n n p n q 0 C_n^0p^0q^n, C_n^1p^1q^{n-1}, ..., C_n^kp^kq^{n-k}, ..., C_n^np^nq^0 Cn0p0qn,Cn1p1qn1,...,Cnkpkqnk,...,Cnnpnq0
      • 此时我们称随机变量X服从二项分布,记为: X ∼ B ( n , p ) X \sim B(n,p) XB(n,p) 其中p为成功概率
      • ∑ k = 0 n C n k p k ( 1 − p ) n − k = 1 \sum_{k=0}^n C_n^kp^k(1-p)^{n-k} = 1 k=0nCnkpk(1p)nk=1 全概率 求和是必然事件,概率为1

    案例1

    • 某射手每次射击击中目标的概率是0.8, 求这名射手在10次射击中
    • (1) 恰好有8次击中目标的概率
    • (2) 至少有8次击中目标的概率

    分析:

    • (0) p = 0.8 , 1 − p = 0.2 , n = 10 p=0.8, 1 - p = 0.2, n = 10 p=0.8,1p=0.2,n=10
    • (1) C 1 0 8 p 8 ( 1 − p ) 2 C_10^8p^8(1-p)^2 C108p8(1p)2
    • (2) p ( 8 ) + p ( 9 ) + p ( 10 ) = C 10 8 p 8 ( 1 − p ) 2 + C 10 9 p 9 ( 1 − p ) + C 10 10 p 10 p(8)+p(9)+p(10) = C_{10}^8p^8(1-p)^2 + C_{10}^9p^9(1-p) + C_{10}^{10}p^{10} p(8)+p(9)+p(10)=C108p8(1p)2+C109p9(1p)+C1010p10
    • 将(0)带入(1)、(2) 得到最终的解

    案例2

    • 设一个射手平均每设计10次中靶4次,求在5次射击中
    • (1)击中1次
    • (2)第二次击中
    • (3)击中两次
    • (4)第二、三两次击中
    • (5)至少击中一次
    • 求以上的概率

    分析:

    • 由题意:射手射击1次,中靶的概率是0.4
    • (1) n=5, k=1, 则 P ( X = 1 ) = C 5 1 p ( 1 − p ) 4 P(X = 1) = C_5^1p(1-p)^4 P(X=1)=C51p(1p)4
    • (2) 第二次击中和其他几次击中没有任何关系,也就是他一次击中的概率即为0.4
    • (3) n=5, k=2, 则 P ( X = 2 ) = C 5 2 p ( 1 − p ) 3 P(X = 2) = C_5^2p(1-p)^3 P(X=2)=C52p(1p)3
    • (4) 只和第2,3次有关和其他无关,则概率为0.4*0.4
    • (5) 有两种方法,正面求解相加,也可以从反面来推,推荐从反面求解,【1 - 没有击中一次的概率】: 1 − C 5 0 p 0 ( 1 − p ) 5 1 - C_5^0p^0(1-p)^5 1C50p0(1p)5

    二项式定理

    • 二项展开公式 ( a + b ) n = C n 0 a n + C n 1 a n − 1 b + C n 2 a n − 2 b 2 + . . . + C n r a n − r b r + . . . + C n n b n    ( n ∈ N + ) (a+b)^n = C_n^0a^n + C_n^1a^{n-1}b + C_n^2a^{n-2}b^2 + ... + C_n^ra^{n-r}b^r + ... + C_n^nb^n \ \ (n \in N_+) (a+b)n=Cn0an+Cn1an1b+Cn2an2b2+...+Cnranrbr+...+Cnnbn  (nN+)

    • 二项展开式的通项公式: T r + 1 = C n r a n − r b r      ( 0 ≤ r ≤ n , r ∈ N , n ∈ N + ) T_{r+1} = C_n^ra^{n-r}b^r \ \ \ \ (0 \leq r \leq n , r \in N, n \in N_+) Tr+1=Cnranrbr    (0rn,rN,nN+), 主要用来求指定的项

    • 项的系数与二项式系数

      • 项的系数与二项式系数是不同的两个概念,但当二项式的两个项的系数都为1时,系数就是二项式系数,如
      • ( a x + b ) n (ax+b)^n (ax+b)n的展开式中,第r+1项的二项式系数为 C n r C_n^r Cnr
      • 第r+1项的系数为 C n r a n − r b r C_n^ra^{n-r}b^r Cnranrbr
      • ( x + 1 x ) n (x+\frac{1}{x})^n (x+x1)n的展开式中的系数等于二项式系数
      • 二项式系数是组合数,一定为正的;而项的系数不一定为正的
    • ( 1 + x ) n (1+x)^n (1+x)n的展开式: ( 1 + x ) n = C n 0 x n + C n 1 x n − 1 + C n 2 x n − 2 + . . . + C n n x 0 (1+x)^n = C_n^0x^n + C_n^1x^{n-1} + C_n^2x^{n-2} + ... + C_n^nx^0 (1+x)n=Cn0xn+Cn1xn1+Cn2xn2+...+Cnnx0

      • 若令x=1, 则有: ( 1 + 1 ) n = 2 n = C n 0 + C n 1 + C n 2 + . . . + C n n (1+1)^n = 2^n = C_n^0 + C_n^1 + C_n^2+ ... + C_n^n (1+1)n=2n=Cn0+Cn1+Cn2+...+Cnn
      • 二项式奇数项系数的和等于二项式偶数项系数的和.
      • 即: C n 0 + C n 2 + . . . = C n 1 + C n 3 + . . . = 2 n − 1 C_n^0 + C_n^2 + ... = C_n^1 + C_n^3 + ... = 2^{n-1} Cn0+Cn2+...=Cn1+Cn3+...=2n1
    • 二项式系数的性质

      • 对称性: 与首末两端"等距离"的两个二项式系数相等,即 C n m = C n n − m C_n^m = C_n^{n-m} Cnm=Cnnm
      • 增减性与最大值
        • r ≤ n + 1 2 r \leq \frac{n+1}{2} r2n+1时,二项式系数 C n r C_n^r Cnr的值逐渐增大,当 r ≥ n + 1 2 r \geq \frac{n+1}{2} r2n+1时, C n r C_n^r Cnr的值逐渐减少,且在中间取得最大值
        • 当n为偶数时,中间一项(第 n 2 + 1 \frac{n}{2} + 1 2n+1项)的二项式系数 C n n 2 C_n^{\frac{n}{2}} Cn2n取得最大值
        • 当n为奇数时,中间两项(第 n + 1 2 \frac{n+1}{2} 2n+1和第 n + 1 2 + 1 \frac{n+1}{2} + 1 2n+1+1项)的二项式系数 C n n − 1 2 = C n n + 1 2 C_n^{\frac{n-1}{2}} = C_n^{\frac{n+1}{2}} Cn2n1=Cn2n+1相等并同时取最大值
    • 系数最大项的求法

      • 设第r项的系数 A r A_r Ar最大,由不等式组 { A r ≥ A r − 1 A r ≥ A r + 1 \left\{\begin{aligned}A_r \geq A_{r-1} \\A_r \geq A_{r+1}\end{aligned}\right. {ArAr1ArAr+1可确定r
    • 赋值法

      • ( a x + b ) n = a 0 + a 1 x + a 2 x 2 + . . . + a n x n (ax+b)^n = a_0 + a_1x + a_2x^2 + ... + a_nx^n (ax+b)n=a0+a1x+a2x2+...+anxn, 则设 f ( x ) = ( a x + b ) n f(x) = (ax+b)^n f(x)=(ax+b)n, 有
      • a 0 = f ( 0 ) a_0 = f(0) a0=f(0)
      • a 0 + a 1 + a 2 + . . . + a n = f ( 1 ) a_0 + a_1 + a_2 + ... + a_n = f(1) a0+a1+a2+...+an=f(1)
      • a 0 − a 1 + a 2 − a 3 + . . . + ( − 1 ) n a n = f ( − 1 ) a_0 - a_1 + a_2 - a_3 + ... + (-1)^na_n = f(-1) a0a1+a2a3+...+(1)nan=f(1)
      • a 0 + a 2 + a 4 + a 6 + . . . = f ( 1 ) + f ( − 1 ) 2 a_0 + a_2 + a_4 + a_6 + ... = \frac{f(1) + f(-1)}{2} a0+a2+a4+a6+...=2f(1)+f(1)
      • a 1 + a 3 + a 5 + a 7 + . . . = f ( 1 ) − f ( − 1 ) 2 a_1 + a_3 + a_5 + a_7 + ... = \frac{f(1) - f(-1)}{2} a1+a3+a5+a7+...=2f(1)f(1)

    从二项分布到二项式定理

    1) 二项式定理公式

    • ( a + b ) n = C n 0 a n b 0 + C n 1 a n − 1 b 1 + . . . + C n r a n − r b r + . . . + C n n b n a 0 = ∑ r = 0 n C n r a n − r b r (a+b)^n = C_n^0a^nb^0 + C_n^1a^{n-1}b^1 + ... + C_n^ra^{n-r}b^r + ... + C_n^nb^na^0 = \sum_{r=0}^n C_n^ra^{n-r}b^r (a+b)n=Cn0anb0+Cn1an1b1+...+Cnranrbr+...+Cnnbna0=r=0nCnranrbr
    • 写成p,q的形式为: ( p + q ) n = C n 0 p n q 0 + C n 1 p n − 1 q 1 + . . . + C n r p n − r q r + . . . + C n n p n q 0 (p+q)^n = C_n^0p^nq^0 + C_n^1p^{n-1}q^1 + ... + C_n^rp^{n-r}q^r + ... + C_n^np^nq^0 (p+q)n=Cn0pnq0+Cn1pn1q1+...+Cnrpnrqr+...+Cnnpnq0

    2 ) 二项分布与二项式定理之间的联系

    • 二项分布对应二项式定理的每一项
    • 二项分布的概率求和是二项式定理的一个特殊情况,也就是 p + q = 1 p + q = 1 p+q=1的情况

    二项分布与两点分布之间的关系

    案例分析

    • 篮球比赛,每次罚球命中得1分,不中得0分,某篮球运动员罚球命中率为0.7,在某次比赛中他一共罚球20次,则
    • (1) 他一次罚球的得分服从两点分布
    • (2) 在这次比赛中,命中次数X服从二项分布即 X ∼ B ( 20 , 0.7 ) X \sim B(20, 0.7) XB(20,0.7)

    总结

    • 两点分布:在一次试验中,事件A出现的概率为p,事件A不出现的概率为q=1-p,若以X记一次试验中A出现的次数,则X仅取0、1两个值。两点分布就是0-1分布, 是特殊的二项分布, 只是不同的叫法,也是试验次数为1的伯努利试验。 X ∼ B ( 1 , p ) X \sim B(1,p) XB(1,p)
    • 二项分布:是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变, 是试验次数为n次的伯努利试验。
    • 两点分布是一种特殊的二项分布,n=1, p=p

    二项分布与超几何分布之间的关系

    案例分析

    • 一个袋中放有M个红球,(N - M)个白球,依次从袋中取n个球,记下红球的个数X
    • (1) 如果是有放回地取,则 X ∼ B ( n , M N ) X \sim B(n, \frac{M}{N}) XB(n,NM)
    • (2) 如果是不放回地取,则X服从超几何分布 P ( X = k ) = C M k C N − M n − k C N n    ( k = 0 , 1 , 2 , . . . , m ) P(X=k) = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n} \ \ (k=0,1,2,...,m) P(X=k)=CNnCMkCNMnk  (k=0,1,2,...,m) 其中 m = m i n ( M , n ) m=min(M,n) m=min(M,n)

    超几何分布的推导

    • 设有7个球,4红,3白,连续取3个球(n=3), 则红球的变量X为:(k ~ 0,1,2,3)

    • 分类讨论:

      • X为0:白白白 =》 P ( X = 0 ) = 3 7 ∗ 2 6 ∗ 1 5 P(X=0) = \frac{3}{7} * \frac{2}{6} * \frac{1}{5} P(X=0)=736251
      • X为1:红白白、白红白、白白红 =》 P ( X = 1 ) = 4 7 ∗ 3 6 ∗ 2 5 + 3 7 ∗ 4 6 ∗ 2 5 + 3 7 ∗ 2 6 ∗ 4 5 P(X=1) = \frac{4}{7} * \frac{3}{6} * \frac{2}{5} + \frac{3}{7} * \frac{4}{6} * \frac{2}{5} + \frac{3}{7} * \frac{2}{6} * \frac{4}{5} P(X=1)=746352+736452+736254
      • X为2:类似上面,此处省略
      • X为3:类似上面,此处省略
    • 关于超几何分布 百度百科

    展开全文
  • 如果无穷随机变量序列是独立同分布(i.i.d.)的,而且每个随机变量都服从参数为p的伯努利分布,那么随机变量就形成参数为p的一系列伯努利试验。同样,如果n个随机变量独立同分布,并且都服从参数为p的伯努利分布,...
  • 概率分布:二项分布

    2021-07-12 08:50:34
    二项分布 二项分布(binomial distribution)就是在重复n次独立的伯努利试验(Bernoulli experiment)中,所期望结果出现次数的概率分布。 伯努利试验的特点: 每次试验中只有两种可能的结果,而且两种结果发生与否...
  • 浅谈两点分布,二项分布,伽马分布,指数分布,泊松分布,卡方分布,t分布,F分布,均匀分布,正态分布,β分布,狄利克雷分布。(红丸子,白丸子,四喜丸子。。。) 我们知道,在数理统计中,经常是和各种分布打...
  • 统计学:基本知识及随机变量分布规律 1、统计学基本知识:均值、方差、标准差 - 总体(Population) 抽样(Sample) 均值(mean) μ=∑i=1NxiN\mu = \frac{\sum_{i=1}^{N}{x_i}}{N}μ=N∑i=1N​xi...
  • 在计算二项分布的时候, 我们第一反应往往是算数公式法, 但是遇到超级大的阶乘就容易超出整数的限制,于是我们可以通过二项分布本身具有传递性的性质来用动态规划求解.当然也可以优化组合数学的算法来达到更快的效果....
  • 二项分布

    千次阅读 2020-03-30 19:45:34
    本文链接:个人站 | 简书 | CSDN 版权声明:除特别声明外,本博客文章均采用 BY-NC-SA 许可协议。...泊松分布、二项分布、以及负二项分布都可以用来刻画计数类数据。其中,泊松分布的 μ=σ2\...
  • **2018博客之星评选,如果喜欢我的文章,请投我一票,编号:No.... 二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。现在考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数。 ...
  • 概率分布之二项分布、泊松分布

    千次阅读 2019-08-03 22:41:13
    概率分布之二项分布、泊松分布、正态分布 ...2.离散型概率分布——二项分布 在现实生活中,许多事件或结果只有两个,或者结果只有一个是我们想要,其他不是我们想要的。例如,买了福利彩票,有中奖和不中奖两种结...
  • 二项分布的基本概念

    万次阅读 2016-11-14 10:48:31
    说起二项分布(binomial distribution),不得不提的前提是伯努利试验(Bernoulli experiment),也即n次独立重复试验。伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。  伯努利试验的特点是: (1)...
  • 二项分布和泊松分布分析 一、泊松分布 日常生活中,大量的事件是有固定频率的: 它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会...
  • 随机变量这个是概率学中的一个基本概念,在实际问题中有的试验结果本身就是数量表示,有的结果却不行,比如掷骰子,试验结果有6个,可以记为1,2,3,4,5,6。但另如抛硬币正反面,结果看似跟数值毫无关系,我们一般会做...
  • 二项分布、伯努利分布、泊松分布等

    万次阅读 多人点赞 2018-08-08 16:49:08
    这个知识点的整理起源于vivo图像...伯努利分布亦称“零一分布”、“两点分布”。 如果随机变量X只取0和1两个值,并且相应的概率为:   则称随机变量X服从参数为p的伯努利分布,若令q=1一p,则X的概率函数可写...
  • 基础知识 二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。...2.实际运用中当 n 很大时一般都用正态分布来近似计算二项分布,但是如果同时 np 又比较小(比起 n来说很小)
  • 二项分布是多次伯努利,即扔多次硬币;(多次值实验) 泊松分布是 ppp 很小的项,即扔好多好多次硬币,且扔出正面概率极小; 正态分布是 nnn 很大的项,即扔好多好多次硬币,且硬币是完全相同的; 一、泊松...
  • 分布与分布关系1、二项分布2、几何分布3、泊松分布4、二项分布转化泊松分布,泊松转化正态分布 1、二项分布   n次独立重复试验,每次事件出现的结果只有两个,出现同一结果的概率相同为p;   抛硬币,假设硬币不...
  • 离散型随机变量,二项分布,泊松分布,指数分布,几何分布(概统2.知识) 1.0-1分布 。例如抛硬币,正面朝上设为1,反面朝上设为0 分布律为 结果随机变量X 1 0 概率 P p 1-p ...
  • 文章目录基础知识概念释义数据描述概率分布两个概念二项分布泊松分布大数定律正态分布 统计学系列主要是对统计学知识进行梳理以及对学习过程的分享,以期提升对统计学相关知识体系化认知水平。本文是该系列的第一篇...
  • 2.二项分布和几何分布 3. 泊松分布 4.正态分布 一、期望 期望这个概念,初高中就学过了吧,所以这里就简单说一下定义。 1.离散型随机变量的期望 2.连续型随机变量的期望 3.期望的...
  • 内容来自百度百科知识以及东方耀老师笔记内容的整合 1、独立重复试验的基本特征 ...伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该...
  • 二项分布4. 正态分布5. 其他连续分布5.1 卡方分布5.2 t分布5.3 F分布6. 变量的关系6.1 联合概率分布6.2变量的独立性6.3 变量的相关性6.4 上证指数与深证成指相关性分析 统计分析是可以帮助人们认清、刻画不确定性的...
  • 例如时间2分布?数据在统计图中的形状,称之为分布。3)概率概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。根据数据类型的不同,概率分布分为两种:离散概率分布,连续概率分布...
  • 二项分布 1.贝努里概型 定义:n次独立重复试验称作n重贝努里试验,每次试验成功的概率都是p,失败的概率都是q=1-p 内容: 用X表示n重贝努里试验中事件A(成功)出现的次数,则 P(X=k)=Cnkpk(1−p)n−k,k=0,1,......
  • [概率论]-离散型随机变量·二项分布

    千次阅读 2018-11-04 22:20:31
    二项分布 伯努利实验 伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。我们假设该项试验独立重复地进行了n次,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 73,560
精华内容 29,424
关键字:

二项分布的特点