精华内容
下载资源
问答
  • 贝叶斯法则
    2021-03-20 20:50:04

    条件概率公式:P(A|B)=P(AB)/P(B) P(B)≠0

    可推得乘法法则:P(AB)=P(A|B)*P(B)

    P(AB)=P(A|B)*P(B)=P(B|A)*P(A)

    可得贝叶斯公式,也称贝叶斯定理、贝叶斯法则:

    P(A|B)=P(B|A)P(A)/P(B)

    通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

    在贝叶斯法则中,每个名词都有约定俗成的名称:
    P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
    P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率
    P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率
    P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

    Bayes法则可表述为:
    后验概率 = (似然度 * 先验概率)/标准化常量,也就是说,后验概率与先验概率和似然度的乘积成正比。
    另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),
    Bayes法则可表述为:后验概率 = 标准似然度 * 先验概率。

    例如:

    一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
    我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9(2/7300) / (3/7) = 0.00058

    另一个例子,

    现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个红球,问这个球来自容器 A 的概率是多少?
    假设已经抽出红球为事件 B,选中容器 A 为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10,按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875

    更多相关内容
  • 贝叶斯法则

    2021-06-01 20:17:48
    贝叶斯法则1. 贝叶斯定理1.1贝叶斯定理有什么用1.2 公式1.2.1 先验概率1.2.2 可能性函数1.2.3 后验概率2. 示例2.1 方法一2.2 方法二 Reference: 怎样用非数学语言讲解贝叶斯定理(Bayes’s theorem)? 1. 贝叶斯...

    Reference:

    1. 怎样用非数学语言讲解贝叶斯定理(Bayes’s theorem)?
    2. 周志华《机器学习》

    1. 贝叶斯定理

    1.1贝叶斯定理有什么用

    贝叶斯为了解决一个逆概率问题,而提出了贝叶斯定理。

    与之相对的正向概率的意思是:假设有一个抽奖活动,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球算中奖,那么随便摸出一个球,摸出中奖球的概率为: 2 / ( 2 + 8 ) = 2 / 10 2/(2+8)=2/10 2/(2+8)=2/10.

    而贝叶斯要解决的"逆概率"问题,如在上面的例子中并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里白色球和黑色球的比例。

    生活中所遇到的问题,大多像上面问题一样,在决策时面临的信息都是不全的,手中只有有限的信息。在有限信息的情况下,尽可能做一个准确的预测。

    比如天气预报说,明天降雨的概率是30%,肯定不是像计算概率那样,重复将明天过上100次,然后计算出大约有30次会下雨,而是利用贝叶斯定理来预测出明天下雨的概率是多少。

    因此,贝叶斯定理的用处为:在有限的信息下,能够帮助我们预测出概率。

    1.2 贝叶斯决策论

    贝叶斯决策论 (Bayesian decision theory) 是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们以多分类任务为例来解释其基本原理。

    假设有 N N N 种可能的类别标记,即 Y = { c 1 , c 2 , … , c N } \mathcal{Y}=\left\{c_{1}, c_{2}, \ldots, c_{N}\right\} Y={c1,c2,,cN} λ i j \lambda_{ij} λij 是将一个真实标记为 c j c_j cj 的样本误分类为 c i c_i ci 所产生的损失,基于 后验概率 P ( c i ∣ x ) P(c_i \mid \boldsymbol{x}) P(cix) 可获得将样本 x \boldsymbol{x} x 分类为 c i c_i ci 所产生的期望损失(expected loss),即在样本 x \boldsymbol{x} x 上的“条件风险”(conditional risk)
    R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) . R\left(c_{i} \mid \boldsymbol{x}\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} \mid \boldsymbol{x}\right) . R(cix)=j=1NλijP(cjx).

    我们的任务是寻找一个判定准则 h : X ↦ Y h: \mathcal{X} \mapsto \mathcal{Y} h:XY 以最小化总体风险:
    R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=\mathbb{E}_{\boldsymbol{x}}[R(h(\boldsymbol{x}) \mid \boldsymbol{x})] R(h)=Ex[R(h(x)x)]

    显然,对每个样本 x \boldsymbol{x} x,若 h h h 能最小化条件风险 R ( h ( x ) ∣ x ) R(h(\boldsymbol{x}) \mid \boldsymbol{x}) R(h(x)x),则总体风险 R ( h ) R(h) R(h) 也将最小化。这就产生了 贝叶斯判定准则(Bayes decision rule): 为最小化总体风险,只需在每个样本上选择那个能使条件风险 R ( c ∣ x ) R(c \mid \boldsymbol{x}) R(cx) 最小的类别标记,即:
    h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y R ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c \mid \boldsymbol{x}) h(x)=cYargminR(cx)

    此时, h ∗ h^* h 称为贝叶斯最优分类器 (Bayes optimal classifier) ,与之对应的总体风险 R ( h ∗ ) R(h^*) R(h) 称为贝叶斯风险 (Bayes risk) 1 − R ( h ∗ ) 1 -R(h^*) 1R(h) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。

    若使用 0/1 损失函数,则误判损失 λ i j \lambda_{ij} λij 可写为:
    λ i j = { 0 ,  if  i = j 1 ,  otherwise  \lambda_{i j}=\left\{\begin{array}{ll} 0, & \text { if } i=j \\ 1, & \text { otherwise } \end{array}\right. λij={0,1, if i=j otherwise 

    此时的条件风险也被转换为了:
    R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c \mid \boldsymbol{x})=1-P(c \mid \boldsymbol{x}) R(cx)=1P(cx)

    于是,最小化分类错误率的贝叶斯最优分类器为:
    h ∗ ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c \mid \boldsymbol{x}) h(x)=cYargmaxP(cx)

    即对每个样本 x \boldsymbol{x} x,选择能使后验概率 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx) 最大的类别标记。

    不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx)。然而,在现实任务中这通常难以直接获得。从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx)。大体来说,主要有两种策略:给定 x \boldsymbol{x} x ,可通过直接建模 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx) 来预测 c c c,这样得到的是 "判别式模型"(discriminative models);也可先对联合概率分布 P ( x , c ) P(\boldsymbol{x},c) P(x,c) 建模,然后再由此获得 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx), 这样得到的是 "生成式模型"(generative models)。决策树、 BP 神经网络、支持向量机等,都可归入判别式模型的范畴。对生成式模型来说,必然考虑:
    P ( c ∣ x ) = P ( x , c ) P ( x ) P(c \mid \boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})} P(cx)=P(x)P(x,c)

    基于贝叶斯定理, P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx) 可写为:
    P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c \mid x)=\frac{P(c)P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})} P(cx)=P(x)P(c)P(xc)

    • P ( c ) P(c) P(c)类“先验”(prior)概率,也就是在不知道 x \boldsymbol{x} x 事件的前提下,我们对 c c c 事件概率的一个主观判断;
    • P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(xc):样本 x \boldsymbol{x} x 相对于类标记 c c c类条件概率(class-conditional probability) ,或称为"似然" (likelihood)
    • P ( x ) P(\boldsymbol{x}) P(x):用于归一化的"证据" (evidence) 因子,对给定样本 x \boldsymbol{x} x,证据因子 P ( x ) P(\boldsymbol{x}) P(x) 与类标记无关( P ( x ) P(\boldsymbol{x}) P(x) 对所有类标记均相同),因此估计 P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx) 的问题就转化为如何基于训练数据 D D D 来估计先验 P ( c ) P(c) P(c) 和似然 P ( x ∣ c ) P(\boldsymbol{x} \mid c) P(xc)
    • P ( c ∣ x ) P(c \mid \boldsymbol{x}) P(cx)后验概率(Posterior probability),即在 x \boldsymbol{x} x 事件发生之后,我们对 c c c 事件概率的重新评估。因此,贝叶斯公式的中心思想为:我们先根据以往的经验预估一个先验概率 P ( c ) P(c) P(c),然后加入新的信息 x \boldsymbol{x} x,这样有了新的信息后,我们对事件 c c c 的预测就更加准确

    P ( x ∣ c ) P ( x ) \frac{P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})} P(x)P(xc) 称为可能性函数,这是一个调整因子,也就是新信息 x \boldsymbol{x} x 带来的调整,作用是将先验概率(之前的主观判断)调整到更接近真实概率
    可能性函数可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)

    1. 如果 P ( x ∣ c ) P ( x ) > 1 \frac{P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}>1 P(x)P(xc)>1,意味着"先验概率"被增强,事件 c c c 的发生的可能性变大;
    2. 如果 P ( x ∣ c ) P ( x ) = 1 \frac{P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}=1 P(x)P(xc)=1,意味着 x \boldsymbol{x} x 事件无助于判断事件 c c c 的可能性;
    3. 如果 P ( x ∣ c ) P ( x ) < 1 \frac{P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}<1 P(x)P(xc)<1,意味着"先验概率"被削弱,事件 c c c 的可能性变小。

    1.2.1 全概率定理

    在这里插入图片描述

    假设我们要求得,从上一时间点到下一时间点 X i X_i Xi 的概率。这时需要遍历其所有可能来自的位置,即上一时间点不同的 X j X_j Xj,然后乘上从 j j j i i i 的概率。该公式通常被称为全概率公式
    P ( B ) = ∑ P ( B ∣ A i ) ∗ P ( A i ) P(B)=\sum P(B|A_i)*P(A_i) P(B)=P(BAi)P(Ai)

    这里对其他变量的加权求和运算被称为“卷积”。

    2. 示例

    癌症测试:
    假定存在一种特定的癌症,但是这种癌症很罕见----1000个人里面仅仅只有1个人得这种癌症,也就是说1000个人中有999人不会得这种病。
    假设我们有一个测试,这个测试可以得出结果阳性或者阴性,如果得了癌症,测试出结果阳性的概率是0.8;假设没有得癌症,测试结果为阳性的概率仅仅只有0.1。
    问题是,假设我做了一次测试,其结果为阳性,那么患有癌症的概率是多少?

    由题干可知,

    1. 得癌症的概率为: P ( C ) = 0.001 P(C)=0.001 P(C)=0.001, 没有得癌症的概率为: P ( T C ) = 0.999 P(TC)=0.999 P(TC)=0.999
    2. P ( P O S ∣ C ) = 0.8 P(POS|C)=0.8 P(POSC)=0.8, P ( P O S ∣ T C ) = 0.1 P(POS|TC)=0.1 P(POSTC)=0.1
    3. 要求得的概率是: P ( C ∣ P O S ) P(C|POS) P(CPOS).

    2.1 方法一

    P ( C ∣ P O S ) = P ( P O S ∣ C ) ∗ P ( C ) P ( P O S ) = P ( P O S ∣ C ) ∗ P ( C ) / ( P ( P O S ∣ C ) ∗ P ( C ) + P ( P O S ∣ T C ) ∗ P ( T C ) P(C|POS)=\frac{P(POS|C)*P(C)}{P(POS)}= P(POS|C)*P(C)/(P(POS|C)*P(C)+P(POS|TC)*P(TC) P(CPOS)=P(POS)P(POSC)P(C)=P(POSC)P(C)/(P(POSC)P(C)+P(POSTC)P(TC)

    得, P ( C ∣ P O S ) = 0.0079 P(C|POS)=0.0079 P(CPOS)=0.0079

    2.2 方法二

    由贝叶斯法则的结果,在给定 POS 的前提下,非标准化的 C,是先验概率的乘积0.001乘上0.8,即在癌症状态下检测出阳性结果的概率:
    P ˉ ( C ∣ P O S ) = 0.001 × 0.8 = 0.0008 \bar P(C|POS)=0.001\times0.8=0.0008 Pˉ(CPOS)=0.001×0.8=0.0008
    对于相对的事件,也就是没有得癌症的事件,在给定阳性检查结果的条件下,这个非标准化的概率:
    P ˉ ( T C ∣ P O S ) = 0.999 × 0.1 = 0.0999 \bar P(TC|POS)=0.999\times0.1=0.0999 Pˉ(TCPOS)=0.999×0.1=0.0999
    我们的标准因子就是他们的求和,结果是:
    α = 0.0008 + 0.0999 = 0.1007 \alpha = 0.0008+0.0999 = 0.1007 α=0.0008+0.0999=0.1007
    则,
    P ( C ∣ P O S ) = 0.0008 0.1007 = 0.0079 P(C|POS)= \frac{0.0008}{0.1007} = 0.0079 P(CPOS)=0.10070.0008=0.0079

    展开全文
  • 子博弈精炼纳什均衡+贝叶斯法则+信号博弈.pdf
  • 贝叶斯公式/贝叶斯法则/贝叶斯定理

    万次阅读 多人点赞 2018-05-04 15:55:44
    贝叶斯法则 贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大? wiki 把为什么要做这个定理谈的很清楚,是为了覆盖逆概的场景: 在贝叶斯写这篇文章之前,人们已经能够计算...

    介绍

    贝叶斯法则

    贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大?

    wiki 把为什么要做这个定理谈的很清楚,是为了覆盖逆概的场景:

    在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。

    而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

    了解一下公式

    事件B发生的条件下,事件A发生的概率为:
    这里写图片描述

    同理可得,事件A发生的条件下,事件B发生的概率为:

    这里写图片描述

    很容易推导得到:

    这里写图片描述

    假设若P(A)≠0,那么就可以得到用来预测概率的贝叶斯定理了:

    这里写图片描述

    这个定理显然是可以推导到多个条件的,比如在2个条件的情况下:

    这里写图片描述

    经典案例

    信某宗教的人是恐怖分子的概率是多少?

    假设 100% 的恐怖分子都相信某宗教,而某人相信某宗教,并不代表此人 100% 是恐怖分子,还需要考虑先验概率,假设全球有 7万 恐怖分子(全球人口 70亿 ),假设全球有 1/3 的人口相信某宗教,那么这个人是恐怖分子的概率是多少?

    解:

    我们要求解的是这个概率: P(恐怖分子|信某教)

    套用公式,得到 :

    P(恐怖分子|信某教)

    = P(信某教|恐怖分子) P(恐怖分子) / P(信某教)

    = 100% * (7万人/70亿人) / (1/3)

    = 0.003%

    也即十万分之三的概率。

    延展开去,从数学理论上讲,民主党不针对某个信教人群是对的,但是题目中设定 100% 的恐怖分子信某教,这个假设就比较…

    检测呈阳性的雇员吸毒概率是多少?

    假设一个常规的检测结果的敏感度与可靠度均为 99% ,即吸毒者每次检测呈阳性 (+) 的概率为 99% 。而不吸毒者每次检测呈阴性 (-) 的概率为 99% 。假设某公司对全体雇员进行吸毒检测,已知 0.5% 的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

    解:

    我们要求解的是这个概率: P(吸毒|检测呈阳性的雇员)

    套用公式,得到 :

    P(吸毒|检测呈阳性雇员)

    = P(检测呈阳性雇员|吸毒) P(吸毒) / P(检测呈阳性雇员)

    = 99% * 0.5% / [P(检测呈阳性雇员∩吸毒) + P(检测呈阳性∩不吸毒)]

    = 99% * 0.5% / [P(检测呈阳性雇员|吸毒) * P(吸毒) + P(检测呈阳性|不吸毒) * P(不吸毒)]

    = 99% * 0.5% / [99% * 0.5% + 1% * 99.5%]

    = 0.3322

    也就是说,尽管吸毒检测的准确率高达 99% ,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约 33% ,不吸毒的可能性比较大。

    不过也要注意,检测的准确率高低,十分影响结果的概率,如果检测精度达到 99.9% ,那么检测呈阳性的雇员吸毒的概率就上升到了 83.39%

    垃圾邮件的过滤

    这是 Paul Graham《黑客与画家》 中提到的办法。这个问题其实可以倒推,我们要求解的是这个概率: P(垃圾邮件|检测到某种特征)

    这个某种特征可以是 关键词,可以是 时间,可以是 频次,可以是 邮件附件类型 …包括以上各种特征 混合 的特征等等。

    我们先用最简单的 关键词 来做推测,根据我个人的经验,一个中国式垃圾邮件很可能会包含两个字:发票 。好,那么我们要求解的一封邮件是不是垃圾邮件的概率就变成 P(垃圾邮件|检测到“发票”关键词),根据贝叶斯定理

    P(垃圾邮件|检测到“发票”关键词)

    = P(检测到“发票”关键词|垃圾邮件) / P(检测到“发票”关键词)

    好,这里遇到了一个问题,我们怎么知道垃圾邮件里出现 发票 关键词的概率?

    怎么知道在所有邮件里出现 发票 关键词的概率?理论上,除非我们统计所有邮件,否则我们是得不出的。这时候,就得做个妥协,在工程上做个近似,我们自己找到一定数量的真实邮件,并分为两组,一组正常邮件,一组垃圾邮件,然后进行计算,看 发票 这个词,在垃圾邮件中出现的概率是多少,在正常邮件里出现的概率是多少。

    显然,这里的训练数量大一些的话,计算得到的概率会更逼近真实值。 Paul Graham 使用的邮件规模,是正常邮件和垃圾邮件各 4000封 。如果某个词只出现在垃圾邮件中, Paul Graham 就假定,它在正常邮件的出现频率是 1% ,反之亦然,这样做是为了避免概率为 0 。随着邮件数量的增加,计算结果会自动调整。

    这样的话,将公式继续分解为如下:

    P(垃圾邮件|检测到“发票”关键词)

    = P(检测到“发票”关键词|垃圾邮件) / P(检测到“发票”关键词)

    = P(检测到“发票”关键词|垃圾邮件) / [P(检测到“发票”关键词∩垃圾邮件) + P(检测到“发票”关键词∩正常邮件)]

    = P(检测到“发票”关键词|垃圾邮件) / [P(检测到“发票”关键词|垃圾邮件) / P(垃圾邮件) + P(检测到“发票”关键词|正常邮件) / P(正常邮件)]

    就又可以根据训练模型得到的概率,进行初始值计算了。此后,可以通过大量用户将垃圾邮件标注为正常邮件,正常邮件挪到垃圾邮件的动作,进行反复训练纠正,直至逼近一个合理值了。

    不过这里还涉及到一个问题,就是单个关键词的概率(单个条件)无论如何再高,这封邮件仍然有可能不是垃圾邮件,所以在此处应用贝叶斯定理时,我们显然要用到多个条件,也就是计算这个概率:

    P(垃圾邮件|检测到“A”关键词,检测到“B”关键词,检测到"C",...)

    Paul Graham 的做法是,选出邮件中 P(垃圾邮件|检测到“X”关键词) 最高的 15个词 ,计算它们的联合概率。(如果关键词是第一次出现,Paul Graham 就假定这个值等于 0.4 ,也即认为是negative normal)。

    展开全文
  • 子博弈精炼纳什均衡+贝叶斯法则+信号博弈.doc
  • 基于贝叶斯法则的“蒙提霍尔悖论”的剖析及扩展,陈浩东,王一帆,文章介绍了博弈论中著名的
  • 贝叶斯法则概要

    2019-03-28 09:36:59
    贝叶斯法则 贝叶斯分类算法是一大类分类算法的总称 贝叶斯分类算法以样本可能属于某类的概率来最为分类的依据 朴素贝叶斯 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。其中“朴素”的意思就是...

    贝叶斯法则

    贝叶斯分类算法是一大类分类算法的总称
    贝叶斯分类算法以样本可能属于某类的概率来最为分类的依据
    贝叶斯法则推导

    朴素贝叶斯

    朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。其中“朴素”的意思就是条件概率独立性
    朴素贝叶斯的思想:如果一个事物在一些属性条件发生的情况下,事物属于A的概率大于属于B的概率,则判定该事物属于A。
    数学原理:P(类别 | 特征) = P(特征 | 类别) * P(类别) / P(特征)

    1. 高斯朴素贝叶斯
      高斯贝叶斯是用来处理连续型变量的分类问题,例如:人的身高,特征1:身高为160cm以下;特征2:身高为160cm到170cm;特征3:身高为170cm以上。这个例子看似是个离散型分类,但是里面存在着连续变量,为了更好地解决这种问题,我们可以用高斯朴素贝叶斯。

    2. 多项式朴素贝叶斯
      多项式朴素贝叶斯是用来处理离散型变量的分类问题。常用于文本分类,特征是单词,值是单词出现的次数。
      多项式模型在计算先验概率P(yk)和条件概率P(xi|yk)时,会做一些平滑处理,平滑方法是为了解决零概率问题。
      比较常用的平滑处理有:拉普拉斯平滑(Laplace Smoothing),又称为加1平滑。
      平滑处理公式为:
      先验概率:
      在这里插入图片描述
      (注:N是总的样本个数,k是总的类别个数,Nyk是类别为yk的样本个数, α是平滑值);

      条件概率:
      在这里插入图片描述
      (注:Nyk是类别为yk的样本个数,n是特征的维数,Nykxi是类别样本为yk的样本中,第i维特征的值是xi的样本个数,α是平滑值)。

      当α = 1时,称作Laplace平滑,当0 < α < 1时,称作Lidstone平滑,当α = 0时不做平滑。
      如果不做平滑,当某一维特征的值xi没在训练样本中出现过,会导致P(xi|yk) = 0,从而导致后验概率为0,而平滑处理可以解决这个问题。

    3. 伯努利朴素贝叶斯
      伯努利模型与多项式模型一样,适用于离散型特征,不同的是,伯努利中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0)。
      在伯努利模型中,条件概率P(xi|yk)的计算方式是:
      当特征值xi为1时,P(xi|yk)=P(xi=1|yk);
      当特征值xi为0时,P(xi|yk)=1-P(xi=1|yk);
      这意味着,“没有某个特征”也是一个特征。

    展开全文
  • 贝叶斯法则的举例分析 可以将贝叶斯法则的分析思路表达如下。 例子:挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,B进入市场时A进行阻挠的概率是20%(此时A...
  •  贝叶斯法则 贝叶斯法则 (Bayes'theorem/Bayes theorem/Bayesian law)也称为贝叶斯定理或者贝叶斯规则、贝叶斯推理等等,简单而言它是英国学者贝叶斯(1702~1763)于18世纪提出来的一个数学公式。公式本身并不复杂...
  • 贝叶斯法则(公式)

    千次阅读 2020-11-05 16:55:08
     贝叶斯的统计学中有一个基本的工具叫贝叶斯法则、也称为贝叶斯公式, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉...
  • 1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种...
  • 1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算...
  • 贝叶斯法则及滤波

    2020-05-05 23:25:18
    贝叶斯法则 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出贝叶斯定理...
  • 贝叶斯法则可能是概率论中最有生命力的一个公式。它可以用来计算条件概率或者主观概率。贝叶斯法则的思想非常简单:随机事件发生的概率随着相关条件的发生而改变,一个命题真假的信念即主观概率随着相关证据的发现而...
  • 1、贝叶斯法则机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率...
  • 贝叶斯法则:预测未来

    万次阅读 2018-07-12 20:55:32
    当你对先验概率有一定的预估时,贝叶斯法则也适用于各种各样的预测问题,无论它们是大数据类型还是更常见的小数据排序。计算彩票获奖概率或扔硬币的概率仅仅是开始。由贝叶斯和拉普拉斯研究出的方法可以在任何时候...
  • 然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者...
  • 概率论--贝叶斯法则

    2019-07-31 16:14:42
    贝叶斯法则 (反推的概率问题,已知结果,推测原因) (Bayes'theorem/Bayes theorem/Bayesian law) 贝叶斯的统计学中有一个基本的工具叫“贝叶斯法则”, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果...
  • 视觉SLAM十四讲中的第9讲 式9.5的推导,下面我们来看如何对状态进行估计。按照贝叶斯法则,把zk和xk交换位置,有式9.5
  •  贝叶斯法则对与贝叶斯学习至关重要,其形式如下:  贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据 的概率以及观察到的数据本身。其中P(H)用来代表在没有训练.....
  • 贝叶斯法则举例分析
  • 本文介绍了概率统计包括随机试验、样本空间、事件、概率公理定理以及条件概率和贝叶斯法则在内的一些基础知识,都是概率统计的入门知识,要理解起来还是比较容易的,但是熟练掌握应用还需要多应用。
  • 乘法法则: P(a,b)=P(a|b)P(b) 也许很容易记忆:它源于这样的事实,即要使a 和b 同时为真,我们需要b为真,而且我们需要在已知b的条件下 a 也为真。 我们也可以调换 a和 b 的位置得到: P(a,b)=P(b|a)P(a)   乘法...
  • 贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设...
  • 想要解决刚才那几个问题,更精确地描述这些现象,我们就需要理解几个新的概念,联合概率、条件概率以及贝叶斯法则。从数学的角度来说,这些概念能描述现实世界中更为复杂的现象,建立更精细的数学模型。比如,我们...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,903
精华内容 2,761
关键字:

贝叶斯法则