精华内容
参与话题
问答
  • 贝叶斯统计

    2019-09-13 11:47:50
    贝叶斯统计有着与频率统计(又称经典统计,抽样统计)完全不同的认识视角。简单来说,他们这两个学派最大的争论焦点在于先验(prior)的使用与否。20世纪仍然是频率统计占领上风,但很多学者预测甚至迹象表明,21...

    摘要:贝叶斯学派和频率学派是统计学里重要的两大学派。贝叶斯统计有着与频率统计(又称经典统计,抽样统计)完全不同的认识视角。简单来说,他们这两个学派最大的争论焦点在于先验(prior)的使用与否。20世纪仍然是频率统计占领上风,但很多学者预测甚至迹象表明,21世纪将是贝叶斯统计的天下[1]。

     

     

    1. 贝叶斯定理

    不像频率统计只根据当前抽样的结果进行推断,贝叶斯统计还需要考虑经验(prior)对结果的影响,因此贝叶斯的核心是通过后验(posterior)来总结一组未知变量所包含的信息。

     

    比如说,有这样一组数:60,90,100,150.

    现在给出两个新的数字:10, 85.

    你认为哪一个数字更属于这组数字集合?

     

    如果单纯看数字,你可能觉得会是10,因为他们都是10的倍数。但如果告诉你这些数字是鞋子的价格,你肯定偏向于选择85。可见这个给定的条件很重要,它来自于你的经验认知,会直接影响你对结果的判断,这就是先验(prior)。

     

    1.1 贝叶斯公式

    贝叶斯定理(Bayes Theorem)又叫贝叶斯公式(Bayes Rule):

    p(X=x|Y=y) = p(X=x, Y=y) / p(Y=y)

    = p(X=x)p(Y=y|X=x) / ∑_x' p(X=x')p(Y=y|X=x')

     

    其中p(X=x|Y=y) = p(X=x, Y=y) / p(Y=y)也称条件概率。

     

    举个最常见的使用贝叶斯公式的例子[2]:

    在医疗诊断中,病人P(patient)需要做检查,以判断是否患有疾病D(disease)。如果检查结果呈阳性,那么有多大的几率可以判定P患有疾病D?换句话说,该问题想了解这项检查的诊断可靠性。

    已知的条件有:

    I. 如果病人确实患有疾病D,能被该检查检测出来的概率为80%。即p(x=1|y=1)=0.8。其中y=1代表病人患有疾病,x=1代表检查呈阳性。如果此刻你就断定P患D的概率为80%,那么你的思路还没有转换成贝叶斯模式,因为你忽略了一个重要的前提条件,即患病的先验概率(prior paobability)。

    II. 根据总体情况了解到,人群中患该病的概率为0.4%,即p(y=1)=0.004。这是一个非常低的先验数字。

    III. 还知道一个误检概率的条件,如果病人是健康的,但被机器检测出错的概率为0.1,即p(x=1|y=0)=0.1。

     

    结合上述三个条件以及贝叶斯公式,可以得到我们想知道的概率结果p(y=1|x=1),即检测结果是阳性时,有多大的概率确实患有此病。

    p(y=1|x=1) = p(x=1|y=1)p(y=1) / [p(x=1|y=1)p(y=1) + p(x=1|y=0)p(y=0)]

    = 0.8*0.004 / [0.8*0.114 + 0.1*0.996] = 0.031

     

    也就是说即使检查结果为阳性,也只有3%的几率真的患有此病,看来这个检查是相当不准的。

     

    1.2 生成模型

    机器学习中监督学习任务有两种模型:生成模型(generative model)和判别模型(discriminative model)。贝叶斯模型就是典型的生成模型,因为它指明了如何通过条件密度p(x|y=c)和先验p(y=c)来生成数据:

    p(y=c|x, θ) = p(y=c|θ)p(x|y=c, θ) / ∑_c' p(y=c'|θ)p(x|y=c', θ)

     

    θ代表的是模型的参数。

     

    1.3 先验,似然以及后验

    先验(prior),似然(likelihood)以及后验(posterior)是贝叶斯统计里面最常出现的三个词,因为正是他们组成了贝叶斯公式。即‘后验’是‘先验’乘以‘似然’后标准化的结果:

    posterior = prior * likelihood / normalizer

    p(h|D) = p(D|h)p(h) / ∑_h' p(D, h')

     

    在这里,D代表数据集,h代表假设空间。虽然字母h, D代表的含义与上面x, y所代表的两个不同类的含义不一样,但贝叶斯公式的形式是一样的,总的思想也是一致的。

    这个公式的表现形式更丰富,D代表的是已知的数据集,比如{16,64,8};H是假设空间,比如{‘这类数都是偶数’,‘这类数都是2的幂’,‘这些数都大于5’,‘这些数都小于80’,……},那么新给定一个数x=10,可以根据这些已知的量计算有多大的概率x属于数据集D的。

     

    1.4 最大后验估计,最大似然估计

    最大后验概率(MAP)和最大似然估计(MLE)是常用的估计模型参数的方法。

    MAP,通俗的理解,如果有足够多的数据,则后验p(h|D)会在某个假设上出现峰值,即最大后验估计。还是上面的例子,假设D={16,64,8,2,4,32},那么在上面列出的假设中,最有可能的是‘这类数都是2的幂’。

    p(h|D) --> δMAP(h)

     

    δ是狄拉克函数:

    δ_x (A) = 1, 如果 x 属于 A

    δ_x (A) = 0, 如果 x不属于 A

     

    • 因此MAP = argmax_h p(h|D)

    通常,为了方便求解,我们会取其对数:

    MAP = argmax_h p(h|D)

    = argmax_h p(D|h)p(h)

    = argmax_h [log p(D|h) + log p(h)]

     

    • 最大似然估计的形式与上是类似的,只是没有prior:

    MLE = argmax_h p(D|h) = argmax log p(D|h)

     

     

    2. 朴素贝叶斯

    朴素贝叶斯其实贝叶斯定理的一种特殊情况,换句话说,是简化版的贝叶斯定理,正因为简单,所以称之为“朴素”。

    朴素贝叶斯假设一个类里面的特征都是条件独立的,即:

    p(X=x|Y=c) = p(X1=x1, X2=x2, ..., Xn=xn | Y=c)

    = ∏ p(Xj = xj | Y=c)

    由于各个X1:n之间是条件独立的,所以联合概率p(X1=x1, X2=x2, ..., Xn=xn) 可以直接转换成每一个特征Xj的概率的乘积。

     

    把这个条件带入贝叶斯公式,朴素贝叶斯的基本公式可以写作:

    p(Y=c|X=x) = p(X=x|Y=c)p(Y=c) / ∑_c' p(X=x|Y=c')p(Y=c')

    = p(Y=c)∏ p(Xj = xj | Y=c) / ∑_c' p(X=x|Y=c')p(Y=c')

     

    尽管朴素贝叶斯的假设是非常极端的,但是基于此的简单分类器却经常表现良好。原因在于,由于参数简单,很难导致过拟合,而过拟合往往是复杂模型的后遗症。

     

     

    3. 频率概率的瑕疵

    频率统计更为我们所熟知的主要原因恐怕是实验或者论文中常见的“置信区间”,“显著水平”以及“p值”等量对我们的影响。当然也不排除在学校里,学生往往从中学就开始涉及经典统计,但一般得在高等数学里才会接触贝氏统计的因素。顺便强调一下,像p值(p-value),置信区间(confidence interval)等这些专业名词是属于频率统计里面的,贝叶斯统计也确实有类似于置信区间的词:可靠区间(credit interval),人们经常会弄混二者,事实上他们不是一回事。

     

    3.1 置信区间

    概括说来,置信区间是由估计量的抽样分布导出的,而可靠区间是由参数的后验导出的,他们的形式分别是 [l(lower)和u(upper)分别代表下界和上界]:

    置信区间:Cα(θ) = (l, u) : P(l(D) ≤ θ ≤ u(D)|D~θ)

    可靠区间:Cα(D) = (l, u) : P(l ≤ θ ≤ u|D)

     

    比如在一个实验中,数据D是从参数θ未知的系统中抽样获得的,则得到置信区间(θmin(D),θmax(D)),它通常与一定概率的置信水平相关,比如95%,可通俗得解释为θ有多大(95%)概率出现在这个范围内。举个例子,如果θ是一个标准差为1的高斯分布的均值,D是该高斯分布的抽样,则(θmin(D),θmax(D))=(D-1.96,D+1.96)是置信水平为95%的置信区间。

     

    对于频率统计这种基于估计量的抽样分布导出的的置信区间(贝叶斯统计是基于参数的后验导出的),很多人提出了异议。

     

    举个例子[4],假设从以下模型中抽样,样本D=(x1,x2)是一对整数:

    p(x|θ) = 0.5, 如果x=θ

    = 0.5, 如果x=θ+1

    = 0, 其他情况

    θ是模型的参数。

     

    如果θ取值39,实际上我们能够并且只能得到如下四种可能的抽样结果,每一种出现的概率为0.25:

    (39,39), (39, 40), (40, 39), (40, 40)

    考虑以下的置信区间:[θmin(D), θmax(D)] = [min(x1; x2), min(x1; x2)]:

    如果我们抽取的样本是(40, 39),则置信区间应该是[39, 39]。上面四种可能的抽样中,有3种的置信区间是[39, 39],置信度为75%。而事实上p(θ=39|D=(40,39))=1,经常识可以判断参数肯定是39,但频率统计的算法只有75%的“信心”。

     

    频率统计还有一些其他的弊端,以后会介绍。但总的来说,它仍然是统计学中经典的一种方法,值得了解。

     

     

     

    参考书目:

    1. Information Theory, Inference, and Learning Algorithms. David J.C. MacKay.
    2. Machine Learning A Paobabilistic Perspective. Kevin P. Murphy.
    3. Why Isn't Everyone A Bayesian? Bradley Efron.
    4. Statistical Decision Theory and Bayesian Analysis. James. O. Berger.
    展开全文
  • 贝叶斯统计-ch5贝叶斯决策 贝叶斯统计-ch5贝叶斯决策 贝叶斯统计-ch5贝叶斯决策
  • 贝叶斯统计是在经典统计的争论中逐渐发展起来的。争论的问题有:位置参数是否可以看作随机变量?事件的概率是否一定要有频率解释?概率是否可用经验来确定?在这些问题的争论中,贝叶斯学派建立起自己的理论和方法。
  • 贝叶斯统计 茆诗松

    2018-09-25 23:36:24
    应用统计用的教材,老师推荐的统计书茆诗松老师写的贝叶斯统计
  • 通过实例简单描述了内曼皮尔逊统计与贝叶斯统计区别,还通过实例分别对内曼皮尔逊统计流程(假设检验)做了详细描述,还通过实例分别对贝叶斯统计流程(先验概率*条件概率=后验概率)做了详细描述,方便 大家理解;
  • 贝叶斯统计推断介绍

    2017-09-13 14:52:58
    贝叶斯统计推断介绍
  • 贝叶斯统计》第七章:MCMC介绍、贝叶斯分析中的直接抽样方法、Dibbs抽样、M-H算法《贝叶斯统计》第七章:MCMC介绍、贝叶斯分析中的直接抽样方法、Dibbs抽样、M-H算法
  • 贝叶斯统计 传统统计For many years, academics have been using so-called frequentist statistics to evaluate whether experimental manipulations have significant effects. 多年以来,学者们一直在使用所谓的...

    贝叶斯统计 传统统计

    For many years, academics have been using so-called frequentist statistics to evaluate whether experimental manipulations have significant effects.

    多年以来,学者们一直在使用所谓的常客统计学来评估实验操作是否具有significant效果。

    Frequentist statistic is based on the concept of hypothesis testing, which is a mathematical based estimation of whether your results can be obtained by chance. The lower the value, the more significant it would be (in frequentist terms). By the same token, you can obtain non-significant results using the same approach. Most of these "negative" results are disregarded in research, although there is tremendous added value in also knowing what manipulations do not have an effect. But that’s for another post ;)

    频率统计基于假设检验的概念,假设检验是基于数学的估计,您是否可以偶然获得结果。 值越低,它的意义就越大(以常用术语而言)。 同样,您可以使用相同的方法获得不重要的结果。 尽管大多数“负面”结果在了解什么操作没有效果的过程中具有巨大的附加价值 ,但它们在研究中被忽略。 但这是另一篇文章;)

    Thing is, in such cases where no effect can be found, frequentist statistics are limited in their explanatory power, as I will argue in this post.

    事实是,在找不到效果的情况下,常客统计资料的解释力受到限制,正如我将在本文中指出的那样。

    Below, I will be exploring one limitation of frequentist statistics, and proposing an alternative method to frequentist hypothesis testing: Bayesian statistics. I will not go into a direct comparison between the two approaches. There is quite some reading out there, if you are interested. I will rather explore how why the frequentist approach presents some shortcomings, and how the two approaches can be complementary in some situations (rather than seeing them as mutually exclusive, as sometimes argued).

    下面,我将探讨频率论者统计的局限性,并提出一种用于频率论者假设检验的替代方法: Bayesian统计。 我不会直接比较这两种方法。 如果您有兴趣的话,可以在这里很多书。 我宁愿探索为什么频频主义者的方法会带来一些缺点,以及两种方法在某些情况下如何互补(而不是像有时所说的那样将它们视为互斥的)。

    This is the first of two posts, where I will be focusing on the inability of frequentist statistics to disentangle between the absence of evidence and the evidence of absence.

    这是两篇文章中的第一篇,我将重点关注常客统计数据无法区分缺乏证据缺乏证据之间的情况。

    缺乏证据与缺乏证据 (Absence of evidence vs evidence of absence)

    背景 (Background)

    In the frequentist world, statistics typically output some statistical measures (t, F, Z values… depending on your test), and the almighty p-value. I discuss the limitations of only using p-values in another post, which you can read to get familiar with some concepts behind its computation. Briefly, the p-value, if significant (i.e., below an arbitrarily decided threshold, called alpha level, typically set at 0.05), determines that your manipulation most likely has an effect.

    在常人世界中,统计数据通常会输出一些统计量度(t,F,Z值……取决于您的测试)以及全能的p值。 我将在另一篇文章中讨论仅使用p值的局限性,您可以阅读以熟悉其计算背后的一些概念。 简而言之,如果p值显着(即低于任意确定的阈值,称为alpha水平,通常设置为0.05),则表明您的操作最有可能产生效果。

    However, what if (and that happens a lot), your p-value is > 0.05? In the frequentist world, such p-values do not allow you to disentangle between an absence of evidence and an evidence of absence of effect.

    但是,如果(而且经常发生)您的p值> 0.05怎么办? 在常识世界中,此类p值不允许您在缺乏证据缺乏效果的证据之间做出区分。

    Let that sink in for a little bit, because it is the crucial point here. In other words, frequentist statistics are pretty effective at quantifying the presence of an effect, but are quite poor at quantifying evidence for the absence of an effect. See here for literature.

    让它陷入一点,因为这是关键。 换句话说,频繁出现的统计数据在量化效果存在方面非常有效,但在量化效果不存在的证据方面却很差。 有关文学,请参见此处

    The demonstration below is taken from some work that was performed at the Netherlands Institute for Neuroscience, back when I was working in neuroscience research. A very nice paper was recently published on this topic, that I encourage you to read. The code below is inspired by the paper repository, written in R.

    下面的演示摘自我在神经科学研究领域工作时在荷兰神经科学研究所所做的一些工作。 最近发表了一篇关于该主题的非常好的论文 ,我鼓励您阅读。 以下代码受R编写的纸质存储库的启发。

    模拟数据 (Simulated Data)

    Say we generate a random distribution with mean=0.5 and standard deviation=1.

    假设我们生成一个均值= 0.5和标准差= 1的随机分布。

    np.random.seed(42)
    mean = 0.5; sd=1; sample_size=1000
    exp_distibution = np.random.normal(loc=mean, scale=sd, size=sample_size)
    plt.hist(exp_distibution)
    Image for post
    Figure 1 | Histogram depicting random draw from a normal distribution centered at 0.5
    图1 直方图,描绘了以0.5为中心从正态分布随机抽取

    That would be our experimental distribution, and we want to know whether that distribution is significantly different from 0. We could run a one sample t-test (which would be okay since the distribution seems very Gaussian, but you should theoretically prove that parametric testing assumptions are fulfilled; let’s assume they are)

    那将是我们的实验分布,我们想知道该分布是否与0显着不同。我们可以运行一个样本t检验(因为分布看起来非常高斯,所以可以,但是理论上您应该证明参数测试满足假设;让我们假设它们是)

    t, p = stats.ttest_1samp(a=exp_distibution, popmean=0)
    print(‘t-value = ‘ + str(t))
    print(‘p-value = ‘ + str(p))
    Image for post

    Quite a nice p-value that would make every PhD student’s spine shiver with happiness ;) Note that with that kind of sample size, almost anything gets significant, but let’s move on with the demonstration.

    相当不错的p值会使每个博士生都对幸福感颤抖;)请注意,使用这种样本量,几乎所有东西都变得很重要,但让我们继续进行演示。

    Now let’s try a distribution centered at 0, which should not be significantly different from 0

    现在,让我们尝试以0为中心的分布,该分布与0的差别应该不大

    mean = 0; sd=1; sample_size=1000
    exp_distibution = np.random.normal(loc=mean, scale=sd, size=sample_size)
    plt.hist(exp_distibutiont, p = stats.ttest_1samp(a=exp_distibution, popmean=0)
    print(‘t-value = ‘ + str(t))
    print(‘p-value = ‘ + str(p))
    Image for post

    Here, we have as expected a distribution that does not significantly differ from 0. And here is where things get a bit tricky: in some situations, frequentist statistics cannot really tell whether a p-value > 0.05 is an absence of evidence, and an evidence for absence, although that is a crucial point that would allow you to completely rule out an experimental manipulation from having an effect.

    在这里,我们期望的分布与0的差异不大。在这里,情况变得有些棘手:在某些情况下,常客统计学不能真正判断p值> 0.05是否缺少证据,而缺席的证据,尽管这是至关重要的一点,可以让您完全排除实验性操作的影响。

    Let’s take an hypothetical situation:

    让我们假设一个情况:

    You want to know whether a manipulation has an effect. It might be a novel marketing approach in your communication, a interference with biological activity or a “picture vs no picture” test in a mail you are sending. You of course have a control group to compare your experimental group to.

    您想知道操作是否有效。 这可能是您交流中的一种新颖的营销方式,是对生物活动的干扰,也可能是您发送的邮件中的“图片无图片”测试。 您当然有一个对照组来比较您的实验组。

    When collecting your data, you could see different patterns:

    收集数据时,您会看到不同的模式:

    • (i) the two groups differ.

      (i)两组不同。
    • (ii) the two groups behave similarly.

      (ii)两组的行为相似。
    • (iii) you do not have enough observations to conclude (sample size too small)

      (iii)您没有足够的观察结论(样本量太小)

    While option (i) is an evidence against the null hypothesis H0 (i.e., you have evidence that your manipulation had an effect), situations (ii) (=evidence for H0, i.e, evidence of absence) and (iii) (=no evidence, i.e, absence of evidence) cannot be disentangled using frequentist statistics. But maybe the bayesian approach can add something to this story...

    尽管选项(i)是针对null hypothesis H0的证据(即,您有证据证明您的操纵有效果),但情况(ii)(= H0的证据,即不存在的证据)和(iii)(=否)证据,即没有证据)不能使用常客统计来弄清。 但是也许贝叶斯方法可以为这个故事增添些...

    p值如何受效应和样本量影响 (How p-values are affected by effect and sample sizes)

    The first thing is to illustrate the situations where frequentist statistics have shortcomings.

    首先是要说明常客统计数据存在缺陷的情况。

    方法背景 (Approach background)

    What I will be doing is plotting how frequentist p-values behave when changing both effect size (i.e., the difference between your control, here with a mean=0, and your experimental distributions) and sample size (number of observations or data points).

    我要做的是绘制同时更改效果大小 (即,控件的均值= 0和实验分布之间的差异)和样本大小 (观察值或数据点的数量)时,频繁P值的行为。

    Let’s first write a function that would compute these p-values:

    让我们首先编写一个可以计算这些p值的函数:

    def run_t_test(m,n,iterations):
    """
    Runs a t-test for different effect and sample sizes and stores the p-value
    """
    my_p = np.zeros(shape=[1,iterations])
    for i in range(0,iterations):
    x = np.random.normal(loc=m, scale=1, size=n)
    # Traditional one tailed t test
    t, p = stats.ttest_1samp(a=x, popmean=0)
    my_p[0,i] = p
    return my_p

    We can then define the parameters of the space we want to test, with different sample and effect sizes:

    然后,我们可以使用不同的样本和效果大小来定义要测试的空间的参数:

    # Defines parameters to be tested
    sample_sizes = [5,8,10,15,20,40,80,100,200]
    effect_sizes = [0, 0.5, 1, 2]
    nSimulations = 1000

    We can finally run the function and visualize:

    我们最终可以运行该函数并进行可视化:

    # Run the function to store all p-values in the array "my_pvalues"
    my_pvalues = np.zeros((len(effect_sizes), len(sample_sizes),nSimulations))for mi in range(0,len(effect_sizes)):
    for i in range(0, len(sample_sizes)):
    my_pvalues[mi,i,] = run_t_test(m=effect_sizes[mi],
    n=sample_sizes[i],
    iterations=nSimulations
    )

    I will quickly visualize the data to make sure that the p-values seem correct. The output would be:

    我将快速可视化数据以确保p值看起来正确。 输出为:

    p-values for sample size = 5
    Effect sizes:
    0 0.5 1.0 2
    0 0.243322 0.062245 0.343170 0.344045
    1 0.155613 0.482785 0.875222 0.152519
    p-values for sample size = 15
    Effect sizes:
    0 0.5 1.0 2
    0 0.004052 0.010241 0.000067 1.003960e-08
    1 0.001690 0.000086 0.000064 2.712946e-07

    I would make two main observations here:

    我将在这里做两个主要观察:

    1. When you have high enough sample size (lower section), the p-values behave as expected and decrease with increasing effect sizes (since you have more robust statistical power to detect the effect).

      当样本量足够大时(下半部分),p值将按预期表现,并随着效果大小的增加而减小(因为您有更强大的统计能力来检测效果)。
    2. However, we also see that the p-values are not significant for a small sample sizes, even if the effect sizes are quite large (upper section). That is quite striking, since the effect sizes are the same, only the number of data points is different.

      但是,我们也看到即使样本量很大(上半部分),p值对于小样本量也并不重要。 这是非常惊人的,因为效果大小相同,所以只有数据点的数量不同。

    Let’s visualize that.

    让我们想象一下。

    可视化 (Visualization)

    For each sample size (5, 8, 10, 15, 20, 40, 80, 100, 200), we will count the number of p-values falling in significance level bins.

    对于每个样本大小(5、8、10、15、20、40、80、100、200),我们将计算落入显着性等级箱中的p值的数量。

    Let’s first compare two distributions of equal mean, that is, we have an effect size = 0.

    让我们首先比较两个均值相等的分布,即我们的效果大小= 0。

    Image for post
    Figure 2 | Number of p values located in each “significance” bins for effect size = 0
    图2 | 效果大小= 0时,每个“重要性”块中位于p值的数量

    As we can see from the plot above, most of the p-values computed by the t-test are not significant for an experimental distribution of mean 0. That makes sense, since these two distributions are not different in their means.

    从上图可以看出,通过t检验计算出的大多数p值对于平均值为0的实验分布而言并不重要。这是有道理的,因为这两种分布的均值没有差异。

    We can, however, see that in some cases, we do obtain significant p values, which can happen when using very particular data points drawn from the overall population. These are typically false positive, and the reason why it is important to repeat experiments and replicate results ;)

    但是,我们可以看到,在某些情况下,我们确实获得了显着的p值,当使用从总体总体中得出的非常特殊的数据点时,可能会发生这种情况。 这些通常都是假阳性,是重复实验和复制结果很重要的原因;)

    Let’s see what happens if we use a distribution whose mean differs by 0.5 compared to the control:

    让我们看看如果我们使用与控件相比均值相差0.5的分布会发生什么:

    Image for post
    Figure 3 | Number of p values per “significance” bins for effect size = 0.5
    图3 | 每个“显着性”区域的p值数量,效果大小= 0.5

    Now, we clearly see that increasing sample size dramatically increases the ability to detect the effect, with still many non significant p-values for low sample sizes.

    现在,我们清楚地看到,增加样本量会极大地提高检测效果的能力,但对于低样本量,仍有许多不重要的p值。

    Below, as expected, you see that for highly different distributions (effect size = 2), the number of significant p-values increase:

    如下所示,可以看到,对于高度不同的分布(效果大小= 2),有效p值的数量增加:

    Image for post
    Figure 3 | Number of p values per “significance” bins for effect size = 2
    图3 | 每个“显着性”仓的p值数量(效果大小= 2)

    OK, so that was it for an illustrative example of how p-values are affected by sample and effect sizes.

    好的,那是一个示例性示例,说明p值如何受样本和效果大小影响。

    Now, the problem is that when you have a non significant p value, you are not always sure whether you might have missed the effect (say because you had a low sample size, due to limited observations or budget) or whether your data really suggest the absence of an effect. As matter of fact, most scientific research have a problem of statistical power, because they have limited observations (due to experimental constraints, budget, time, publishing time pressure, etc…).

    现在的问题是,当您的p值不显着时,您将无法始终确定是否可能错过了效果(例如,由于观察或预算有限,样本量较小)还是您的数据确实暗示了没有效果。 实际上,大多数科学研究都有统计能力的问题,因为它们的观察力有限(由于实验限制,预算,时间,出版时间压力等)。

    Since the reality of data in research is a rather low sample size, you still might want to draw meaningful conclusions from non significant results based on low sample sizes.

    由于研究中数据的真实性相当低,因此您可能仍想根据低样本量从不重要的结果中得出有意义的结论。

    Here, Bayesian statistics could help you make one more step with your data ;)

    在这里,贝叶斯统计信息可以帮助您在数据处理方面迈出新一步;)

    Stay tuned for the following post where I explore the Titanic and Boston data sets to demonstrate how Bayesian statistics can be useful in such cases!

    请继续关注以下文章,在该文章中我将探索泰坦尼克号和波士顿的数据集,以证明贝叶斯统计量在这种情况下如何有用!

    You can find this notebook in the following repo: https://github.com/juls-dotcom/bayes

    您可以在以下回购中找到此笔记本: https : //github.com/juls-dotcom/bayes

    翻译自: https://towardsdatascience.com/statistics-how-bayesian-can-complement-frequentist-9ff171bb6396

    贝叶斯统计 传统统计

    展开全文
  • 贝叶斯统计_茆诗松

    2018-11-02 23:44:30
    非常经典的茆诗松的《贝叶斯统计》教材,教材有点老了,1999年版的。
  • 贝叶斯统计推断系统讲解了贝叶斯学习理论 学习统计学习的必备参考书
  • 贝叶斯统计第二版第五章答案In this post, I will compare the output of frequentist and Bayesian statistics, and explain how these two approaches can be complementary, in particular for unclear results ...

    贝叶斯统计第二版第五章答案

    In this post, I will compare the output of frequentist and Bayesian statistics, and explain how these two approaches can be complementary, in particular for unclear results resulting from a frequentist approach.

    在这篇文章中,我将比较常客和贝叶斯统计的输出,并解释这两种方法如何互补,特别是对于常客方法产生的不确定结果。

    For a first proof of concept, I will use the famous Titanic data set, that every first Kaggle user is exposed to upon registration. These statistics can be of course applied on any other data set. I selected the Titanic data set because it has a large range of variables, and readers might already know the data.

    作为第一个概念验证,我将使用著名的Titanic数据集,每个第一个Kaggle用户在注册时都会接触到它。 这些统计信息当然可以应用于任何其他数据集。 我选择“泰坦尼克号”数据集是因为它具有广泛的变量范围,并且读者可能已经知道这些数据。

    For the ones not familiar with this data set, it offers a range of variables that can be used to predict the likelihood of having survived the accident that sunk the boat back then. You will find all kind of approaches online to analyze this data set, as well as machine learning techniques to predict survival.

    对于不熟悉此数据集的人,它提供了一系列变量,可用于预测当时沉没在事故中幸存下来的可能性。 您将在线找到用于分析该数据集的各种方法,以及用于预测生存率的机器学习技术。

    I downloaded it from some source on the net, and you can find the exact data set I used here.

    我是从网上的一些来源下载的,您可以在这里找到我使用的确切数据集。

    FYI, the variables are listed below:

    仅供参考,以下列出了变量:

    [print(i) for i in df.columns]PassengerId
    Survived
    Pclass
    Name
    Sex
    Age
    SibSp
    Parch
    Ticket
    Fare
    Cabin
    Embarked

    缺乏证据 (Absence of Evidence)

    If you do the analysis yourself, you will find out that some variables are pretty good at predicting survival. For the sake of argumentation, and because I think it offers a nice explanatory power, let’s look at the variable age:

    如果您自己进行分析,您会发现某些变量非常擅长预测存活率。 为了论证,并且因为我认为它提供了很好的解释能力,让我们看一下可变年龄:

    df.Age.plot(kind='hist')

    Since we want to investigate the effect of age on survival, let’s split that accordingly:

    由于我们想研究年龄对生存的影响,因此我们将其相应地拆分:

    (df.groupby('Survived')
    .apply(lambda d: pd.Series({
    "std": d.Age.std(),
    "sem": d.Age.std() / d.Age.count(),
    "avg": d.Age.mean()
    }))
    .plot(kind='barh',
    y = "avg",
    legend = False,
    title = "Mean Age per Surival Class +/- std",
    xerr = "std"
    ));
    Image for post
    Figure 2 | Mean age per survival category. Errorbars shows the standard deviation of the distribution.
    图2 | 每个生存类别的平均年龄。 误差线显示分布的标准偏差。

    From a simple bar plot, there does not seem to be a crazy difference in the age of passengers that survived and did not survived the accident. Looking at the error bars, we might think that these distributions are not significantly different.

    从简单的条形图来看,幸存和未幸免于事故的乘客年龄似乎没有疯狂的差异。 查看误差线,我们可能会认为这些分布没有显着差异。

    Let’s test that statistically.

    让我们进行统计测试。

    For the demonstration of Bayesian statistics, I will be using the open source software JASP, which offers a user-friendly interface. There are many other packages out there that would allow you to run Bayesian stats from code. Since the readers might not be well versed in code, I use this software to show how to run basic Bayesian testing.

    为了演示贝叶斯统计,我将使用开源软件JASP ,它提供了用户友好的界面。 还有许多其他软件包,可让您从代码中运行贝叶斯统计信息。 由于读者可能不精通代码,因此我使用此软件来演示如何运行基本的贝叶斯测试。

    Let’s first load the Titanic data set in JASP:

    让我们首先在JASP中加载Titanic数据集:

    Image for post
    Figure 3 | Screenshot of the Titanic dataset when loaded in JASP
    图3 | 加载到JASP中的Titanic数据集的屏幕截图

    Above you can see that JASP automatically reorganizes the data in columns in a nice readable way.

    在上面可以看到,JASP以一种很好的可读方式自动重新组织了列中的数据。

    JASP allows you to perform basic statistical testing from both frequentist and Bayesian approaches. While I typically run my stats using SciPy, its kind of nice to have both approaches embedded in one software, so that you can compare the outputs easily.

    JASP允许您从常客和贝叶斯方法中执行基本的统计测试。 虽然我通常使用SciPy运行统计数据,但将两种方法都嵌入一个软件中还是一件不错的事,这样您就可以轻松比较输出。

    Let’s first start with the classic frequentist approach.

    让我们首先从经典的常客方法开始。

    Below, you see a screenshot of the JASP window that pops out when you want to do an independent sample t-test, which is what we should be doing if we want to test whether passengers that survived had a significantly different age than people that died due to the tragedy.

    在下面,您会看到一个JASP窗口的屏幕截图,当您想进行独立的t检验时会弹出该窗口,如果要测试幸存的乘客的年龄是否与死者的年龄显着不同,我们应该这样做由于悲剧。

    Image for post
    Figure 4 | Frequentist Independent Sample t-test in JASP.
    图4 JASP中的频繁独立样本t检验。

    As you can see, there is a lot of options that one could change, such as the type of test (Student, Welch, Mann-Whitney if you want to do a non parametric test), whether you have a hypothesis for the testing (one or two sided test). Additionally, you can also obtain more descriptive statistics if you want to explore your dataset using JASP.

    如您所见,有很多选项可以更改,例如测试的类型(如果要进行非参数测试,则为学生,韦尔奇,曼惠特尼),是否对测试有假设(一面或两面测试)。 此外,如果要使用JASP浏览数据集,还可以获取更多的描述性统计信息。

    I will just run a standard Student test, that is parametric testing. Before doing that, we should be checking whether assumptions for parametric testing are fulfilled by the distribution, but for the sake of demo, let’s assume they are.

    我将运行一个标准的Student测试,即参数测试。 在此之前,我们应该检查分布是否满足参数测试的假设,但是为了演示起见,让我们假设它们是正确的。

    Image for post

    Quite surprisingly, the test shows a significant difference between the two distributions (t(712) = 2.067, P = 0.039), i.e., the observed difference in age is unlikely under the null hypothesis. The p-value really flirts with the typical 0.05 alpha level, suggesting that this effect is significant according to frequentist statistics, but not very convincing if I might add.

    出乎意料的是,该测试显示了两种分布之间的显着差异(t(712)= 2.067,P = 0.039),即,在原假设下,观察到的年龄差异不太可能。 p值确实与典型的0.05 alpha水平调情,这表明根据常客统计数据,这种影响是显着的,但是如果我添加的话,并不是很令人信服。

    Before moving on, we should be looking at other measures than the p-value (effect size, see here, but since this post is about comparing frequentist and bayesian approach, I will just move on.

    在继续之前,我们应该查看除p值(效果大小,请参见此处)之外的其他度量,但是由于本文是关于比较常客和贝叶斯方法的,因此我将继续。

    Now let’s look at what a Bayesian Independent Sample t-test would show.

    现在,让我们看一下贝叶斯独立样本t检验将显示什么。

    Image for post
    Figure 5| Frequentist Independent Sample t-test in JASP.
    图5 | JASP中的频繁独立样本t检验。

    The Bayesian test outputs a so-called Bayes Factor (BF), which is the relative predictive performance of the null hypothesis H0 versus the alternative hypothesis H1. See here for more information on Bayes Factor.

    贝叶斯检验输出所谓的贝叶斯因子(BF),它是零假设H0与替代假设H1的相对预测性能。 有关贝叶斯因子的更多信息,请参见此处

    While I do not like the concept of arbitrary threshold, these ideas can be useful to draw meaningful conclusions about the data.

    虽然我不喜欢任意阈值的概念,但是这些想法对于得出有意义的数据结论很有用。

    In the frequentist world, the typical arbitrary threshold is 0.05, below which the effect is said to be significant.

    在频繁的世界中,典型的任意阈值为0.05,低于该阈值则认为效果显着。

    In the Bayesian world, and according to initial classifications by Jeffreys, the following nomenclature could be used:

    在贝叶斯世界中,根据Jeffreys的初步分类,可以使用以下术语:

    • BF < 1/3: evidence against the null hypothesis

      BF <1/3: 反对原假设的证据

    • 1/3 < BF < 3 : Anecdotical evidence

      1/3 <BF <3:轶事证据
    • BF > 3: Evidence for the null hypothesis

      BF> 3: 证据零假设

    In our case, we select BF10, which represents the likelihood of the data under the 1 Hypothesis compared to the likelihood of the data under the null hypothesis (in math terms: p(data | H1) / p(data | H0)).

    在我们的例子中,我们选择BF10,它表示1假设下的数据的可能性与零假设下的数据的可能性(以数学术语表示:p(data | H1)/ p(data | H0))。

    Back to our test. We find interesting options in the main window, that would allow you to perform a one sided or two sided test (“Alt. Hypothesis”, indicate by “+” in JASP), as well as BF manipulations that allow you to calculate that ratio for each comparison, BF10 (hyp 1 vs hyp 0) and BF01 (reverse comparison).

    回到我们的测试。 我们在主窗口中找到有趣的选项,使您可以执行单面或双面测试(“ Alt。Hypothesis”,在JASP中用“ +”表示),以及BF操作,可以计算该比率对于每个比较,BF10(hyp 1 vs hyp 0)和BF01(反向比较)。

    I suggest that you also explore the nice plots options that will allow you to visualize your prior and posterior distributions (that is for a separate post though…).

    我建议您还探索漂亮的图选项,使您可以直观地看到之前和之后的分布(尽管这是一个单独的帖子……)。

    Let’s run the test:

    让我们运行测试:

    Image for post

    In our case, we obtain a BF = 0.685, meaning that our data was 0.685 times more likely under H1 that under H0. According to initial classifications by Jeffreys, this speaks for a absence of evidence for H0, that is we cannot conclude that age does not affect the likelihood of survival in the Titanic accident. I insist here: since the BF is not below 1/3, we cannot claim that the have obtained evidence of the absence of effect of age on survival. In such situations, more data might be needed to observe how the BF might evolve with more accumulating data.

    在我们的情况下,我们获得BF = 0.685,这意味着我们的数据在H1下的可能性是H0下的0.685倍。 根据杰弗里斯(Jeffreys)的初步分类,这表示没有H0的证据,也就是说,我们不能得出结论,年龄不会影响泰坦尼克号事故中幸存的可能性。 我在这里坚持认为:由于BF不低于​​1/3 ,我们不能断言该证据已获得年龄对生存没有影响的证据。 在这种情况下,可能需要更多的数据才能观察到BF随着更多的累积数据如何发展。

    I like to think of Bayes Factor in the following terms: “How much should I change my belief that age has an impact on the survival likelihood of the titanic disaster?”. The answer is the Bayes Factor. Depending on your prior belief (that would be the so-called prior, that you can adapt based on what you already know from the data), the BF will be then different, depending on the strength of the effect.

    我喜欢用以下术语来思考贝叶斯因素:“我应该改变多少看法,即年龄对泰坦尼克号灾难的生存可能性有影响?”。 答案是贝叶斯因子。 根据您之前的信仰(这将是所谓的,你可以根据你已经从数据知道适应),高炉将是那么的不同,这取决于效果的强度。

    Here, it seems that I should not change my belief by much.

    在这里,看来我不应该改变太多信念。

    As you can see, while the frequentist approach would conclude of an effect of age, the bayesian one would say the more data is required before concluding. In such cases, the best would be to collect more data to get evidence of effect, or prove an evidence of absence of effect.

    如您所见,尽管常人主义方法会得出年龄影响的结论,但贝叶斯主义者会说,得出结论之前需要更多数据。 在这种情况下,最好的方法是收集更多数据以获取效果证据 ,或证明不存在效果的证据

    效力证据 (Evidence of Effect)

    Let’s now use another famous dataset, the boston housing dataset, to explore another situation. You can find this dataset on the repo given at the beginning of the post.

    现在,让我们使用另一个著名的数据集,波士顿房屋数据集,来探索另一种情况。 您可以在帖子开头给出的回购中找到此数据集。

    Below I am plotting the price of the houses (which you are supposed to predict in the initial competition), per location on or away from the Charles River.

    在下面,我绘制了查尔斯河远离查尔斯河的每个位置的房屋价格(您应该在最初的竞争中进行预测)。

    (df_housing.groupby('chas')
    .apply(lambda d: pd.Series({
    "std": d.medv.std(),
    "sem": d.medv.std() / d.medv.count(),
    "avg": d.medv.mean()
    }))
    .plot(kind='barh',
    y = "avg",
    legend = False,
    title = "Mean price per river location +/- std",
    xerr = "std"
    ));
    Image for post
    Figure 6 | Mean housing price per river location. Errorbars shows the standard deviation of the distribution.
    图6 每个河流位置的平均房价。 误差线显示分布的标准偏差。

    As we can see, the prices are higher for True values (close to the Charles River) than for False values. Now, let’s explore this observation statistically.

    如我们所见,True值(靠近查尔斯河)的价格比False值高。 现在,让我们从统计学角度探索这一观察。

    I won’t be showing the screenshots of the JASP results here, but only the results.

    我不会在这里显示JASP结果的屏幕截图,而只会显示结果。

    Image for post

    A frequentist independent sample t-test shows a highly significant difference between the two distributions (t(504) = -3.996, p < 0.001), i.e., the observed difference in housing price is significant between accomodations located on and away from the Charles River.

    独立的t检验样本表明,两种分布之间的差异非常显着(t( 504 )= -3.996, p <0.001),即,在查尔斯河上和远离查尔斯河的住宿中,观察到的房价差异均很大。

    Let’s see what we obtain with a bayesian test.

    让我们看看通过贝叶斯测试得到的结果。

    Image for post

    The bayesian approach confirms that observations with a very high BF value, suggesting that the data is 270 times more likely under the H1 hypothesis, than under the H0.

    贝叶斯方法证实了BF值非常高的观测结果,这表明在H1假设下,数据的可能性是在H0下的270倍。

    Now, we have the last case to explore: where bayesian statistics would allow us to conclude on the absence of an effect.

    现在,我们要探讨的最后一个案例是:贝叶斯统计量可以使我们在没有影响的情况下得出结论。

    缺席证据 (Evidence of Absence)

    So far, so good. In the previous example, we saw that both approaches made sense and concurred when the effect is high. Now let’s look at another variable where we might be able to use the power of the bayesian approach a bit more clearly.

    到目前为止,一切都很好。 在前面的示例中,我们看到两种方法都是有意义的,并且在效果很高时会同时存在。 现在,让我们看一下另一个变量,在该变量中我们可以更加清楚地使用贝叶斯方法的功能。

    Instead of looking at a variable that is likely to show a difference in price, let’s look at another one: the “zn” variable, i.e., the proportion of residential land zoned for lots over 25,000 sq.ft.

    让我们看看另一个变量:“ zn”变量,而不是查看可能显示出价格差异的变量,即,面积超过25,000平方英尺的住宅用地的比例。

    First, let’s see what a frequentist would say:

    首先,让我们看看一个常客会说些什么:

    Image for post

    And then, what a bayesian would say:

    然后,贝叶斯会说:

    Image for post

    The frequentist would say that there is no effect, but again, we do not know whether there actually is no effect, or whether we are lacking statistical power…

    该常客会说没有影响,但是同样,我们也不知道实际上没有影响,还是我们缺乏统计能力……

    The bayesian says that we have a BF10 = 0.284. This value is below 1/3 and, according to the nomenclature mentioned above, this time, our data provides moderate evidence for H0, i.e., that locations on or away from the Charles River does not lead to a higher proportion in industrial zone. In other words, we have evidence of absence of an effect, and we can completely rule out this variable from further models and interpretations, to simplify our analysis.

    贝叶斯说我们有BF10 = 0.284。 该值低于1/3,并且根据上述术语,这一次,我们的数据为H0提供了适度的证据,即,查尔斯河上或远离查尔斯河的位置不会导致工业区所占的比例更高。 换句话说,我们有证据表明没有影响,并且可以从进一步的模型和解释中完全排除此变量,以简化我们的分析。

    This conclusion is opposed to a “absence of evidence” situation, that we found previously in the Titanic dataset using the variable Age. In that particular situation, we should not take away Age from our models and analysis, since we do not have clear evidence that it does not play a role in our observed effect.

    该结论与我们先前在泰坦尼克号数据集中使用变量Age所发现的“缺乏证据”情况相反。 在那种特殊情况下,我们不应该将年龄从我们的模型和分析中删除,因为我们没有明确的证据表明年龄在我们观察到的作用中不起作用。

    结合常客和贝叶斯方法 (Combining the frequentist and bayesian approach)

    The most powerful approach to such statistical testing is probably to report both frequentist and bayesian approaches. This is something we have done in a recent publication, to accomodate both frequentist and bayesian reviewers, and to justify why some variables were taken away from further covariate analysis, while others were maintain

    进行此类统计测试最有效的方法可能是报告常客和贝叶斯方法。 这是我们在最近的出版物中所做的事情,以适应常客和贝叶斯评论家,并证明为什么某些变量被排除在进一步的协变量分析之外,而其他变量却被保留

    Cheers and thanks for reading :)

    干杯,并感谢您的阅读:)

    Ju

    You can find this notebook at the following repo: https://github.com/juls-dotcom/bayes

    您可以在以下回购中找到此笔记本: https : //github.com/juls-dotcom/bayes

    翻译自: https://medium.com/@julien.her/statistics-part-ii-bayesian-to-the-rescue-877cc18c8bfd

    贝叶斯统计第二版第五章答案

    展开全文
  • 贝叶斯统计课后答案

    热门讨论 2012-12-26 14:44:11
    贝叶斯统计课后答案 第一章 先验分布与后验分布 第二章 贝叶斯推断 第三章 先验分布的确定
  • 《现代统计学系列丛书:贝叶斯统计》共六章,主要内容包括绪论、先验分布的选取、后验分布的计算、贝叶斯统计推断、贝叶斯统计决策和贝叶斯统计计算。书中各章配有大量的例题和习题,书末附有常用的几个表格和部分...
  • 采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有...
  • 贝叶斯统计(16年版)与贝叶斯分析(13年版)合集带书签--韦来生
  • 贝叶斯 - 《贝叶斯统计》笔记

    万次阅读 多人点赞 2017-04-21 17:13:28
    贝叶斯统计 - 茆诗松》 茆诗松《贝叶斯统计》目前看过的讲贝叶斯方法最通俗易懂的书了 下载了在这里 第一章 先验分布和后验分布 1.1 三种信息  统计学的两个主要学派:频率学派,贝叶斯学派  统计推断的...

    《贝叶斯统计 - 茆诗松》

    茆诗松《贝叶斯统计》目前看过的讲贝叶斯方法最通俗易懂的书了 下载了在这里

    第一章 先验分布和后验分布

    1.1 三种信息

    统计学的两个主要学派:频率学派,贝叶斯学派
    统计推断的三种信息:
    1)总体信息:总体分布,总体所属分布族提供的信息。
    2)样本信息:从总体抽样的样本提供的信息。通过对样本的加工处理对总体特征进行估计。
    ----------------------- 基于以上两种信息的统计推断为“经典统计学”。
    ----------------------- 基本观点:把数据(样本)看做总体(具有一定概率分布的总体)
    3)先验信息:抽样之前有关统计问题的一些信息。来源于经验和历史资料。
    ----------------------- 基于以上三种信息的统计推断为“贝叶斯统计学”
    贝叶斯统计重视已经发生的样本观察值。
    贝叶斯学派基本观点:任一未知量θ,都具有不确定性,可以看做一个随机变量,可以用一个概率分布来描述(概率分布适合描述不确定性)。这个概率分布就是θ的先验(Prior)分布(抽样前已知的描述)
    如:极有可能是40岁左右。
    分析:“极有可能”表示90%的把握。“左右”可理解为上下偏差3岁。假设年龄为未知变量θ,那么对这段话的概率分布描述如下
     
    其一、对于未知变量θ可以谈论其概率,如P(37≤θ≤43)=0.9(贝叶斯学派把未知变量看做是随机变量,可以讨论起概率)
    而在经典统计学认为未知变量虽然其具体值未知,但是是确定的,因此对于经典统计学,P(37≤θ≤43)=1或0(事件发生或不发生),而不能P(37≤θ≤43)=0.9
    其二、这个“极有可能是40岁左右”的概率分布是根据经验推断得到的,而不是根据样本数据得到的。在贝叶斯统计中称为先验概率(主观概率)
    而频率学派中不存在主观的推断,只存在从样本数据统计得来的客观频率。
    (贝叶斯学派:使用主观概率将概率统计的研究推广到不能大量的重复随机中来)
    对于误用主观概率的情况,Berger(1995)给出的建议是:1、进行教育;2、分开列出,以便后人评判。

    1.2 贝叶斯公式

    事件形式 


    随机变量的密度函数:
    经典统计中记为p(x; θ)或pθ(x),表示在参数空间Θ={θ}中不同的θ对应着不同的分布
    贝叶斯统计中记为p(x|θ),表示随机变量θ给定某个值是,x的条件分布。
    先验分布π(θ),贝叶斯学派研究重点
    贝叶斯观点的样本x=(x1,…,xn)产生:
    step1、根据先验分布π(θ)产生样本θ’,这一步是老天爷做的,人们看不到。(这是样本产生的假设,假设样本θ’是根据先验分布π(θ)产生的)
    step2、从总体分布p(x|θ’)产生一个样本x=(x1,…,xn),这个是人产生的具体样本。得到这个样本的概率由如下概率密度函数描述
      (似然函数)
    这个概率密度函数综合了“总体信息”和“样本信息” => 被称为“似然函数”L(θ’)
    step3、由于样本θ’的产生是在先验概率π(θ)的假设基础上的,因此不能只考虑θ’一个值,而要考虑全部可能值(概率分布,也就是π(θ)),因此得到样本x和参数θ的联合概率分布h(x|θ)=p(x|θ) π(θ) (综合了三种信息)
    目标:对未知参数θ进行统计推断(估计)
    没有样本x之前,只能根据假设(先验分布π(θ))进行推断
    得到样本x之后,可依据h(x, θ)进行推断。因此,h(x, θ)可以分解为两部分:与θ有关的π(θ|x)和与θ无关的m(x)。也就是h(x|θ)= π(θ|x)m(x)。

    m(x)为x的边缘概率密度函数,与θ无关(不包含任何θ信息) 


    因此只能由π(θ|x)对θ作出推断,π(θ|x)为给定样本x情况下θ的分布(后验分布:集中了总体、样本、先验三种信息,排除了无关信息后得到的)
    概率密度函数形式

    θ为连续随机变量 


    θ为离散随机变量 


    后验分布π(θ|x):三种信息的综合,利用总体信息+样本信息(综合称为抽样信息)对先验分布π(θ)作出调整得到。
    贝叶斯假设:在对事件A没有了解的情况下,假设先验分布为(0,1)上的均匀分布U(0,1),(没一点机会均等,没有偏爱)。
    实例1:后验概率估计
    Step1、先验概率:对事件A没有了解,根据贝叶斯假设,其先验概率为均匀分布U(0,1)
            
    Step2、似然函数:n次独立观察,事件A出现次数为X,显然独立重复试验中A服从二项分布b(n,θ),(假设事件A出现的概率为θ,π(A)= θ)
            
    Step3、联合概率分布h(x|θ)=p(x|θ) π(θ)
            
    Step4、边缘概率:将联合概率分布对θ积分求出x的边缘概率m(x)
           
    Step5、后验概率
           
    实例2、后验概率估计(验证决策的真实可信度)

    实例3、样本x对先验π(A)的影响
     

    1.3 共轭先验分布

    定义:设θ是总体分布的参数,π(θ)是θ的先验密度函数。假如后验密度函数π(θ|x)与先验密度函数π(θ)有相同的函数形式,那么π(θ)为θ的共轭先验函数。
    共轭先验分布指对某一分布中的参数而言(如正态分布的均值,正态分布的方差,泊松分布的方差),离开参数及其所在分布谈是没有意义的。
    后验分布计算:π(θ|x)= p(x|θ) π(θ)/ m(x),由于m(x)与θ无关,仅是一个正则化因子(常数),则贝叶斯公式等价于π(θ|x)∝p(x|θ) π(θ)

    1.4 超参数及其确定

    超参数:先验分布中位置的参数
    一般共轭先验分布(有信息先验分布)含有超参数,无信息先验分布不含超参数。

    1.5 多参数模型

    1.6 充分统计量

    定义:设x=(x1,…,xn)是来自分布函数F(x|θ)的一个样本,T=T(x)是其统计量,假如在给定T(x)=t的条件下,x的条件分布于θ无关,则T为θ的充分统计量。
    验证:判别充分条件:(经典统计)因子分解定理;(贝叶斯统计)


    第二章 贝叶斯推断

    未知参数θ的后验分布π(θ|x)包含了总体、样本、先验三种信息(所有可利用信息)。统计推断(点估计、区间估计、假设检验等)都是从这个后验分布中提取信息,来完成推断的。

    2.1 条件方法

    条件观点:只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关。
    条件方法:基于条件观点进行统计推断。
    举例:贝叶斯推断不考虑无偏性。
     

    2.2 (点)估计

    贝叶斯估计:
    目的:估计总体分布p(x|θ)的参数θ。
    方法:
    Step1、抽取样本x=(x1,…,xn)
    Step2、选择先验分布π(θ)
    Step3、计算后验分布π(θ|x)
    Step4、选用后验分布的某个位置特征量(众数、中位数、期望值)作为参数θ的估计值
    最大后验估计θMD:选取后验分布π(θ|x)的最大值
    后验中位数估计θMe:选取后验分布π(θ|x)的中位数
    后验期望估计θR:选取后验分布π(θ|x)的期望值
     
    对于先验分布为二项分布((0,1)上的均匀分布U(0,1))的θ来说,就是经典统计中的极大似然估计。
    贝叶斯估计误差
    在样本给定后,贝叶斯估计θ~就是一个数值,按照后验分布π(θ|x)取值的=>因此采用θ对θ~的后验均方差((θ-θ~)^2的期望)来度量估计误差
     (θ~的后验均方差)
    其中Eθ|x表示用条件分布π(θ|x)求期望。
    当θ~等于后验均值时,θ~的后验均方差最小,因此常取后验均值作为贝叶斯估计。
    θ~的后验均方差值依赖于样本,不依赖于θ,样本给定之后就是数值,可以立即应用。
    后验均方差与后验方差的关系MSE(θ~|x)=Var(θ|x)+( θ~E-θ~)^2,θ~E=E(θ|x)为后期望

    2.3 区间估计

    定义
     
    在条件方法下,给定样本x和可信水平1-α通过后验分布可求得可行区间。
    如θ的可信水平为0.9的可信区间为[1.5,2.6],那么P(1.5≤θ≤2.6|x)=0.9(θ属于这个区间的概率是0.9)
    这在经典统计中的置信区间是不允许的,要么在,要么不在。

    2.4 假设检验

    贝叶斯假设检验
    Step1、建立原假设H0,被择假设H1
           (Θ0和Θ1是参数空间Θ中的两个不相交非空子集)
    Step2、获得后验分布概率π(θ|x),计算H0和H1的后验概率
           
    Step3、计算后验概率比
         α0/α1 > 1:接收H0
         α0/α1 < 1:接收H1
         α0/α1 ~= 1:不做判决,需要进一步抽样或收集先验信息
    贝叶斯因子:依赖于数据x和先验分布π
     

    2.5 预测

    含义:对随机变量未来的观察值的统计推断。
    设随机变量X ~ p(x|θ),根据有无观察值x分为两种情况
    无观察值:利用先验分布π(θ)获得数据x的分布,即“边缘分布”,或“先验预测分布”
     
    对过去数据没有要求,使用m(x)的某个特征值(期望、中位数、众数等)作为x的预测值
    或使用预测区间pm(a≤X≤b)=0.9(pm表示使用分布m(x)来计算概率)
    有观察值:x=(x1,…,xn),利用后验分布π(θ|x)获得未知观察值的分布。预测总体g(z|θ)
     
    m(z|x)称为“后验预测分布”

    2.6 似然原理

    似然函数:
    样本x=(x1,…,xn)是来自密度函数p(x|θ)的一个样本,则其乘积为
     
    当参数θ给定时,p(x|θ)是样本x的联系概率密度函数
    当观测值x给定时,p(x|θ)是未知参数θ的似然函数L(θ)
    似然函数是θ的函数,样本x指示一组数据。所有与θ有关的信息都包含在L(θ)中。
    θ使L(θ)越大,则这个θ越接近于真实值。
    极大似然估计:在参数空间Θ中找到θ使L(θ)取到最大值 –> 这个值最接近于真实值

    第三章 先验分布的确定

    3.1 主观概率

    贝叶斯统计中:使用历史资料和经验确定先验分布式一个重要的研究问题。
    贝叶斯学派认为:一个事件的概率是人们根据经验对该时间发生可能性给出的信念 -- 主观概率
    频率学派认为:一个事件的概率必须得到频率解释 – 客观概率
    主观概率必须满足三条公理
     

    3.2 利用先验信息确定先验分布

    直方图法
    选定先验密度函数再估计超参数
    定分度法、变分度法

    3.3 利用边缘概率m(x)确定先验密度请求2

    3.4 无信息先验分布

    贝叶斯假设:无信息分布用均匀分布做先验。参数空间中任何值概率均等,没有偏爱。


    3.5 多层先验

    当先验分布的超参数难以确定是,可以对超参数再给出一个先验(超先验);由先验和超先验决定的新的先验就是多层先验。


    第四章 决策中的收益、损失与效用

    4.1 决策为题的三要素

    决策过程分为两部分:
    (1) 把决策叙述清楚
    (2) 如何决策使收益最大
    状态集Θ={θ}。其中每个元素θ表示一种可能的状态,所有可能状态组成状态集。
    行动集A={a}。其中每个元素a表示一种可能的行动,有可能行动组成行动集。
    收益函数Q(θ,a).在状态θ,行动a情况下的收益大小。
    做决策:在当前状态θ下,从行动集中选取行动a,使收益Q最大。

    4.2 决策准则

    剔除不必要行动:若在状态集Θ上,处处有Q(θ,a1)≥Q(θ,a2),那么a2没必要存在(a2行动不允许)。
     
    悲观准则:保守准则,在最不利的状态下能够争取较多的利益
    Step1、对每个行动选取最小收益。
    Step2、在选出的最小收益中选出最大值 –> 采用这个最大值所对应的行动
    乐观准则:冒险准则,在最有利的状态下能够争取最多的利益
    Step1、对每个行动选取最大收益。
    Step2、在选出的最大收益中选出最大值 –> 采用这个最大值所对应的行动
    折中准则:赫维斯(Hurwicz)准则
    Step1、选取乐观系数a∈[0,1],表示决策者的乐观程度,越接近于1越乐观。
    Step2、计算每个行动a的评价函数H(a)
            
            :行动a的最大收益
            :行动a的最小收益
    Step3、选取最优行动a0
            

    4.3 先验期望准则

    4.4 损失函数

    含义:该赚的钱没赚到。本应该采取行动a1收益A1,然而采取了a2收益为-A2,那么损失为A1+A2。
    定义:状态集Θ,行动集A,损失函数L(θ,a)
    悲观准则:保守策略,最小化损失

    Step1、选取每个行动的最大损失值 


    Step2、从最大损失值中选出最小值 .


    先验期望准则:

    4.6 效用函数

    含义:度量收益和损失效果的函数,比如显示问题中的货币,这个函数衡量了一个单位的收益或损失对应的正真价值。
    效用测定:冯·诺依曼的“新效应理论”


    第五章 贝叶斯决策

    5.1 决策问题

    可供决策使用的两种信息:
    先验信息:人们在过去对各种状态发生可能性的认识。
    抽样信息(实验信息):将状态θ放到环境中观察实验(抽样),从获得的样本中得到状态θ的最新信息。
    三种决策和两类信息的关系(●使用,◌不使用)


    5.2 后验风险准则

    后验风险:用后验分布计算损失函数的期望(在后验分布下的平均损失),记为R(a|x)=Eθ|x[L(θ,a)]
     
    在给定样本x下,不同的行动a带来不同的后验风险
    在确定的行动a下,不同的样本x带来不同的后验风险。
    决策函数:从样本空间X到行动集A的映射函数δ(x),所有映射构成决策函数类D={δ(x)}
    后验风险准则:决策函数δ(x)的后验风险R(δ|x)=Eθ|x[L(θ, δ(x))]   
    贝叶斯决策函数:在决策函数类D={δ(x)}中具有最小后验风险的决策函数δ’(x)为最优决策函数  (贝叶斯估计)
    三个前提:
    (1)样本空间的联合概率密度函数p(x|θ)
    (2)参数空间Θ的先验分布π(θ)
    (3)定义在Θ*A上的损失函数L(θ,a)

    5.4 抽样信息的期望值

    为了消除收集抽样信息的麻烦
    完全信息:决策者掌握的信息能够肯定状态即将发生,该信息称为完全信息。
    完全信息先验期望:a’为先验期望准则下的最优行动,那么在a’下的损失函数的先验期望EVPI=EθL(θ,a’)为完全信息先验期望(记为 “先验EVPI”)(表示决策者能够掌握完全信时的期望损失)。
    完全信息的后验期望:后验EVPI= Eθ|xL(θ, δ’(x))。
    后验EVPI只有在给定样本x时才能计算。在抽样还没有发生(没有获得样本x)时,后验EVPI仍然是一个随机变量。
    后验EVPI期望= Ex (Eθ|xL(θ, δ’(x)))
    一般来说,抽样值(样本x)的获得会掌握更多信息,后验EVPI期望将减小 -> 这个减小的量就是抽样信息期望EVSI(样本带来的信息量的期望)
    EVSI=先验EVPI-后验EVPI期望 (EVSI= EθL(θ,a’) - Ex (Eθ|xL(θ, δ’(x))))

    5.5 最佳样本量的确定

    展开全文
  • 学习《机器学习、周志华》的贝叶斯分类器,里面涉及先验分布后验分布等名词,需要学习《贝叶斯统计》这门课。 因而准备了学习资源: 1 机器学习_周志华.pdf 2 贝叶斯统计_第2版_茆诗松_汤银才.pdf 3 贝叶斯统计-...
  • 贝叶斯统计——贝叶斯方法简述

    千次阅读 2019-05-10 23:51:31
    贝叶斯方法简述贝叶斯公式全概率公式贝叶斯统计基本原理 统计学中有两个主要学派:频率学派(又称经典学派)和贝叶斯学派。 频率学派利用总体信息和样本信息进行统计推断,贝叶斯学派与之的区别在于还用到了先验...
  • 贝叶斯统计,第二版

    2018-12-12 00:33:23
    贝叶斯统计教材及课后习题答案,茆诗松,汤银才编著,清晰版
  • 贝叶斯集锦:贝叶斯统计基础

    千次阅读 2014-11-08 20:25:02
    1.从贝叶斯定理到贝叶斯统计...贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯
  • 贝叶斯统计

    千次阅读 2019-05-27 19:16:48
    翻看目录一看,这就是心中所想的贝叶斯研究。少看网络分析,多读经典 《贝叶斯统计》 茆诗松 / 汤银才 2012.9 中国统计出版社
  • 贝叶斯统计为什么优于频率统计?

    千次阅读 2019-03-08 17:55:52
    这句话导致了丹尼斯林德利对克伦威尔规则的定义,这提出了如果一个先验概率等于零(我知道某些...在本文中,我们通过形象举例深刻剖析频率统计与贝叶斯统计之间的区别,深入探讨贝叶斯统计的神秘世界,以及它的...
  • 贝叶斯统计及可靠性

    2014-08-08 03:35:58
    非常好,非常清晰的贝叶斯统计及可靠性书籍

空空如也

1 2 3 4 5 ... 20
收藏数 3,681
精华内容 1,472
关键字:

贝叶斯统计