精华内容
下载资源
问答
  • T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4...

    转载自https://www.cnblogs.com/think-and-do/p/6509239.html

    T分布:温良宽厚

     

    本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作!

     

    命名与源起

     

    “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。

     

    Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!)

     

    看懂概率密度图

     

    这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。

     

    首先,我们看一下频率分布直方图,histogram:

    上图,最关键的就是横轴了,柱高,即,对于横轴上每一个点,发生的频次。图中横轴为4处,次数最多,大约12次;依次类推,横坐标为10处,发生1次……

     

    我们做单变量的探索性数据分析,最喜欢做柱状图了,或者再额外绘制一条Density曲线于其上(见下图)。很容易就可以看出数据的分布(集中趋势、离散趋势),图中,数据大多集中在4左右(均数、众数),有一点点右偏态,但基本还是正态分布。

     

    下图,手绘曲线,即密度曲线,英文全称Probability Density Function/Curve。实际上是对上面柱状图的一个平滑,但它的纵坐标变为了概率,区别于柱状图的频次。但理解起来意义差不多。

    以下,我们就用Density曲线来讲解T分布的特征。

     

    T分布的可视化

     

    我们平常说的t分布,都是指小样本的分布。但其实正态分布,可以算作t分布的特例。也就是说,t分布,在大小样本中都是通用的。

     

    之前有读者问过:“是不是样本量大于30或者大于50,就不能用t分布了呀”?

    完全不是这样的!t分布,大小通吃!具体且看下文分解。

     

    相对于正态分布,t分布额外多了一个参数,自由度。自由度  = n - 1。我们先看几个例子,主观感受一下t分布。

     

     = 1 :红色为t分布;蓝色为正态分布。

     = 2 :红色  = 2,高于  = 1 的绿色,低于正态分布。


     = 3 :红色  = 3,高于  = 1,2 的绿色,低于正态分布。


     = 10 :红色  = 10,高于  = 1~9的绿色,低于正态分布。


    可见,随着样本量n / 自由度的增加,t分布越来越接近正态分布。正态分布,可以看做只是t分布的一个特例而已。

     

    以上部分大家大概都学过的,相信大多数读者都会了解。但这里,让我们回到我们的标题(不是标题党):温良宽厚

     

    大家仔细比较一下下图。t分布(红色)虽然也是钟型曲线,但是中间较低、两侧尾巴却很高。


    这就是t分布的优势!这个特征相当重要,百年来,t分布就指着这个特征活着的!

     

    比较一下上图两条曲线,我用这样一个词,“宽厚”,来形容t分布曲线的特征。是不是比正态分布曲线更啊?是不是比正态分布曲线更呢?

     


    大家都说重要的事要重复三遍,我们再重复一下,样本量越小(自由度越小),t分布的尾部越高。

     

    尾部的高度,有十分重要的统计学意义。

     

    我们来比较一下下图中的两条曲线。这两条曲线同样都是对图中底部6个黑色点(数值)进行分布拟合。

     

    我们首先看一下那条矮的、正态分布的曲线。我们前面说过,正态分布的曲线不具备“宽厚”的特征。它的尾部很低,尾部与横轴之间高度很“狭窄”。也就是说,正态分布不能够容忍它长长的尾部出现大概率的事件(图中横轴值为15处一圆点出现概率为六分之一),所以正态分布就很无奈地,将这一点纳入它的胸膛而非留在尾部。于是乎,恶果就出现了:图中正态分布的均数,远远偏离了大多数点所在的位置,标准差也极大。总之,与我们所期待的很不一致。

    再看一下那条高高的t分布曲线。我们前面说过了,t分布“温良宽厚”,它的尾巴很高(本图中不明显,参见上面自由度为1,2,3时所对应的图片),高高的长尾让它有“容人的雅量”。所以,这条t分布的曲线,很好的捕捉到了数据点的集中趋势(横坐标:0附近)和离散趋势(标准差:只是那条正态分布曲线标准差的四分之一)。

     

    这也是T分布盛行的原因,即T分布被广泛应用于小样本假设检验的原因。虽然是很小的样本,但是,却强大到可以轻松的排除异常值的干扰,准确把握住数据的特征(集中趋势和离散趋势)!

     

    准确捕捉变量的集中趋势和离散趋势在统计中有极为重要的意义,几句话难以说清,简单举几个栗子:

     

    1. 研究样本量的估计量更小。熟悉样本量计算的朋友也知道,标准差是样本量计算的一个重要参数。上例中,我们t分布的标准差只是正态分布的四分之一,那么我们计算所需的样本量也会极大的减少(只需原来的16分之一),极大地降低研究经费和工作量!(关注“医学统计分析精粹”,回复关键词“样本量”,可以看到很handy的样本量计算工具哦!)

    2. 我们缩小了标准差,熟悉假设检验(将在后续“看图说话”系列文章中出现)的朋友也不难看出,如此,我们更容易得到一个有意义的P值!

    3. 点估计更准确。如果我们需要根据一个小样本数据来估计学生的平均身高。那么使用正态分布来拟合,很容易就受到离群异常值的影响而得到错误的估计。

    4. 回归中应用t分布,可以得到更稳健的估计量(β值或OR值),这也是我们实现“稳健回归”的一个重要手段。

     

    通过下面一幅图,我们巩固一下t分布的“宽厚”:

     

    与正态分布曲线(矮胖)比较,t分布以其高高的尾部(本图中不明显,参见上面自由度为1,2,3时所对应的图片),容忍了在横轴为9处的异常值,得到了更稳健的集中趋势估计值(均值1.11)和更紧凑的离散趋势估计值(标准差差0.15,又是正态分布的四分之一)。要知道,我们如果单单想通过增加样本量来将标准误(假设检验中使用的参数,标准差除以自由度的平方根)缩减到四分之一,需要16倍的样本量!可见,t分布当真是威力无穷!

     

    PS:上述两幅图中的t分布曲线并不是频率学派应用t分布的常规套路(更像是贝叶斯学派的用法)。细心者可以发现,我们使用的t分布的自由度明显低于n - 1的自由度计算方法。这里的自由度是根据最大似然法估计出来的,用以更恰当地拟合数据的分布。虽然这与我们平时的用法不同,但小编觉得,这一点点不同不仅无伤大雅,反而更有利于大家深入理解t分布的特征——温良宽厚

     

    卡方分布的应用

     

    本文来自http://www.cnblogs.com/baiboy/p/tjx11.html

     

    提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集。诚然在传统学科中,其在以上学科发挥作用很大。然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要。本系列统计学学习基于李航的《统计学习方法》一书和一些基本的概率知识。

    统计和数学模型对机器智能发挥重大的作用。诸如:语音识别、词性分析、机器翻译等世界级的难题也是从统计中找到开启成功之门钥匙的。尤其是在自然语言处理方面更显得重要。

     

    • 目录

    • 1 题引和基本知识介绍

    • 2 卡方检验拟合优度(问题一)

    • 3 卡方检验两个变量的独立性(问题二)

    • 4 本章小结

    • 5 内容扩展

    1 题引和基本知识介绍


    1 什么是卡方分布?

      若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和

    Q=∑i=1nξ2i

    构成一新的随机变量,其卡方分布规律称为x^2,分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个x2正态分布一样,自由度不同就是另一个分布。记为 Q~x^2(k). 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,X^2分布近似为正态分布。 对于任意正整数k, 自由度为 k的卡方分布是一个随机变量X的机率分布。

     

    2 为什么要引用卡方分布?

      以特定概率分布为某种情况建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常的小幅度波动?还是建模错误?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】

    3 生活中又怎样的事例(抽奖机之谜)会出现这种现象呢?

      抽奖机,肯定都不陌生,现在一些商场超市门口都有放置。正常情况下出奖概率是一定的,基本商家收益。倘若突然某段时间内总是出奖,甚是反常,那么到底是某阶段是小概率事件还是有人进行操作了?抽奖机怎么了?针对这种现象或者类似这种现象问题则可以借助卡方进行检验,暂且不着急如何检验,还是补充一下基础知识,再逐步深入解决问题。【常规事件中出现非常规现象,如何检查问题所在的情况下使用卡方分布】

    4 问题描述:抽奖机之谜?

    问题一:卡方检验拟合优度案例

    下面是某台抽奖机的期望分布,其中X代表每局游戏的净收益(每局独立事件):

      
    实际中人们收益的频数为:
      
    在5%的显著性水平下,看看能否有足够证据证明判定抽奖机被人动了手脚。

    1、算出每个x值的实际频率与根据概率分布得出的期望频率进行比较? 
    2、利用抽奖机的观察频率和期望频率表计算检验统计量?
    3、要检验的原假设是什么?备择假设是什么?
    4、自由度为4且5%水平的拒绝域是多少?
    5、检验统计量是多少?
    6、检验统计量是在拒绝域以内还是拒绝域以外?
    7、你将接受还是拒绝原假设?

    问题二:卡方检验独立性案例

    下表显示各位庄家的观察频数,
           
    以1%的显著性水平进行假设检验,看看赌局结果是否独立于坐庄庄家。

    1、你是任务是算出所有期望频数。
    2、根据上面所求期望频数,计算检验统计量X^2.
    3、确定要进行检验的假设以及备择假设。
    4、求出期望频率和自由度?
    5、确定用于做决策的拒绝域。
    6、计算检验统计量X^2 
    7、看看检验统计量是否位于拒绝域内。
    8、作出决策。

    2 卡方检验拟合优度(问题一)


     

    问题简述:抽奖机平常收益者总是商家,突然一段时间总是出奖。本来小概率事件频发,我们利用卡方的检验拟合优度看看能否有足够证据证明判定抽奖机被人动了手脚

    1 知识储备:期望频数计算

    期望频数=(观察频数之和(1000)) X (每种结果的概率) 如:X=(-2)的期望频数:977=(0.977)X(1000)
    利用卡方假设检验观察频数和期望频数之间的差别。

    • 1、算出每个x值的实际频率与根据概率分布得出的期望频率进行比较?
      解答:
          

    2 知识储备:卡方检验评估差异

    卡方分布:通过一个检验统计量来比较期望结果实际结果之间的差别,然后得出观察频数极值的发生概率。
    计算统计量步骤: (期望频数总和与观察频数总和相等)
      1、表里填写相应的观察频数和期望频数
      2、利用卡方公式计算检验统计量:(O代表观察期望,E代表期望频数) 
      

    x2=∑(O−E)2E


      注释: 其中x^2表示检验统计量,O表示观察频数,E代表期望频数。
      即:对于概率分布的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加。
    检验统计量意义:O与E之间差值越小,检验统计量越小。以E为除数,令差值与期望频数成比例。
    卡方检验的标准:如果统计量值(X^2)很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。

     

    • 2、利用抽奖机的观察频率和期望频率表计算检验统计量?
      解答:
          

    3 知识储备:卡方假设检验

    卡方分布的用途:检查实际结果与期望结果之间何时存在显著差异。
      1、检验拟合优度:也就是说可以检验一组给定数据与指定分布的吻合程度。如:用它检验抽奖机收益的观察频数与我们所期望的吻合程度。
      2、检验两个变量的独立性:通过这个方法检查变量之间是否存在某种关系。
    自由度V:用于计算检验统计量的独立变量的数目。
      1、自由度希腊字母V,读作“纽”,v影响概率分布 
      2、当v等于1或者2时:卡方分布先高后低的平滑曲线,检验统计量等于较小值的概率远远大于较大值的概率,即观察频数有可能接近期望频数。图形:
         
      3、当v大于2时:卡方分布先低后高再低,其外形沿着正向扭曲,但当v很大时,图形接近正态分布。图形:
          
      4、特定参数v(缪)的卡方分布以及检验统计量可以记作:
        
      5、v的计算: (如例子:v=5-1)
         v=(组数) - (限制数)
    显著性: 卡方分布指出观察频数与期望频数之间差异显著性,和其他假设一样,这取决于显著性水平。

      1、显性水平α进行检验,则写作:(常用的显著性水平1%和5%
        

      2、检测标准:卡方分布检验是单尾检验且是右尾,右尾被作为拒绝域。于是通过查看检验统计量是否位于右尾的拒绝域以内,来判定期望分布得出结果的可能性。
           
      3、卡方概率表的使用:卡方临界值表是给定可以查询的
         

     

     

    例如: 5%的显著性水平,8的自由度进行检验。查出15.51,因此只要检验统计量大于15.51,检验统计量就位于拒绝域内。  

           


    卡方分布假设检验: (总是使用右尾) 
    步骤:
      1、确定要进行检验的假设(H0)及其备择假设H1.
      2、求出期望E和自由度V. 
      3、确定用于做决策的拒绝域(右尾).
      4、计算检验统计量. 
      5、查看检验统计量是否在拒绝域内.
      6、做出决策.
    卡方分布检验其实就是假设检验的特殊形式。

    • 3、要检验的原假设是什么?备择假设是什么?
      解答:
        

    4 知识储备:拒绝域求解

    例如: 5%的显著性水平,8的自由度进行检验。查出15.51,因此只要检验统计量大于15.51,检验统计量就位于拒绝域内。         

    • 4、自由度为4,5%水平的拒绝域是多少? 
      解答: 
        

    5 知识储备:计算检验统计量

    前面已经求过。

    • 5、检验统计量是多少?
      解答:
        

    6 知识储备:检验统计量拒绝域内外判定

    1、求出检验统计量a
    2、通过自由度和显著性水平查到拒绝域临界值b
    3、a>b则位于拒绝域内,反之,位于拒绝域外。

    • 6、检验统计量是在拒绝域以内还是拒绝域以外? 
      解答:
        

    7 知识储备:决策原则

    如果位于拒绝域内我们拒绝原假设H0,接受H1。 
    如果不在拒绝域内我们接受原假设H0,拒绝H1

    • 7、你将接受还是拒绝原假设?
      解答:
        

    注:只有能得到一组观察频数且算出期望频数,卡方可以检验任何概率分布的拟合优度。

    揭晓谜底:抽奖机被人动了手脚!!!!!

    3 卡方检验两个变量的独立性(问题二)


     

    【问题简述】:抽奖机被人动过手脚,经过技术人员处理得以解决,但是现在新问题出现了,因为老板发现负责二十一点赌桌的庄家佩服的钱高于合理值。怀疑庄家是内鬼。究竟赌局结果是否取决于坐庄的庄家,即庄家是否暗箱操作,赌局结果与庄家是否有关?此问题需要卡方分布检查独立性破案。

    【问题二】下表显示各位庄家的观察频数,
         
    以1%的显著性水平进行假设检验,看看赌局结果是否独立于坐庄庄家。

    1 知识储备:利用概率求期望频数

    1、独立性检验:用于判断两种因素是否相互独立,或者两者是否有联系。
    2、期望概率求解步骤:
      1、算出赌局结果和庄家频数以及各项总和,如下表称为列联表
        
      2、算出庄家A的赢局期望。
       a、求出赢局概率:P(赢)=赢局合计/总和 
       b、庄家A坐庄概率:P(A)=合计A/总和 
       c、假设庄家A和赌局结果独立,其坐庄出现赢局概率:P(A坐庄赢局)=P(赢) X P(A)
       d、赢局的期望频数=总和*P(A坐庄赢局)
        即: 
        
    3、推广:期望频数= 行合计 X 列合计 / 总和 
    4、求出检验统计量:(与前面一样) 
      

    x2=∑(O−E)2E

     

    • 1、你是任务是算出所有期望频数。
      解答:

    • 2、根据上面所求期望频数,计算检验统计量X^2.
      解答:
          

    • 3、确定要进行检验的假设以及备择假设。
      解答:
        

    • 4、求出期望频率和自由度? 
      解答:
         

    • 5、确定用于做决策的拒绝域。
      解答:
         

    • 6、计算检验统计量X^2 
      解答:
         

    • 7、看看检验统计量是否位于拒绝域内。
      解答:
         

    • 8、作出决策。
      解答:
         

    2 自由度计算方法归纳:

    列联表自由度计算,表如下k列,h行 
    v=(h-1) X (k-1) 注释:每行计算到最后一个,用总数-其他之后,故一个数限制,同列一列限制。故如上式。

    注:

    1、在拟合优度检验中,v=组数 - 限制数
    2、在两个变量独立性检验中,如列联表为h行k列则:v=(h-1) X (k-1)

    4 本章小结


    1 为什么要引用卡方分布?

      以特定概率分布为某种情况建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常小幅度波动或是在建模错误如何判别?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】

    2 卡方检验拟合优度案例

    期望计算

    期望频数=(观察频数之和(1000)) X (每种结果的概率) 如:-2:977=(0.977)X(1000)

    卡方分布

    通过一个检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率。

    计算统计量步骤:(期望频数总和与观察频数总和相等)

      1、表里填写相应的观察频数和期望频数
      2、利用卡方公式计算检验统计量:(O代表观察期望,E代表期望频数)

      

    x2=∑(O−E)2E

     

       :对于概率分布的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加。

    检验统计量意义

      O与E之间差值越小,检验统计量越小。以E为除数,令差值与期望频数成比例。 卡方检验的标准:如果统计量值(X^2)很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。

    卡方分布的用途

      检查实际结果与期望结果之间何时存在显著差异。
        1、检验拟合优度:也就是说可以检验一组给定数据与指定分布的吻合程度。如:用它检验抽奖机收益的观察频数与我们所期望的吻合程度。     2、检验两个变量的独立性:通过这个方法检查变量之间是否存在某种关系。

    自由度V

        用于计算检验统计量的独立变量的数目。
         1、自由度希腊字母V,读作“纽”,v影响概率分布 
         2、当v等于1或者2时:卡方分布先高后低的平滑曲线,检验统计量等于较小值的概率远远大于较大值的概率,即观察频数有可能接近期望频数。      3、当v大于2时:卡方分布先低后高再低,其外形沿着正向扭曲,但当v很大时,图形接近正态分布。
         4、特定参数v(缪)的卡方分布以及检验统计量
         5、v的计算: (如例子:v=5-1)
            v=(组数) - (限制数)

    显著性

       卡方分布指出观察频数与期望频数之间差异显著性,和其他假设一样,这取决于显著性水平。

        1、显性水平α进行检验,则写作:(常用的显著性水平1%和5%)
        2、检测标准:卡方分布检验是单尾检验且是右尾,右尾被作为拒绝域。于是通过查看检验统计量是否位于右尾的拒绝域以内,来判定期望分布得出结果的可能性。
        3、卡方概率表的使用:卡方临界值表是给定可以查询的

    卡方分布假设检验步骤: 总是使用右尾

      1、确定要进行检验的假设(H0)及其备择假设H1.
      2、求出期望E和自由度V. 
      3、确定用于做决策的拒绝域(右尾).
      4、计算检验统计量. 
      5、查看检验统计量是否在拒绝域内.
      6、做出决策.
    卡方分布检验其实就是假设检验的特殊形式。

    决策原则

    如果位于拒绝域内我们拒绝原假设H0,接受H1。 如果不在拒绝域内我们接受原假设H0,拒绝H1

    卡方检验两个变量的独立性(问题二)

    独立性检验:

    用于判断两种因素是否相互独立,或者两者是否有联系。

    期望概率求解步骤:

      1、算出赌局结果和庄家频数以及各项总和,如下表称为列联表
         
      2、算出庄家A的赢局期望。
        a、求出赢局概率:P(赢)=赢局合计/总和 
        b、庄家A坐庄概率:P(A)=合计A/总和 
        c、假设庄家A和赌局结果独立,其坐庄出现赢局概率:P(A坐庄赢局)=P(赢) X P(A)
        c、赢局的期望频数=总和*P(A坐庄赢局)
        即: 
        

    推广:

    期望频数= (行合计 X 列合计) / 总和

    求出检验统计量:(与前面一样)

      

    x2=∑(O−E)2E

     

    自由度计算方法归纳:

      列联表自由度计算,表如下k列,h行
              

    v=(h-1) X (k-1)

    注释:每行计算到最后一个,用总数-其他之后,故一个数限制,同列一列限制。故如上式。

    注:

    1、在拟合优度检验中,v=组数 - 限制数
    2、在两个变量独立性检验中,如列联表为h行k列则:v=(h-1) X (k-1)

     

    F 分布

    F分布

     

    研究A、B、C三种不同学校学生的阅读理解成绩找到一种解决的办法,有人可能会以为,只要多次使用Z检验或t检验,比较成对比较学校(或条件)即可。但是我们不会这样来处理。因为Z检验或t检验有其局限性:

    (1)比较的组合次数增多,上例需要3次,如果研究10个学校,需要45个

    (2)降低可靠程度,如果我们做两次检验,每次都为0.05的显著性水平,那么不犯Ⅰ型错误的概率就变为0.95×0.95=0.90。此时犯Ⅰ型错误的概率则为1-0.90=0.10,即至少犯一次Ⅰ型错误的概率翻了一倍。若做10次检验的话,至少犯一次Ⅰ型错误的概率将上升到0.40(1-0.952),而10次检验结论中都正确的概率只有60%。所以说采用Z检验或t检验随着均数个数的增加,其组合次数增多,从而降低了统计推论可靠性的概率,增大了犯错误的概率

     

    完全随机设计是采用完全随机化的分组方法,将全部实验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义。

     

    【例子】

    某医生为研究一种四类降糖新药的疗效,以统一的纳入标准和排除标准选择了60名2型糖尿病患者,按完全随机设计方案将患者分为三组进行双盲临床试验。其中,降糖新药高剂量组21人、低剂量组19人、对照组20人。对照组服用公认的降糖药物,治疗4周后测得其餐后2小时血糖的下降值(mmol/L),结果如表9-1所示。问治疗4周后,餐后2小时血糖下降值的三组总体平均水平是否不同? 

     

    总平均数:

    各处理组平均数:

    总例数:

    g为处理组数

     

    1,总变异:全部测量值各不相同,这种变异称为总变异。总变异的大小可以用均差平方和SS来表示,即各测量值Xij与总平均数差值的平方和,SS总,反映那个了所有测量值之间总的变异程度。

    2,组内变异(误差变异):同一处理组中的受试对象接受相同的处理,其测量值间各不相同。这种变异称为组内变异。SS组内 组内各测量值Xij与其所在组的均数的差值的平方和,表示随机误差的影响。

    3,组间变异,各处理组接受处理的水平不同,各组的样本均数各不相同,这种变异称为组间变异。其大小可以用各组均数与总均数的离均差平方和SS组间,反应了三组用药不同的影响(如果处理确实有作用),同时也包括了随机误差。

    存在组间变异的原因:

    (1)随机误差

    (2)不同处理水平可能对实验结果的影响

     

    方差分析的基本思想:总变异分解为多个部分,每个部分由某因素的作用来解释,通过将某因素所致的变异与随机误差比较,从而推断该因素对测定结果有无影响。变异程度除与离均差平方和的大小有关外,还与自由度有关,将各部分离均差平方和除以自由度,比值称为均方差MS:

     

     

    如果各组样本来自相同总体,无处理因素的作用,则组间变异同组内变异一样,只反应随机误差作用的大小。

     

    组间均方与组内均方的比值称为F统计量

     

    F值接近于1,就没有理由拒绝H0(来自相同总体),反之,F值越大,拒绝H0的理由越充分。当H0成立时,F统计量服从F分布,自由度v1和v2,Fv1,v2

     

     

    v1=组间自由度 = g-1 = 3-1 v2=组内自由度=N-g= 60-3 = 57,查F分布表得到P<0.01,按α=0.05水准,拒绝H0,接受H1有统计学意义,可认为2型糖尿病患者治疗4周,其餐后2小时血糖的总体平均水平不全相同。

    方差分析的结果若拒绝H0,接受H1,不能说明各组总体均数两两间都有差别。如果要分析哪些两组间有差别,要进行多个均数间的多重比较(卡方检验)。当g =2时,方差分析的结果与两样本均数比较的t 检验等价 t=sqrt(F)。

     

    展开全文
  • 正态分布某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。正态分布,即高斯分布,是自然界最常见的数据分布了。 用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5...

    正态分布

    某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。

    正态分布,即高斯分布,是自然界最常见的数据分布了。
    用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5),就是均值为-2,标准差为0.5的正态分布。而N(0,1)称为标准正态分布。

    这里给出R应用

    //假设当在居民的身高正态分布均值为170cm,标准差为10,身高低于160的概率为
    pnorm(160,170,10)//0.1586553
    //身高在170~180之间的概率为
    pnorm(180,170,10)-pnorm(170,170,10)//0.8413447-0.5=0.3413447

    中心极限定理

    通常,由于总体过大,我们以样本为研究对象,并用样本的统计量估算总体的统计量。
    比如,我们根据样本均值,估算出总体均值。
    我们从总体中100取出多个样本,每个样本10条数据,取每个样本的均值,得到100个样本均值。当样本均值够多时,就会发现这些样本均值服务正态分布。取这个样本均值的正态分布的均值,理论上最接近总体均值了。这就是大数定理,即,中心极限定理。

    抽样分布

    上面提到的样本均值,算是一种样本统计量。
    就是说,当我们在一个数据集中抽出多个样本时,这些样本的样本统计量会服从固定的抽样分布。
    这样,我们只要看抽样分布与假定的总体分布差距大小,就知道总体分布的情况了。
    常见的三大抽样分布:卡方分布、t分布、F分布,都是基于正态分布导出的,用来检验正态总体。

    抽样检验

    还是上面的人群身高的例子。假如那个地区的人们说自己当地男性的平均身高是170cm,但我们观察到的情况是低于170的人比较多,于是我们假设居民平均身高低于170cm,并来检验一下这个假设。
    我们测量20男性的身高当作样本。已知总体身高服从正态分布,总体均值为170cm,我们只要用t分布来检验样本均值和总体均值差距是否大,就可以知道当在居民是否说谎了。

    //样本数据
    h<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);
    //做t检验。假设居民平均身高低于170cm,并来检验一下这个假设
    t.test(h,m=1.70,alternative = "less")

    以下是t检验的输出结果

    One Sample t-test
    

    data: h
    t = -3.2065, df = 19, p-value = 0.002323
    alternative hypothesis: true mean is less than 1.7
    95 percent confidence interval:
    -Inf 1.694241
    sample estimates:
    mean of x
    1.6875

    从t检验结果可以看出:
    样本均值为1.6875。
    在t分布图上,t值-3.2065对应的概率p值为0.002323。使用0.005的显著性水平的话,由于p值小于显著性水平,表明假设错误的概率很低。可以说,平均身高应该是低于170cm的,且估计错误的概率低于0.005。

    检验模式

    上面的例子我们使用了单尾检验模式中的less,即假设总体均值小于170cm。还有两种模式:greater、two-side,分别表示样本均值大于总体均值,不等于总体均值。

    这里看下R代码

    //假设居民平均身高高于170cm,并来检验一下这个假设
    t.test(h,m=1.70,alternative = "greater")

    One Sample t-test

    data: h
    t = -3.2065, df = 19, p-value = 0.9977
    alternative hypothesis: true mean is greater than 1.7
    95 percent confidence interval:
    1.680759 Inf
    sample estimates:
    mean of x
    1.6875

    可以得出结果,由于t = -3.2065对应的p值没有小于显著水平0.005,假设不成立。

    对比检验

    上面例子是样本与总体预估均值的对比检验,接下看下两个样本之间的对比检验。
    还是拿身高的例子来说,这里我们要研究饮用水源对身高的影响,选了相同地区两村子的居民做样本来研究。一个村子喝地下水,一个村子喝河水,分别测量20名男性身高,做对比。因为有人声称喝河水的民民普遍长的高,我们就来检验一下假设。

    //喝地下水的居民身高
    h1<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);
    //喝河水的居民身高
    h2<-c(1.69,1.69,1.70,1.71,1.67,1.68,1.68,1.70,1.70,1.68,1.64,1.73,1.66,1.71,1.68,1.69,1.69,1.68,1.67,1.69);
    //假设喝河水的居民比喝地下水的居民高
    t.test(h1,h2,alternative = "less")

    Welch Two Sample t-test

    data: h1 and h2
    t = 0.085501, df = 37.536, p-value = 0.5338
    alternative hypothesis: true difference in means is less than 0
    95 percent confidence interval:
    -Inf 0.01036226
    sample estimates:
    mean of x mean of y
    1.6875 1.6870

    从检验结果来看,t = 0.085501在t分布图上对应的概率p为0.5338,没有低于显著水平0.05,假设不成立。

    正态检验

    上面的几个例子可以使用t检验我们的各种假设,是因为我们确定身高数据服从正态分布,否则所有的检验就无效了。
    实际应用过程中,可以这样检验数据是否服从正态分布:

    shapiro.test(h)

    Shapiro-Wilk normality test

    data: h
    W = 0.94791, p-value = 0.3365

    从输出结果来看,由于p值大于显著性水平0.05,所以可以判定数据集h服从正态分布。
    所有检验都不是100%正确。比如下面这段R代码:

    shapiro.test(1:30)//输出为:0.2662
    shapiro.test(1:50)//输出为:0.05809

    零假设、备选假设

    前面有关身高的例子中,以p小于显著性水平0.05来判断假设是否成立,而关于正态分布检验的例子中,以p大于显著性水平0.05来判断是否满足正态分布。真正的标准是什么?
    p<0.05是拒绝是零假设,承认备选假设;p>0.05是无法拒绝零假设。重点在于选择的零假设和备选假设是什么。

    展开全文
  • 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 一、参数估计基础-Z分布 ...二、参数估计基础-t分布 实际资料的分析中,由于往往未知,故标准化转换演变...

    统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 

    一、参数估计基础-Z分布

    在统计应用中,可以把任何一个均数为\mu,标准差为\sigma的正态分布N(\mu ,\sigma ^{2})转变为\mu =0,\sigma =1的标准正态分布,即将正态变量值XZ=\frac{X-\mu }{\sigma }来代替,由于\overline{X}服从正态分布,故Z=\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}服从标准正态分布N(0,1),其中\sigma _{\overline{X}}表示总体的标准差。

    特点:总体的标准差\sigma _{\overline{X}}是一定的。

    二、参数估计基础-t分布

    实际资料的分析中,由于\sigma往往未知,故标准化转换演变为:\frac{\overline{X}-\mu }{S _{\overline{X}}}=\frac{\overline{X}-\mu }{S/\sqrt{n}},服从\nu =n-1t分布,即:t=\frac{\overline{X}-\mu }{S _{\overline{X}}}。其中S表示样本的标准差,S/\sqrt{n}表示标准误。

    统计学家发现,t分布的分布性状是与和样本量息息相关的自由度相对应的。

    t 分布曲线特点:

    1.  t分布曲线是单峰分布,它以0为中心,左右对称。
    2.  t分布的形状与样本例数 n(自由度\nu=n-1)有关。自由度越小,则S_{\overline{X}}越大,t值越分散,曲线的峰部越矮,尾部则偏高。
    3. n\rightarrow +\infty时,则 S 逼近 \sigmat分布逼近标准正态分布。
    4. t分布不是一条曲线,而是一簇曲线。

    三、参数估计基础-t转换和Z转换的不同

    1. Z=\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}转换标准误在一个固定的\sigma _{\overline{X}}上实现的转换。

    2. t=\frac{\overline{X}-\mu }{S _{\overline{X}}}=\frac{\overline{X}-\mu }{S/\sqrt{n}}转换是基于和每次抽样结果(S为样本的标准差)有相关关系的标准差,所有相对于基于总体标准差来说,有一定的不确定性。

    四、参数估计-点估计

    样本统计量直接作为总体参数的估计值。 

    于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。

    \overline{X}\rightarrow \mu,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。

    缺陷:用样本均值测算总体均值完全相等几乎是不可能的,所以我们用一个范围去估计总体参数所在的位置(区间估计)。

    五、参数估计-区间估计

    按预先给定的概率(1-\alpha )估计总体参数的可能范围,该范围就称为总体参数的(1-\alpha )置信区间(confidence interval, CI) 。

    预先给定的概率(1-\alpha )称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。

    置信区间由两个数值即置信限(下限和上限)构成。

    置信水平是指总体参数值落在样本统计值某一区内的概率(成功率);而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。

    1、总体均数\left ( \mu \right )的区间估计

    以下是正态总体抽样得到的均数的分布规律,通过抽样得到的样本均数\overline{X}\mu并不能原丝合缝的相等。

    (1)\sigma 已知

    按标准正态分布原理计算,由Z分布,标准正态曲线下有 95%的Z值在±1.96之间。

    -1.96<\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}<1.96 简单运算之后转换为:  \overline{X}-1.96\sigma _{\overline{X}}<\mu <\overline{X}+1.96\sigma _{\overline{X}} 
            95%的双侧置信区间: (\overline{X}-1.96\sigma _{\overline{X}},\overline{X}+ 1.96\sigma _{\overline{X}})

    99%的双侧置信区间: (\overline{X}-2.58\sigma _{\overline{X}},\overline{X}+2.58\sigma _{\overline{X}}),99%的双侧置信区间

    通式:\overline{X}-Z_{\alpha/2}\sigma _{\overline{X}}(双侧)

    (2)\sigma 未知,样本例数n足够大(n>50

    t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有 95%的t值在±1.96之间,即:

    -1.96<\frac{\overline{X}-\mu }{S_{\overline{X}}}<1.96 简单运算之后转换为:  \overline{X}-1.96S _{\overline{X}}<\mu <\overline{X}+1.96S_{\overline{X}}
            95%的双侧置信区间: (\overline{X}-1.96S_{\overline{X}},\overline{X}+ 1.96S _{\overline{X}})

    99%的双侧置信区间: (\overline{X}-2.58S_{\overline{X}},\overline{X}+2.58S_{\overline{X}})

    通式:\overline{X}-Z_{\alpha/2}S _{\overline{X}}(其中S_{\overline{X}}=S/\sqrt{n}S表示样本标准差,n表示样本含量,S_{\overline{X}}是基于样本标准差S的标准误)(双侧)

    某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。

    \overline{X}\pm Z_{\alpha/2}S _{\overline{X}}Z_{0.05/2}=1.96

    \overline{X}\pm 1.96S _{\overline{X}}=172.2\pm 1.96\frac{4.5}{\sqrt{90}}=(171.3,173.1))

    该市19岁健康男大学生的身高的95%置信区间(171.3,173.1) cm。 

    注意:

    并不能说该市19岁健康男大学生的平均身高有95%的概率落在区间 (171.3,173.1)里!即不能说这个区间有95%的概率覆盖总体均数。

    这是由于平均身高作为总体均值,它是一个常数(客观存在),因此当区间估计完成以后,区间(171.3,173.1)要么覆盖总体均数,要么不覆盖。也就是说,概率为0或1,不会出现其它的概率值。

    在一次具体的估计完成之前,一定样本量下的区间估计方法,假如能够重复很多次的话,将有较多的次数,例如95%的次数会成功,有5%的次数会失败,因为在我们完成具体的计算之前,实际上(\overline{X}-1.96\sigma _{\overline{X}},\overline{X}+ 1.96\sigma _{\overline{X}})这个区间估计的上边界和下边界都还是随机变化的。

    用大量来自同一总体的独立样本对总体均数做估计时,关于95%的置信区间(CI),正确的说法是:A

    A.大约有95%的样本的CI覆盖总体均值

    B.各个样本估计的CI是相同的

    C.对于同一个CI而言,有95%的可能性覆盖总体均数————>>要么覆盖(100%),要么不覆盖(0%)

    (3)\sigma 未知,且样本例数n较小(n< 50

    t分布可知,此时某自由度的t曲线下约有 95%的t值在\pm t_{0.05/2(\nu)}之间,即:

    -t_{0.05/2(\nu)}<t<t_{0.05/2(\nu)}

      -t_{0.05/2(\nu)}<\frac{\overline{X}-\mu }{S_{\overline{X}}}<t_{0.05/2(\nu)} 
            \overline{X}-t_{0.05/2(\nu)}S_{\overline{X}}<\mu <\overline{X}+t_{0.05/2(\nu)}S_{\overline{X}}

    95%的双侧置信区间: (\overline{X}-t_{0.05/2(\nu)}S_{\overline{X}},\overline{X}+t_{0.05/2(\nu)}S_{\overline{X}})

    99%的双侧置信区间: (\overline{X}-t_{0.01/2(\nu)}S_{\overline{X}},\overline{X}+t_{0.01/2(\nu)}S_{\overline{X}})

    通式:\overline{X}-t_{\alpha /2(\nu)}S _{\overline{X}}(其中S_{\overline{X}}=S/\sqrt{n}S表示样本标准差,n表示样本含量,S_{\overline{X}}是基于样本标准差S的标准误)(双侧)

    已知某地27例健康成年男性血红蛋白量的均数为 \overline{X}=125g/L,标准差S=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

    95%CI:\overline{X}\pm t_{0.05/2(\nu)}S_{\overline{X}}=\overline{X}\pm t_{0.05/2(26)}\frac{15}{\sqrt{27}}=125\pm 2.056\times 2.38 = (119.06,130.94)g/L

    99%CI:\overline{X}\pm t_{0.01/2(\nu)}S_{\overline{X}}=\overline{X}\pm t_{0.01/2(26)}\frac{15}{\sqrt{27}}=125\pm 2.779\times 2.38 = (116.98,133.02)g/L

    2、总体概率\left ( \pi \right )(\pi )的区间估计

    总体概率的置信区间与样本含量n、阳性频率P(二项分布)的大小有关,可根据nP的大小选择以下两种方法。

    1、正态近似法

    当样本含量足够大,且 P1-P不太小(通常 \large n\pi\large n(1-\pi )大于或等于5),则样本率的分布近似正态分布。 

    公式为:(P-Z_{\alpha /2}S_{P},P+Z_{\alpha /2}S_{P})

    P为样本率, S_{P}为基于样本率的标准误,S _{p}=\sqrt{\frac{P(1-P)}{n-1}}\approx \sqrt{\frac{P(1-P)}{n }}

    例:用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。

    分析:本例样本例数较大,且样本率P 不太小,可用正态近似法:

    \large \begin{align} P\pm Z_{\alpha /2}S_{P} &=P\pm Z_{\alpha /2}\sqrt{\frac{P(1-P)}{n }} \\ &=0.783\pm 1.96\times \sqrt{\frac{0.783(1-0.783)}{120}} \\ &=(0.709,0.857) \end{align}

    2、 查表法

    n 较小,如n≤50,特别是P 和1-P 接近0或1时,应按照二项分布的原理估计总体率的可信区间。

    某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。

     

    通过查表,该手术合并症发生概率的95%置信区间为[1%,17%]

    展开全文
  • 上篇博文中的置信区间计算代码在使用过程中并不准确,本人没并没有搞清楚原因 - - 求大神解答: import numpy as np from scipy import stats X1=np.array([14.65,14.95,8.49,9.51,...interval=stats.t.inte...

    上篇博文中的置信区间计算代码在使用过程中并不准确,本人没并没有搞清楚原因 - - 求大神解答:

    import numpy as np
    from scipy import stats
     
    X1=np.array([14.65,14.95,8.49,9.51,10.23,2.75])
    Xmean=X1.mean()
    Xstd=X1.std(ddof=1)
    interval=stats.t.interval(0.95,len(X1-1),Xmean,Xstd)
     
    print("置信区间为:",interval)

     在计算一个文献中出现的数据时出现了问题:

     ↑为python代码输出结果

    ↑为R输出结果

    ↑正确结果。

    并没有找到其他现成的包里面的命令用于直接计算T分布下的置信区间,通过查阅资料找到自定义函数实现置信区间的计算:

    def ci_t (data,confidence=0.95):
        sample_mean = np.mean(data)
        sample_std = np.std(data,ddof=1)    
        sample_size = len(data)
        alpha = 1 - confidence
        t_score = scipy.stats.t.isf(alpha / 2, df = (sample_size-1) )
    
        ME = t_score * sample_std / np.sqrt(sample_size)
        lower_limit = sample_mean - ME
        upper_limit = sample_mean + ME
    
        print( str(confidence*100)+ '%% Confidence Interval: ( %.2f, %.2f)' % (lower_limit, upper_limit))
        return lower_limit, upper_limit

    input:

    ci_t(X1)

    output:

    95.0% Confidence Interval:(5.38, 14.82)

    结果正确~

    thats all thank you~

     

    代码引用自:https://www.jianshu.com/p/6cfce4cc2f7f

    感谢。

    展开全文
  • 伯努利分布(Bernoulli Distribution) Bernoulli Distribution是最简单的二项式分布,只有两个选择,Y or N,以0表示N,1表示Y。在日常生活中也比较常见,符合非黑即白的二元思维,例如投票预测。假设p表示Y(1)...
  • 最近学习非参数统计,碰到一个样例,准确说明了若数据不服从正态分布,或明显的偏态表现,应用t统计量和t检验推断未必能发挥较好的效果~ 这是一个课本上的例题,数据是16座预售楼盘均价,判断是否与媒体公布的37...
  • 概率分布

    万次阅读 2016-04-23 23:04:23
    概率在机器学习中起着重要的作用,概率表示的是事件发生的频率。偏频派认为,事情发生的概率是固定的,给与的样本越多,求得的概率的正确率越高。而贝叶斯派则认为,事情发生的概率是服从一定分布的,是不确定的。
  • 高斯分布

    万次阅读 2018-10-24 12:10:58
    正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准...
  • 摘要: t-分布领域嵌入算法(t-SNE, t-distributed Stochastic Neighbor Embedding )是目前一个非常流行的对高维度数据进行降维的算法, 由Laurens van der Maaten和 Geoffrey Hinton于2008年提出。这个算法已经在机器...
  • 指数分布

    千次阅读 2017-04-21 11:34:02
    利用几何分布的无记忆性来理解指数分布的无记忆性,事实上证明这种思路是完全可行的。其实几何分布就是在已经试验n次尚未成功的条件下,再试k次仍然未成功的概率与重新开始试k次未成功的概率相等,而与n无关。举两个...
  • 2、左手的指法3、右手的指法4、大拇指主要控制的是空格键,如图:5、整个手指的指法如下图:6、打字前应如下图将手指放在键盘上以上就是打字时如何正确放置手指的介绍以及正确的键盘打字手势 ,希望大家...
  • 二、hadoop伪分布搭建

    千次阅读 2015-07-07 20:14:49
    ssh-keygen -t rsa # 会提示,都按回车就可以 cat id_rsa.pub >> authorized_keys # 加入授权 此时再用 ssh localhost 命令,无需输入密码就可以直接登陆 4、安装Java环境     Java环境...
  • 高斯分布 正态分布

    千次阅读 2010-11-30 21:21:00
    <br />正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为...
  • T检验

    万次阅读 多人点赞 2017-07-10 22:10:10
    什么是T检验 一个例子 思路1 思路2 p值 第一类错误与第二类错误 alpha值 另一种流程 假设形式与拒绝域的推广 t检验的分类 ...为什么t统计量服从t分布 单样本t检验 独立样本t检验 配对样本t检验 p值参
  • 正态分布及matlab实现

    万次阅读 多人点赞 2014-06-03 09:58:48
    正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准...
  • HAWQ技术解析(七) —— 存储分布

    千次阅读 2017-04-01 16:53:14
    在HAWQ中创建一个表时,应该预先对数据如何分布、表的存储选项、数据导入导出方式和其它HAWQ特性做出选择,这些都将对数据库性能极大影响。理解有效选项 的含义以及如何在数据库中使用它们,将助于做出正确的...
  • 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准...
  • 关于这个结论的证明,我们在后面讨论正态分布的时候会详细说明。 1.3)二项分布的应用条件 各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料 已知发生某一结果(阳性)的概率为π...
  • 本文主要说明如何通过吉布斯采样来采样截断多维高斯分布的参数(已知一堆截断高斯分布的数据,推断其参数( μ , Σ ))。 关于吉布斯采样的介绍文章都停止在吉布斯采样的详细描述上,如随机采样和随机模拟:吉布斯...
  • 高斯分布(正态分布)

    千次阅读 2018-01-18 15:42:02
    转自:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中...
  • 泊松分布的学习

    千次阅读 2017-04-21 11:33:59
    对泊松公式的看法 ,正确理解泊松分布 虽然那个时候大家都会背“当试验的次数趋于无穷大,而乘积 np 固定时,二项分布收敛于泊松分布”,大部分的教科书上也都会给出这个收敛过程的数学推导,但是看懂它和真正的...
  • Hadoop伪分布模式安装

    千次阅读 2019-03-29 16:19:26
    Hadoop伪分布模式安装 Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,完全分布运行模式。 (1)本地模式(local mode) 这种运行模式在一台单机上运行,没有HDFS分布式文件系统,而是直接读写本地操作...
  • 初看泊松分布

    千次阅读 2017-01-14 18:59:05
    初看泊松分布前言看了大多数博客关于泊松分布的理解,都是简单的对公式做一些总结,本篇文章重点关注泊松分布如何被提出,以及理解背后对现实的假设是什么。可以参考参考的资料 1. 百度百科–泊松分布(推导过程...
  • 本文由@浅墨_毛星云出品,首发于...作为基于物理的渲染(PBR)技术中材质高光质感的决定因素,更先进的法线分布函数(Normal Distribution Function,NDF)的问世和发展,是PBR能够在游戏和电影工业日益普及的重要...
  • 联合密度分布

    千次阅读 2018-08-25 21:51:20
    对于每一个概率,我们必须首先定义积分的区域,一般使用几何学和检查事件空间来检查该区域是否正确。一旦我们建立了这个积分公式,我们就可以通过 S y m P y S y m P y SymPy 来自动计算这个积分。 例子1 假设...
  • 泊松分布与泊松过程介绍。
  • 使用 C 语言产生正态分布的随机数

    千次阅读 2019-05-20 16:03:56
    我修改了《常用算法程序集(C语言描述)》这本书中相关的源代码,并将结果保存,使用 MATLAB 画出直方图验证了程序的正确性。关于代码的解释,之后再补充。C 语言代码如下: // C语言产生正态分布随机数的源代码 #...
  • GreenPlum数据分布以及执行计划

    千次阅读 2019-05-30 09:27:38
    执行计划/数据分布情况 1.Gather Motion (N:1),聚合,每个节点将表查询后的数据发到主节点master上聚合起来,哪个节点的数据先返回就将此数据先放在master上。 2.Redistribute Motion (N:N) ,重新分布,利用join...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 90,237
精华内容 36,094
关键字:

关于t分布正确的有