精华内容
下载资源
问答
  • 2021-02-05 08:37:00

    #导入库

    import pandas as pd

    import numpy as np

    #模拟一些数据

    data=pd.DataFrame(np.random.randn(10,3),columns=["y","x1","x2"])

    #导入线性回归类

    from sklearn.linear_model import LinearRegression

    #开始建模估计回归系数

    #实例化一个回归模型

    regmodel = LinearRegression()

    #给模型传入测试集数据x和y

    regmodel.fit(data.loc[:,["x1","x2"]],data["y"])#线性回归训练

    regmodel.intercept_ #常数项

    regmodel.coef_ #斜率系数

    #计算模型的可决系数

    regmodel.score(data.loc[:,["x1","x2"]],data["y"])

    #通过help(regmodel.score)可以看到这个方法返回的是回归方程的可决系数

    #如果想估计不带常数项的回归方程该怎么办呢?

    #在实例化模型的时候设定fit_intercept参数值为False就可以,具体代码如下

    regmodel = LinearRegression(fit_intercept=False)

    regmodel.fit(data.loc[:,["x1","x2"]],data["y"])#线性回归训练

    regmodel.intercept_ #结果为0

    regmodel.coef_ #斜率系数

    更多相关内容
  • 同学们今天给大家分享类题型做题技巧,这种题目是有关常数项的二项式定理题目,如果用常规运算同学们是非常花费时间的;今天分享的做题技巧这种题目是能够读秒出答的; 我来看第题目,这道题是2013年江西卷的...

    在这里插入图片描述
    作者:vxbomath
    同学们今天给大家分享一类题型做题技巧,这种题目是有关常数项的二项式定理题目,如果用常规运算同学们是非常花费时间的;今天分享的做题技巧这种题目是能够读秒出答的;
    我来看第一题目,这道题是2013年江西卷的高考题目;在这里插入图片描述
    技巧秒出答案:
    在这里插入图片描述
    同学们下面的题都是这么做出来,都是读秒出答案。需要视频可以私聊老师;看下一题:
    在这里插入图片描述
    在来看下一题:
    在这里插入图片描述
    下面一大题是上海的一道高考试题:这道题给同学强调一个点;二项式系数和项的系数是有本质上区别的。这个大家一定不要混淆!在这里插入图片描述
    同学今天的内容就到这里,需要更多高质量的解题技巧,可以私聊老师,也可以评论在下方,老师抽时间统一回答!

    展开全文
  • 实际上回归分析自Galton爵士提出以及Pearson和Fisher的理论的加持,经过百多年的发展,早已成了发现客观规律的有力武器。回归分析的文章已经多得数不胜数了,这篇文章也许会有点不同:我一直力求详细。这篇文章是...

    d82eb1a1704bec52e9fc17a13463bffa.png

    在如今机器学习、数据科学、人工智能热潮下,回归分析似乎成了家喻户晓的东西。实际上回归分析自Galton爵士提出以及Pearson和Fisher的理论的加持,经过一百多年的发展,早已成了发现客观规律的有力武器。回归分析的文章已经多得数不胜数了,这篇文章也许会有点不同:我一直力求详细。这篇文章是一文详解t检验的延续,从一元线性回归的理论出发,涉及到回归系数的估计、无偏性的证明、方差的计算、显著性检验和预测,再推广到多元线性回归模型(用矩阵来研究会非常方便)。

    从函数到回归模型

    早在初中我们就学过一元一次函数:

    给定

    后,这是一条
    确定的直线, 只需要两点就可以确定的直线,给出一个新的
    ,就可以唯一确定一个落在这条直线上的
    。这为我们线性回归的思想打下了基础。我们在等号右边加一个随机扰动项(又叫噪声,noise),就成了一元线性回归模型:

    只不过我们更习惯这样的表达:

    代表每一个样本点,取的是个体的英文identity的首字母。

    要注意的是(1)式不是回归模型,(2)式才是。究其原因在于(1)式代表一条确定的直线,而(2)式含有未知的随机扰动项。只有含随机扰动项的才是回归模型。回归模型与直线的相同点是自变量和因变量都是线性关系,不同点在于前者是不确定的,后者是确定的。

    世界纷繁复杂,确定相比不确定简直是小巫见大巫。(2)式是真实的客观规律,但是未知、不可观测的。但我们可以假设要研究的因变量

    关于自变量
    的条件期望是自变量
    的确定的线性关系,即:

    假设中的

    是未知的,称之为
    回归系数。为了检验这个假设,我们要利用样本数据估计出
    ,将它们的估计值记为
    ,由此得出的相应的
    的估计值为
    ,这样(3)式变为:

    (4)式称为经验回归方程,这是对真实的、不可观测的(2)式的估计。

    被解释变量(dependent variable)响应变量(response)、内生变量,
    解释变量(independent variable)、外生变量。 但一般
    是人为给定的常量,只有
    是变量。

    (2)、(3)和(4)可以推广到多个解释变量的情形:

    基本假定

    基本假定是对于随机扰动项

    来说的,它有两个基本假定:
    1. 零均值、等方差、无自相关(Gauss-Markov假定
    1. 正态分布、相互独立假定
    相互独立

    其中

    未知。
    这两个基本假定是不一样的

    由于

    都是常数,那么
    也是正态变量:

    这一点在后面的推导中很有用。

    一元线性回归模型

    这部分我们结合向量来推导。对于

    个样本,即
    ,我们可以将被解释变量、解释变量、回归系数和随机扰动项表示为向量:

    其中随机扰动项

    满足基本假定,有:

    其中

    阶单位方阵。在解释变量前面添加全1向量形成
    设计矩阵(Design Matrix)

    这样模型可改写为:

    1.利用最小二乘法估计回归系数并证明存在且唯一

    估计回归系数的一种方法是最小二乘法(Least Square Method, LSE),为了与广义最小二乘法相区别,有人也称之为普通最小二乘(Ordinary Least Square, OLS)。如果回归方程对样本拟合得较好,能较好地反映客观规律,那么真实值

    和回归值
    的“距离”会较小。对于这个“距离”的定义,我们采用残差平方和:

    其中

    是残差平方和Sum of Squares for Error的缩写。令
    取得最小值的
    ,就是它们的最小二乘估计(记得要加一个帽子):

    只需要对于

    求偏导数并令其为0:

    这两式进一步化简:

    解方程组(加帽子):

    得到最小二乘估计:

    实际上

    的表达式可以接着化简(若不加说明,
    表示
    ):

    不妨记:

    那么(13)可以写为:

    实际上(13)还可以改写为:

    或者:

    (14)在后面会用到。

    有一个问题,这里求偏导数并令其为0得到的是

    的极小值点,如何证明它就是函数的最小值点?我们需要考察
    关于
    矩阵:

    由于

    是对称阵,若它满秩,则它正定,那么
    的极小值点就是最小值点,且唯一。而它满秩的充要条件是向量
    与全1向量不线性相关。这个条件一般情况下都满足的。

    我们定义残差

    ,从而残差向量:

    那么(9)和(10)说明了如下事实:

    也就是说

    向量、
    向量都与残差向量
    正交。实际上设计矩阵
    是由
    向量、
    向量组成的,它可以看成由这两个向量张成的平面,估计值
    向量、
    向量的线性组合,落在
    平面上。真实值
    是空间中的一条向量,残差向量
    平面正交(如图所示)。这也说明了估计值
    与真实值
    的关系:估计值
    是真实值
    平面的投影。

    f31d69d5d47d3b922eda0a0ad272f858.png

    2.极大似然估计

    上面使用了最小二乘法来估计回归系数,也可以考虑极大似然估计(Maximum Likelihood Estimation, MLE)。由于

    是正态变量,有密度函数:

    样本的似然函数:

    其中

    是之前定义过的残差平方和:

    对数似然函数:

    其中

    是与
    无关的常数。

    令对数似然函数取得最大值的必要条件:

    解得:

    再将上式带回对数似然函数:

    它取得最大值

    取得最小值,说明极大似然估计与最小二乘法是等价的。实际上也可以对对数似然函数分别关于
    求偏导并令其为0,最终化简得到的表达式与最小二乘法对残差平方和进行的操作得到的结果是一样的。

    3.一些性质

    先证明

    关于
    线性性质。由(14):

    其中

    。说明了
    关于
    的线性性质。令:

    则:

    考察

    ,由(11)、(17):

    说明了

    关于
    的线性性质。下面考察
    无偏性

    由(11):

    接着考虑回归系数的方差及它们的协方差。

    首先给出引理:

    Lemma 1

    ,则:

    ,则:

    根据Lemma 1:

    由Lemma 1、(18)和(19):

    上式还可以接着化简:

    由(11)、(17)、Lemma 1和(19),考察它们的协方差:

    给定解释变量一个新的取值

    ,考虑
    的方差。由(19)、(20)和(22):

    实际上

    不一定要是新值,也可以是某个已有的样本
    ,那么它相应的被解释变量的预测值
    的方差:

    一定要与真实值

    的方差区分:

    4.假设检验

    回到开始的问题,我们要验证建立这个模型的假设是否成立,也就是进行假设检验。有两个假设检验需要做,一个是对回归系数的显著性

    检验,一个是对方程总体的显著性
    检验。

    要检验解释变量

    对被解释变量
    的影响是否显著,也就是做如下假设检验:

    时,
    无关,那么
    的影响不显著。但
    是未知的,我们只能根据它的估计值
    来作检验。根据
    是关于
    的线性函数,且
    是正态变量,那么
    也是正态变量:

    成立时:

    我们首先回顾一下

    统计量的构造定义:

    相互独立,那么:

    然而要构造一个

    统计量有一个非常漫长的过程但这是值得的,在这个过程中我们还能定义一些概念,方便
    检验使用。根据
    统计量的构造定义,我们需要找到
    相互独立的标准正态变量和卡方变量

    我们首先就定义

    总离差平方和:

    回归平方和:

    残差平方和:

    实际上

    。下面证明
    总离差平方和分解式
    ,最后两个等号应用了(8)、(16):

    考虑上式中的最后两项,由(8)和(15)、(16)的向量化表达:

    从而:

    。实际上平方和分解式也可以不用向量化运算,用三个平方和定义中的第一个等号的式子展开后,也就是证明:

    根据(4)、(15)、(16),上式左边等于:

    由:

    两式相减得到:

    我们先给出

    的另一种表达,并利用它给出
    的期望,根据(23):

    考虑它的期望,要用到(19):

    我们再考虑

    ,其中用到(2)和(4):

    计算它的期望,其中用到(15)、(16)、(19)、(20)和(22):

    下面考虑

    ,要用到(15)、(16)、(18)以及
    的独立性(
    ):

    再考虑

    由(25)、(26)得到:

    将(28)、(29)带入(25)得到:

    (30)式实际上说明了

    的无偏估计,记作
    。由于
    未知,我们需要利用样本信息来估计它,现在已经找到了它的无偏估计。
    这一点在构造
    统计量中非常关键。在之后我会给出它的另一个证明(见(42))。

    接着就是寻找一个卡方变量,这一部分在一文详解t检验中的4.回归系数的显著性检验附录2.3已经给出,只需取

    即可。那么我们得到了与标准正态变量独立的卡方变量(独立性的证明见一文详解t检验
    附录2.4):

    其中

    。现在我们需要找到一个标准正态变量,实际上我们之前就得到了:

    我们只需对它标准化:

    那么

    实际上:

    的标准差的无偏估计:

    回到假设检验:

    给定显著性水平

    ,查自由度为
    分布表得到分位数
    ,若根据样本计算得到的
    ,则拒绝原假设,即
    的影响是显著的,否则认为不显著。假设检验和置信区间等价,那么
    置信区间为:

    实际上也可以对

    做假设检验(意义不大):

    类比

    统计量的构造,根据(21),对于

    假设检验和置信区间的步骤也是类似的。

    关于线性回归方程整体的显著性

    检验可以参考一文详解F检验中的 3.线性回归方程整体的显著性检验。只需取
    即可:

    统计量及方差分析表:

    时拒绝原假设,认为回归方程整体是显著的,否则不显著。

    对于一元线性回归,

    检验和
    检验是等价的,因为根据(24)和(33):

    这说明

    统计量的值是
    统计量的平方,根据数理统计可以知道自由度为
    变量的平方就是自由度为
    变量。它们的分位数也相同,故检验是等价的。

    实际上对于一元线性回归,还有一种检验:相关系数检验可以做。相关系数的定义:

    对这个定义稍加推导:

    得到

    的关系,且它们符号相同。这一点很容易理解,
    是相关系数,
    是经验回归方程的斜率,它们符号肯定是相同的。再给出相关系数检验统计量前,首先给出一个结论:**对于一元线性回归,这三个检验是等价的。
    为了说明这一点,我们首先给出决定系数(Coefficient of Determination)**的概念:

    根据第一个等号,直观上它的意义就是

    的比例,也就是回归平方和占总离差平方和的比例,也就是
    回归方程能解释的被解释变量的变差占被解释变量总变差的比例。显然这个值越接近1说明拟合效果越好, 但未必拟合效果越好的就越实用,也许模型是有结构性问题的

    实际上又有一个结论:对于一元线性回归,可决系数等于相关系数的平方(神奇的一元线性回归!),利用(24)容易得到证明:

    利用(34)、(35)和(36)我们就可证明

    检验和
    检验的等价性,并给出
    检验统计量:

    (37)说明了

    检验和
    检验的等价性,最后一个等号就是
    检验统计量,假设检验的步骤与
    检验相同。根据(34)、(37)就说明了
    的等价性。实际上由(34)、(36)和(37)可以很容易地导出
    (或
    ) 的关系,这里就不给过程了:

    需要强调的是,(34)到上式的这些结论只对一元线性回归成立。

    接下来我们研究残差

    的性质,并利用由此导出的一些结论研究响应变量新值的预测问题。回顾一下残差的定义:

    由(15)和(16)很自然地可以得到:

    由此可以导出残差向量与1向量和x向量正交,这也是之前就提到过的。下面计算残差的平方:

    其中

    是之前已经得到的结论。问题转化为求最后一项。先给出第一种方法,利用残差与1向量和x向量的正交性:

    上述步骤中有

    ,说明
    残差和预测值不相关。残差的方差:

    另一种方法考虑向量化运算,先定义除第

    个位置为1外,其余位置全为0的向量:

    那么:

    根据Lemma 1:

    与之前的结果一致。我们可以定义这个结果为:

    称作杠杆值。它可以用来度量第

    个样本点对于回归方程的影响程度。因为当
    的距离很远,那么杠杆值取值较大,对于回归方程的影响较大。高杠杆值的点称为
    高杠杆点(high leverage case),是离群点、异常点。

    结合杠杆值的定义,残差的平方可以写为:

    之前说过要给出(30)的另一种证明。回顾这个定义:

    那么:

    预测值的方差可以写为:

    说明高杠杆点的响应变量的预测值的方差较大。说明高杠杆点不仅影响回归方程也影响自身预测值的波动程度。下面就来考察一下给定解释变量新值

    ,响应变量新值
    的点估计(也可叫预测)、区间估计响应变量新值的期望的区间估计。之前遗漏了一个简单但很重要的结论:

    也即

    。该式给出了响应变量新值
    的点估计就是
    但要注意的是,
    是随机变量,不能说
    的无偏估计,只能说
    的无偏估计,或者说
    关于
    的条件期望的无偏估计

    实际上还有:

    之前也得到了:

    实际上

    的线性组合,而它们又是之前观测的
    个样本
    的线性组合,而新值
    与之前
    个观测是独立的,那
    独立(这一点很重要),那么:

    未知,只能用它的无偏估计
    替换,与
    的预测区间类似,正态变量变为
    变量,从而
    预测区间为:

    由于新值

    的期望
    是一个常数,故:

    从而新值的期望的

    的预测区间为:

    从(49)和(50)可知新值的预测区间和新值的期望的预测区间只相差根号下的1。

    多元线性回归模型

    模型形式:

    写为矩阵形式:

    其中:

    除了两个基本假定:

    1. 零均值、等方差、无自相关(Gauss-Markov假定
    1. 正态分布、相互独立假定
    相互独立

    多元的情形还需增加一条:

    1. 是满秩矩阵,即
      。且要求样本量大于解释变量的个数:

    有关回归系数的估计值、系数显著性和方程显著性的假设检验详见一文详解t检验和一文详解F检验。这里给出:

    。则
    统计量和
    统计量:

    其中

    的无偏估计,
    的定义同前:
    总离差平方和:
    回归平方和:
    残差平方和:

    令:

    表示解释变量的新值。类似一元的情形,响应变量新值的区间预测响应变量新值的期望的区间预测

    接着要介绍广义

    检验。实际上上述
    检验是广义
    检验的特殊情形。我们记s:

    为了加以区分,我们将

    的预测值、
    的估计值和三种平方和都加一个角标0:
    。对于
    我们施以最小二乘法:

    可以发现它的残差平方和:

    是等于

    的总离差平方和的。又由于
    ,那么
    统计量可以写为:

    分母仍然是原始

    统计量的分母。分子是残差平方和之差,并除以两模型解释变量个数的差
    (这就是残差平方和之差的自由度),这里
    。根据这个思想,我们可以将
    作为基准模型。基准模型可以按照我们的假设变化,而
    不变,这样就能将
    检验推广至一般的情形。举一个例子就容易理解:

    相较
    少了解释变量
    。对这两个模型进行对比的
    检验就是:

    等价于:

    其中:

    那么:

    分别计算这两个残差平方和,带入计算、查表即可做检验。实际上,“

    表示两模型解释变量个数的差”这一说法不严谨,应该说
    。下面正式给出广义
    检验:

    广义

    检验

    这部分详细内容见线性回归模型中的一般的F检验

    一般地,对于矩阵

    ,且
    ,做假设检验:

    统计量:

    该检验的意义与

    有关。当
    ,该检验就是一般的
    检验。

    再举一个例子加深印象。对于回归模型:

    作检验:

    这等价于:

    其中:

    。在
    成立的条件下:

    实际上可以令

    ,作回归:

    再计算两个模型的残差平方和

    ,代入公式计算统计量、查表、得出结论。

    实际上广义

    检验可以与
    检验等价。也就是作检验:

    等价于:

    其中

    表示除第
    个元素为1,其余元素全为0的行向量。
    。将
    剔除解释变量
    得到
    。计算残差平方和,带入公式:

    说明了两种检验的等价性。

    也称为偏
    统计量。

    拟合优度

    多元线性回归也有决定系数的概念:

    但它不等于

    与某个解释变量的相关系数的平方。容易证明:

    的自由度为
    的自由度为
    ,当解释变量的个数
    增加而样本量
    不变时,
    势必会减小,导致
    增大。这就可能导致对于同一个相应变量做两个回归模型,其中一个解释变量个数比另一个多,导致其拟合优度较高,然而事实上该模型其他检验结果并不如另一个模型。这就引入了
    修正的决定系数(Adjusted Coefficient of Determination)

    实际上就是对两个平方和分别除以它的自由度。容易证明:

    这个概念给了两个解释变量个数不同的模型的比较以依据。修正的决定系数越大,拟合优度越好。

    展开全文
  • 知识点:伯努利分布、二项式分布、多项式分布、先验概率,后验概率,共轭分布、贝塔分布、贝塔-二项分布、负二项分布、狄里克雷分布,伽马函数、分布 ,伯努利分布(bernouli distribution) 又叫做0-1分布,...

    知识点:伯努利分布、二项式分布、多项式分布、先验概率,后验概率,共轭分布、贝塔分布、贝塔-二项分布、负二项分布、狄里克雷分布,伽马函数、分布

    一,伯努利分布(bernouli distribution)


    又叫做0-1分布,指一次随机试验,结果只有两种。也就是一个随机变量的取值只有0和1。
    记为:0-1分布 或 B(1,p) ,其中 p 表示一次伯努利实验中结果为正或为1的概率。
    概率计算:

    P(X=0)=p0

    P(X=1)=p1

    期望计算:
    E(X)=0p0+1p1=p1

    最简单的例子就是,抛一次硬币,预测结果为正还是反。

    二,二项式分布(binomial distrubution)


    表示n次伯努利实验的结果。
    记为: XBn,p ,其中n表示实验次数,p表示每次伯努利实验的结果为1的概率,X表示n次实验中成功的次数。
    概率计算:

    P(X=k)=Cknpk(1p)nk,k=0,1,2,...,n

    期望计算:
    E(X)=np

    例子就是,求多次抛硬币,预测结果为正面的次数。

    三,多项式分布(multinomial distribution)


    多项式分布是二项式分布的扩展,不同的是多项式分布中,每次实验有n种结果。
    概率计算:

    P(X1=n1,...,Xk=nk)=n!i=1kpniini!,i=1kni=n0,otherwise
    期望计算:
    E(Xi)=npi

    最简单的例子就是多次抛筛子,统计各个面被掷中的次数。

    四,先验概率,后验概率,共轭分布


    先验概率和后验概率 :

    先验概率和后验概率的概念是相对的,后验的概率通常是在先验概率的基础上加入新的信息后得到的概率,所以也通常称为条件概率。比如抽奖活动,5个球中有2个球有奖,现在有五个人去抽,小名排在第三个,问题小明抽到奖的概率是多少?初始时什么都不知道,当然小明抽到奖的概率 P(X=1)=25 。但当知道第一个人抽到奖后,小明抽到奖的概率就要发生变化, P(X=1|Y1=1)=14 。再比如自然语言处理中的语言模型,需要计算一个单词被语言模型产生的概率 P(w) 。当没有看到任何语料库的时候,我们只能猜测或者平经验,或者根据一个文档中单词w的占比,来决定单词的先验概率 P(w)=11000 。之后根据获得的文档越多,我们可以不断的更新 P(w)=count(w)old+count(w)new|Dold|+|Dnew| 。也可以写成 P(w|Dnew)=count(w)old+count(w)new|Dold|+|Dnew| 。再比如,你去抓娃娃机,没抓之前,你也可以估计抓到的概率,大致在 15 150 之间,它不可能是 11000 12 。然后你可以通过投币,多次使用娃娃机,更据经验来修正,你对娃娃机抓到娃娃的概率推断。后验概率有时候也可以认为是不断学习修正得到的更精确,或者更符合当前情况下的概率。

    共轭分布 :

    通常我们可以假设先验概率符合某种规律或者分布,然后根据增加的信息,我们同样可以得到后验概率的计算公式或者分布。如果先验概率和后验概率的符合相同的分布,那么这种分布叫做共轭分布。共轭分布的好处是可以清晰明了的看到,新增加的信息对分布参数的影响,也即概率分布的变化规律。
    这里有个疑问是,如何由先验分布得到后验分布,如何选择?下面举例beta分布进行详解。

    p(θ|X)=p(X|θ)p(θ) ,通常我们称 p(θ|X) 为后验概率,即添加观测 X 后的概率。p(X|θ)为似然函数,为模型。 p(θ) 为先验概率。通常 p(X|θ) 修正求解的模型, θ 为模型的参数。参数 θ 不是一个固定的值,也是服从某种分布 p(θ) 。我们可以通过贝叶斯后验公式来更新 θ 。如果 θ 的先验概率 p(θ) 和后验概率 p(θ|X) 是同一种分布,那么似然函数 p(X|θ) 和先验概率 p(θ) 共轭,因为求出来后验概率和先验概率是同一种分布。

    五,贝塔分布(beta distribution)

    计算公式:

    P(x)=Beta(x;α,β)=xα1(1x)β110μα1(1μ)β1dμ=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1=1B(α,β)xα1(1x)β1
    其中,B(a,b)是beta函数。
    期望:
    E(p)=aa+b

    首先,现实生活中我们通常需要估计一件事情发生的概率,如抛一次硬币为正面的概率。我们可以进行统计的方式给出答案,比如抛了100次硬币,其中有30次向上,我们就可以说这个硬币为正面的概率是0.3。当然我们可以从另外一个角度回答问题,比我对实验的公信度进行怀疑,我就可以说为正面的概率是0.3的可能性是0.5,为0.2的可能性是0.2,为0.4的概率是0.3,给出硬币为正面的概率的分布,即伯努利实验中p的分布。给出参数的分布,而不是固定值,的好处有很多。

    • 一,如抛100次中,30次向上,和抛100000次中30000次向上,两者估计p的值都是0.3。但后者更有说服力。如果前者实验得到p为0.3的置信度是0.5的话,后者实验得到p为0.3的置信度就有可能是0.9,更让人信服。
    • 二,估计一个棒球运动员的击球命中率。如果我们统计一个新棒球运动员的比赛次数,发现,3场比赛中,他击中2次,那么我们可以说他的击球命中率是 23 么?显然不合理,因为因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对。但如果我们给出的是击球明中率的分布,而不是固定的值,就可以表示我们对当前击球命中率估计的置信度,提供了更加丰富的信息。因为只观察了三次比赛,所以我们得到运动员命中率为 23 的概率是0.1,表示我们对这个命中率值不确定。

    接着进入正题:由前面可知,我们的需求是为了模拟模型参数的模型,beta分布是来模拟”取值范围是从0到1时的模型的参数的分布”。比如就求抛硬币为正的概率p为例。如果我们知道p的取值,我们就可以计算抛10次硬币,其中有1次向上的概率是 P(X=1)=C1np(1p)9 ,有3次向上的概率是 P(X=1)=C3np3(1p)7 ,有6次向上的概率是 P(X=6)=C6np3(1p)7 。那么我们如何求p值呢?
    前面说的有两种方法,一个是给固定的值 ,一个给值的密度分布函数。我们这里介绍后者,假设p值符合Beta分布。即 P(p)=Beta(p;a,b)=pa1(1p)b1B(a,b) 。那么现在我们又做了10次实验,其中4次为正,6次为反,称为信息X。那么我们现在要计算得到信息X后概率p的分布,即P(p|X),根据贝叶斯条件概率计算公式

    P(p|X)=P(X|p)P(p)P(X)
    =P(X|p)P(p)10P(X|pi)P(pi)dpi
    =(C410p4(1p)6)(pa1(1p)b1B(a,b))10(C410p4i(1pi)6)(pa1i(1pi)b1B(a,b))dpi
    =(p4(1p)6)(pa1(1p)b1)10(p4i(1pi)6)(pa1i(1pi)b1)dpi
    =p4+a1(1p)6+b110p4+a1i(1pi)6+b1dpi
    =p4+a1(1p)6+b1B(4+a,6+b)
    =Beta(p;4+a,6+b)
    ,这里使用最大似然估计计算P(X|p),即 P(X|p)=C410p4(1p)6 P(p) P(pi) 使用的是先验概率(贝叶斯概率本来就是用先验概率计算后验概率的公式)。其中分子分母中 C410 B(a,b) 函数是常数项可以约去,最后得到: P(p|X)=Beta(p,a+4,b+6),p[0,1]
    重新解释下整个过程,目的是计算得到p的概率分布,而不是固定的值。首先根据之前的经验或者统计,假设p服从Beta(a,b)分布,a表示之前统计中为正的次数,b为之前统计中为负的次数。接着,根据新做的实验或者新到达的信息X,来修正p的分布,修正后的p同样是服从Beta分布,只不过是参数由(a,b)变成(a+m,b+n),m表示新得到的信息中为正的次数,n表示新得到的信息中为负的次数。这样的修正过程可以很直观的被理解,而且修改前后是兼容的,很好的体现了一个学习修正的过程。

    贝塔分布的pdf图:
    这里写图片描述

    六,贝塔-二项分布(beta-binomial distribution)

    The beta-binomial distribution is the binomial distribution in which the probability of success at each trial is not fixed but random and follows the beta distribution.
    贝塔-二项分布是指,二项分布中的参数p不是固定的值,是服从Beta(a,b)分布。
    计算公式:

    P(X=k|p,n)=L(p|k)=Cknpk(1p)nk
    其中 L(p|k) 表示二项式分布的最大似然估计计算方式。然后将 π(p|a,b)=Beta(a,b) 整合到p得,
    P(X=k|p,n)=10L(p|k)π(p|a,b)dp
    =CknB(a,b)10pk+a1(1p)nk+b1dp
    =CknB(k+a,nk+b)B(a,b)
    期望:
    E(X)=na(a+b)

    七,负二项分布(negative binomial distribution)

    Suppose there is a sequence of independent Bernoulli trials. Thus, each trial has two potential outcomes called “success” and “failure”. In each trial the probability of success is p and of failure is (1 − p). We are observing this sequence until a predefined number r of failures has occurred. Then the random number of successes we have seen, X, will have the negative binomial (or Pascal) distribution。
    一次伯努利实验分为成功和失败两个结果。现在观察连续伯努利实验,直到r次失败事件产生为止,我们观察到成功的个数。记为: XNB(r,p) 。比如我们可以用来模拟机器在出故障前可以工作的天数的分布,即一个新机器可以运行多少天不出故障。
    计算公式:

    f(k;r,p)=Pr(X=k)=Ckk+r1pk(1p)r=Cr1k+r1pk(1p)r,k=0,1,2...
    (注意:是k+r-1个种选取k个,不是k+r,因为最后一个是固定的1-p。)
    期望:
    E(N)=r(1p) ,N表示要想观察到r次失败,需要进行试验的总次数。
    E(K)=Nr=r(1p)r=rp(1p) ,相当于成功和失败的比例是 Kr=p1p

    八.零,伽马函数,伽马分布(gamma distribution),贝塔函数

    伽马函数

    Γ(n)=(n1)!nΓ(z)=0xz1exdxz0

    下图是伽马函数在复数域和实数域上的图像:
    这里写图片描述
    这里写图片描述

    有了伽马函数我们就可以计算 2.5! 0.3! (1.1+2.4i)!
    贝塔函数
    贝塔函数是01区间上的积分:

    B(x,y)=10tx1(1t)y1dt=Γ(x)Γ(y)Γ(x+y)

    在狄里克雷中我们定义:
    B(α)=Kk=1Γ(αk)Γ(Kk=1αk)


    从统计学或者概率论角度来说,指数分布,正态分布,泊松分布,卡方分布,均匀分布等等,其根源(我是指数学根源,而非实际问题根源),都是来自于这两个函数。


    伽马分布

    f(x;αβ)=βαxα1eβxΓ(α)Γ(α)=0tα1etdtt=βx,Γ(α,β)=βα0xα1exβdx

    假设随机变量X为等到第α件事发生所需之等候时间。(不是很理解,之后在学习吧)
    这里写图片描述

    怎么来理解伽玛(gamma)分布? - T Yuan的回答 - 知乎
    https://www.zhihu.com/question/34866983/answer/60541847

    八,狄里克雷分布(Dirichlet distribution)

    由前面的介绍可以知道,当前后验概率相同共轭时,有两个关键的部分,即Beta分布的推导过程中,先是参数个数是一个,p,而且求P(X|p)是采用二项分布的计算公式。现在进行推广,将参数有1个推广到多个,求P(X|p*)采用多项式分布的计算公式。
    计算公式:

    p(π|α)=Γ(Kk=1αk)Kk=1Γ(αk)k=1Kπαk1k
    期望:
    E(πk)=αk(α1+α2+...+αK)

    简单举例,beta分布是模型抛硬币为正的 概率的分布,Dirichlet可以是掷骰子模型中的 参数的分布。刚刚开始假设筛子个个面被掷中概率服从 Dirichlet(π|10,10,20,20,20,20)) 。现在又做了100次掷骰子实验,假设为1的次数是20,为2的次数是10,为3的次数是40,为4的次数是10,为5的次数是10,为6的次数是10。所以根据贝叶斯后验概率公式和多项式分布更新得到筛子个个面被掷中概率服从 Dirichlet(π|(30,20,60,30,30,30))

    贝塔分布和狄里克雷分布一般都作为参数的分布。
    贝塔分布可以写成:
    P(x1,x2)=Beta(x1,x2;α,β)=xα11xβ1210μα1(1μ)β1dμ
    其中 x1+x2=1 。公式很容易记住,上面就是每个x与其对应的参数减一的指数,相乘,然后分母就是01区间上积分,相当于归一化处理。
    狄里克雷分布也同样写成:
    p(π1,π2,...,πK|α)=Γ(Kk=1αk)Kk=1Γ(αk)Kk=1παk1k=Kk=1παk1kB(α1,α2,...αK)
    其中 π1+π2+...+πK=1 。和贝塔分布一样,分子是每个x与其对应的参数减一的指数,相乘,然后分母就是01区间上积分,相当于归一化处理。

    狄里克雷的pdf图:
    这里写图片描述

    九,几何分布(Geometric distribution)

    几何分布(Geometric distribution)是离散型概率分布。其中一种定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。或者定义为:在n次伯努利试验中,需要失败k次才得到第一次成功的机率。两者的区别在于前者k取值从1到无穷,后者k取值从0到无穷。(后面的公式以第一种定义为例)
    根据定义显然几何分布表示前k-1次试验都失败,只要最后第k次试验成功即可。
    计算公式:

    p(X=k)=(1p)k1p
    期望:
    E(X)=1p
    方差:
    VAR(X)=1pp2

    参考:

    https://www.zhihu.com/question/23749913?f=41824312

    http://nooverfit.com/wp/%E7%94%A8python%E5%81%9A%E8%B4%9D%E5%8F%B6%E6%96%AFab%E6%B5%8B%E8%AF%95-%E8%B4%9D%E5%8F%B6%E6%96%AFab%E6%B5%8B%E8%AF%95%E5%85%A5%E9%97%A8-%E4%BB%A5%E5%8F%8A%E5%85%B1%E8%BD%AD/

    https://www.zhihu.com/question/41846423

    https://www.zhihu.com/question/39004744

    https://www.zhihu.com/question/30269898

    https://en.wikipedia.org/wiki/Beta-binomial_distribution

    https://en.wikipedia.org/wiki/Negative_binomial_distribution

    展开全文
  • 二项式展开推广与微积分的关系

    千次阅读 2016-05-22 11:23:05
    二项式展开推广与微积分的关系牛顿展开二项式,为微积分的创立提供了重要工具——《一念非凡》。 我刚开始在看《一念非凡》这本书时,对这句话百思不得其解。因为我的理解思路上来就是从现代居高临下的微积分观点:...
  • §11.1 常数顶级数的概念和性质 一、级数的定义 若给定一个数列 ,由它构成的表达式  (1) 称之为常数项无穷级数,简称级数,记作...无限多个数量的相加并不能简单地认为是一项一项地累加起来,因为,这一累加过
  • §6 不等式   1.基本不等式 2.有关绝对值的不等式 3.有关三角函数、指数函数、对数函数的... 在下面1)~5)各中,设 a >b, 则 1) a ± c > b ± c 2) ac > bc
  • 离散型变量 如:二项分布、泊松分布 三者之间的关系 二项分布(Binomial distribution) 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机...
  • 二项分布最大值,泊松分布的推导,几何分布的推导 (概统2.应用) 1.二项分布 二项分布就是独立事件n重伯努利试验,每次试验只有A发生与不发生两种结果,求n次试验中恰好发生k次的概率。 P{X=k} = $C_{n}^{k}p^{k}q...
  • 二项树及二项队列

    千次阅读 2016-12-14 23:25:05
    二项树及二项队列
  • 看图说话之二项队列(优先队列)——原理解析

    千次阅读 多人点赞 2017-10-16 22:31:33
    详细介绍了二项树,二项队列的基本原理,介绍了二项队列的建队,入队,出队等操作。
  • 二项分布

    万次阅读 2020-03-30 19:45:34
    本文链接:个人站 | 简书 | CSDN 版权声明:除特别声明外,本博客文章均采用 BY-NC-SA 许可协议。...泊松分布、二项分布、以及负二项分布都可以用来刻画计数类数据。其中,泊松分布的 μ=σ2\...
  • 不动点法主要适用于所谓的分式线性递推数列它是种Riccati差分方程的特殊形式形如 的映射称作分式线性变换或Möbius变换.(其中 为常数, , )递推数列:其中 , 为常数, , 这种就叫做分式线性递推数列这个数列的...
  • 二项队列

    千次阅读 2013-11-09 22:54:15
    0)引论 左堆的合并,插入,删除最小的时间...二项队列不是棵树,它是个森林,由组堆序的树组成的深林,叫做二项队列。 二项队列有几个性质比较重要 (a) 每颗树都是个有约束的堆序树,叫做二项树 (b
  • 损失函数与正则(惩罚),多loss间权重设计

    万次阅读 多人点赞 2020-12-02 16:52:14
    正则(惩罚) 正则(惩罚)的本质 惩罚因子(penalty term)与损失函数(loss function) penalty term和loss function看起来很相似,但其实二者完全不同。 惩罚因子: penalty term的作用就是把约束优化问题...
  • 知识要点: 知识点1 整式的概念 (1)整式中只含有一项的是单项,否则是多项式,单独的字母或常数是单项; (2)单项的次数是所有字母的指数之和; 多项式的次数是多项式中最高次项的次数; (3)单
  • Beta分布是二项式分布的共轭先验概率分布 多项分布 直观思考一下多项分布的极大似然估计,其实可想而知,就是数数 的个数,然后算一下占整个样本中的比例就可以作为 概率的估计了。所以通常在使用似然函数...
  • 几种求数列前n和的方法

    千次阅读 2020-12-08 19:33:11
    如果个数列na,与首末两等距的两之和等于首末两之和,可采用正序写和与倒序写和的两个和相加,就得到常数列的和。这种求和的方法称为倒序相加法.例、求89sin88sin3sin...
  • 递推关系中的数列通

    千次阅读 2017-09-30 15:14:50
    http://blog.csdn.net/pipisorry/article/details/78142983普通方法叠加法/叠乘法公式法阶差法待定...特征方程法:针对问题中的递推关系作出个方程称之为特征方程;借助这个特征方程的根快速求解通公式.定理1:设
  • 文章目录基础知识概念释义数据描述概率分布两个概念二项分布泊松分布大数定律正态分布 统计学系列主要是对统计学知识进行梳理以及对学习过程的分享,以期提升对统计学相关知识体系化认知水平。本文是该系列的第篇...
  • 二项分布和泊松分布,二者的关系

    万次阅读 多人点赞 2015-12-15 09:52:51
    注意,对泊松分布定义的右边子,对k=0,1,2,….求和的结果为1,即所有事件的概率之和为1。这可以从我们熟知的公式 eλ=∑k=0∞λkk!\begin{equation} e^{\lambda}=\sum_{k=0}^{\infty}\frac{\lambda^{k}}{k!} \...
  • 对于行列个知识点,是考研中的重点,无论是985还是211,一般都放在第题或者第题进行考察,是需要大家熟练掌握不同题型的,下面我们将对于行列的知识点进行分类讲解,今天我们主要就以下两大内容进行讲解,...
  • 求导的坑,祸害不浅

    千次阅读 2020-12-24 15:09:05
    可能很多同学会认为真题是需要大家求出两个东西,是收敛域,是和函数。而小编修改后的真题,只需要求和函数,不用求收敛域了。那么事实真的是这样的吗?2.什么是幂级数的和函数?不妨以自然指数的泰勒展开...
  • (1)用二项分布公式精确计算;(2)用正态分布近似计算;(3)用切比雪夫不等式进行估计 问题理论分析: 程序设计及必要注释,函数说明 n=1000; p=0.5; P=sum(binopdf([475:525],n,p)) %用二项分布的计算 P1=...
  • Python 每日题 专栏开始了,每天个小题目,锻炼你对Python语法的掌握,思维逻辑的段落,算法能力的培养。...2、根据一元次方程根的判别: ① 当时,方程有两个不相等的实数根; ...
  • 分布与分布关系1、二项分布2、几何分布3、泊松分布4、二项分布转化泊松分布,泊松转化正态分布 1、二项分布   n次独立重复试验,每次事件出现的结果只有两个,出现同一结果的概率相同为p;   抛硬币,假设硬币不...
  • 矩阵快速幂是用来求解递推的,所以第步先要列出递推:  f(n)=f(n-1)+f(n-2) 第步是建立矩阵递推,找到转移矩阵: ,简写成T * A(n-1)=A(n),T矩阵就是那个2*2的常数矩阵,而 这里就是个矩阵乘法等式左边...
  • 2.二项分布和几何分布 3. 泊松分布 4.正态分布 、期望 期望这个概念,初高中就学过了吧,所以这里就简单说一下定义。 1.离散型随机变量的期望 2.连续型随机变量的期望 3.期望的...
  • 面对近在眼前的高数考试你是否感到了丝紧张别怕接下来的12天我们一起回顾《高等数学》(I)让小牛助你一臂之力高数专题安排表话不多说,接下来,请大家拿出纸笔。我们即将进入高数专题的第期——极限的计算。...
  • 常数变易法”有效的原理

    万次阅读 多人点赞 2018-10-14 19:50:04
    常数变易法”有效的原理常数变易法为什么写这篇文章什么是常数变易法?错误的理解常数变易法的原理基本计算总结参考资料 常数变易法 为什么写这篇文章 学过“常数变易法”的同学请直接点击“常数变易法的原理...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 43,546
精华内容 17,418
关键字:

二项式常数项是哪一项