精华内容
下载资源
问答
  • 极大似然估计程序代码
  • 包括matlab代码和地物信息xls文件,利用文件中提供的地物的五个波段信息以及预分类的信息,进行编程,实现分类并和文件中的真正分类比较,发现正确率可以达到97%
  • 利用matlab计算copula极大似然估计,包括运行程序,适用于金融行业、经济领域等进行计算和使用。
  • 最大似然估计与极大似然估计 我几乎更喜欢这些。 2017年美国国家橄榄球联盟(NFL)赛季的前四名球队,按输赢记录,分别是: 新英格兰爱国者队 (13–3) 匹兹堡钢人队 ,13–3 费城老鹰队 13–3 ...

    最大似然估计与极大似然估计

    我几乎更喜欢这些。

    2017年美国国家橄榄球联盟(NFL)赛季的前四名球队,按输赢记录,分别是:

    1. 新英格兰爱国者队 (13–3)
    2. 匹兹堡钢人队 ,13–3
    3. 费城老鹰队 13–3
    4. 明尼苏达维京人 ,13–3

    那么哪支球队是最好的?

    乍一看,这个问题听起来无法回答。 如果输赢记录是对整个赛季整个团队表现的完整评估,那么所有这些团队都同样出色,没有区别。

    但是,正如任何观看体育比赛的人都知道的那样,事实并非如此。 即使不考虑老鹰队在第14周失去了首发四分卫卡森·温兹,您仍然会看到大多数球迷将爱国者和维京人置于老鹰队和钢人队的上方。 为什么? 因为团队的比赛方式存在明显差异:策略,优势和劣势以及整个比赛的重点。

    简而言之,并非每次胜利都是平等的。

    因此,人们提出了排名系统。 那些在First Take上大吼大叫的哑巴,RiverThirtyEight,这些哑巴都开发了一种系统,可以根据记录之外的数据对NFL球队进行评估和排名。

    这些质量各不相同。 就像半个头脑的人可以想象的那样,Skip Bayless的推理真是令人敬畏。 我认为ESPN相当不错,而且我认为FiveThirtyEight的基于ELO的系统既非常有趣,而且给出了始终合理的预测。

    今天,我将基于根本不同的推理而忽略所有这些系统,并自行创建系统。 为什么? 因为我可以。

    让我们从一个例子开始。 想象一个拥有三支球队的联赛: X,Y和Z。 让我们说这一系列结果发生了:

    1. X击败Y。
    2. Y击败Z。
    3. Z击败X。
    4. Y击败X。

    然后,在进行了四场比赛之后,我们的三支球队获得了以下记录:

    • X :1-2
    • Y :2-1
    • Z :1-1

    因此,我们的目标是为每个团队分配一个等级R ,代表该团队的真正实力。

    首先,让我们对每个团队的等级施加约束:

    也就是说,X队击败Y队的概率等于其在这两个队之间的总分的份额。 然后,我们可以得出以下结果:

    上文指出,本赛季结果的总概率等于每场比赛结果概率的乘积。 但是,我们知道这些游戏会产生给定的结果:我们自己观察了它们! 因此,最大化我们观察到的结果的可能性的评级是每个团队的“真实”评级。

    也就是说,我们想要找到每个R的值,以使Pr(schedule)最大化:团队等级的最大似然估计

    实际发现它需要一些数学运算,我们将在下一部分中进行介绍,但是首先,让我们直观地考虑一下此优化问题。 想象一下,您有三个杠杆,每个杠杆代表一个团队的等级。 我们首先将所有三个杠杆设为1,然后慢慢开始增加X的杠杆。 您会看到X既是我们正在优化的分数的分子又是分母,因此增大X只会将Pr(schedule)增大到一个点。 然后,我们跳到Y的杠杆,并开始增加它,直到值再次开始减小。 然后,我们跳回X,或前进到Z,依此类推,直到找到三个之间的完美平衡,从而使方程最大化。

    但是,当然,现实没有杠杆,计算我们的最大值需要数学。 我们本质上将要为该方程式导出梯度下降(并最终对其编程并运行!),该过程从寻找梯度开始。

    同样,这是我们的等式:

    您会注意到的第一件事是,使用它的派生词将是一个令人沮丧的表达式。 我们有除法和乘法,这将导致一些痛苦的代数。 但是,事实证明,我们对这个特定的方程式没有任何特别的忠诚:我们可以优化一个等效方程式,该方程式更容易推导,但其行为与此方程式相同(也就是说,具有与这个)。

    我随意选择自然对数,因为它是一个单调递增的函数,可以保留原始方程式的全局极值,并将这种复杂的数学运算转换为易于处理的加法和减法。 然后:

    对于一些代数,这变为:

    下一步是依次取每个R的偏导数。 我只是给你这些方程式; 如果需要,请验证我的数学!

    现在,我们将每个导数设置为0(因为我们想找到函数不改变的点(在此函数中为最大值),然后将方程式改组为更好的形式:

    现在,我们剩下的三个方程式的系统代表了我们每个团队的评分。 显而易见的下一步是解决该系统,但是即使粗略地浏览也可以告诉您,找到代数解决方案将非常困难,即使不是不可能。 矩阵方法在这里也行不通,因为这是一个非线性系统,无法得到更好的形式。

    因此,让我们退后一步,然后换一个角度来看。 如果我们只是为每个R任意选择值作为初始估计,该怎么办? 例如,让每个等级为1。

    然后,将这些值重新插入每个方程式中。 那给你:

    这告诉我们什么? 好吧,它告诉我们,在上述方程式重复执行一次之后,我们发现这是最大似然的当前估计。 尽管这不是一个很好的估计,但它已经表达了我们前面讨论的许多直观想法。 Y胜过X和Z,因此得分最高。 X击败了Y,但它也输给了Y,输给了Z,Y击败了Z,所以它低于Y。Z高于X,因为它击败了X并输给了Y,X也输给了Y。

    现在,我们可以再次运行相同的过程,插入这些新的R值并找到更新的估计值。 整整一个世纪的学术文献都可以追溯到1920年代,它指出,这些值最终会收敛,并且您会找到最大似然估计。

    恭喜你! 您只运行了梯度下降。 现在,做同样的事情,但是要让整个NFL赛季达到32支球队和15 * 17 = 180场比赛。

    我们上面的数学解决了NFL赛季残酷无节的问题,但是很容易扩展到整个赛季。 这又是我们的最终方程式:

    现在,如果您凝视一点,您将能够使自己相信上述方程式的一般形式是:

    其中R_A是球队A的等级, W_A是球队A的总胜数 ,而G_Ω是球队A对阵Ω的比赛次数。

    解决了上面的数学问题之后,我们终于可以编写代码来找到一些实际数据的最大似然估计器。 我将以2017 NFL赛季为例,并且我将从头开始编写所有内容,因为我可以

    让我们首先实现我们要优化的广义评级方程:

    在这里, current_weights是一个长度为32的数组,在我们的第一次迭代中初始化为1,其中current_weights[i]是对第i队的评分的当前估算值 games_matrix是一个二维数组,因此games_matrx[i][j]是团队i在团队j中的比赛次数,而wins_array是一维数组,其中wins_array[i]是团队i的胜利次数

    然后,这与我们上面导出的方程式完全相同。 现在,要对其进行迭代,我们可以执行以下操作:

    这个函数是不言自明的:它从上面获取games_matrixwins_array参数,初始化一个current_weights数组,然后在迭代之间仍然有变化时,它沿着梯度曲线(即我们的optimization_function )向局部最大值移动。

    现在,我们需要的只是示例数据! 为此,我使用了非常有用的nflgame模块 ,该模块NFL.com的GameCenter JSON源中提取数据。 这是下面的代码:

    现在我们可以将它们连接在一起:

    这是我在2017 NFL赛季上使用上述代码获得的结果:

    我认为非常扎实。 您可以在此处查看ESPN的常规赛最终排名。 他们的前五名是新英格兰爱国者队,匹兹堡钢人队,明尼苏达维京人队,新奥尔良圣徒队和洛杉矶公羊队,这与我的球队非常接近,特别是因为我们没有使用比赛结果以外的任何信息。 (例如,我确定Carson Wentz撕毁了他的ACL对老鹰队跌倒前五名有很大的影响)。

    迄今为止,这种方法的中心问题是,它将每场胜利都视为平等,这是完全错误的。 老鹰队在分区轮对阵猎鹰队的比赛中以微弱的15-10获胜,是否应该像上周他们在会议冠军赛中以38-7击败维京人一样对待?显然,不应该。 猎鹰队输掉了一场激烈竞争的比赛,而维京人队则被彻底摧毁。 的确,猎鹰的评分似乎应该随着这两个结果而提高,因为他们输给了被高评价的维京人歼灭的团队。

    表达这一点的最简单的指标是获胜的余地:获胜和失败的球队之间的分差。 一种简单的方法可以将其纳入我们的方法,即在计算每支球队的获胜时,权衡更大的获胜更多,而更低的获胜更少。

    经过反复试验,我得出了以下公式:

    其中D是得分差异, S是得分的总数。 从本质上讲,这是每次获胜都会自动获得1/2,然后,我们添加一个与点差成正比的因子。 如果D接近S ,则表示获胜团队获胜了很多,我们最终得到的数字接近1/2,这导致总获胜权重接近1。但是,如果D远小于S ,我们就结束了获胜权重接近1/2。

    每次胜利都将落在这个范围内的某个地方,但它的价值将与获胜者所赢得的奖金成正比。 它在代码中的外观如下:

    此处,游戏是nflgame模块中的对象,其中包含有关特定NFL游戏的数据。

    如果您还记得的话,我们会在generate_matrices函数中算出我们的胜利。 再次出现,但是调用wins_update_formula函数,而不是简单地为每个获胜加1:

    当然,这里是结果:

    他们改变了一点。 我会给你一个完整的比较,但是新奥尔良跳升了一点,而卡罗来纳州倒下了。 明尼苏达州仍然是我们常规赛的最爱,但费城上升了一个,亚特兰大下降了一些。

    您还可以做一千件事。 寻找一种方法来考虑主场优势,或更详细的进攻/防守指标。 寻找更智能的加权获胜公式。 在更大的数据集上运行它,也许可以找到有史以来最好的团队。 将一支球队的常规赛平均得分与其季后赛得分进行比较(仅有的有足够数据的球队是“钢人”和“爱国者”)。 修复我的糟糕代码,以便在大量数据上更快地运行。

    但是在您执行此操作之前,我当前的方法存在问题。 我的统计知识渊博的读者可能已经意识到,合并获胜余量存在自相关问题:更好的球队获胜的机会会更多,获胜的余地也会更多,这会随着时间的推移而提高我们的评级。 解决此问题的方法是找到一个胜利更新公式,该公式在较低等级的球队获胜时权衡胜利约束,而在较高等级的球队获胜时权衡胜利约束。 我将引导这位呆板的教授,并将其作为练习(提示: 使用自然日志,卢克! )。

    这是包含本文中使用的所有代码的存储库。 否则,您可以在Twitter上的@AakashJapi找到我, 在gmail dot com的aakashjapi上找到电子邮件并在上面的名称下找到Facebook。 随时与我联系,提出想法/想法/模因/爱国者垃圾话,或其他任何东西。

    翻译自: https://hackernoon.com/ranking-nfl-teams-using-maximum-likelihood-estimation-7a4ed8994a67

    最大似然估计与极大似然估计

    展开全文
  • R语言-极大似然估计

    2015-05-14 15:39:22
    极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似1821年首先由德国数学家C. F. Gauss提出,但是这个方法通常被归功于英国的统计学家R. A. ...
  • 文章将极大似然估计原理引入小电流接地故障选线,建立故障选线零序网络模型,利用极大似然估计良好的辨识特性识别线路参数,通过比较故障线路和非故障线路中的电容参数是否符合模型选出故障线路。仿真结果表明,该方法...
  • 极大似然估计方法

    2021-02-10 02:27:24
    极大似然估计方法 极大似然估计是统计学中,估计参数的一种方法。它的本质思想是,如果一个参数能使得这个样本出现的概率最大,那么我们就选择这个参数作为真实参数的估计值。 假设我们已知某个随机样本满足某种概率...

    (本文记录了学习MLE的学习笔记,学习资料为Hogg, McKean og Craig: Chapter 6. Maximum likelihood methods.)

    极大似然估计是统计学中,估计参数的一种方法。它的本质思想是,如果一个参数能使得这个样本出现的概率最大,那么我们就选择这个参数作为真实参数的估计值。
    假设我们已知某个随机样本满足某种概率分布,但是并不清楚其中的参数具体为多少。为了估计出这个参数的值,我们进行多次试验,最后根据试验的结果估计出参数的值。
    接下来,我们对极大似然估计进行理论上的分析。

    Likelihood Function

    首先,我们假设 X1,...,XnX_1,...,X_n 是独立同分布随机变量,概率密度函数为为 f(x;θ)f(x;\theta)θΩ\theta\in\Omega. 那么似然方程可以表示为,L(θ;x)=i=1nf(xi;θ),θΩL(\theta;\mathbf{x})=\displaystyle{\prod \limits_{i=1}^n}f(x_i;\theta), \theta\in\Omega方程中 x=(x1,...,xn)\mathbf{x}=(x_1,...,x_n)'。因为 LL 是关于 θ\theta 的函数,所以我们也可以表示为 L(θ)L(\theta)。此函数的对数,其实更为常用,于是我们定义对数似然方程,
    l(θ)=logL(θ)=i=1nlogf(xi;θ),θΩl(\theta)=\log L(\theta)=\displaystyle{\sum\limits_{i=1}^n}\log f(x_i;\theta), \theta\in\Omega

    Regularity Conditions

    定义θ0\theta_0 表示为参数 θ\theta 真正的值。现在我们进行一些假设,这些假设通常称为 Regularity Conditions,
    R0\mathbf{R0}:概率密度函数是唯一的。这意味着,θθf(xi;θ)f(xi;θ)\theta\neq\theta'\Rightarrow f(x_i;\theta)\neq f(x_i;\theta')
    R1\mathbf{R1}:概率密度函数满足所有θ\theta
    R2\mathbf{R2}Ω\Omega包含θ\theta
    根据这三条假设,我们可以定义 MLE。

    Maximum Likelihood Estimation

    Principle

    定理 6.1.1:令 θ0\theta_0 是参数真实值,在假设(R0)-(R2)下,
    limnPθ0[L(θ0,X)>L(θ,X)]=1,for  all  θθ0\lim_{n\rightarrow\infty}P_{\theta_0}[L(\theta_0,\mathbf{X})>L(\theta,\mathbf{X})]=1,\quad for\;all\;\theta\neq\theta_0定理6.1.1表明了渐近似然函数在真实值 θ0\theta_0 处最大。所以我们接下来可以很自然的考虑可以最大化似然函数的 θ\theta

    定义 6.1.1:如果θ^=ArgmaxL(θ;X)\hat{\theta}=Argmax L(\theta;\mathbf{X})那么我们称 θ^=θ^(X)\hat{\theta}=\hat{\theta}(\mathbf{X})θ\theta 的极大似然估计。

    我们想要求解使方程最大的 θ\theta 值,就是使导数为0,
    l(θ;x)=1ni=1nlogf(xi;θ)θ=0l'(\theta;x)=\dfrac{1}{n}\displaystyle{\sum\limits_{i=1}^n\dfrac{\partial\log f(x_i;\theta)}{\partial\theta}}=0然而实际上我们不能确定极大似然估计一定存在,或者只有唯一解。

    Consistency of the MLE

    定理 6.1.3:令 θ0\theta_0 是参数真实值,且 X1,...,XnX_1,...,X_n 满足(R0)-(R2)。同时 f(x;θ)f(x;\theta)θΩ\theta\in\Omega 可微。那么似然方程,
    θL(θ)=0orθl(θ)=0\dfrac{\partial}{\partial\theta}L(\theta)=0\qquad or \qquad \dfrac{\partial}{\partial\theta}l(\theta)=0的解 θ^n\hat{\theta}_nθ0\theta_0一致,θ^nPθ0\hat{\theta}_n\stackrel{P}{\rightarrow}\theta_0

    Additional Regularity Conditions

    在其他规则条件下,MLE是渐近正态分布的。 接下来,我们了解一下这些假设。
    R3/5\mathbf{R3/5}:概率密度函数 f(x;θ)f(x;\theta)可对θ\theta三次微分。进一步讲,对于所有的 θΩ\theta\in\Omega, 存在一个常数 cc,和一个随机变量 M(x)M(x)Eθ0[M(X)]<E_{\theta_0}[M(X)]<\infty,有
    3θ3logf(x;θ)M(x)for  all  θ0c<θ<θ0+c|\dfrac{\partial^3}{\partial\theta^3}\log f(x;\theta)|\le M(x)\qquad for\;all\;\theta_0-c<\theta<\theta_0+cR4\mathbf{R4}:积分 f(x;θ)dx\displaystyle{\int}f(x;\theta)dx 可以对 θ\theta 二次微分。

    Asymptotic normality

    定理 6.2.2:在上述所有假设下,且 Var[logf(X;θ)θ]<Var[\dfrac{\partial\log f(X;\theta)}{\partial\theta}]<\infty,则n(θ^θ)DN(0,1Var[logf(X;θ)θ]1/2)\sqrt{n}(\hat{\theta}-\theta)\stackrel{D}\rightarrow N\left(0,\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]^{1/2}}\right)渐进方差为1nVar[logf(X;θ)θ]\dfrac{1}{nVar\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]}
    证明
    现在我们考虑 l(θ^)l'(\hat{\theta})θ0\theta_0 的二阶泰勒展开
    l(θ^)=l(θ0)+(θ^θ)l(θ0)+12(θ^θ)l(θ)l'(\hat{\theta})=l'(\theta_0)+(\hat{\theta}-\theta)l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)θ\theta^* 是在 θ0\theta_0θ^\hat{\theta}中间的一个随机变量。

    根据定义 l(θ^)=0l'(\hat{\theta})=0,所以0=l(θ0)+(θ^θ)l(θ0)+12(θ^θ)l(θ)l(θ0)=(θ^θ)(l(θ0)+12(θ^θ)l(θ))(θ^θ)=l(θ0)l(θ0)12(θ^θ)l(θ)n(θ^θ)=nl(θ0)l(θ0)12(θ^θ)l(θ)=1nl(θ0)1nl(θ0)12n(θ^θ)l(θ)=AnBn+Cn\begin{aligned} 0&=l'(\theta_0)+(\hat{\theta}-\theta)l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)\\ -l'(\theta_0)&=(\hat{\theta}-\theta)\left(l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)\right)\\ (\hat{\theta}-\theta)&=\dfrac{l'(\theta_0)}{-l''(\theta_0)-\frac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)}\\ \sqrt{n}(\hat{\theta}-\theta)&=\sqrt{n}\dfrac{l'(\theta_0)}{-l''(\theta_0)-\frac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)}\\ &=\dfrac{\frac{1}{\sqrt{n}}l'(\theta_0)}{-\frac{1}{n}l''(\theta_0)-\frac{1}{2n}(\hat{\theta}-\theta)l'''(\theta^*)}\\ &=\dfrac{A_n}{B_n+C_n} \end{aligned}

    现在我们分别考虑 An,Bn,CnA_n,B_n,C_n

    An=1nl(θ0)=1ni=1nlogf(xi;θ0)θ0A_n=\dfrac{1}{\sqrt{n}}l'(\theta_0)=\dfrac{1}{\sqrt{n}}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial\log f(x_i;\theta_0)}{\partial\theta_0}
    f(x;θ)dx=1θf(x;θ)dx=θf(x;θ)dx=0θf(x;θ)dx=θf(x;θ)f(x;θ)dx=E[θlogf(X;θ)]\begin{aligned}\because&\displaystyle{\int}f(x;\theta)dx=1\\ &\dfrac{\partial}{\partial\theta}\displaystyle{\int}f(x;\theta)dx=\displaystyle{\int}\dfrac{\partial}{\partial\theta}f(x;\theta)dx=0\\ \therefore&\displaystyle{\int}\dfrac{\partial}{\partial\theta}f(x;\theta)dx=\displaystyle{\int}\dfrac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}dx=E\left[\dfrac{\partial}{\partial\theta\log f(X;\theta)}\right] \end{aligned}
    因此,由CLT可得
    AnDN(0,Var[logf(X;θ)θ])A_n\stackrel{D}{\rightarrow}N\left(0,Var\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]\right)

    现在我们考虑 BnB_n
    Bn=1nl(θ0)=1ni=1n2logf(xi;θ0)θ02B_n=-\dfrac{1}{n}l''(\theta_0)=-\dfrac{1}{n}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial^2\log f(x_i;\theta_0)}{\partial\theta_0^2}
    由大数定律得,
    BnPE[2logf(X;θ0)θ02]=Var[logf(X;θ0)θ0]B_n\stackrel{P}{\rightarrow}-E\left[\dfrac{\partial^2\log f(X;\theta_0)}{\partial\theta_0^2}\right]=Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]
    最后,我们要证明 CnC_n 是渐进可忽略的。
    因为 θ^\hat{\theta} 的一致性,并且如果 1nl(θ)\frac{1}{n}l'''(\theta^*) 概率有界。那么我们认为 Cn=op(1)C_n=op(1)Bn+Cn=Var[logf(X;θ0)θ0]+op(1)B_n+C_n=Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]+op(1)最后由Slutsky’s lemma,可得
    n(θ^θ)=1Var[logf(X;θ0)θ0]+op(1)1ni=1nlogf(xi,θ0)θ0DN(0,1Var[logf(X;θ0)θ0]1/2)\begin{aligned} \sqrt{n}(\hat{\theta}-\theta)&=\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]+op(1)}\dfrac{1}{\sqrt{n}}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial\log f(x_i,\theta_0)}{\partial\theta_0}\\ &\stackrel{D}\rightarrow N\left(0,\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]^{1/2}}\right) \end{aligned}
    其中 Var[logf(X;θ0)θ0]Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right] 叫作 Fisher information。MLE的渐进方差是一个理论值,我们需要针对实际使用情况进行估算(例如,构建置信区间和假设检验)。

    展开全文
  • 极大似然估计详解

    2020-03-24 16:46:21
    极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: ...

    极大似然估计

            以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:


    贝叶斯决策

            首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:


            其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。

            我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

            从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。

            设:

            由已知可得:

            男性和女性穿凉鞋相互独立,所以

    (若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。

            由贝叶斯公式算出:


    问题引出

            但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

            先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。

            类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。


    重要前提

            上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

            重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。


    极大似然估计

            极大似然估计的原理,用一张图片来说明,如下图所示:


            总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

            原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

            由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:


            似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。


            如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:

     

    求解极大似然函数

            ML估计:求使得出现该组样本的概率最大的θ值。


             实际中为了便于分析,定义了对数似然函数:


            1. 未知参数只有一个(θ为标量)

            在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:


            2.未知参数有多个(θ为向量)

            则θ可表示为具有S个分量的未知向量:


             记梯度算子:


             若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。


             方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。


    极大似然估计的例子

            例1:设样本服从正态分布,则似然函数为:


            它的对数:


            求导,得方程组:


            联合解得:


            似然方程有唯一解:,而且它一定是最大值点,这是因为当或时,非负函数。于是U和的极大似然估计为。


            例2:设样本服从均匀分布[a, b]。则X的概率密度函数:


            对样本:


            很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于,否则,L(a,b)=0。类似地a不能大过,因此,a和b的极大似然估计:

     

    总结

            求最大似然估计量的一般步骤:

            (1)写出似然函数;

            (2)对似然函数取对数,并整理;

            (3)求导数;

            (4)解似然方程。

            最大似然估计的特点:

            1.比其他估计方法更加简单;

            2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;

            3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。


    ————————————————
    版权声明:本文为CSDN博主「知行流浪」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/zengxiantao1994/article/details/72787849

    展开全文
  • 极大似然估计 一、离散型统计模型 L(θ)=∏i=1nPθ(Xi=xi) \boldsymbol{L}\left( \boldsymbol{\theta } \right) =\prod_{\boldsymbol{i}=1}^{\boldsymbol{n}}{\boldsymbol{P}_{\boldsymbol{\theta }}}\left( \...

    极大似然估计

    一、离散型统计模型
    L(θ)=i=1nPθ(Xi=xi) \boldsymbol{L}\left( \boldsymbol{\theta } \right) =\prod_{\boldsymbol{i}=1}^{\boldsymbol{n}}{\boldsymbol{P}_{\boldsymbol{\theta }}}\left( \boldsymbol{X}_{\boldsymbol{i}}=\boldsymbol{x}_{\boldsymbol{i}} \right)
    二、连续型统计模型
    L(θ)=i=1nPθ(Xi=xi) \boldsymbol{L}\left( \boldsymbol{\theta } \right) =\prod_{\boldsymbol{i}=1}^{\boldsymbol{n}}{\boldsymbol{P}_{\boldsymbol{\theta }}}\left( \boldsymbol{X}_{\boldsymbol{i}}=\boldsymbol{x}_{\boldsymbol{i}} \right)
    在这里插入图片描述
    似然函数的直观意义就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值寻 θ\theta
    那么要怎么寻找与数据的匹配程度呢?

    这里举一个例子:假设一个盒子里有10个球,3个白球,7个红球,进行有放回的抽取,那么我们可以知道抽到白球的概率θ\theta为3/10,抽到红球的概率为7/10。但是这里只是我们的直觉,我们的直观的感受,但是我们要找到一个理论来描述我们这个直觉,那应该怎么做呢?这就用到了极大似然估计。

    x 白球 红球
    p θ\theta 1- θ\theta

    这里假设一共有n个球,其中白球有n1n_1个,红球有n2n_2个,那么我们的直觉告诉我们
    直觉θ\theta=n1n_1/n

    那么带到公式里面去,就得到:
    L(θ)=θn1(1θ)n2 \boldsymbol{L}\left( \boldsymbol{\theta } \right) =\boldsymbol{\theta }^{\boldsymbol{n}_1}\left( 1-\boldsymbol{\theta } \right) ^{\boldsymbol{n}_2}
    好,现在似然函数写出来了,我们就要寻找使L(θ)L(\theta)取得最大(最趋近于1的时候)的时候θ\theta的取值,这里就用到高数里的求偏导。
    但是这个式子是相乘的求偏导比较复杂,我们取对数,使其转成相加的就更好求导。
    ln(L(θ))=ln(θn1(1θ)n2) \ln \left( \boldsymbol{L}\left( \boldsymbol{\theta } \right) \right) =\ln \left( \boldsymbol{\theta }^{\boldsymbol{n}_1}\left( 1-\boldsymbol{\theta } \right) ^{\boldsymbol{n}_2} \right)
    ln(L(θ))=n1lnθ+n2ln(1θ) \ln \left( \boldsymbol{L}\left( \boldsymbol{\theta } \right) \right) =\boldsymbol{n}_1\ln \boldsymbol{\theta }+\boldsymbol{n}_2\ln \left( 1-\boldsymbol{\theta } \right)
    dln(L(θ))dθ=n1θn21θ=0 \frac{\boldsymbol{d}\ln \left( \boldsymbol{L}\left( \boldsymbol{\theta } \right) \right)}{\boldsymbol{d\theta }}=\frac{\boldsymbol{n}_1}{\boldsymbol{\theta }}-\frac{\boldsymbol{n}_2}{1-\boldsymbol{\theta }}=0
    θ^=n1n1+n2=n1n \boldsymbol{\hat{\theta}}=\frac{\boldsymbol{n}_1}{\boldsymbol{n}_1+\boldsymbol{n}_2}=\frac{\boldsymbol{n}_1}{\boldsymbol{n}}

    那么这里就得出θ\theta与我们的取直觉相符合了

    展开全文
  • 加权极大似然估计是相对于非加权的极大似然估计而言。 传统的极大似然估计思想非常简单,也就是我们既然观察到了这个现象,说明出现概率很大,然后通过建立需要估计参数和现象之间的概率模型,使得出现观察到的现象...
  • 样本数据的类条件概率密度符合正态分布,对训练样本进行极大似然估计得到参数,再对测试样本进行分类。
  • 极大似然估计初探

    2020-01-09 17:22:27
    极大似然估计1.贝叶斯决策新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants...
  • 是基于RSSI的室内定位,极大似然估计定位算法,如果有双曲线定位算法的MATLAB代码也行。哪位为好心人发我一份,写论文需要。
  • 极大似然估计

    2019-02-16 09:30:27
    那我们来看这个极大似然估计是啥,就是找出来一个值使得L(x,位置参数)最大 因为要最大,因此就求导呗,让导数等于零就行 对于不止一个未知参数的,那就求偏导,让所有偏导都等于零完事。 因为L定义是f连乘,那么...
  • MATLAB学习笔记:极大似然估计

    万次阅读 2018-01-27 16:02:51
    极大似然估计的步骤: 1、写出似然函数 2、对似然函数取对数,并整理 3、求导数 4、解似然方程 极大似然估计的Matlab命令mle调用格式: phat=mle(data) 返回服从正态分布的数据参数的极大似然估计。 ...
  • 导读:极大似然估计(MLE) 是统计机器学习中最基本的概念,但是能真正全面深入地理解它的性质和背后和其他基本理论的关系不是件容易的事情。极大似然估计和以下概念都有着紧密的联系:随机变量,无...
  • 逻辑回归中,最重要的公式推导就是将该问题转化为极大似然估计,然后求解,接着后面几个过程都实现了一些目的性的推导: 极大似然估计函数: (1)这种连续相乘的表达式比较难求,可以两边取log,转化为相加的...
  • 今天讲一个在机器学习中重要的方法——极大似然估计。这是一个,能够让你拥有拟合最大盈利函数模型的估计方法。01什么是极大似然估计极大似然估计是1821年由高斯提出,1...
  • 这篇文章给了我一个启发,我们可以自己用已知分布的密度函数进行组合,然后构建一个新的密度函数啦,然后用极大似然估计MLE进行估计。代码和结果演示代码:#取出MASS包这中的数据data(geyser,package="MASS")head...
  • 内容是.m MATLAB代码可运行 最大似然估计的仿真代码
  • 极大似然估计引言题目及推导 引言 极大似然估计是数理统计参数估计的重要方法,但是极大似然函数的求解有时很困难,在篇文章以一个极大似然题目为例子。来展示一元极大似然函数的求解问题,并最终附上代码及讲解。 ...
  • 在所有双射函数的意义上,最大似然估计是不变的 如果 是的最大似然估计 然后 。让 , 然后 等于 和中的似然函数 是 。由于 是的最大似然估计
  • 极大似然估计 在参数模型的背景下,标准技术是考虑似然的最大值(或对数似然)。考虑到一些技术性假设,如 ,的某个邻域,那么 其中表示费雪信息矩阵。在此考虑一些样本,来自广义帕累托分布,参数为 ,因此 ...
  • 极大似然估计及其应用欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...
  • 极大似然估计的知识加例子

    千次阅读 2018-05-29 10:45:00
    极大似然估计的知识和例子:
  • 编写程序,对表格中的类w1中的3个特征xi,分别求解最大似然估计均值μ ̂和方差σ ̂^2。 b.修改程序,处理二维数据的情形p(x)~N(μ,Σ)。然后处理对表格中的类w1中的任意两个特征的组合(共三种可能)。 c.修改...
  • 似然估计和极大似然估计应用

    千次阅读 2013-11-10 00:58:37
    似然估计:  设总体X服从分布P(x;θ),但X是随机变量时为概率密度,当X为离散型随机变量时为概率分布)。θ为待估计函数,X1,X2,X2,...,Xn是来自于总体X的样本,x1,x2…xn为样本X1,X2,…Xn的一个观察值。则...
  • 朴素贝叶斯算法,matlab程序,极大似然估计,贝叶斯估计

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,957
精华内容 2,382
关键字:

极大似然估计代码