精华内容
下载资源
问答
  • 极大似然估计用蒙特卡洛仿真实现,蒙特卡洛仿真实现MATLAB例程
  • 极大似然估计方法估计掷硬币的概率,word版的估计过程,涉及公式,完整版的推导
  • 极大似然估计.pdf

    2020-05-21 14:12:08
    本文主要介绍了极大似然估计的原理以及实现过程。本文省去了不必要的证明。供查阅使用。(1)介绍了极大似然估计的相合性、同变性、渐近正态性。(2)Delta方法。
  • 包括matlab代码和地物信息xls文件,利用文件中提供的地物的五个波段信息以及预分类的信息,进行编程,实现分类并和文件中的真正分类比较,发现正确率可以达到97%
  • 极大似然估计方法

    2019-01-04 18:26:05
    极大似然估计方法估计方法,极大似然估计方法估计方法
  • 哈工大研究生课程讲义高斯分布参数的极大似然估计,EM算法
  • stata中极大似然估计方法,很不错的资源,可以下载下来学习下。
  • 样本数据的类条件概率密度符合正态分布,对训练样本进行极大似然估计得到参数,再对测试样本进行分类。
  • 利用递推极大似然法进行参数估计,逼近真实参数向量
  • 计算极大似然值copula,matlab代码
  • 图解极大似然估计

    2019-11-27 22:42:50
    极大似然估计**是神经网络和很多复杂模型得以优化求解的理论基础, 我们今天来学习并试着深入理解极大似然估计的原理和推导, 最后我们对极大似然估计进行3D可视化, 建立一种直观的认识. 要理解极大似然估计是什么, ...
    机器学习之数学之旅
    图解极大似然估计$(maximum likelihood estimation with 3D visualization)$

    极大似然估计**是神经网络和很多复杂模型得以优化求解的理论基础, 我们今天来学习并试着深入理解极大似然估计的原理和推导, 最后我们对极大似然估计进行3D可视化, 建立一种直观的认识.

    要理解极大似然估计是什么, 首先要明白概率密度(质量)函数是什么, 如果你不知道的话, 那就简短解释一下:
    概率密度函数用来描述某个随机变量取某个值的时候,取值点所对应的的概率 ( p r o b a b i l i t y ) (probability) (probability)的函数.
    如下图, 我们现在有一个概率分布, 属于正态分布: X ∼ N ( μ , σ 2 ) , f ( x ; μ , σ ) = 1 σ 2 π   exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) X \sim N(\mu,\sigma^2), \quad f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right) XN(μ,σ2),f(x;μ,σ)=σ2π 1exp(2σ2(xμ)2)

    其中 μ \mu μ是均值, σ \sigma σ是标准差. 如果你不熟悉正态分布, 我们简单回顾一下 μ \mu μ指的是均值, 在下图中, 均值是 0 0 0则正态分布的概率在均值处概率最高, 以均值为中心两边是对称的, σ \sigma σ是标准差, 标准差控制着概率分布偏离均值的程度, 标准差越大概率分布越扁平, 越小的话, 概率分布越集中于均值.

    我们另有一个数据点, 是一个随机变量, 取值 2.5 2.5 2.5, 我们将 x = 2.5 x=2.5 x=2.5代入 f ( x ; μ = 5 , σ = 2 ) f(x;\mu=5,\sigma=2) f(x;μ=5,σ=2)得出下图出中绿色直线的长度, 也就是得到了 P ( x = 2.5 ∣ μ = 5 , σ = 2 ) P(x=2.5 \mid \mu=5, \sigma=2) P(x=2.5μ=5,σ=2)
    意义为 x = 2.5 x=2.5 x=2.5在上面定义的正态分布中的概率, 也就是给定一个概率分布, 随机变量在这个概率分布中出现的可能性, 而 f ( x ; μ , σ ) = 1 σ 2 π   exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right) f(x;μ,σ)=σ2π 1exp(2σ2(xμ)2)就是概率密度函数.
    概率质量函数是离散的, 概率密度函数是连续的, 意义相同, 为了可视化的方便, 今天用概率密度函数来讲解极大似然估计.

    import matplotlib.pyplot as plt
    import numpy as np
    from scipy import stats
    import plotly.graph_objs as go
    from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
    from IPython.display import Image 
    init_notebook_mode(connected=True
    
    def draw_likelihood(observations, mu, sigma):
        # 定义y轴取值
        plt.ylim(-0.02,1)
        # 定义一个画图范围
        x_locs =  np.linspace(-10, 10, 500)
        # 画出推断的概率分布的概率密度函数
        plt.plot(x_locs, stats.norm.pdf(x_locs, loc=mu, scale=sigma), label="inference")
        for obs in observations:
            plt.axvline(x=obs, ymin=0, ymax=stats.norm.pdf(obs, loc=mu, scale=sigma)+0.01, c="g")
        plt.axvline(x=obs, ymin=0, ymax=stats.norm.pdf(obs, loc=mu, scale=sigma)+0.01, c="g", label="probabilities")
        # 画出观测数据的概率
        plt.scatter(x=observations, y=[0 for _ in range(len(observations))], c="r", marker="o", label="obsevations")
        plt.legend()
        plt.grid()
        plt.title("mean={} sigma={}".format(str(mu), str(sigma)))
        plt.show()
    
    draw_likelihood([2.5], mu=0, sigma=2)
    

    在这里插入图片描述
    概率似然的区别:
    概率,是在已知一些概率分布参数的情况下,预测观测的结果;
    似然,则是用于在已知某些观测所得到的结果时,对观测结果所属于的的概率分布的参数进行估值。

    极大似然估计的目的在于找到一个最符合当前观测数据的概率分布.

    1. 我们先理解似然函数是什么
      例如下面两图中: 红色圆点指的是观测到的随机变量, 蓝色的线是概率密度函数的图像, 绿色的直线长度所对应的 y y y轴的值指的是是观测的数据出现在当前概率分布中的可能性, 也就是概率, 概率是介于 [ 0 , 1 ] [0,1] [01]之间的实数, 我们用 P ( x ∣ μ , σ ) P(x \mid \mu,\sigma) P(xμ,σ)来表示绿色线的长度, 也就是概率.
    obs_mu, obs_sigma = 0, 4
    observations = np.random.normal(obs_mu, obs_sigma, 20)
    draw_likelihood(observations, mu=5, sigma=2)
    draw_likelihood(observations, mu=0, sigma=4)
    

    在这里插入图片描述
    在这里插入图片描述
    2. 我们假设有一组观测到的数据, 一共有 N N N个, X o b s e r v a t i o n = { x 1 , x 2 , . . . , x N } X_{observation} = \{ x_1, x_2, ... , x_N\} Xobservation={x1,x2,...,xN}
    我们推断这一组数据属于一个概率分布, 是一个正态分布, 它的概率密度函数为 f ( x ; μ , σ ) f(x;\mu,\sigma) f(x;μ,σ), 我们将 X o b s e r v a t i o n X_{observation} Xobservation里的数据点带入到 f ( x ; μ , σ ) f(x;\mu,\sigma) f(x;μ,σ)里, 得到每个数据点在我们假设的概率分布中的出现的可能性, 注意我们接下来简写 X o b s e r v a t i o n X_{observation} Xobservation X X X:
    P ( x 1 ∣ μ , σ ) ,   P ( x 2 ∣ μ , σ )   , . . .   ,   P ( x N ∣ μ , σ ) P(x_1 \mid \mu,\sigma), \,P(x_2 \mid \mu,\sigma)\, , ... \, ,\,P(x_N \mid \mu,\sigma) P(x1μ,σ),P(x2μ,σ),...,P(xNμ,σ)
    3. 那么这一组数据 X o b s e r v a t i o n = { x 1 , x 2 , . . . , x N } X_{observation} = \{ x_1, x_2, ... , x_N\} Xobservation={x1,x2,...,xN}在假设的概率分布中的出现的可能性就是他们概率的乘积:
    L ( μ , σ ∣ X ) = P ( X ∣ μ , σ ) = ∏ i = 1 N P ( x i ∣ μ , σ ) L(\mu ,\sigma \mid X)=P(X \mid \mu ,\sigma)=\prod _{i=1}^{N}P(x_{i}\mid \mu,\sigma) L(μ,σX)=P(Xμ,σ)=i=1NP(xiμ,σ)
    上式中, 我们用 L ( μ , σ ∣ X ) L(\mu ,\sigma \mid X) L(μ,σX)来表示似然函数, 已知的观测到的数据点 X X X, 用似然函数 L ( μ , σ ∣ X ) L(\mu ,\sigma \mid X) L(μ,σX)来估计参数 μ , σ \mu ,\sigma μ,σ的可能性, 由此可见,似然函数也是一种条件概率函数,但我们关注的变量改变了.
    4. 从下面两图可得, 上图图中所假设的概率分布求出的似然函数取值显然比下面的小, 因为有很接近于 0 0 0的数值, 这让似然函数乘积的结果变得非常小. 我们可以得出结论, 下图的概率分布参数更符合观测到的数据点的概率分布,而最大似然估计的目的就是找到一个最符合当前数据的分布的参数.

    我们做个试验:

    1. 先从均值为 0 0 0, 标准差为 4 4 4正态分布中随机抽取 200 200 200个数据点, 作为我们观测到的数据;
      之后我们定义一个估计参数的取值范围, 均值在 ( − 0.5 , 0.5 ) (-0.5, 0.5) (0.5,0.5)之间, 标准差在 ( 3.5 , 4.5 ) (3.5, 4.5) (3.5,4.5)之间;
    2. 然后我们将所有的数据点和我们估计的每一组参数代入似然函数, 也就是 L ( μ , σ ∣ X ) = ∏ i = 1 N P ( x i ∣ μ , σ ) L(\mu ,\sigma \mid X)=\prod _{i=1}^{N}P(x_{i}\mid \mu,\sigma) L(μ,σX)=i=1NP(xiμ,σ)中, 求得每一组参数的似然值, 3.下图可见, 似然函数的值约在 μ = 0 ,   σ = 4 \mu=0, \ \sigma=4 μ=0, σ=4时取得极大值(因为数据点太少有些误差);
    3. 我们发现似然函数的图像是凸函数, 我们就可以用很多优化的方法求它的极大值了.
    4. 找到似然函数极大值的过程就是极大似然估计的过程.
    # 首先定义观测的数据分布, 我们定一个一个均值为0, 标准差为4的正态分布, 
    # 并从中随机抽200个数据点作为观测到的数值
    obs_mu, obs_sigma = 0, 4
    observations = np.random.normal(obs_mu, obs_sigma, 200)
    
    def likelihood(observations, infer_mu, infer_sigma):
        # 定义似然函数, observations为观测到的数据点
        # infer_mu, infer_sigma为推断的均值和标准差
        product_ = 1
        for obs in observations:
            # 代入每一个数据点到我们假设的概率密度函数内, 并求它们的积
            product_ *= stats.norm.pdf(obs, loc=infer_mu, scale=infer_sigma)
        return product_
    
    # 我们定义一个参数的取值范围, 均值在(-0.5, 0.5)之间
    # 标准差在(3.5, 4.5)之间
    all_infer_mu = [i/10 for i in range(-5, 5)]
    all_infer_sigma = [i/10 for i in range(35, 45)]
    
    # 求得每一个参数组合的似然值
    mle = []
    for infer_mu in all_infer_mu:
        temp_lis = []
        for infer_sigma in all_infer_sigma:
            temp_lis.append(likelihood(observations, infer_mu, infer_sigma))
        mle.append(temp_lis)
    
    # 进行似然函数的3D可视化
    data = [go.Surface(x=all_infer_mu, y=all_infer_sigma, z=mle)]
    layout = go.Layout(title="Likelihood", scene={"xaxis": {'title': "mean"}, "yaxis": {"title": "sigma"},"zaxis": {"title": "likelihood"}})
    fig = go.Figure(data=data, layout=layout)
    iplot(fig)
    

    似然函数
    我们看到上图中的最高点 μ ≈ 0 ,   σ ≈ 4 \mu \approx 0, \ \sigma \approx 4 μ0, σ4, 是产生观测数据的真实概率分布的参数, 但是似然函数输出的值极小, 最高的值仅有 1 ∗ 1 0 − 245 1*10^{-245} 110245

    对数似然值 ( l o g   l i k e l i h o o d ) (log \ likelihood) (log likelihood):
    我们对似然函数取 log ⁡ \log log, 就得到了对数似然函数:
    L ( μ , σ ∣ X ) = ∑ i = 1 N log ⁡ P ( x i ∣ μ , σ ) \mathcal {L}(\mu ,\sigma \mid X)=\sum _{i=1}^{N}\log P(x_{i}\mid \mu,\sigma) L(μ,σX)=i=1NlogP(xiμ,σ)
    为什么要对似然函数取对数?

    1. 首先原本的似然函数是很多条件概率的乘积, 我们在找极大值的时候需要求似然函数的导数, 而乘积的导数不方便计算, 取对数可以吧乘除变成加减;
    2. 对似然函数取对数, 原本函数的极大值的位置没有改变;
    3. 如果观测到的数据点比较多, 原始似然函数的乘积可能非常接近于0, 甚至超出计算机的储存位数限制, 这样就全变成0了, 取对数可以把接近于 0 0 0的数变成很大的负数, 也就是把原本似然函数的取值范围从 0 0 0 1 1 1扩展到了 − ∞ -\infty 0 0 0, 方便了计算.

    我们下面对 l o g   l i k e l i h o o d log \ likelihood log likelihood进行3D可视化, 可看到原始的似然函数和对数似然函数的最高点是一样的位置:

    def log_likelihood(observations, infer_mu, infer_sigma):
        sum_ = 0
        for obs in observations:
            sum_ += stats.norm.logpdf(obs, loc=infer_mu, scale=infer_sigma)
        return sum_
    
    mle = []
    for infer_mu in all_infer_mu:
        temp_lis = []
        for infer_sigma in all_infer_sigma:
            temp_lis.append(log_likelihood(observations, infer_mu, infer_sigma))
        mle.append(temp_lis)
    
    data = [go.Surface(x=all_infer_mu, y=all_infer_sigma, z=mle)]
    layout = go.Layout(title="Log Likelihood", scene={"xaxis": {'title': "mean"}, "yaxis": {"title": "sigma"},"zaxis": {"title": "likelihood"}})
    fig = go.Figure(data=data, layout=layout)
    iplot(fig)
    

    对数似然函数
    参考链接:https://github.com/aespresso/a_journey_into_math_of_ml

    展开全文
  • R语言-极大似然估计

    2015-05-14 15:39:22
    极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似1821年首先由德国数学家C. F. Gauss提出,但是这个方法通常被归功于英国的统计学家R. A. ...
  • 利用matlab计算copula极大似然估计,包括运行程序,适用于金融行业、经济领域等进行计算和使用。
  • 在生长曲线模型中,参数矩阵的最小二乘估计为响应变量的线性函数,而极大似然估计为响应变量的非线性函数,所以极大似然估计的统计推断比较复杂.为了使它的统计推断简单点,一些学者考虑了极大似然估计与最小二乘...
  • 采用广义极大似然估计(M 估计)建立的预测模型能够有效地通过权函数降低异常点在模型中的权重。通过人体血糖钳夹临床实验和口服葡萄糖耐量测试实验,利用M 估计和最小二乘估计法(OLS 估计)两种方法建立了血糖预测模型...
  • 极大似然估计

    2019-10-01 16:17:15
    极大似然估计 极大似然估计是概率的log概率的最大化问题,即max(log(P)),log函数是单调函数,通常取底数大于1的情况,所以log函数不影响原来概率大小的判断。如果取极大似然函数的相反数,得到的就是我们熟悉的...

    极大似然估计

    极大似然估计是概率的log概率的最大化问题,即max(log(P)),log函数是单调函数,通常取底数大于1的情况,所以log函数不影响原来概率大小的判断。如果取极大似然函数的相反数,得到的就是我们熟悉的损失函数cost,同时极大似然函数也对应的极小化我们的损失函数。

    为什么要有极大似然估计

    例子:我与一位猎人一起外出打猎,一只野兔从前方穿过,只听到一声枪响,野兔应声倒下。问是谁打中的呢?
    答:极有可能是猎人。
    显然候选人就两个,我和猎人。若选择我,则事件发生的发生概率为0.01%,因为我不会打猎;若选择猎人,则事件发生的概率为99%,而事件已经发生,因此选择猎人更为合适。
    极大似然法的基本思想在社会思维意识中常有所体现。例如某地发生了一个疑难案件,警察欲破案或民众推测嫌疑人,一般是将重点集中在作案可能性较大的可疑人身上。

    极大似然估计的思想

    设总体中含有待估参数w,可以取很多值。已经知道了样本观测值(例子中的兔子被猎人打死了),从w的一切可能值中(引例中是我和猎人)选出一个使该观察值出现的概率为最大的值,作为w参数的估计值,这就是极大似然估计。(顾名思义:就是看上去那个是最大可能的意思)

    极大似然估计步骤

    求极大似然函数估计值的一般步骤:
    (1) 写出似然函数;
    (2) 对似然函数取对数,并整理;
    (3) 求导数 ;
    (4) 解似然方程
    在这里插入图片描述
    极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
    当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。

    极大似然估计的案例

    设某工序生产的产品的不合格率为p,抽n个产品做检验,发现有T个不合格,试求p的极大似然估计。

    分析:设是抽查一个产品时的不合格品个数,则X服从参数为P的二点分布b(1,p)。抽查n个样品,则得样本X1,X2,X3…Xn,其观察值为x1,x2,x3…xn,假如样本有T个不合格,即表示x1,x2,x3…xn中有T个取值为1,n-T个取值为0。按离散分布场合方法,求p的极大似然估计。

    解:(1)写出似然函数:
    在这里插入图片描述
    (2)对L( p)取对数,得对数似然函数l( p):
    在这里插入图片描述
    (3)由于l( p)对p的导数存在,故将l( p)对p求导,令其为0,得似然方程:
    在这里插入图片描述
    (4)解似然方程得:
    在这里插入图片描述
    (5)经验证,在
    在这里插入图片描述
    这表明改点可使似然函数达到最大

    (6)上述过程对任一样本观测值都成立,故用样本代替观察值便得p的极大似然估计为:
    在这里插入图片描述
    将观察值代入,可得p的极大似然估计值为:
    在这里插入图片描述
    若总体X的分布中含有多个未知参数
    在这里插入图片描述
    似然函数L是这些参数的多元函数
    在这里插入图片描述
    代替方程(3),我们有方程组
    在这里插入图片描述
    由这个方程组解得
    在这里插入图片描述
    的极大似然估计值。

    补充:无约束优化方法简介

    无约束优化方法是优化技术中极为重要和基本内容之一。它不仅可以直接用来求解无约束优化问题,而且很多约束优化问题也常将其转化为无约束优化问题(比如在SVM中我们将有约束条件的最优化问题利用拉格朗日函数转化为无约束条件的问题,从而利用梯度下降方法等最优化理论进行求解最优解),然后用无约束优化方法来求解。
    最速下降法和牛顿法是比较常见的求解无约束问题的最优化方法,这两种算法作为基本算法,在最优化方法中占有重要的地位。其中最速下降法又称梯度法,其优点是工作量少,存储变量较少,初始点要求不高;缺点是收敛慢,效率低。牛顿法的优点是收敛速度快;缺点是对初始点要求严格,方向构造困难,计算复杂且占用内存较大。

    展开全文
  • 基于极大似然估计的三维定位算法

    热门讨论 2012-11-02 14:36:29
    绝对是好东西啊!基于极大似然估计的三维定位算法,输入参考点的坐标以及观察点的距离,通过极大似然估计算法计算出观察点的坐标,附送支持矩阵运算的C++类库!
  • 1 基本概念回顾 边缘概率、联合概率和条件概率的基本概念。 1.1 定义 边缘概率(Marginal Probability):可以简单理解为单一事件发生的概率。如果A是一个事件,且事件A发生的概率为P(A)P(A)P(A),则P(A)P(A)P(A)就...
  • 提出了一种利用改进的极大似然估计法对基于威布尔分布的环保型电子节能灯寿命数据进行分析的方法。该方法利用加速寿命实验获取环保型电子节能灯使用寿命的数据,利用统计学的方法和威布尔分布模型,实现高应力下的...
  • 用最大似然估计算法来进行DOA估计,还采用轮转循环对ML进行改进
  • 极大似然估计及其应用

    千次阅读 2020-10-23 09:57:23
    极大似然估计及其应用欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...


    引言:最近在温习机器学习相关算法以及课堂上老师最近也都提到了极大似然估计,然而博主早已忘得差不多了,所以重新学习顺便记录下。
    极大似然估计的主要作用是:当我们不知道样本的分布时我们可以通过假设样本服从某种概率分布,然后结合训练样本对其概率分布中的未知参数进行估计。似然在西瓜书中是likehood,翻译过来就是可能性、概率的意思。
    本文主要参考了西瓜书和《概率论与统计学习(第二版)》。

    1.似然函数

    (1)离散型变量的似然函数
    定义:设总体X是离散型随机变量,分布律为 P ( X = x ) = p ( x , θ ) P(X=x)=p(x,\theta) P(X=x)=p(x,θ),其中 θ \theta θ是未知参数,当样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn得到一组观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,有样本的独立同分布性,记样本取得这组观测值的概率为:
    P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) . . . P ( X n = x n ) = ∏ i = 1 n p ( x i , θ ) = L ( θ ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)\\=P(X_1=x_1)P(X_2=x_2)...P(X_n=x_n)\\=\prod_{i=1}^{n}p(x_i,\theta)=L(\theta) P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)P(X2=x2)...P(Xn=xn)=i=1np(xi,θ)=L(θ)
    L ( θ ) L(\theta) L(θ)为似然函数(对于给定的观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn它是未知参数 θ \theta θ的函数)

    (2)连续变量的似然函数
    X X X是连续变量时,其概率密度函数为 f ( x , θ ) f(x,\theta) f(x,θ),其中 θ \theta θ是未知参数。因为随机变量 X i X_i Xi落在 x i x_i xi的邻域(设长度为 Δ x i \Delta x_i Δxi)内的概率近似为 f ( x i , θ ) Δ x i , i = 1 , 2 , . . . , n f(x_i,\theta)\Delta x_i, i=1,2,...,n f(xi,θ)Δxi,i=1,2,...,n,则样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn落在观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn邻域的概率近似为 ∏ i = 1 n f ( x i , θ ) Δ x i \prod_{i=1}^{n}f(x_i,\theta)\Delta x_i i=1nf(xi,θ)Δxi, 因此似然函数 L ( θ ) = ∏ i = 1 n f ( x i , θ ) Δ x i L(\theta)=\prod_{i=1}^{n}f(x_i,\theta)\Delta x_i L(θ)=i=1nf(xi,θ)Δxi

    (3)例子
    设一袋中装有黑白两种球,设p为从袋中随机摸得一个白球的概率,写出p的似然函数并对参数p进行估计。

    首先这里是离散型变量,所以可以令
    X = { 1 , 取得白球 0 , 取得黑球 X=\begin{cases} 1,&\text{取得白球} \\0,&\text{取得黑球}\end{cases} X={1,0,取得白球取得黑球
    可以发现X服从0-1二项分布,即X~B(1,p),这里就相当于一个先验知识,我们知道了随机变量的概率分布形式。

    为了估计参数p,做有放回的摸球10次,其结果可用随机变量 X i X_i Xi表示:
    X i = { 1 , 第i次取得白球 0 , 第i次取得黑球 X_i=\begin{cases} 1,&\text{第i次取得白球} \\0,&\text{第i次取得黑球}\end{cases} Xi={1,0,i次取得白球i次取得黑球
    假设样本 X 1 , X 2 , . . . , X 10 X_1,X_2,...,X_{10} X1,X2,...,X10的观测值为 ( x 1 , x 2 , . . . x n ) = ( 1 , 0 , 1 , 0 , 0 , 0 , 1 , 0 , 0 , 0 ) (x_1,x_2,...x_n)=(1,0,1,0,0,0,1,0,0,0) (x1,x2,...xn)=(1,0,1,0,0,0,1,0,0,0),则其似然函数为:
    L ( p ) = P ( X 1 = 1 , X 2 = 0 , X 3 = 1 , X 4 = 0 , . . . , X 10 = 0 ) = p 3 ( 1 − p ) 7 L(p)=P(X_1=1,X_2=0,X_3=1,X_4=0,...,X_{10}=0)\\=p^3(1-p)^7 L(p)=P(X1=1,X2=0,X3=1,X4=0,...,X10=0)=p3(1p)7

    至于如何估计参数p,则需要引出极大似然估计。

    2.极大似然估计

    极大似然估计的思想是:在随机试验中有所干个可能结果,如果一次实验中某一结果出现了,根据小概率事件原理,我们认为这一结果出现的概率较大,从而可以认为这一结果是所有可能结果中出现概率最大的一个。因此对于我们的似然函数 L ( θ ) L(\theta) L(θ)就是要找到一个 θ ^ \hat{\theta} θ^使得观测值的概率最大,也就是 a r g m a x θ L ( θ ) {argmax}_{\theta}L(\theta) argmaxθL(θ)

    因此对于上面摸球的例子我们估计参数p的做法就是求 d L ( p ) d p = 0 \frac{dL(p)}{dp}=0 dpdL(p)=0,最后求得p=0.3。

    然而由于似然函数中的连乘易造成下溢,因此通常使用对数似然,即
    L L ( θ ) = l o g ∏ i = 1 n p ( x i , θ ) = ∑ i = 1 n l o g ( p ( x i , θ ) ) LL(\theta)=log \prod_{i=1}^{n}p(x_i,\theta)\\=\sum_{i=1}^{n}log (p(x_i,\theta)) LL(θ)=logi=1np(xi,θ)=i=1nlog(p(xi,θ))
    然后求解
    θ ^ = a r g m a x θ L L ( θ ) \hat{\theta}={argmax}_{\theta}LL(\theta) θ^=argmaxθLL(θ)

    3.极大似然估计在机器学习中的应用

    (1)逻辑回归
    逻辑回归的模型为: y = 1 1 + e − ( w T x + b ) y=\frac{1}{1+e^{-(w^Tx+b)}} y=1+e(wTx+b)1,设 p 1 : p ( y = 1 ) = e w T x + b 1 + e w T x + b , p 0 : p ( y = 0 ) = 1 1 + e w T x + b p_1:p(y=1)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}, p_0:p(y=0)=\frac{1}{1+e^{w^Tx+b}} p1:p(y=1)=1+ewTx+bewTx+b,p0:p(y=0)=1+ewTx+b1,其中 p 1 和 p 0 p_1和p_0 p1p0是关于未知参数 w , b w,b w,b的概率分布,其具体形式可以通过对逻辑回归模型两边同取对数求得。然后通过对数极大似然估计法对未知参数进行估计得:
    L L ( w , b ) = l o g ( ∏ i = 1 m p ( y i ) ) = ∑ i = 1 m l o g ( y i p 1 + ( 1 − y i ) p 0 ) LL(w,b)=log(\prod_{i=1}^mp(y_i))\\=\sum_{i=1}^mlog(y_ip_1+(1-y_i)p_0) LL(w,b)=log(i=1mp(yi))=i=1mlog(yip1+(1yi)p0)

    然后利用梯度法求解极值即可。

    (2)朴素贝叶斯分类器
    朴素贝叶斯分类器的基本原理: p ( c ∣ x ) = p ( c ) p ( x ) ∏ i = 1 n p ( x ( i ) ∣ c ) p(c|x)=\frac{p(c)}{p(x)}\prod_{i=1}^np(x^{(i)}|c) p(cx)=p(x)p(c)i=1np(x(i)c),其中c是类别,x是训练样本, x ( i ) x^{(i)} x(i)是样本在第i个属性上的取值,通过训练样本x预测类别c其中 p ( c ) 和 p ( x ) p(c)和p(x) p(c)p(x)比较好求,而 p ( x ( i ) ∣ c ) p(x^{(i)}|c) p(x(i)c)可以通过极大似然估计的方法对其概率分布进行估计,首先假设p(x|c)是服从关于参数 θ \theta θ的概率分布,即 p ( x , θ ) p(x,\theta) p(x,θ),则其对数似然函数为:
    L L ( θ ) = ∑ i = 1 m p ( x i , θ ) LL(\theta)=\sum_{i=1}^mp(x_i,\theta) LL(θ)=i=1mp(xi,θ)
    然后求解 θ ^ = a r g m a x θ L L ( θ ) \hat{\theta}={argmax}_{\theta}LL(\theta) θ^=argmaxθLL(θ)得到参数。但是使用极大似然估计来估计类条件概率有以下困难:

    使用极大似然估计法对参数进行估计时,结果的准确性严重依赖于所假设的概率分布是否符合真实数据分布。在逻辑回归中因为我们已经有了每个似然项的概率分布,相当于有了这个先验知识,所以结果是可靠的。

    展开全文
  • 该文讨论了U[-θ,0]上参数θ的极大似然估计及修正后的极大似然估计的均方误差和相合性,并进一步证明了修正后的极大似然估计还是参数θ的UMVUE.
  • 最小二乘估计与极大似然估计联系 给定m个样本数据,(x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)})(x(1),y(1)),(x(2),y(2)),(x(3)...

    最小二乘估计与极大似然估计联系

    给定m个样本数据, ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ( x ( 3 ) , y ( 3 ) ) . . . . ( x ( m ) , y ( m ) ) (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}) (x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m)),其中 x ( i ) ∈ R n , y ( i ) ∈ R x^{(i)} \in \mathbb{R^n},y^{(i)} \in R x(i)Rn,y(i)R.

    最小二乘估计

    通过找到参数 θ \theta θ使得所有样本上的均方误差和最小,即损失函数为:
    J ( θ ) = 1 2 m ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=2m1i=1m(y(i)θTx(i))2
    公式说明:

    1. 其中 y ( i ) y^{(i)} y(i)表示样本 i i i的真实值, θ T x ( i ) \theta^Tx^{(i)} θTx(i)表示样本i的预测值, θ ∈ R n \theta \in \mathbb{R^n} θRn为待求解的参数, y ( i ) − θ T x ( i ) y^{(i)}-\theta^Tx^{(i)} y(i)θTx(i)即为样本 i i i的残差。
    2. 损失函数中除以 m m m的原因是为了平衡样本数量带来的影响,如果不除以 m m m, J ( θ ) J(\theta) J(θ)随着样本量增加而增加,对求解参数 θ \theta θ会带来一定的影响。

    极大似然估计

    极大似然估计是点估计中的一种用于估计参数的方式。假设总体的密度函数为 p ( x ; θ ) p(x;\theta) p(x;θ),当给定m个来自总体的样本 ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ( x ( 3 ) , y ( 3 ) ) . . . . ( x ( m ) , y ( m ) ) (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}) (x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))时,将m个样本的联合概率函数看作 θ \theta θ的函数,记作 L ( θ ; x ( 1 ) . . . x ( m ) ) L(\theta;x^{(1)}...x^{(m)}) L(θ;x(1)...x(m)),简记为 L ( θ ) L(\theta) L(θ):
    L ( θ ) = p ( x ( 1 ) ; θ ) p ( x ( 2 ) ; θ ) . . . p ( x ( m ) ; θ ) = ∏ i = 1 m p ( x ( i ) ; θ ) L(\theta) = p(x^{(1)};\theta)p(x^{(2)};\theta)...p(x^{(m)};\theta) \\ = \prod_{i=1}^m p(x^{(i)};\theta) L(θ)=p(x(1);θ)p(x(2);θ)...p(x(m);θ)=i=1mp(x(i);θ)
    所以极大似然估计就是找到 θ \theta θ使得当前样本出现的可能性最大,即似然函数 L ( θ ) L(\theta) L(θ)最大。

    注意:

    1. 似然函数不等同于概率,因为对似然函数求积分不一定为1;但是似然函数和概率是成比例的,也就是说如果 L ( θ 1 ) &lt; L ( θ 2 ) L(\theta_1)&lt;L(\theta_2) L(θ1)<L(θ2),那么参数估计得结果为 θ 2 \theta_2 θ2的概率应该大于为 θ 1 \theta_1 θ1的结果。
    2. 似然函数和概率密度函数的关系。对于二元函数 p ( x ; θ ) p(x;\theta) p(x;θ) ,给定 x x x带入时,得到仅与 θ \theta θ相关的函数即 L ( θ ) L(\theta) L(θ);给定 θ \theta θ时候带入时,得到仅与 x x x相关的函数即概率密度函数。
    3. 关于表示,一般竖线“|“表示条件概率即表明参数 θ \theta θ是一个随机变量,而分号“;”表示 θ \theta θ是一个参数,即是一个固定的值,只是我们不知道而已。后者代表了频率学派的观点,极大似然估计就是频率学派的思想。

    联系

    1. 当最小二乘估计中每个样本的残差 ξ i \xi_i ξi独立,且均服从均值为0,方差为 σ 2 \sigma ^2 σ2的高斯分布时,最小二乘估计和极大似然估计等价。记作如下:
      y ( i ) = θ T x ( i ) + ξ i ξ i ∼ N ( 0 , σ 2 ) y^{(i)} = \theta^Tx^{(i)}+\xi_i \\ \xi_i \sim N(0,\sigma^2) y(i)=θTx(i)+ξiξiN(0,σ2)
      由于 ξ i \xi_i ξi服从高斯分布,故其概率密度函数为:
      p ( ξ i ) = 1 2 π σ e − ξ i 2 2 σ 2 p(\xi_i) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}} p(ξi)=2π σ1e2σ2ξi2
      ξ i = y ( i ) − θ T x ( i ) \xi_i = y^{(i)} - \theta^Tx^{(i)} ξi=y(i)θTx(i)带入则有:
      p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}} p(y(i)x(i);θ)=2π σ1e2σ2(y(i)θTx(i))2
      p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)}|x^{(i)};\theta) p(y(i)x(i);θ)可以理解为当参数为 θ \theta θ时, θ T x ( i ) \theta^Tx^{(i)} θTx(i) y ( i ) y^{(i)} y(i)接近的概率。对于给定m个样本,似然函数为:
      L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta) L(θ)=i=1mp(y(i)x(i);θ)
      对数似然函数为:
      l ( θ ) = l o g L ( θ ) = ∑ i = 1 m ( l o g ( 1 2 π σ ) − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = − m l o g ( 2 π σ ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 l(\theta) = log L(\theta) = \sum_{i=1}^m (log(\frac{1}{\sqrt{2\pi}\sigma})-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ = -mlog(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 l(θ)=logL(θ)=i=1m(log(2π σ1)2σ2(y(i)θTx(i))2)=mlog(2π σ)2σ21i=1m(y(i)θTx(i))2
      利用极大似然估计即找到 θ \theta θ使得似然函数 L ( θ ) L(\theta) L(θ)最大,由于 l o g log log函数单调递增,似然函数$ L(\theta) 最 大 等 同 于 对 数 似 然 最大等同于对数似然 l(\theta) 最 大 。 在 对 数 似 然 函 数 表 达 式 最大。在对数似然函数表达式 (5) 中 , 前 半 部 分 与 中,前半部分与 ,\theta $无关,所以最大化对数似然函数等价与最小化:
      J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21i=1m(y(i)θTx(i))2
      在式(8)中的 J ( θ ) J(\theta) J(θ)与最小二乘估计的目标函数仅仅相差了一个分子中的 m m m,而 m m m并不影响参数求解。所以可以看出,当**假设最小二乘法估计的残差服从独立同分布均值为0的高斯分布时,极大似然估计和最小二乘法估计是等价的**.
    展开全文
  • 机器学习之极大似然估计详解

    千次阅读 多人点赞 2018-12-27 17:38:56
    极大似然估计在机器学习中很多模型都会用到,理解了极大似然估计对后面学习机器学习有很大帮助。 极大似然估计听着很高冷,光看名字就让需要数学不好的同学望而却步。其实说了就是根据统计结果,反推什么情况下最...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,292
精华内容 9,716
关键字:

极大似然估计