精华内容
下载资源
问答
  • Fisher Information

    2020-10-08 12:34:41
    目录Fisher Information最大似然估计score function 期望为0Fisher Information 定义Fisher Information 和Score function的关系 Fisher Information 来自...

    Fisher Information

    来自https://math.stackexchange.com/questions/265917/intuitive-explanation-of-a-definition-of-the-fisher-information

    最大似然估计

    fisher information
    似然函数(likelihood) L ( X ; θ ) = ∏ i = 1 n f ( X i ; θ ) L(\bm{X};\theta)=\prod^{n}_{i=1}f(X_i;\theta) L(X;θ)=i=1nf(Xi;θ)。其中 { X } \{\bm{X}\} {X}是独立同分布的一组随机量, X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn θ \theta θ是需要估计的参数。

    根据最大似然估计(MLE,Maximum Likelihood Estimation),求得score function
    S ( X ; θ ) = ∑ i = 1 n ∂ log ⁡ f ( X i , ; θ ) ∂ θ (1) S(\bm{X};\theta)=\sum^{n}_{i=1}\frac{\partial\log f(X_i,;\theta)}{\partial \theta} \tag{1} S(X;θ)=i=1nθlogf(Xi,;θ)(1)

    score function 期望为0

    score的期望为零,因为
    ∫ ⋯ ∫ f ( X ; θ ) d X = 1 (2) \int\cdots \int f(\bm{X};\theta)d\bm{X} =1 \tag{2} f(X;θ)dX=1(2)
    所以 ∂ ∂ θ ∫ ⋯ ∫ f ( X ; θ ) d X = 0 (3) \frac{\partial}{\partial \theta} \int \cdots \int f (\bm{X};\theta)d\bm{X} =0 \tag{3} θf(X;θ)dX=0(3)
    该式左侧,
    ∂ ∂ θ ∫ ⋯ ∫ f ( X ; θ ) d X = ∫ ⋯ ∫ ∂ f ( X ; θ ) ∂ θ d X = ∫ ⋯ ∫ ∂ f ( X ; θ ) ∂ θ f ( X ; θ ) f ( X ; θ ) d X = ∫ ⋯ ∫ ∂ log ⁡ f ( X ; θ ) ∂ θ f ( X ; θ ) d X = E [ S ( X ; θ ) ] (4) \begin{aligned} \frac{\partial}{\partial \theta}\int \cdots \int f(\bm{X};\theta ) d \bm{X} = & \int \cdots \int \frac{\partial f (\bm{X};\theta)}{\partial \theta}d \bm{X}\\ = & \int \cdots \int \frac{\frac{\partial f (\bm{X};\theta)}{\partial \theta}}{f(\bm{X};\theta)} f(\bm{X};\theta) d \bm{X} \\ = & \int \cdots \int \frac{\partial \log f (\bm{X};\theta)}{\partial \theta}f (\bm{X};\theta) d \bm{X}\\ = & \mathbb{E} \left[ S(\bm{X};\theta)\right] \end{aligned} \tag{4} θf(X;θ)dX====θf(X;θ)dXf(X;θ)θf(X;θ)f(X;θ)dXθlogf(X;θ)f(X;θ)dXE[S(X;θ)](4)
    得证。

    Fisher Information 定义

    Fisher Information:
    V [ S ( X ; θ ) ] = V [ ∂ L ( X ; θ ) ∂ θ ] (5) \mathbb{V}[S(\bm{X};\theta)]= \mathbb{V}\left[ \frac{\partial L (\bm{X};\theta)}{\partial \theta}\right] \tag{5} V[S(X;θ)]=V[θL(X;θ)](5)

    Fisher Information 和Score function的关系

    由于Score function的期望为0,假设S关于 θ \theta θ二阶可导。对(5)左右两侧继续求导,有
    ∂ ∂ θ ∫ ⋯ ∫ ∂ L ( X ; θ ) ∂ θ f ( X ; θ ) d X = 0.       (6) \frac{\partial}{\partial \theta}\int \cdots \int \frac{\partial L(\bm{X};\theta)}{\partial \theta} f(\bm{X};\theta) d\bm{X} =0.\,\,\,\,\, \tag{6} θθL(X;θ)f(X;θ)dX=0.(6)
    (6)的左侧展开:
    ∫ ⋯ ∫ ∂ 2 L ( X ; θ ) ∂ θ 2 f ( X ; θ ) d X + ∫ ⋯ ∫ ∂ L ( X ; θ ) ∂ θ ∂ f ( X ; θ ) ∂ θ d X ⏟ ( 8 ) = 0 (7) \int \cdots \int \frac{\partial ^2 L(\bm{X};\theta)}{\partial \theta ^2}f(\bm{X};\theta)d\bm{X} + \underbrace{\int \cdots \int \frac{\partial L(\bm{X};\theta)}{\partial \theta}\frac{\partial f (\bm{X};\theta)}{\partial \theta}d\bm{X}}_{(8)}=0\\ \tag{7} θ22L(X;θ)f(X;θ)dX+(8) θL(X;θ)θf(X;θ)dX=0(7)
    ( 8 ) = ∫ ⋯ ∫ ∂ L ( X ; θ ) ∂ θ ∂ f ( X ; θ ) ∂ θ f ( X ; θ ) f ( X ; θ ) d X = ∫ ⋯ ∫ ( ∂ L ( X ; θ ) ∂ θ ) 2 f ( X ; θ ) d X = V [ ∂ L ( X ; θ ) ∂ θ ] (9) \begin{aligned} (8)=&\int \cdots \int \frac{\partial L (\bm{X};\theta)}{\partial \theta} \frac{\frac{\partial f (\bm{X};\theta)}{\partial \theta}}{f(\bm{X};\theta)} f(\bm{X};\theta)d\bm{X}\\ =&\int \cdots \int \left(\frac{\partial L(\bm{X};\theta)}{\partial \theta}\right)^2 f (\bm{X};\theta)d\bm{X}\\ =&\mathbb{V}\left[\frac{\partial L (\bm{X};\theta)}{\partial \theta}\right]\\ & \tag{9} \end{aligned} (8)===θL(X;θ)f(X;θ)θf(X;θ)f(X;θ)dX(θL(X;θ))2f(X;θ)dXV[θL(X;θ)](9)
    结合(7)和(9)可以得到
    V [ S ( X ; θ ) ] = V [ ∂ L ( X ; θ ) ∂ θ ] = − ∫ ⋯ ∫ ∂ 2 L ( X ; θ ) ∂ θ 2 f ( X ; θ ) d X = − E [ ∂ 2 L ( X ; θ ) ∂ θ 2 ] \begin{aligned} \mathbb {V}[S(\bm{X};\theta)] =&\mathbb{V}\left[\frac{\partial L (\bm{X};\theta)}{\partial \theta}\right]\\ =& - \int \cdots \int \frac{\partial ^2 L(\bm{X};\theta)}{\partial \theta ^2}f(\bm{X};\theta)d\bm{X} \\ =& - \mathbb{E}\left[\frac{\partial ^2 L(\bm{X};\theta)}{\partial \theta ^2} \right] \end{aligned} V[S(X;θ)]===V[θL(X;θ)]θ22L(X;θ)f(X;θ)dXE[θ22L(X;θ)]

    展开全文
  • Fisher information

    千次阅读 2018-10-21 20:59:18
    在数理统计中,Fisher information是一种衡量“随机观测样本携带的关于未知参数的信息量”的方法,其中为所遵循的概率密度函数的参数。形式上,它是得分(score)的方差。设为概率密度函数。的对数似然函数为。 (1...

     

    定义

    在数理统计中,Fisher information是一种衡量“随机观测样本X=(x_1,...,x_n)携带的关于未知参数\boldsymbol{\theta}的信息量”的方法,其中\boldsymbol{\theta}X所遵循的概率密度函数的参数。形式上,它是得分(score)的方差。设f(x;\boldsymbol{\theta})为概率密度函数。\boldsymbol{\theta}的对数似然函数为\ln{L}=\sum_{i=1}^{n}{\ln{f(x_i;\boldsymbol{\theta})}}

    (1)如果似然函数随着\boldsymbol{\theta}的改变而迅速达到最大,则很容易从X中获得\boldsymbol{\theta}的真实值,或者说X提供了很多关于\boldsymbol{\theta}的信息;

    (2)如果似然函数(f(x;\boldsymbol{\theta})也是)的分布较平,或分布比较均匀,则需要大量样本才能估计出\boldsymbol{\theta}的真实值。

    形式上,\ln{L}关于\boldsymbol{\theta}的偏导数被称为“得分”(score),其以X为随机变量的期望为\boldsymbol{0}

              E\left[\frac{\partial }{\partial{\boldsymbol{\theta}}}\log{f(X;\boldsymbol{\theta})\bigg{|}\boldsymbol{\theta}} \right ]\\\\=\int{\frac{\frac{\partial}{\partial{\boldsymbol{\theta}}}f(\boldsymbol{x};\boldsymbol{\theta})}{f(\boldsymbol{x};\boldsymbol{\theta})}}f(\boldsymbol{x};\boldsymbol{\theta})d\boldsymbol{x}\\\\ =\frac{\partial}{\partial{\boldsymbol{\theta}}}\int{f(\boldsymbol{x};\boldsymbol{\theta})d\boldsymbol{\theta}}\\\\=\frac{\partial}{\partial{\boldsymbol{\theta}}}1=\boldsymbol{0}

    得分的方差(由上知一阶中心矩为\boldsymbol{0},所以方差等于二阶中心矩)称为“费希尔信息”(Fisher information):

        \mathbb{I}(\boldsymbol{\theta})=E\left[\left(\frac{\partial}{\partial{\boldsymbol{\theta}}}\log{f(\boldsymbol{x};\boldsymbol{\theta})} \right )^2\bigg{|}\boldsymbol{\theta} \right ]=\int{\left(\frac{\partial}{\partial{\boldsymbol{\theta}}}\log{f(\boldsymbol{x};\boldsymbol{\theta})} \right )^2f(X;\boldsymbol{\theta})}d\boldsymbol{x}

    注意0\leqslant \mathbb{I}(\boldsymbol{\theta})< \infty。一个随机样本携带较多的费希尔信息意味着得分的绝对值通常很大。费希尔信息不是观察结果的函数,因为它是以“未抽样样本”为随机变量的函数的期望。

    \log{f(X;\boldsymbol{\theta})}关于\boldsymbol{\theta}二阶可导,由于

    \frac{\partial^2}{\partial{\boldsymbol{\theta}^2}}\log{f(X;\boldsymbol{\theta})}=\frac{\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})}-\left(\frac{\frac{\partial}{\partial{\boldsymbol{\theta}}}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})} \right )^2=\frac{\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})}-\left(\frac{\partial}{\partial{\boldsymbol{\theta}}}\log{f(X;\boldsymbol{\theta})} \right )^2

    以及E\left[\frac{\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})}\bigg{|}\boldsymbol{\theta} \right ]=\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}\int{f(\boldsymbol{x;\boldsymbol{\theta}})d\boldsymbol{x}}=0, 因此\mathbb{I}(\boldsymbol{\theta})=-E\left[\frac{\partial^2}{\partial\boldsymbol{\theta}^2}\log{f(X;\boldsymbol{\theta}))}\bigg{|}\boldsymbol{\theta} \right ]

    因此,Fisher information可以看作“支撑曲线”(support curve, 对数似然函数的图像)的曲度。较小的Fisher information意味着似然函数的最大值非常“浅薄”,附近有很多值可以取相似的似然函数值。相反,Fisher information越大,说明图像越陡峭。

    单参数伯努利实验

    在抛硬币的实验中,设出现正面(设为1)的概率为\theta,出现反面(设为0)的概率为1-\theta。设一次伯努利实验中出现的结果为X。对数似然函数为:

    \log{(\theta^X(1-\theta)^{1-X})}=X\log{\theta}+(1-X)\log{(1-\theta)}

    Fisher information:

              \mathbb{I}(\theta)=-E\left[\frac{\partial^2}{\partial{\theta}^2}(X\log{\theta}+(1-X)\log{(1-\theta)})\bigg{|}\theta \right ]\\\\=E\left[\frac{X}{\theta^2}+\frac{1-X}{(1-\theta)^2}\bigg{|}\theta \right ]\\\\=\frac{\theta}{\theta^2}+\frac{1-\theta}{(1-\theta)^2}\\\\=\frac{1}{\theta(1-\theta)}

    由于Fisher information为加法的,所以在n重独立同分布的实验中,Fisher information为

              \mathbb{I}(\theta)=\frac{n}{\theta(1-\theta)}

    矩阵形式

    \boldsymbol{\theta}=[\theta_1, \theta_2, ..., \theta_N]^T,则Fisher information的形式为NXN的矩阵。该矩阵被称为Fisher information matrix,其中

             \left[\mathbb{I}(\theta) \right ]_{i,j}=E\left[\left(\frac{\partial}{\partial\theta_i}\log{f(X;\boldsymbol{\theta})} \right )\left(\frac{\partial}{\partial\theta_j}\log{f(X;\boldsymbol{\theta})} \right ) \bigg{|}\boldsymbol{\theta}\right ]

    在某些条件下,Fisher information matrix也可以写为

             \left[\mathbb{I}(\theta) \right ]_{i,j}=-E\left[\frac{\partial^2}{\partial{\theta_i}\partial{\theta_j}}\log{f(X;\boldsymbol{\theta})}\bigg{|}\boldsymbol{\theta} \right ]

    展开全文
  • Fisher Information.pdf

    2021-03-10 12:08:20
    Fisher Information.pdf
  • What is Fisher Information? Fisher information tells us how much information about an unknown parameter we can get from a sample. In other words, it tells us how well we can measure a parameter, ...

    What is Fisher Information?

    Fisher information tells us how much information about an unknown parameter we can get from a sample. In other words, it tells us how well we can measure a parameter, given a certain amount of data. More formally, it measures the expected amount of information given by a random variable (X) for a parameter(Θ) of interest. The concept is related to the law of entropy, as both are ways to measure disorder in a system (Friedan, 1998).

    Uses include:

    Finding the Fisher Information

    Finding the expected amount of information requires calculus. Specifically, a good understanding of differential equations is required if you want to derive information for a system.

    Three different ways can calculate the amount of information contained in a random variable X:

    1. fisher-information
       
    2. This can be rewritten (if you change the order of integration and differentiation) as:
      fisher-2
       
    3. Or, put another way:
      fisher-3
       

    The bottom equation is usually the most practical. However, you may not have to use calculus, because expected information has been calculated for a wide number of distributions already. For example:

    • Ly et.al (and many others) state that the expected amount of information in a Bernoulli distribution is:
      I(Θ) = 1 / Θ (1 – Θ).
    • For mixture distributions, trying to find information can “become quite difficult” (Wallis, 2005). If you have a mixture model, Wallis’s book Statistical and Inductive Inference by Minimum Message Length gives an excellent rundown on the problems you might expect.

    If you’re trying to find expected information, try an Internet or scholarly database search first: the solution for many common distributions (and many uncommon ones) is probably out there.

    Example

    Find the fisher information for X ~ N(μ, σ2). The parameter, μ, is unknown.
    Solution:
    For −∞ < x < ∞:
    fisher information 1


    First and second derivatives are:
    example-2


    So the Fisher Information is:
    example-3
     

    Other Uses

    Fisher information is used for slightly different purposes in Bayesian statistics and Minimum Description Length(MDL):

     

    1. Bayesian Statistics: finds a default prior for a parameter.
    2. Minimum description length (MDL): measures complexity for different models.

     

     

    展开全文
  • Fisher Information 学习

    千次阅读 2018-09-21 22:27:36
    Fisher Information 学习 Fisher 定义 在数学统计中,Fisher信息(有时简称为信息1)是一种测量可观察随机变量X携带的关于模型X的分布的未知参数θ的信息量的方法。形式上,它是方差的的得分,或预期值的观测信息。...

    Fisher Information 学习

    Fisher 定义

    在数学统计中,Fisher信息(有时简称为信息[1])是一种测量可观察随机变量X携带的关于模型X的分布的未知参数θ的信息量的方法。形式上,它是方差的的得分,或预期值的观测信息。在贝叶斯统计,所述渐近分布的的后模式依赖于Fisher信息,而不是在现有 (根据伯恩斯坦 - 冯米塞斯定理,拉普拉斯为指数族预期)。[2]统计学家Ronald Fisher强调了Fisher信息在最大似然估计渐近理论中的作用(遵循Francis Ysidro Edgeworth的一些初步结果)。Fisher信息也用于Jeffreys先验的计算,用于贝叶斯统计。
    Fisher信息是测量的信息可观察到的量的方式随机变量 X用来携带关于未知参数 θ在其的概率X依赖。让˚F(X ; θ)是概率密度函数(或概率质量函数)为X上的值的条件θ。这也是似然函数为θ。它描述了我们观察一个给定的样本的概率X,给出的已知值θ。如果˚F急剧相对于在变化见顶θ,很容易以指示“正确”值θ从数据,或等价地,该数据X提供了很多有关的参数信息θ。如果似然˚F是平坦的,散开的,那么它会采取许多,许多样品如X来估计实际的“真”值θ在于将使用被采样整个群体来获得。这表明研究了关于θ的某种方差。
    上述定义来自维基百科Fisher Information:https://en.wikipedia.org/wiki/Fisher_information

    Fisher Information

    fisher信息矩阵–计算与最大似然估计相关联的协方差矩阵。
    假设概率分布为f(x|w),x为变量,w为目标参数。需要对你的似然函数求导,使一阶导数为0.
    对数似然函数:log(x|w)=log(f(x|w))
    使以上函数导数为0在这里插入图片描述
    因为log’(x|w)=0,所以需要考虑(log’(x|w))^2,也就是可以考虑它的期望E((log’(x|w))2)。这也就是下面要说的fisher information,用Info(w)表示。
    Info(w):
    因为:
    在这里插入图片描述
    在这里插入图片描述
    计算:
    在这里插入图片描述
    由于E(log’(x|w))=0,很容易计算var(log’(x|w)=Info(w)
    在这里插入图片描述
    对数似然函数的二次求导:
    在这里插入图片描述
    同样对上述二阶导期望:
    在这里插入图片描述
    由于:在这里插入图片描述
    综合得到:
    在这里插入图片描述
    大多数问题都是使用这个。

    [1] https://en.wikipedia.org/wiki/Fisher_information
    [2] https://blog.csdn.net/lanran2/article/details/77995062
    [3] https://blog.csdn.net/Artifact1/article/details/80731417
    [4] https://blog.csdn.net/dreamcatcher33/article/details/44197491

    展开全文
  • Based on the standard angular momentum ... Afterwards, we calculate the quantum Fisher information (QFI) of the states to evaluate their potential applications in quantum metrology. Our results show that
  • Fisher Information学习笔记

    万次阅读 多人点赞 2017-09-15 19:42:32
    Fisher Infomation的意义Fisher Information 顾名思义,就是用来衡量样本数据的信息量的,通常我们有一组样本,我们在机器学习中需要估计出样本的分布,我们是利用样本所具有的信息量来估计参数的,样本中具有的信息...
  • Fisher information matrix笔记

    千次阅读 2015-11-06 17:35:00
    在看FK论文时,fisher information matrix是必须理解的。 从维基百科查阅到,Fisher information matrix是用利用最大似然函数估计来计算方差矩阵。 来源于:...
  • Fisher information解释和数学意义 在数理统计学,费雪信息 (有时简称为 信息)是一种度量随机变量 X 所含有的关于其自身随机分布函数的未知参数 θ 的信息量。严格地说,它是分数对方差或观测信息的期望值。Fisher...
  • We uses a Fisher information (FI) metric based optimization method to design a phase mask by taking the modulation transfer function (MTF) of the practical optical system into consideration....
  • fisher information 的直观意义

    千次阅读 2017-05-11 21:39:48
    作者:知乎用户 ...来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载...首先我们看一下 Fisher Information 的定义: 假设你观察到 i.i.d 的数据 服从一个概率分布,是你的目标参数(for simplicity
  • Classification and identification of multi-human targets in pyroelectric sensor networks based on the Fisher information distance criterion
  • Fisher information(费雪信息)和费雪信息矩阵
  • Error Bound Analysis of Indoor Wi-Fi Location Fingerprint Based Positioning for Intelligent Access Point Optimization via Fisher Information
  • fisher information matrix

    2012-01-29 10:03:43
    sensitivity analysis
  • 罗纳德·费雪(Sir Ronald Aylmer Fisher, FRS,1890.2.17-1962.7.29),现代统计学与现代演化论的奠基者之一,安德斯·哈尔德称他是“一位几乎独自建立现代统计科学的天才”,理查·道金斯则认为他是“达尔文最伟大...
  • 费雪信息 (Fisher information)

    万次阅读 多人点赞 2018-01-19 14:33:02
    首先我们看一下 Fisher Information 的定义: 假设你观察到 i.i.d 的数据 服从一个概率分布 , 是你的目标参数(for simplicity, 这里 是个标量,且不考虑 nuissance parameter),那么你的似然函数(likelihood)...
  • 设PθP_\thetaPθ​的密度为pθp_\thetapθ​,那么Fisher informantion可以表示成这样的矩阵: 这里,score函数是θ\thetaθ处的对数似然的梯度(隐式取决于X)。Eθ表示对Pθ的期望。直观地说,Fisher信息捕获了...
  • 二阶优化算法Natural Gradient Descent,是从分布空间推导最速梯度下降方向的方法,和牛顿方法有非常紧密的联系。Fisher Information Matrix往往可以用来代替牛顿法的Hessian矩阵计算。下面详细道来。
  •  比如 《Faster Gaze Prediction With Dense Networks and Fisher Pruning》提出了采用Fisher information 来指导 精准化地 深度模型的pruning(剪枝)。感兴趣的读者可以阅读这篇论文。推荐精读这篇文章,是因为它是...
  • 费希尔信息NAS 基于Fisher信息相似性度量的神经体系结构搜索
  • fisher information matrix
  • 渔民信息矩阵 FIM和经验FIM的PyTorch实施
  • which consists of a Riemannian metric defined by the Fisher information and a one-parameter family of affine connections called the $\alpha$-connections. The duality between the $\alpha$-connection ...
  • 在兼顾图像恢复能力的基础上,将不同物距下点扩展函数相似性的评价函数费希尔信息量(Fisher Information,FI)应用到波前编码实际光学系统相位板的优化设计中。在焦距和孔径之比为3、有效焦距为100 mm的无穷远成像的双...
  • The KLID-identifiability is defined, which can be related to many other concepts of identifiability, such as the identifiability with Fisher's information matrix criterion, identifiability with ...
  • 论文题目:The Adversarial Attack and Detection under the Fisher Information Metric(AAAI2019)论文地址:h...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,880
精华内容 1,152
关键字:

fisherinformation