精华内容
下载资源
问答
  • 综合颜色、纹理和形状特征确定特征集合,采用线性鉴别分析方法从特征集合中选取最优特征,使用Mean Shift 算法在最优特征下预测目标位置,根据目标匹配结果确定车辆的运行轨迹,利用特征平滑方法更新特征模型。...
  • CART分类树算法的最优特征选择

    千次阅读 2018-07-15 00:57:12
    在ID3算法中使用信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会...
    • 在ID3算法中使用信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。
    • 但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
    • 对于个给定的样本D,假设有K个类别, 第k个类别的数量为Ck,则样本D的基尼系数表达式为:
    • 对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:
    展开全文
  • 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵...
  • 在有干扰和噪声情况下最优合并输出信/干噪比的特征函数确定,岳殿武,Q.T zhang,在具有干扰和噪声情况下,对最优合并的性能进行精确分析是一个困难问题.尤其是关于常用的输出信/干噪比的特征函数,到目前为止还没��
  • 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵...
  • 结合反应堆主冷却剂泵裂纹转子振动模型的仿真信号,运用连续小波变换的方法,从小波基库中选出不同小波基分别计算与故障信号的互相关系数,确定最大值,其对应的小波基即为转子裂纹故障信号的最优小波基,并使用该小...
  • 各种不确定性指标已可用于测量不确定性和认知不确定性下的可靠性,包括基于证据理论的可靠性,基于区间分析的可靠性,基于模糊区间分析的可靠性,验单可靠性和置信度可靠性。 但是,当尝试通过执行一种方法来解决一...
  • 最近期末考试完了,终于有时间静下心来好好推一下卡尔曼最优预测跟滤波的相关方程了,虽然之前也用过也知道怎么用,但是也仅仅停留在知道怎么用能用来干什么的境界。老早就想好好理一理卡尔曼的几个基本方程,也算是...

            最近期末考试完了,终于有时间静下心来好好推一下卡尔曼最优预测跟滤波的相关方程了,虽然之前也用过也知道怎么用,但是也仅仅停留在知道怎么用能用来干什么的境界。老早就想好好理一理卡尔曼的几个基本方程,也算是来填个坑。

            最早接触卡尔曼滤波还是在三年前调试惯性MEMS的时候,就那么十几几十行代码甚至神奇,当时理解起来也只能是人云亦云,什么陀螺仪是短时测量精准但是存在积分误差,加速度计短时测量没有陀螺仪准但是不存在积分误差,可以用加速度计来修正陀螺仪的积分误差等等等等......反正那会儿也没去深究,能用就行了,但是心里总感觉有一个梗......

            现在有时间也有相关的知识储备来好好探究一下那几个方程了,打算用两篇文章来详细地推导一下卡尔曼最优预测方程跟卡尔曼最优滤波方程,如果过年回老家有时间精力的话我会写一个demo来实际评估一下卡尔曼的效果。前排提醒,这两篇文章不是卡尔曼最优预测跟最优滤波的科普性文章,不会举什么养猪、开车的例子,因此想看通俗解释的请提前绕道,个人尽量做到严谨的推导。若发现错误,望读者不吝指正。

    一、基础知识复习

            在正式开篇之前,希望读者能有最基本的概率论与数理统计、一点点的线性代数、一点点的微积分、亿点点的随机过程以及一些线性系统的状态空间描述的知识储备。

            先给出几个简单的定义跟定理:

            1.正定对称矩阵的相关性质:

            (1)若A\in \mathbb{R}^{n \times n}}为正定对称矩阵,有A^T=A,且对\forall x\in \mathbb{R}^n,有x^TAx\geqslant 0当且仅当x=0时为0

            (2)若A\in \mathbb{R}^{n \times n}}为正定对称矩阵,则A的各特征值均大于0

            2.接下来帮大家复(yu)习概率论里面的相关知识:

            (1)随机变量X(全称应写为\left \{X(\omega),\omega \in \Omega \right \},\Omega为样本空间,一般直接简写为X)的分布函数为:

                                                                F_X(x)=P\left \{ X\leqslant x,x\in \mathbb{R} \right \}

    X为连续型随机变量,则有:

                                                                F_X(x)=\int_{-\infty}^{x}f_X(t)dt

    其中f_X(x)为随机变量X的概率密度,且有f_X(x)=F_X'{(x)} 

            (2)随机变量X的数学期望(也称均值)为:

                                                               E[X]=m_X=\int_{-\infty }^{+\infty }xdF(x)

    X为离散型随机变量,则有:

                                                               E[X]=m_X=\sum_{i=0}^{+\infty }x_iP(x_i)

    X为连续型随机变量,则有:

                                                                E[X]=m_X=\int_{-\infty}^{+\infty}xf(x)dx,数学期望的本质为一阶矩

            (3)随机变量X的方差定义为:

                                                                D[X]=E[(X-m_X)^2]=E[X^2]-m_X^2

    X为离散型随机变量,则:

                                                                D[X]=\sum_{i=0}^{+\infty}(x_i-m_X)^2P(x_i)

    X为连续型随机变量,则:

                                                                 D[X]=\int_{-\infty}^{+\infty}(x-m_X)^2f(x)dx

    \sigma _X=\sqrt {D[X]}为标准差,方差其实是二阶中心矩

            (4)对于n维连续型随机向量\boldsymbol {X}=[X_1,X_2...X_n]^T,其联合分布函数为:

         F_{X_1,X_2,...,X_n}(x_1,x_2,...,x_n)=P\left \{ X_1\leqslant x_1,X_2\leqslant x_2, ...Xn\leqslant x_n, \right \}=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}...\int_{-\infty}^{x_n}f(x_1,x_2,...x_n)dx_1dx_2...dx_n

    其中f(x_1,x_2,...x_n)n维联合概率密度。n维随机向量的期望向量(也称均值向量)为:

                                   E[\boldsymbol {X}]=m_X=E[X_1,X_2,...,X_n]^T=[E[X_1],E[X_2],...,E[X_n]]^T=[m_{X_1},m_{X_2},...,m_{X_n}]^T

    方差阵(有的地方也叫协方差矩阵,本质上一样,但是这里为了与下面的不同随机向量之间做区分记为方差阵)为:D[\textbf{X}]=E[(X-m_X)(X-m_X)^T]=E\begin{bmatrix} (X_1-m_{X_1})^2 & (X_1-m_{X_1})(X_2-m_{X_2}) & ... & (X_1-m_{X_1})(X_n-m_{X_n})\\ (X_2-m_{X_2})(X_1-m_{X_1}) & (X_2-m_{X_2})^2 & ... & (X_2-m_{X_2})(X_n-m_{X_n})\\ ... & ... & ... & ... \\(X_n-m_{X_n})(X_1-m_{X_1}) & (X_n-m_X_n})(X_2-m_{X_2}) & ... & (X_n-m_{X_n})^2\end{bmatrix}

    方差阵主对角线为随机向量各分量的方差,其余元素为分量之间的相关矩。特别的,对于两个随机变量X,Y,若有E[XY]=0,则称X,Y正交,后面我们会证明的正交定理就是基于此

            (5)对于二维随机向量(X,Y),其协方差为:

                                                   COV(X,Y)=E[(X-m_X)(Y-m_Y)]=E[XY]-m_Xm_Y,当\boldsymbol {X},\boldsymbol {Y}均为n维随机向量时,称COV[\boldsymbol {X},\boldsymbol {Y}]\boldsymbol {X},\boldsymbol {Y}的协方差矩阵,且:

    COV[\boldsymbol {X},\boldsymbol {Y}]=E[(\boldsymbol {X}-m_X)(\boldsymbol {Y}-m_Y)^T]=E\begin{bmatrix} (X_1-m_{X_1})(Y_1-m_{Y_1})) & (X_1-m_{X_1})(Y_2-m_{Y_2}) & ... & (X_1-m_{X_1})(Y_n-m_{Y_n}) \\ (X_2-m_{X_2})(Y_1-m_{Y_1}) & (X_2-m_{X_2})(Y_2-m_{Y_2}) & ... & (X_2-m_{X_2})(Y_n-m_{Y_n}) \\ ... & ... & ... & ...\\ (X_n-m_{X_n})(Y_1-m_{Y_1}) & (X_n-m_{X_n})(Y_2-m_{Y_2}) & ... & (X_n-m_{X_n})(Y_n-m_{Y_n})\end{bmatrix}

            (6)正态随机变量在实际工程中广泛存在,我们所熟知的高斯白噪声就是一类幅值服从正态分布,功率谱密度分布服从均匀分布的一类噪声。正态分布的随机变量在自然界中也是广泛存在的,中心极限定理告诉我们,无穷多个独立同分布甚至不同分布的随机变量的叠加的结果近似服从正态分布,因此单个因素可能影响很小,但是无穷多因素叠加会影响整体分布。

            正态分布又称高斯分布,其概率密度为:

                                                                                f(x)=\frac{1}{\sqrt {2 \pi}\sigma}exp\left \{ -\frac{(x-m_X)^2}{2\sigma^2} \right \}

    记为X\sim N(m_X,\sigma ^2),其中m_X=E[X]X的均值(数学期望),\sigma ^2X的方差。

            正态分布有一个非常重要的性质,也就是正态分布的线性函数也服从正态分布。即若Y=aX+b,则Y \sim N(am_X+b,(a\sigma )^2)。这一点非常重要,在实际采样过程中,由于采样信号中混杂着零均值的高斯白噪声,那么对采样信号叠加的时候实际有用信号幅值会叠加,但是零均值的高斯白噪声叠加均值仍然为零,相当于变相地提高了信噪比。

            (8)对于n维正态随机向量\boldsymbol {X}=[X_1,X_2,...X_n]^T,其均值向量为\boldsymbol {\mu}=[m_{X_1},m_{X_2},...m_{X_n}]^T,协方差矩阵为

                                                    C=(c_{ij}), \ c_{ij}= E[(X_i-m_{X_i})(X_j-m_{X_j})]\ ,\ (i,j= 1,2,...,n)

    若协方差矩阵非奇异即det(C)\neq 0,则其n维联合概率密度为:

                                        f(x_1,x_2,...,x_n)=\frac{1}{(2\pi)^{\frac{n}{2}}(det(C))^{\frac{1}{2}}}exp\left \{ -\frac{1}{2}(\boldsymbol {X}-\boldsymbol {\mu})^TC^{-1}(\boldsymbol {X}-\boldsymbol {\mu}) \right \},记为\boldsymbol {X}\sim N(\boldsymbol {\mu},C)

    此时协方差矩阵C为一个正定对称矩阵。若协方差矩阵C为奇异矩阵,C^{-1}不存在,则上面的联合概率密度公式无意义,此时称该n维随机向量服从退化正态分布(也称奇异正态分布)。上面提到正态分布的线性函数也服从正态分布,对于多维正态随机向量,有同样的性质。即对于n维正态随机向量\boldsymbol {X}=[X_1,X_2,...X_n]^T服从N(\boldsymbol {\mu},C)的正态分布,且K\in \mathbb{R}^{m*n}为任意矩阵,则线性变换\boldsymbol {Y}=K\boldsymbol {X}服从m维正态分布N(K\boldsymbol {\mu},KCK^T),此性质称为正态随机变量的线性不变性。

            3.坐稳了,下面开始复(yu)习随机过程的相关知识

            (1)随机过程的严格定义是:对于给定概率空间(\Omega,\mathcal F,P)和指标集T,若对于每一个t\in T,有定义在(\Omega,F,P)上的随机变量X_t(\omega),\omega \in \Omega与之对应,称依赖于t的随机变量族X_t为随机过程,记为\left\{X_t(\omega),t \in T \right \},或记为\left\{X_t,t \in T \right \}以及\left\{X(t),t \in T \right \},定义比较抽象,这里举个简单的例子,拿我们熟知的电阻的热噪声来讲,指标集T就是时间,对于\forall t \in T时刻我们对热噪声采样,则实际采样得到的数据其实是一个随机变量,其服从正态分布,因此电阻热噪声就是个正态过程,当然指标集T可以是连续的也可以是离散的,可以是时间也可以是其他。常见的随机过程分类就是正态过程、更新计数过程、平稳过程、马尔可夫过程等。随机过程X(t)可以看成一个无穷维的随机向量,我们可以用有限维分布函数族来近似的刻画随机过程,但是较为复杂,实际工程不可能采用此方法来分析随机过程,因此我们经常研究随机过程的一阶矩、二阶矩统计特性。

            一阶矩其实就是我们在概率论里所熟知的均值,但是这里是t的一个函数,即:

                                                                          m_X(t)=E[X(t)]=\int_{-\infty}^{+\infty}xdF_t(x),t \in T

    称为随机过程X(t)的均值函数。有了均值函数,我们可以定义随机过程的方差函数D_X(t)=E[(X-m_X(t))^2],t \in T

            下面给出随机过程的一些重要的数字特征:

    对于随机过程\left \{ X(t),t \in T \right \},称

                                                                             R(s,t)=E[X_sX_t],\ \forall s,t \in T

    为随机过程的自相关函数,自相关函数是随机过程中最常用的数字特征。称

                                                       C(s,t)=COV(X_s,X_t)=E[(X_s-m_X(s))(X_t-m_X(t))],\ \forall s,t \in T

    为随机过程的协方差函数,不难得出C(s,t)=R(s,t)-m_X(s)m_X(t)以及D_X(t)=C(t,t)

            (2)就像多维随机变量一样,也存在多维随机过程,给定两个随机过程X(t),Y(t),则称

                                                               C_{XY}(s,t)=COV(X_s,Y_t)=E[(X_s-m_X(s))(Y_t-m_Y(t))]

    为两随机过程的互协方差函数,其中m_X(s)=E[X(s)],m_Y(t)=E[Y(t)]。称

                                                                                          R_{XY}(s,t)=E[X_sY_t]

    为两个随机过程的互相关函数,同样,若对\forall s,t \in TR_{XY}(s,t)=0,则称随机过程X(t),Y(t)相互正交

            (3)二阶矩过程:对于随机过程X(t),若对\forall t \in TE[|X_t|^2] < +\infty,则称该随机过程为二阶矩过程

            (4)平稳过程:若随机过程X(t)的任意n维联合分布函数不随时间推移而改变,则称此随机过程为严平稳过程,但是由于严平稳过程要求过于严格,且证明较困难,因而在实际工程技术中应用更多的一类是宽平稳过程。对于二阶矩过程X(t),若满足

             (a)m_X(t)=m_X为一个常数

             (b)对\forall s,t \in T, R_X(s,t)=R_X(t-s)=R_X(\tau),\tau=t-s只与时间区间长度有关,与起始时间无关

    则称此二阶矩过程为宽平稳过程,一般来讲严平稳过程不一定是宽平稳过程,宽平稳过程也不一定是严平稳过程,但是对于正态过程,严平稳与宽平稳等价。此外,正态随机过程还有一个非常重要的性质就是正态随机过程经过线性系统之后还是正态随机过程。本文所讲的平稳过程均指宽平稳过程

            *(5)关于平稳过程的均方遍历性(也称为各态历经性),通俗的来讲就是可以仅利用一条样本轨迹来估计整体的统计特性,虽然实际工程中许多随机过程都满足均方遍历性,但是其定义涉及到均方微积分的相关概念,数学验证也往往很困难,不过很多时候可以根据实际工程背景来确定。在此就不展开叙述,读者若有兴趣可以翻阅随机过程相关书籍的相关章节

            *(6)傅里叶变换是一种有效的信号分析方法,同样我们可以用傅里叶变换来分析平稳过程获得平稳过程的功率谱。对于平稳过程\left \{ X(t),t \in \mathbb{R} \right \}是均方连续的,若其自相关函数R(\tau)满足

                                                                                         \int_{-\infty}^{+\infty}|R(\tau)|d\tau < +\infty

    则此平稳过程功率谱密度S(\omega)为:

                                                                                      S(\omega)=\int_{-\infty}^{+\infty}R(\tau)e^{-j\omega \tau}d\tau

    同时

                                                                                       R(\tau)=\frac{1}{2\pi}\int_{-\infty}^{+\infty}S(\omega)e^{j\omega \tau}d\omega

    即平稳过程\left \{ X(t),t \in \mathbb{R} \right \}的相关函数与功率谱密度构成一对傅里叶变换。称

                                                                    F_X(\omega)=\int_{-\infty}^{+\infty}S_X(u)du,\omega \in \mathbb{R}为平稳过程\left \{ X(t),t \in \mathbb{R} \right \}的谱函数

            4.线性系统的状态空间描述

            (1)线性系统的定义在这里就不给出了,线性系统最重要的性质是满足齐次跟叠加原理。线性系统又分为线性时变系统跟线性定常系统。线性时变系统是指系统各结构参数会随时间变化的线性系统,而线性定常系统则不会随时间变化,拿我们人体为例,我们身体各器官各功能从长远看一定在变化,比如我们的听力、视力等一定会衰减,这时就是一个时变系统,但是在很短的时间内我们的各项器官功能可以看作不变的,这时可以看成是一个定常系统。

            描述一个动态系统,最常用的两种方式是传递函数描述外部的输入输出关系以及状态空间描述内部各状态变化规律。传递函数的相关介绍在此就不展开,可以参考信号与系统相关章节,本文的重点是系统的状态空间描述。卡尔曼等人在20世纪60年代将状态以及状态空间的概念引入到系统控制理论中,极大地推动了系统的时间域理论的发展,状态空间描述不仅可以用于分析单输入单输出的线性定常、时变系统、还可以分析多输入多输出的线性系统、非线性系统,本文所讲的卡尔曼滤波就是基于线性系统的状态空间描述。

            (2)系统的状态是指一组能完整描述系统的时间域行为或运动过程的线性无关(数目最少)的变量,当状态表示为以各状态变量为分量的向量时,称为状态向量,记为:

                                                                      X(t)=[x_1(t),x_2(t),...,x_n(t)]^T

    状态空间定义为状态向量的集合,是以状态向量的n个线性无关的分量为基底生成的n维线性空间。这里可以举个简单的例子,还是拿我们人体来说,我们人体本身就是一个复杂的系统,描述我们人体的时候我们经常选取的一些变量可以是身高、体重、性别、年龄....这些变量就可以称为我们人体这个系统的状态。系统的状态空间描述通常需要两个过程,即系统的输入引起系统内部状态变化的过程以及状态与输入导致的输出变化的过程。输入引起状态变化是一个动态过程,通常用微分方程来描述,称其为状态方程。而状态与输入导致输出的变化是一个转化的过程,通常用代数方程来描述,称其为输出方程或者量测方程。记系统的p个输入为:

                                                                      U(t)=[u_1(t),u_2(t),...u_p(t)]^T

    系统的q个输出为:

                                                                      Y(t)=[y_1(t),y_2(t),...y_q(t)]^T

    则对于连续时间线性时变系统可以描述为:

                                                                        \left\{ \begin{array}{ll} \dot{X(t)} = A(t)X(t)+B(t)U(t) \\ Y(t)=C(t)X(t)+D(t)U(t) \end{array} \right.

    其中A(t)为与时间相关的n\times n维矩阵,称为系统矩阵;B(t)n \times p维输入矩阵;C(t)q \times n维输出矩阵;D(t)q \times p维前馈矩阵。它们均由系统的参数或结构决定。特别的,当系统的各项参数结构不随时间变化时,则A(t),B(t),C(t),D(t)退化为与时间无关的常数矩阵,此时系统变为线性定常系统,其状态空间描述可写为:

                                                                        \left\{ \begin{array}{ll} \dot{X(t)} = AX(t)+BU(t) \\ Y(t)=CX(t)+DU(t) \end{array} \right.

            (3)我们实际经常使用的数字系统本质上是离散的线性系统,此时可以用差分方程的形式给出离散时间线性时变系统的状态空间描述,即:

                                                                        \left\{ \begin{array}{ll} X(k+1) = G(k)X(k)+H(k)U(k) \\ Y(k)=C(k)X(k)+D(k)U(k) \end{array} \right.

    同样,对于离散时间线性定常系统的状态空间描述为:

                                                                        \left\{ \begin{array}{ll} X(k+1) = GX(k)+HU(k) \\ Y(k)=CX(k)+DU(k) \end{array} \right.

            5.相关定理的证明:

            在推导卡尔曼最优预测以及最优滤波方程时,经常用到正交定理,下面我们来证明一下正交定理。

            在讨论线性最小方差估计的时候,通常使用观测值Z的线性函数来表示X的估计值,即:

                                                                         \hat{X}=aZ+b,式中a,b为待定的常数,

    则估计误差方差要最小,即:

                                                                   J=E[(X-\hat{X})^2]=E[(X-(aZ+b))^2]=min

    J达到最小时,应满足:

                                                                     \frac{\partial J}{\partial a}=0,即\frac{\partial J}{\partial a}=-2E\left \{ [X-(aZ+b)]Z \right \}=0

    式中

                                                                                      X-(aZ+b)=\overline X

    为估计误差,立即可得到:

                                                                                                E[\overline XZ]=0

    即估计误差与观测值的乘积的期望为0,也就是估计误差与观测值正交。

            充分性的证明在此略去,仅需证明在估计误差与观测值正交的条件下E[(X-(aZ+b))^2]确实是方差最小的。

            同样我们可以证明估计误差\overline X\widehat{X}也是正交的。由于线性最小方差估计是无偏估计,即有:

                                                                                            E[\overline X]=0

    则我们有:

                                                          E[\overline X \widehat X]=E[\overline X(aZ+b)]=aE[\overline XZ]+bE[\overline X]=0,即\overline X\hat{X}正交。

            以上对所需的数学基础知识以及线性系统的相关知识做了一些复习,下一节我们将正式进入线性系统的卡尔曼滤波部分的学习。

    二、问题的提法

            在实际系统中,信号总是受到各种随机噪声的干扰,因此引起我们系统各状态变化的因素里面还应加上一项干扰项,此时系统的状态方程应改写为:\dot{X(t)} = A(t)X(t)+B(t)U(t) +F(t)W(t)。同时我们的各传感器、ADC等量测得出的信号其实也都是受到随机噪声干扰的信号,在没有前馈通道的情况下,量测方程实际上应写为Z(t)=H(t)X(t)+V(t)(这里用符号区别于之前讲的量测方程,其实本质上都是对状态的反映)。上两式中,W(t)为干扰向量,Z(t)为观测向量,V(t)为观测噪声向量。为了实现最优控制,我们需要实际的状态向量X(t),但是状态向量受到随机噪声的干扰,因此需要估计状态向量X(t),并且需要状态向量的估计值\hat{X(t)}尽可能的接近实际状态向量。但是在大家实际应用的基本上都是离散的数字系统,因此我们主要来研究线性离散系统的卡尔曼滤波。

            我们给出卡尔曼滤波问题的提法:

            对于线性离散的随机系统的卡尔曼滤波问题可以描述为:

    设有线性离散随机系统状态空间描述如下:

            \left\{ \begin{array}{ll} X(k+1) = \Phi(k+1,k)X(k)+G(k+1,k)U(k) + \Gamma(k+1,k)W(k) \\ Z(k)=H(k)X(k)+V(k) \end{array} \right. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2.1)

            式中:

            X(k)n维状态向量;

            U(k)r维输入控制向量;

            W(k)p维随机干扰向量;

            Z(k)m维量观测向量;

            V(k)m维随机观测噪声向量;

            \Phi(k+1,k),G(k+1,k),\Gamma(k+1,k),H(k)分别为n\times n,n \times r,n \times p,m \times n维矩阵。

            并且假定:

            (1)W(k),V(k)均为零均值的白噪声或高斯白噪声序列,且W(k),V(k)相互独立,即有:

            \ \ \ \ \ \ \ \ E[W(k)]=E[V(k)]=0,COV(W(k),V(k))=0,\\ \ \ \ \\ COV(W(k),W(j))=\left\{ \begin{array}{ll} Q_k \ \ \ & k=j \\ 0 \ \ \ \ & k\neq j \end{array} \right. \ \ \ ,COV(V(k),V(j))=\left\{ \begin{array}{ll} R_k \ \ \ & k=j \\ 0 \ \ \ \ & k\neq j \end{array} \right.

            其中,Q_kW(k)的方差阵,是一个非负定对称矩阵,R_kV(k)的方差阵,是一个正定对称矩阵。

            (2)状态向量X(k)的初始时刻均值为E[X(0)]=\boldsymbol{ \mu_0 },方差阵P_0=E[(X(0)-\boldsymbol{\mu_0})(X(0)-\boldsymbol{\mu_0})^T]

            (3)X(0)W(k),V(k)不相关,即COV(X(0),W(k))=COV(X(0),V(k))=0

    这些假定是合理的,因为通常我们所接触到的噪声都是高斯白噪声,都是正态随机过程,经过采样之后成为高斯白噪声序列,且系统噪声与量测噪声分属不同部分一般都是不相关的,且实际有用信号也跟噪声是不相关的。

            对于式(2.1)所描述的系统,已经得到观测序列Z(0),Z(1),...,Z(k),要求找出X(j)的线性最优估计\hat{X(j|k)},使得估计值\hat{X(j|k)}X(j)之间的误差X(j|k)=X(j)-\hat{X(j|k)}的方差E \left \{[X(j)-\hat{X(j|k)}]^T[X(j)-\hat{X(j|k)}] \right \}最小,同时要求估计值\hat{X(j|k)}是观测序列Z(0),Z(1),...,Z(k)的线性函数,且估计是无偏的,即E[\hat{X(j|k)}]=E[X(j)]

            根据jk的大小,估计问题可以分为三类:

            (a)j > k 称为预测问题

            (b)j = k 称为滤波问题

            (c)j < k 称为平滑问题

    这里仅研究预测以及滤波问题。

    三、线性离散系统的卡尔曼最优预测方程

            通常在推导卡尔曼最优预测方程时,我们均忽略控制输入信号的作用,即输入为0,这样我们可以得到系统的状态空间描述为:

                                                        \left\{ \begin{array}{ll} X(k+1) = \Phi(k+1,k)X(k) + \Gamma(k+1,k)W(k) \\ Z(k)=H(k)X(k)+V(k) \end{array} \right.\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3.1)

    给定观测序列Z(0),Z(1),...,Z(k),我们需要找出X(k+1)的最优估计\hat{X(k+1|k)},称此估计为一步最优估计,使得估计误差:

                                                                     X(k+1|k)=X(k+1)-\hat{X(k+1|k)}

    的方差最小,也就是使得:

                                                    E\left \{ [X(k+1)-\hat{X(k+1|k)}]^T [X(k+1)-\hat{X(k+1|k)}]\right \}=min

    当我们已经获得观测序列Z(0),Z(1),...,Z(k-1)后,假定我们已经找到了状态向量X(k)的一个最优线性预测估计\hat{X(k|k-1)}。在我们还没有获得观测值Z(k)的情况下,先对k+1时刻的状态向量X(k+1)做出估计,观察状态方程,由于W(k)为零均值的白噪声序列,我们无法做具体预测,其最优估计为0,因此只能把

                                                                    \hat{X(k+1|k-1)} = \Phi(k+1,k)\hat{X(k|k-1)}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3.2)

    当作状态向量X(k+1)的一个预测估计。

            则当\hat{X(k|k-1)}X(k)的最优线性估计时,我们所得到的\hat{X(k+1|k-1)}也是X(k+1)的最优线性估计,下面给出证明:

    证明:由X(k+1|k-1)=X(k+1)-\hat{X(k+1|k-1)}

                                              =\Phi(k+1,k)X(k) + \Gamma(k+1,k)W(k) -\Phi(k+1,k)\hat{X(k|k-1)}

                                              =\Phi(k+1,k)(X(k)-\hat{X(k|k-1)})+ \Gamma(k+1,k)W(k)

                                              =\Phi(k+1,k)X(k|k-1)+ \Gamma(k+1,k)W(k)

    由于\hat{X(k|k-1)}X(k)的最优线性估计,根据正交定理,估计误差X(k|k-1)应正交于Z(0),Z(1),...,Z(k-1),同时,由于W(k)均值为零且与Z(0),Z(1),...,Z(k-1)相互独立,即有E[(W(k)Z(i))]=E[W(k)]E[Z(i)]=0,\ \ i=1,2,...,k-1,因此W(k)Z(0),Z(1),...,Z(k-1)也正交,根据线性代数的相关知识,我们可以得出X(k|k-1)的线性变换\Phi(k+1,k)X(k|k-1)W(k)的线性变换\Gamma(k+1,k)W(k)的叠加也应与Z(0),Z(1),...,Z(k-1)正交,即X(k+1|k-1)也与Z(0),Z(1),...,Z(k-1)正交。所以,在获取到观测向量Z(k)之前,\hat{X(k+1|k-1)}X(k+1)的最优线性估计。

            在获取到观测向量Z(k)之后,我们就可以利用观测值Z(k)来修正\hat{X(k+1|k-1)}

            由于\hat{X(k|k-1)}X(k)的最优线性估计,则通过量测方程,且由于V(k)也是零均值的白噪声序列且无法预测,我们可以得到k时刻观测向量Z(k)的最优线性估计为:

                                                                                  \hat{Z(k|k-1)}=H(k)\hat{X(k|k-1)} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3.3)

            若获取到的观测值Z(k)恰好等于预测估计\hat{Z(k|k-1)},则新的观测值Z(k)并没有提供任何有用的信息,无法用于修正\hat{X(k+1|k-1)}。关于这一点,只需要证明估计误差X(k+1|k-1)\hat{Z(k|k-1)}正交即可,下面给出证明:

    证明:根据正交定理,我们有E[(X(k|k-1))(\hat{X(k|k-1})^T]=0

    接下来我们计算E[(X(k+1|k-1))(\hat{Z(k|k-1})^T]

                         =E[(\Phi(k+1,k)X(k|k-1)+ \Gamma(k+1,k)W(k))(H(k)\hat{X(k|k-1)})^T]

                         =E[\Phi(k+1,k) X(k|k-1) {\hat{X(k|k-1)}}^TH(k)^T+ \Gamma(k+1,k)W(k)){\hat{X(k|k-1)}}^TH(k)^T]

                         =\Phi(k+1,k)E[X(k|k-1) {\hat{X(k|k-1)}}^T]H(k)^T+ \Gamma(k+1,k)E[W(k)){\hat{X(k|k-1)}}^T]H(k)^T

    不难看出上式中右侧第一项与第二项均为0,因此可以得出误差X(k+1|k-1)\hat{Z(k|k-1)}正交。

    因此,若获取到的观测值Z(k)恰好等于预测估计\hat{Z(k|k-1)},则\hat{X(k+1|k-1)}就是X(k+1)的最优线性估计。但是在实际中,一般观测值Z(k)不可能恰好等于预测估计\hat{Z(k|k-1)},但是我们可以分析一下误差的来源:

    Z(k)=H(k)X(k)+V(k) 

                 =H(k)[\hat{X(k|k-1)}+X(k|k-1)]+V(k)

    Z(k|k-1)=Z(k)-\hat{Z(k|k-1)}

                            =H(k)[\hat{X(k|k-1)}+X(k|k-1)]+V(k)-H(k)\hat{X(k|k-1)}

                            =H(k)[X(k|k-1)]+V(k)

    从上式我们不难看出误差主要来源于X(k)的估计误差X(k|k-1)以及量测噪声V(k)。因此我们可以考虑用量测误差Z(k|k-1)来修正我们之前的预测值\hat{X(k+1|k-1)}使其变为\hat{X(k+1|k)}。由于采用的是线性估计方法,通常我们使用加权的方法来修正,也就是在(3.2)后加上一项与Z(k|k-1)成正比的修正项K(k)Z(k|k-1),如此,我们可以得到:

                                                          \hat{X(k+1|k)} = \Phi(k+1,k)\hat{X(k|k-1)}+K(k)Z(k|k-1)

    即:

                                          \hat{X(k+1|k)} = \Phi(k+1,k)\hat{X(k|k-1)}+K(k)(Z(k)-H(k)\hat{X(k|k-1)}) \ \ \ \ \ \ \ \ \ \ (3.4)

    式中K(k)为一个待定的矩阵,称为最优增益矩阵或加权矩阵。式(3.4)可进一步写成:

                                        \hat{X(k+1|k)} = \Phi(k+1,k)\hat{X(k|k-1)}+K(k)H(k)X(k|k-1)+K(k)V(k) \ \ \ \ \ \ \ \ \ (3.5)

    要让\hat{X(k+1|k)}X(k+1)的最优线性估计,那么估计误差:

                                                               X(k+1|k)=X(k+1)-\hat{X(k+1|k)}

    必定与观测序列Z(0),Z(1),...,Z(k)均正交。

                                                       X(k+1) = \Phi(k+1,k)X(k) + \Gamma(k+1,k)W(k)

    则估计误差:

                      X(k+1|k)=X(k+1)-\hat{X(k+1|k)}

                                          = \Phi(k+1,k)X(k) + \Gamma(k+1,k)W(k)-\Phi(k+1,k)\hat{X(k|k-1)}- \\ {\ \ \ \ \ \ \ \ K(k)H(k)X(k|k-1)-K(k)V(k)}

                                          = \Phi(k+1,k)(X(k)- \hat{X(k|k-1)})+ \Gamma(k+1,k)W(k)-\\ {\ \ \ \ \ \ \ \ K(k)H(k)X(k|k-1)- K(k)V(k)}

                                          = (\Phi(k+1,k)-K(k)H(k))X(k|k-1)+ \Gamma(k+1,k)W(k)-K(k)V(k)

    观察上式右边已正交于Z(0),Z(1),...,Z(k-1),因而X(k+1|k)也正交于Z(0),Z(1),...,Z(k-1),因此,只要X(k+1|k)还正交于Z(k),那么\hat{X(k+1|k)}就是X(k+1)的最优线性估计。因此我们可以根据最优线性估计的条件来反算出最优增益矩阵K(k)。(学过现代控制论的同学可能注意到,上式右侧第一项的系数是不是非常眼熟(矩阵(A-LC))?其实就是观测器的系统矩阵。)

            由X(k+1|k)Z(k)正交,即:

                                                                          E[(X(k+1|k))(Z(k))^T]=0

    也就是:

                E\left \{ [(\Phi(k+1,k)-K(k)H(k))X(k|k-1)+ \Gamma(k+1,k)W(k)- K(k)V(k)][H(k)[\hat{X(k|k-1)}+X(k|k-1)]+V(k)]^T \right \}

            =E[(\Phi(k+1,k)-K(k)H(k))X(k|k-1){\hat{X(k|k-1)}^T}H(k)^T]+ \\ {\ \ \ \ \ \ \ \ E[(\Phi(k+1,k)-K(k)H(k))X(k|k-1){X(k|k-1)^T}H(k)^T}]}+ \\ {\ \ \ \ \ \ \ \ E[(\Phi(k+1,k)-K(k)H(k))X(k|k-1)V(k)^T H(k)^T] }+ \\ {\ \ \ \ \ \ \ \ E[\Gamma(k+1,k)W(k){\hat{X(k|k-1)}^T}H(k)^T]} + \\ {\ \ \ \ \ \ \ \ E[\Gamma(k+1,k)W(k){X(k|k-1)}^T}H(k)^T]} + \\ {\ \ \ \ \ \ \ \ E[\Gamma(k+1,k)W(k){V(k)^T}H(k)^T]} -\\ {\ \ \ \ \ \ \ \ E[K(k)V(k){\hat{X(k|k-1)}^T}]} -\\ {\ \ \ \ \ \ \ \ E[K(k)V(k){​{X(k|k-1)}^T}]} -\\ {\ \ \ \ \ \ \ \ E[K(k)V(k){V(k)^T}]}

            =(\Phi(k+1,k)-K(k)H(k))E[X(k|k-1){\hat{X(k|k-1)}^T}]H(k)^T+ \\ {\ \ \ \ \ \ \ \ (\Phi(k+1,k)-K(k)H(k))E[X(k|k-1){X(k|k-1)^T}]H(k)^T} + \\ {\ \ \ \ \ \ \ \ (\Phi(k+1,k)-K(k)H(k))E[X(k|k-1)V(k)^T]H(k)^T }+ \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)E[W(k){\hat{X(k|k-1)}^T}]H(k)^T} + \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)E[W(k){X(k|k-1)}^T}]H(k)^T} + \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)E[W(k){V(k)^T}]H(k)^T} -\\ {\ \ \ \ \ \ \ \ K(k)E[V(k){\hat{X(k|k-1)}^T}]} -\\ {\ \ \ \ \ \ \ \ K(k)E[V(k){​{X(k|k-1)}^T}]} -\\ {\ \ \ \ \ \ \ \ K(k)E[V(k){V(k)^T}]}=0

    观察上式右侧,不难看出第1、3、4、5、6、7、8项均为0,因此可以进一步化简为:

                                {(\Phi(k+1,k)-K(k)H(k))E[X(k|k-1){X(k|k-1)^T}]H(k)^T - \\ K(k)E[V(k){V(k)^T}]=0}

    上式中E[X(k|k-1){X(k|k-1)^T}]为误差方差阵,简记为P(k|k-1),且又E[V(k){V(k)^T}]=R_k,则:

                                                 (\Phi(k+1,k)-K(k)H(k))P(k|k-1))H(k)^T - K(k)R_k=0

    即:

                                   \Phi(k+1,k)P(k|k-1))H(k)^T-K(k)(H(k))P(k|k-1)H(k)^T+R_k)=0

    因此可以计算出最优增益矩阵:

                                            K(k)=\Phi(k+1,k)P(k|k-1)H(k)^T [H(k)P(k|k-1)H(k)^T + R_k}]^{-1}\ \ \ \ \ \ \ \ \ \ \ \ (3.6)

    上式中引入了误差方差阵P(k|k-1),下面开始计算他的迭代式:

    由其定义式可知:

                                       P(k+1|k)=E[X(k+1|k){X(k+1|k)^T}]

                                                           =E[((\Phi(k+1,k)-K(k)H(k))X(k|k-1)+ \Gamma(k+1,k)W(k)-K(k)V(k)) \\ {\ \ \ \ \ \ \ \ ((\Phi(k+1,k)-K(k)H(k))X(k|k-1)+ \Gamma(k+1,k)W(k)-K(k)V(k))^T}]

                                                           =E[{((\Phi(k+1,k)-K(k)H(k))X(k|k-1)X(k|k-1)^T(\Phi(k+1,k)-K(k)H(k))^T} +{\ \ \ \ \ \ \ \ (\Phi(k+1,k)-K(k)H(k))X(k|k-1)W(k)^T\Gamma(k+1,k)^T} - \\ {\ \ \ \ \ \ \ \ ((\Phi(k+1,k)-K(k)H(k))X(k|k-1)V(k)^TK(k)^T} + \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)W(k)X(k|k-1)^T(\Phi(k+1,k)-K(k)H(k))^T} + \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)W(k)W(k)^T\Gamma(k+1,k)^T} - \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)W(k)V(k)^TK(k)^T} - \\ {\ \ \ \ \ \ \ \ K(k)V(k))X(k|k-1)^T(\Phi(k+1,k)-K(k)H(k))^T} - \\ {\ \ \ \ \ \ \ \ K(k)V(k))W(k)^T\Gamma(k+1,k)^T}+ \\ {\ \ \ \ \ \ \ \ K(k)V(k))V(k)^TK(k)^T}]

                                                           =((\Phi(k+1,k)-K(k)H(k))P(k|k-1)(\Phi(k+1,k)-K(k)H(k))^T +{\ \ \ \ \ \ \ \ (\Phi(k+1,k)-K(k)H(k))E[X(k|k-1)W(k)^T]\Gamma(k+1,k)^T} - \\ {\ \ \ \ \ \ \ \ ((\Phi(k+1,k)-K(k)H(k))E[X(k|k-1)V(k)^T]K(k)^T} + \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)E[W(k)X(k|k-1)^T](\Phi(k+1,k)-K(k)H(k))^T} + \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)E[W(k)W(k)^T]\Gamma(k+1,k)^T} - \\ {\ \ \ \ \ \ \ \ \Gamma(k+1,k)E[W(k)V(k)^TK(k)^T]} - \\ {\ \ \ \ \ \ \ \ K(k)E[V(k))X(k|k-1)^T](\Phi(k+1,k)-K(k)H(k))^T} - \\ {\ \ \ \ \ \ \ \ K(k)E[V(k))W(k)^T]\Gamma(k+1,k)^T}+ \\ {\ \ \ \ \ \ \ \ K(k)E[V(k))V(k)^T]K(k)^T}

    不难看出上式右侧第2、3、4、6、7、8项均为0,因此可以进一步化简为:

                                          P(k+1|k)=(\Phi(k+1,k)-K(k)H(k))P(k|k-1)(\Phi(k+1,k)-K(k)H(k))^T + {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Gamma(k+1,k)Q_k\Gamma(k+1,k)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ K(k)R_kK(k)^T}

    进一步展开得:

                                        P(k+1|k)=\Phi(k+1,k)P(k|k-1)\Phi(k+1,k)^T - \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Phi(k+1,k)P(k|k-1)H(k)^TK(k)^T}- \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ K(k)H(k))P(k|k-1)\Phi(k+1,k)^T} +\\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ K(k)H(k))P(k|k-1)H(k))^TK(k)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Gamma(k+1,k)Q_k\Gamma(k+1,k)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ K(k)R_kK(k)^T} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3.7)

    观察上式中右侧第4项以及第6项,我们有:

                                       K(k)H(k))P(k|k-1)H(k))^TK(k)^T} + K(k)R_kK(k)^T

                                   =K(k)[H(k)P(k|k-1)H(k)^T + R_k]K(k)^T

    (3.6)式代入上式右侧中前面的K(k)有:

                                        K(k)[H(k)P(k|k-1)H(k)^T + R_k]K(k)^T

                              ={\Phi(k+1,k)H(k)^T [H(k)P(k|k-1)H(k)^T + R_k}]^{-1}[H(k)P(k|k-1)H(k)^T+R_k]K(k)^T}

                                    =\Phi(k+1,k)P(k|k-1)H(k)^TK(k)^T

    将上式代回(3.7)式可得:

                                         P(k+1|k)=\Phi(k+1,k)P(k|k-1)\Phi(k+1,k)^T- \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ K(k)H(k)P(k|k-1)\Phi(k+1,k)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Gamma(k+1,k)Q_k\Gamma(k+1,k)^T}

    (3.6)式代入上式中的K(k)有:

                        \begin{array}{ll} P(k+1|k)=\Phi(k+1,k)P(k|k-1)\Phi(k+1,k)^T- \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Phi(k+1,k)P(k|k-1)H(k)^T [H(k)P(k|k-1)H(k)^T + R_k]}^{-1}{H(k)P(k|k-1)\Phi(k+1,k)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Gamma(k+1,k)Q_k\Gamma(k+1,k)^T} \end{array} \ \ \ \ \ \ \ (3.9)

    由此得到误差方差阵的递推公式。

            最后将式(3.4)(3.6)(3.9)综合起来可以得到卡尔曼最优预测方程如下:

    最优预测估计方程:

            \hat{X(k+1|k)} = \Phi(k+1,k)\hat{X(k|k-1)}+K(k)(Z(k)-H(k)\hat{X(k|k-1)})

    最优增益矩阵方程:

            K(k)=\Phi(k+1,k)P(k|k-1)H(k)^T [H(k)P(k|k-1)H(k)^T + R_k}]^{-1}

    误差方差阵递推方程:

            \begin{array}{ll} P(k+1|k)=\Phi(k+1,k)P(k|k-1)\Phi(k+1,k)^T- \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Phi(k+1,k)P(k|k-1)H(k)^T [H(k)P(k|k-1)H(k)^T + R_k]}^{-1}{H(k)P(k|k-1)\Phi(k+1,k)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Gamma(k+1,k)Q_k\Gamma(k+1,k)^T} \end{array}

    至此推导完成。

    四、线性离散系统的卡尔曼最优预测的算法实现

    (1)给定t_0时刻的初始值:

                                                         \hat{X(0|0_-)}=E[X(0)]=\mu_0

    估计误差的方差阵为:

                                                      P(0|0_-)=E[(X(0)-\mu_0)(X(0)-\mu_0)^T]

    (2)计算t_0时刻的最优增益矩阵K(0)

                                             K(0)=\Phi(1,0)P(0|0_-)H(0)^T[H(0)P(0|0_-)H(0)^T+R_0]^{-1}

    (3)此时应获取到新的观测值Z(0),结合新观测值,计算X(1)的最优预测估计:

                                              \hat{X(1|0)}=\Phi(1,0)\hat{X(0|0_-)}+K(0)[Z(0)-H(0)\hat{X(0|0_-)}]

    (4)更新估计误差方差阵:

                                 \begin{array}{ll} P(1|0)=\Phi(1,0)P(0|0_-)\Phi(1,0)^T- \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \Phi(1,0)P(0|0_-)H(0)^T [H(0)P(0|0_-)H(0)^T + R_0]}^{-1}{H(0)P(0|0_-)\Phi(1,0)^T} + \\ {\ \ \ \ \ \ \ \ \ \ \ \ \ \Gamma(1,0)Q_0\Gamma(1,0)^T} \end{array}

    (5)获取到新的估计误差方差阵之后可以计算t_1时刻的最优增益矩阵K(1)

    (6)根据新的观测值Z(1),结合K(1),计算X(2)的最优预测估计\hat{X(2|1)}

    ......

    依次迭代。

    五、总结

            第四节中的算法实现可以看出卡尔曼最优预测所需要存储的数据很少,仅仅是更新后的最优增益矩阵、误差方差阵以及前一时刻的最优状态预测估计值,不需要存储其他过去时刻的值,极大地减少了存储量跟运算量,因此便于实时处理。

            正是由于卡尔曼等人提出的线性系统的状态空间描述以及相关的估计、滤波算法使得二十世纪六十年代以来航空航天事业、制导、定位、火控等迅猛发展。在此对老爷子致以崇高的敬意。

            写到这里最优预测篇也该结束了,即将开启下一篇--最优滤波篇。

    展开全文
  • 在机器学习研究中,特征选择是十分重要的一个环节。很多脑影像机器学习研究者更多追求的是所选特征的预测精度,而本文的作者更关注所选特征的可重复性。作者提出的基于图论的FS-Select算法,在挑选出具有可重复性...

     在机器学习研究中,特征选择是十分重要的一个环节。很多脑影像机器学习研究者更多追求的是所选特征的预测精度,而本文的作者更关注所选特征的可重复性。作者提出的基于图论的FS-Select算法,在挑选出具有可重复性特征的同时,兼顾了其预测准确性。该研究由土耳其伊斯坦布尔科技大学的Nicolas Georges 等人发表在最近的Pattern Recognition杂志上。

     

    关键词:机器学习  特征选择  脑连接组  图论

    考虑到在许多领域中(包括计算机视觉和医疗应用程序,比如计算机辅助诊断)高维度数据的增加,用于在一个给定分类任务(如区分健康和混乱的大脑状态)中减少数据维度并识别最相关特征的高级技术是必要的。尽管使用特定的特征选择(FS,Feature Selection)方法来提高分类精度的工作有很多,但是从现有的FS技术中选择最佳的方法来提高感兴趣的数据集中的特征的可重复性仍然是一个艰巨的挑战。值得注意的是,一个特定的FS方法的良好性能并不一定意味着该实验是可重复的,也不意味着所确定的特征对于整个样本来说是最优的。本质上,本文提出了解决以下挑战的第一次尝试: 给定一组不同的特征选择方法和一组感兴趣的数据,那么如何识别最具有“可重复性”和“值得信赖”的连接特征,从而产生可靠的生物标记来准确区分两种特定情况? 为了达到这个目的,研究者提出了FS-Select框架来探索不同的FS方法之间的关系。这个框架使用了一个基于每个FS方法的特征可重复效力、平均准确度和特征稳定性这三个指标的multi-graph框架。通过提取“中心”graph节点,研究者识别出了最可靠并且可重复的FS方法用于目标大脑状态分类任务,同时识别出这些大脑状态的最具识别性的特征。为了评估FS-Select的可重复性,研究者使用不同的交叉验证策略,对多视图的小规模脑连接组数据集(晚期轻度认知障碍vs阿尔茨海默病)和大规模脑连接组数据集(自闭症患者vs健康受试者)的训练集进行了扰动。他们的实验揭示了具有可重复性的表征异常大脑状态的连接特征。 介绍最近的研究表明,神经系统疾病,如阿尔茨海默病(AD)、自闭症谱系障碍(ASD)或轻度认知障碍(MCI),可以影响人类大脑的形态学连接。揭示这些神经和精神疾病的形态学连接有助于改善这些疾病的诊断和预后。为此,许多研究利用了机器学习技术以及图论分析技术找出健康的大脑和异常的大脑之间的联系。一旦这些紊乱的连接(或特征)被识别出来,它们就可以作为生物标记,从而有助于改善疾病的检测并促进有效的治疗。在生物信息学中,研究人员通常使用小样本数据,这些数据中的每个样本都具有很高的维度,这可能会导致目标学习任务的问题(如偏差)。特征选择(Feature Selection, FS)方法被认为是解决这一问题的潜在方法,该方法从感兴趣的数据集中提取高度相关的特征子集,以减少数据样本的维数,从而提高分类器的整体性能。学习如何有效且可靠地选择具有较高分辨能力的特征子集是模式识别的基本要求之一。从高维数据中选择特征的算法已经进行了广泛的应用研究。越来越多的工作延续了现有的FS(特征选择)方法,试图为他们的目标应用选择最合适的FS技术。这表明,FS方法的性能在很大程度上随输入数据集的变化而变化,因此所选择的方法会影响所产生的结果。另一方面,开发一种能够产生最佳分类结果并为所有数据类型识别最可靠特性的新方法似乎是一个棘手的问题。此外,包括为HCP(Human Connectome Project)项目收集的结构和功能磁共振成像(MRI)数据在内的多中心医学数据的不断增加,对于设计能够在不同中心数据中生成可重复的生物标记的特征选择方法提出了前所未有的挑战。这是因为每个数据源都有其独特的特征和统计分布,可能与其他数据源不匹配。因此,确定最佳的特征选择方法来揭示特定数据集的固有特征仍然是一个主要的挑战。然而,除了过去几年在设计稳健而精确的FS方法来识别神经系统疾病的可靠生物标记方面取得的进展外,还出现了新的挑战,包括实例稳定性和可伸缩性。对小数据集进行操作会不可避免地导致结果的变化。为了解决这个问题,几项研究调查了FS算法的稳定性,该算法测量所选特征对数据扰动的鲁棒性。更好的抗扰动能力将具有更好的结果一致性,从而提高了重现性。它解释了为什么一些论文甚至认为稳定性与准确性一样重要。不可否认,特别是在生物信息学中,结果需要在相同情况下的患者之间重复。每个发现的生物标记都需要是可重复的和稳定的。如果能够依赖稳定的FS方法,这种方法对于特定的数据集来说是“最优的”,并且能够检测出可靠的、可重复的生物标记,那么通过连接组数据来检测无序的大脑变化将有一个根本性的变化。他们的假设是,对于某个感兴趣的数据集,针对它的最好的FS方法对于其它不同的数据集来说,在分类精度和特征可重复性方面可能并不是是最佳的。基本上,他们在这项工作中要解决的问题是:给出了一系列不同的特征选择方法,如何识别最可重复和最可信的连接特征,从而生成能够准确区分两种特定情况的可靠生物标记? (图1)


     

    图1. 用于识别感兴趣的数据集的最佳特征选择方法的关系图。

    a) 给定一个感兴趣的数据集Di和一个特征选择方法池,典型的方法是找到一个能够产生最优特征子集S的方法以生成最佳的分类精度A。然而,这忽略了特征可重复性的问题,这是在生物学和临床应用中识别可靠的生物标记的基础;

    b) 研究者提出的一种基于数据驱动的方法用于识别具有最具有可重复性的特征子集的特征选择方法

     

    相对于那些专注于提高分类任务准确率(或单独改善稳定性)的FS方法,他们的主要目标不是最大化分类器的性能,而是识别那些将会产生具有可重复性的与特定大脑疾病相关的大脑特征的最优FS方法。为此,研究者提出了FS- select框架,该框架利用multi-graph结构对不同的FS方法之间的关系进行建模,以识别最可靠的FS方法,为感兴趣的数据集找到最可重复的特征。特别地,研究者提出了三个图,分别建模每个FS方法的可重复性、平均准确率的相似性和特征稳定性之间的关系,每个FS方法对一些最佳特征进行排序(即“特征阈值”K)。最后,通过整合所有可重复性、准确率相似度和稳定性图,他们生成了一个整体图,它可以识别出与图中其他FS方法相比具有最可重复性特征的中心FS方法。在最终生成的图中,连接两个FS节点的边的权值代表了在精度和稳定性上得到平衡的特征在前K个特征的重合率。这允许识别感兴趣的数据集的“中心”节点(强度最高的节点),该节点将用于识别感兴趣的大脑疾病中最有意义和可重复的连接组特征。这个框架是简单、直观的,并首次尝试解决识别不同神经疾病的最可重复的生物标记这一具有挑战性的问题。它也是通用的,可以应用于任何数据集,以识别数据中的可重复模式。本文的贡献如下:1. 通过设计一个简单而有效的基于图的分析框架,对一组FS方法之间的多方面关系进行建模,为感兴趣的数据集识别出最可重复使用的FS方法;2. 他们提出了研究不同FS方法之间关系的重要性——在为特定数据集寻找最佳FS方法时,这方面通常被忽略;3. 将根植于社会科学领域的中心性概念引入到数据驱动的FS识别问题中;4. 它能够为感兴趣的小型和大型数据集识别最可重复的FS方法,并发现大脑疾病的连接组生物标记。

    FS-Select算法框架     FS-to-FS多图(multi-graph)构建 给定一个特定的数据集,算法的目标是找出最佳的特征选择方法,提供最可重复且最可靠的特征,以便区分两类(例如,健康和异常的大脑状态)。研究者假设最可靠的FS方法能够再现其他方法识别出的最具鉴别性的特征,从而与其他FS方法达成最高的一致性。这个方法最吸引人的特点就是,它能够在一个截止阈值K(K代表用于训练分类器(如支持向量机)的排名前K个特征)上评估一个给定FS方法的重要性,同时考虑到其他的FS方法。给定一组N个FS方法,研究者构造了一个由N个节点组成的无向全连通图,其中每个节点代表一个FS方法,每两个节点之间的边描述了这两个节点之间在特定特征(可重复性、准确性、相似性或稳定性)中的关系。每个图都表示为一个相似度矩阵(图2),最终通过对所构建的三个图的相似度矩阵进行平均,得到最终的FS-to-FS相似度矩阵S。FS-to-FS 特征可重复性矩阵构建 给定一组N个FS方法F={FS_1, ..., FS_n},可以构造一个图G_k = (V_k, E_k)。V_k为节点集,每个节点代表一个FS方法,E_k为带有权重的连边,表示成对方法之间在前K个特征上的重合度。每个图G_k表示为一个相似矩阵S_k(图2)。通过改变阈值K,研究者定义了一组图G(或称为multi-graph)来模拟不同阈值条件下FS方法之间在前K个特征上的重合度。接下来,为了合并生成的多图(multi-graph),研究者将每个G_k表示为一个相似矩阵S_k(图2),其中每个元素S_k (i, j)表示FS方法i和方法j之间在前K个特征的重合度。最后,研究者通过平均合并在所有阈值K下生成的相似度矩阵后得到一个平均相似度矩阵S_bar。FS-to-FS准确率相似度矩阵构建 由于分类精度将影响所产生的特征的可信度,研究者提出了基于平均分类精度相似度的方法来建模FS方法之间的关系。研究者定义了一个平均准确率相似度矩阵A_bar,其中A_bar(i, j) 代表每两个节点之间的准确率相似度。A_bar(i, j) = exp(-|a_i - a_j|/σ_A), 其中a_i表示在不同阈值K下的平均准确率。在之后的实验中,σ_A被设置为10用于数值范围的归一化。FS-to-FS稳定性矩阵构建 一个性能良好的分类器并且具有较好的全局分类精度是很重要的;然而,在处理生物标记时,可重复性是至关重要的。分类结果必须对每个被试都是有效的。一些研究强调了FS方法的稳定性对于特定的FS方法结果可重复性的重要性。一种可以更好地识别特征可重复性的方法是进一步利用稳定性评分,该评分能够建模FS方法所选择的特征的鲁棒性。类似于通过平均不同阈值下的multi-graph来构建S_bar的过程,研究人员构建了矩阵K_bar。K_bar是通过平均在不同阈值下的稳定性矩阵得到的。稳定性矩阵K_bar中的每个元素K_bar(i, j) 表示方法FS_i与方法FS_j之间的归一化Kuncheva 稳定性得分。最终,FS的相似度矩阵通过对上述方法计算出来的矩阵进行逐元素相乘得到, 即:S=A_bar x S_bar x K_bar。      识别最具有可重复性的FS方法 在图论中,可以使用中心性度量来确定图中节点的重要性。节点中心度的概念旨在量化图中节点的重要性。有趣的是,在社会网络分析领域之外,这个概念还没有被广泛探索。节点中心度是度量图中节点相关性的有力工具。为了解决这一问题,研究者将所谓的图中心性引入到最可重复的FS方法的识别过程中。具体来说,算法在估计的FS邻接图矩阵S上使用中心性度量,同时考虑到FS方法在可重复性方面的重要性。FS方法在阈值K上可重复度的定义 研究者将特征选择方法FS_i在阈值K上的可重复性定义为与其他的特征选择方法FS_j在前K个特征上的平均重合率。FS方法平均可重复率的定义 特征选择方法的FS_i的平均可重复度定义为该方法在多个变化的阈值K上计算得到的多个可重复度的平均值。研究者使用“平均可重复率”的定义来量化一个给定的FS方法的可重复效力。较大的度中心性表示中心节点与周围的邻居节点紧密相连。在本文中,这表示与其他度节点享有更大数量的特征(比如较强的连接)的FS方法具有更强的可重复效力。这也意味着,在生成的加权图中具有最高节点中心度的节点代表着最具有可重复性的FS方法。       因此,为了识别最具有可重复性的FS方法,算法识别在图S中具有最高的中心度的节点v:


     

    其中,d(v_i, v_j) 表示节点v_i 与节点v_j之间的最短距离。两个节点之间的相似度可以通过计算两节点间的距离的倒数得到。受图论分析理论的启发,研究者将c_i定义为中心性度量,这一度量表示在一给定长度的路径上访问FS方法的次数。具体来说,研究者为S中的每一个节点FS_i分配一个c_i分数,c_i量化了FS_i与其他方法在重复性、稳定性和准确性等方面的一致性。最终被选择的FS方法是S中具有最高中心的节点(同时也是与其他FS方法连接最紧密的方法)。     识别最具有可重复性的连接组特征 一旦识别出最可靠的FS方法,算法就使用前K个选择的特征训练支持向量机分类器,以发现最具鉴别性的特征。然后,通过使用circular图绘制最相关的连接特征来更深入地研究可重复性特征,circular图还显示了最佳FS方法的名称及其对该特定数据集的平均精度(图2)。     使用不同的交叉验证策略对FS-Select方法进行验证 为了评估FS-Select算法的可重复性并更好地评估其有效性,研究者使用P折交叉验证(CV)策略训练了一个线性SVM分类器。为了说明FS方法在三个标志性特征上的相似性(例如,可重复性、准确率和稳定性),研究者构建了矩阵M_b和矩阵M_w(图2)。第一个矩阵M_b中的每个元素表示在两个不同的交叉验证p和p’之间前K个特征的重合率:

    其中r^K_p表示第p个交叉验证中FS方法在前k个特征的序列向量。为了生成稳定性矩阵M_w,研究者首先识别出在交叉验证策略p和p'之间的前K个特征,然后平均由CV p和p'生成的排序分数w^K_p和w^K_p’,从而生成矩阵M_w(p,p’)。


     

    图2.提出了用于数据特征选择方法识别的FS-Select算法框架。给定一个特定的数据视图,研究人员定义了多个图,每个图都表示为一个相似矩阵,对数据特征选择方法中排名前K位的特征的一致性进行建模。

     

    结果及讨论     

    验证数据集 

    研究人员在小规模脑连接组数据集(晚期轻度认知障碍vs阿尔茨海默病)和大规模数据集(包括自闭症患者vs健康受试者)上评估了FS-Select算法,如下所示。多视图连接组特征提取 每个被试的脑网络由一组包含n_v个网络的集合{V_i}(i=1,2, … ,n_v)表征,每一个网络编码了大脑连接组的一个特定视图。为了训练基于所挑选的FS方法的分类器模型,研究人员为每一个视图的脑网络V_k定义了一个特征向量v_k,特征向量v_k上的每个元素都属于相应的连接矩阵的非对称上三角部分(图2)。小数据集 为了区分阿尔茨海默病(AD)患者和晚期轻度认知障碍(LMCI)患者,研究人员对来自ADNI data的77名受试者的数据(41名AD患者和36名LMCI患者)进行了留一交叉验证,每个受试者都有T1w核磁共振影像。他们使用FreeSurfer软件从每个被试的T1w像中重建其左右大脑皮层。接下来,他们使用Desikan-Killiany 模版将每个半球划分为35个皮层区域。从而生成了两个大脑形态学网络,并得到两类皮层属性(视图):最大主曲率和平均皮质厚度。对于每个皮层属性,研究人员将每两个ROI之间属性值的差的绝对值作为形态学网络中每两个ROI之间的连边强度。然后,他们通过提取连接网络的非对称上三角部分作为网络的特征向量。大数据集 为了验证算法的通用性和可扩展性,研究人员在大数据集上对FS-Select算法进行了评估。该数据来自ABIDE数据集,包括341名被试,其中155名被诊断为自闭症谱系障碍(ASD),以及186名正常被试。这个数据的多视图形态学脑网络和相应的特征向量的构建方法与上面提到的方法是一样的。

    图3.特征选择方法在不同数据集上的性能波动。对于每个被试,研究人员定义了一个连接特征向量,每个特征向量来自于特定的大脑视图。因为每个大脑连接矩阵是对称的。忽略掉自连接,只对每个矩阵的非对角上三角部分进行矢量化特征提取。他们在不同的数据集上使用留一交叉验证和七个特征选择(FS)方法来训练支持向量机(SVM)分类器,每个数据都来自大脑连接的特定表示(或视图)。右边的图展示了视图一(最大主曲率)中,在不同数量的选择特征下7个FS方法的分类准确率,左图则表示视图二(平均皮质厚度)中7个FS方法的分类准确率。他们注意到,不同的FS方法的性能随数据类型的不同而不同。

     

    实验设置FS方法和训练 

    为了构建FS方法池,研究人员使用了Matlab提供的Feature Selection Library。他们选择了7种FS方法:relieff、MutInfFS、laplacian、L0、UDFS、llcFS和cFS,并采用留一交叉验证策略,结合SVM分类器训练每个FS。对于需要参数调优的FS方法,他们使用了嵌套的交叉验证策略(relieff, UDFS)。对于每个FS方法,他们评估了SVM分类器在不同数量的前K个特征上的性能,这些特征的数量从10到100不等(步长为10个特征)。实验结果初步证实了之前的假设:一种特定的方法在不同的数据上性能是不一样的(如图三)。接下来,文章将继续讨论不同FS方法之间的排名差异,并确定能够产生最具有可重复性的特征以及总体上令人满意的准确性和稳定性的方法。 FS-Select性能表现小数据集(晚期轻度认知障碍vs阿兹海默症)图4给出了加权FS相似矩阵及其对应的图,以及FS- select识别的可重复特征。该图证实了之前的假设,即一种数据类型的最优的FS方法对另一种数据类型可能不是最优的。如view1 LH连接组数据上最优的FS方法为relieff,它的分类准确率为61.03%;view2 LH连接组数据的最优FS方法为L0,它的分类准确率为70.3%,如图4所示。

    图4. FS-Select算法在小数据集(AD vs LCMI)上的表现。

     

         此外,研究者还注意到两个半球之间的准确率有显著差异(≈70% vs ≈40%)。最具有判别能力的形态学特征包括这些形态学连接:(i)[顶叶皮层↔脑岛皮层]和(ii)[尾前扣带皮层↔胼胝体]。ROI(尾额中回↔胼胝体)和[胼胝体↔楔片皮层(5)]经常被选中。颞上沟(1)、前扣带皮层(2)和岛叶皮层(35)也被认为是形态学网络枢纽(hub)。大数据集(自闭症谱系障碍vs正常被试)图5展示了算法在大数据集上的结果。首先,注意到算法所选的四种FS方法是不同的(laplacian、relieff、cfs、mutinffs),因此算法似乎不依赖于大脑网络连接视图。同样,没有注意到在跨视图的准确性上有显著的差异(对于所有视图≈52%)。当观察这个数据集中最具有可重复性的特征时,形态学连接[顶叶皮层(29)↔脑岛皮层(35)]总是被发现;[尾前扣带皮层(2)↔胼胝体(4)]和[颞上回后坡(1)↔内嗅皮层(6)]作为相关特性出现。同时研究人员还注意到,为ASD识别的最具鉴别性的特征不同于为AD数据集识别的特征。总的来说,这可能表明FS-Select能够为特定的数据集选择与其相关的连接特征。


     

    图5.FS-Select在大数据集(ASD vs NC)上的表现。

     

         使用多种交叉验证策略评估FS-Select方法  FS- select从给定的FS池中识别出最佳的FS方法,并能够找出在感兴趣的生物医学数据集中分离两个类的最具有可重复性和最具鉴别性的特性。然而,目前在生物医学数据分析领域,对于如何评估基于机器学习的特征的可重复性还没有达成共识。作为一个潜在的评估标准,研究者利用不同的交叉验证策略来证明特征的可重复性,以应对训练集的不同扰动。特别地,他们使用三种CV策略来应用FS-Select: 留一交叉验证、五折交叉验证和十折交叉验证。根据图6和图7所示的结果,他们的目标是突出FS-Select的两个关键方面:     1. 稳定性对结果的影响(即,选择的FS方法和识别的连接特征);      2.通过探索在不同的交叉验证情况下识别出来的特征的重叠率确定其可重复性。识别出最具有可重复性的脑形态学连接来区分阿兹海默症(AD)与晚期轻度认知障碍(LMCI)。FS-Select识别出cfs是最重要的方法,因为在所有实验中cfs被选中的次数达到50%。如图6所示,circular图显示了区分AD和LMCI之间最具有可重复性和最具有判别力的形态学连接。在三种交叉验证策略中出现最多的形态学连接特征包括:(尾前扣带皮层(2)↔胼胝体(4))和[顶叶皮层(29)↔脑岛皮层(35)],这些发现与之前发现的具有一定的相似性。从图7所示的交叉验证相似度矩阵中,可以注意到留一交叉验证与十折交叉验证策略在十个最具有判别性的特征的方面有最高的重叠率(100%)。识别出自闭症谱系障碍(ASD)和正常被试(NC)脑状态之间最具有可重复性的脑形态学连接。在这个数据集上,cfs方法只被选中一次,relieff和laplacian经常被选中。图6显示(顶叶皮层(29)↔脑岛(35)]在不同的交叉验证策略中是具有可重复性的连接特征。在考虑稳定性时,连接颞上回后坡(1)与内嗅皮层(6)以及尾侧额中回(3)的连接被认为是最具判别性的。当不考虑稳定性来产生最终的S矩阵时,可以观察到区域1(颞上回后坡)不常被选择。相反,第2区(尾侧前扣带皮层)出现的频率更高。如果不考虑稳定性,并且只选择一次更多的节点,并且图看起来不那么相似,则会重现相同的模式。考虑进稳定性将倾向于增加在多个交叉验证策略中所选择的特征的数量。总的来说,所显示的circular图看起来更相似,它们有更多重要的共同特征。从交叉验证相似矩阵来看(图6),他们可以得出结论, 由十折交叉验证以及留一交叉验证识别出来的最具有可判别性的形态学连接是最具有可重复性的,这是因为留一交叉验证与十折交叉验证在所有成对的交叉验证中显示出了最高的重合度。


     

    图6. 在AD vs LMCI数据集上,不同的CV方法得到的可重复性特征以及CV-CV相似度矩阵。


     

    图7. 在ASD vs NC数据集上,不同的CV方法得到的可重复性特征以及CV-CV相似度矩阵。

     

         FS-Select的临床发现 表2展示了为每个数据集和每个大脑视图所识别出来的的两个最具判别性和可重复性的形态学连接。图4-6展示出,无论输入数据集和视图是什么,有一个连接特性一直被选择:[顶叶皮层(29)↔脑岛皮层(35)]。在以前的研究中,这两个皮层区域都在AD和ASD中被报告过。对于AD vs LMCI数据集,可以得出这样的结论:连接特征(尾前扣带皮层(2)↔胼胝体(4)]和[尾前扣带皮层(2)↔内嗅皮层(6)]被确定是最具有可判别性的和可重复性的。与尾前扣带皮层相对应的皮质区域2被发现是一个重要的中枢(hub)区域,这个发现与之前关于AD的研究是一致的。对于ASD vs NC数据集,连接特征包括(尾前扣带皮层(2)↔尾额中回(3)]和[(颞上回后坡1)↔内嗅皮层(6)]被发现是最具有可重复性和判别性的。这些形态学连接涉及到之前关于自闭症谱系障碍的研究中所提到的皮层区域。这些区域可能是重要的生物标记,可能有助于诊断和治疗这两种神经系统疾病。表2. 在不同的交叉验证策略中被选中的FS方法识别出来的最具有可重复性和判别性的连接特征。

         FS-Select方法的性能和限制 FS-Select实现了他们的首要目标,即识别最具有可重复性和最具判别性的连接特征,用于检测感兴趣的神经大脑疾病,并具有良好的分类准确性。通过采用三种不同的交叉验证策略,他们证明了FS-Select在训练集不同扰动下的特征可重复的效力。FS-Select使用至少2个不同的交叉验证策略选择合适的脑连接生物标记。FS-Select揭示了对所有不同交叉验证策略(包括颞上沟、尾前扣带皮层和楔叶皮层)反复确认的具有判别性的特定大脑区域的重要性。这可能表明,在研究晚期痴呆对大脑形态的影响时,应该首先考虑这些标志性区域。虽然FS-Select有许多吸引人的方面,但它有一些限制,研究人员打算在未来的工作中解决:1. 在7个FS方法中,只有5个被定期选为最适合评估数据集的方法。udf和llcFS从未被选中。在这项工作中,他们只在两个不同的数据集上测试了框架。需要对不同数据集上的FS- select进行评估,以可靠地评估使用的FS方法的潜力;2. 在研究最具有可重复性的连接特征时,只选择了前10个特征。根据病情的严重程度和所处的阶段,神经障碍疾病可能会改变不同数量的大脑连接,因此可以探索更多的特征;3. 每个FS方法输出一个特征的排序和权重向量。到目前为止,他们只考虑了选择最具鉴别性和可重复性的特征的等级。还可以将特征权重集成到可重复性图的估计中;4. 识别最可重复的FS方法的计算时间取决于所使用的FS方法的时间复杂度和数据大小。这可以通过并行计算来解决,不同的FS方法可以同时训练,因此时间复杂度不是一个大问题。此外,目前最先进的FS方法具有相当合理的时间复杂度。总的来说,最终选择的FS方法的计算代价并不高,但在生物数据模式识别任务中,如发现存在有效治疗神经系统疾病的生物标记,可重复性可以抵消掉计算所花费的时间。本文并不关注所使用的FS方法的时间复杂度,而是关注每个FS方法在选择最具有可重复性特征时的可重复效力。      未来工作与改进 有几个未来的方向可以探索,以进一步提高这项开创性工作。     首先,可以用一种更通用的方法来学习这些关联,而不是预先定义一个相似矩阵来根据顶级特征一致性来建模FS方法之间的关系。    其次,可以在多个连接组数据集上对FS-Select进行评估,包括功能连接和结构连接。    第三,在理想的情况下,具有最佳分类精度的FS方法将识别最具判别性和可重复性的特征。他们的目标是进一步改进FS-Select框架,以识别满足这两个标准的特定于数据的FS方法。    第四,在本研究中,本文只关注于使用FS-Select来演示感兴趣的数据集中的特征可重复性。在未来的工作中,他们将调查这个方法在不同医疗中心获得的特定疾病的独立数据集的可重复性潜力。    第五,如何评估给定特征选择方法的可重复性是一个开放的研究领域,需要开发更先进的数学工具来进行准确和全面的评估和比较。 

    总结

         虽然大多数特征选择方法侧重于提高预测精度,但在本文中,研究者解决了为感兴趣的数据集选择最佳FS方法以提高特征可重复性的问题。特别地,本文介绍了FS-Select,一种能够识别最佳特征选择方法的方法,以发现区分两组(例如,健康的和紊乱的大脑)数据的最可重复和最可靠的特征子集。利用小尺度和大尺度的多视图脑连接数据集,他们用不同的交叉验证策略证明了FS- Select选择的FS方法的可重复性。还发现了不同的可重复的连接特征,可以对自闭症患者和痴呆患者的大脑形态进行“指纹识别”。由于这是为特定数据集寻找最可重复的FS方法的第一次尝试,他们只研究了多重图中编码的不同FS方法之间的两两关系。在未来的工作中,他们将使用超图学习技术来研究不同FS方法之间的高阶关系,在这里将学习如何对FS方法子集之间的关系建模,以增强区别性数据驱动模式的可重复性。尽管证明关于简单程序行为的数学命题似乎非常困难,但是提供FS-select这个方法正确性的证明将为选择甚至设计更严格且可重复的FS方法打下基础,也可以进一步研究替代的FS方法。
    如需原文及补充材料请加微信:siyingyxf 或者19962074063获取,如对思影课程感兴趣也可加此微信号咨询。


     

    微信扫码关注思影科技,获取更多脑科学相关资讯

     

    展开全文
  • 确定性权重用于根据特征对结果类的影响为特征分配权重,为那些对输出类不太确定特征分配较低的权重。 去除较低的权重以提高准确性。 阈值参数 (P=0.4) 表示选择权重较高的前 40% 的属性。 实验结果表明,在每个...
  • 图像直方图(histogram)是图像的统计学特征,常用于了解图像的基本特征以便分析。不过图像的直方图不具有空间特征。 图像的灰度直方图(histogram),就是将图像转化成灰度图像之后,统计各个像素点的灰度值,绘制...

    什么是灰度直方图?

    图像直方图(histogram)是图像的统计学特征,常用于了解图像的基本特征以便分析。不过图像的直方图不具有空间特征。

    图像的灰度直方图(histogram),就是将图像转化成灰度图像之后,统计各个像素点的灰度值,绘制成直方图,其横轴是灰度值(0,255),纵轴是该灰度值所对应的像素的数目。对灰度直方图做积分=图像的size。

    使用pyplot绘制灰度直方图

    原图:
    在这里插入图片描述

    # -*- coding: utf-8 -*-
    """
    @File    : 191214_使用pyplot绘制灰图直方图.py
    @Time    : 2019/12/14 16:08
    @Author  : Dontla
    @Email   : sxana@qq.com
    @Software: PyCharm
    """
    from matplotlib import pyplot as plt
    import cv2
    import numpy as np
    
    # 【读取图像】
    img = cv2.imread('feiji.jpg')
    # 【转换成灰度图】
    img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    
    # print(img.shape)    # (300, 520)
    
    
    # print(type(img))    # <class 'numpy.ndarray'>
    
    
    def plt_hist(img):
        # 【将图像像素数据平铺】
        print(img.ravel().shape)
        # 【绘制直方图】
        plt.hist(img.ravel(), 256, [0, 256])
        plt.show()
    
    
    if __name__ == '__main__':
        plt_hist(img)
    

    结果:
    在这里插入图片描述
    注意:
    在这里插入图片描述

    参考文章:python+opencv 灰度直方图及其二值化

    参考文章:为什么具有前景背景的图像其灰度直方图通常具有双峰性?

    展开全文
  • 针对如何确定连续系统辨识中最优采样间隔的问题,根据复平面中辨识模型的特征值到原点的距离判断采样间隔是否合理,利用折半查找算法,设计了一种在给定的范围内寻找系统辨识中最优采样间隔的方法。该方法可在辨识...
  • 算法的五大特征 (1) 输入性:有零个或多个外部量作为算法的输入 (2) 输出性: 算法至少有一个量作为输出 (3) 确定性:算法中每条指令清晰,无歧义 (4) 有穷性:算法中每条指令的执行次数有限,执行每条指令...
  • 最优参数选取

    千次阅读 2018-07-25 17:23:23
    然后利用最优参数去训练模型model,得到模型后就可以利用svmpredict函数进行使用预测了。 下面我将学习farutu的笔记整理一下,希望能够帮助到后面学习svm的同学快速入门,因为我也是刚刚看完了far...
  • 局部最优与鞍点问题

    千次阅读 2020-06-26 12:05:53
    但是,问题的关键在于,低维特征(图示两维)让我们对局部最优产生误解。 事实上,如果你要创建一个神经网络,通常梯度为零的点并不是这个图中的局部最优点,实际上成本函数的零梯度点,通常是鞍点。 一个具有高...
  • 线性二次型最优控制

    千次阅读 2020-08-20 15:00:17
    基于俞立老师《现代控制理论》和自己的学习经验,介绍了现代控制理论中的线性二次型最优控制,对连续时间系统和离散时间系统分别进行分析。
  • 考虑到存在大量的外点,本文提出了一种全局最优的内点集基数最大化方法,可以同时进行相机位姿估计优化和特征匹配。本文采取分支定界在6D空间中寻找最优的相机位姿,保证在不需要位姿先验的前提下得到全局最优。同时...
  • dijkstra输出最优路径

    2019-09-06 20:43:49
    dijkstra输出最优路径 众所周知, dijkstra是用来求最短路径长度的算法。 那么如果题意要求输出所有的最短路径该如何输出呢? 容易想到的是用前驱数组来存, 但最短路的走法可能不唯一,所有这里用 二维前驱数组 ...
  • 最后,利用基于C4.5决策树的wrapper型特征选择方法确定最优特征子集。在真实网络流量数据集上的实验结果表明,与传统方法相比,该方法具有较高的整体准确率、小类召回率和g-mean值,从而可以减轻多类不均衡问题带来...
  • 导读通常我们在解决某个问题的时候,会设计多种分类算法在训练的时候我们还会调节各种超参以及使用各种trick以获取最优的分类模型,那这时候我们应该如何来衡量这个最优呢?分类算法的评估指标有很多种,选择使用哪...
  • 其次采用尺度不变特征变换(SIFT)算法与折半查找法确定随机摆放的待检产品在标准库中的最优位置信息,最后通过相关度计算判别各区域有无缺陷。实验表明在保证检测准确率的前提下,基于最优识别区间的变步长方法比...
  • 其次采用尺度不变特征变换(SIFT)算法与折半查找法确定随机摆放的待检产品在标准库中的最优位置信息,最后通过相关度计算判别各区域有无缺陷。实验表明在保证检测准确率的纠正下,采用最优识别区间的变步长方法比...
  • 最优二叉搜索树

    2017-10-28 20:53:06
    最优二叉搜索树 假定设定一个程序,实现英语文本到法语的翻译。对英语文本中出现的灭个单词,我们需要查找对应的法语单词。为了实现这些查找槽,我们可以创建一棵二搜索叉树,将n个英语单词作为关键词,对应的法语...
  • 讨论柔性臂的端点角速度反馈控制问题。通过对系统特征值和特征函数的渐近表示式的进一 ...步研究, 用特征扰动的 Payley- W iener 稳定性理论, 证明了该系统的最优指数衰减率可由系统的谱来 确定。</p>
  • Gini指数计算 连续值属性/特征的处理 Step1 根据训练数据集中属性的值对该训练数据集进行排序 Step2 利用其中属性的值对该训练数据集动态地进行划分 Step3 在划分后的得到的不同的结果集中确定一个阈值,该阈值将...
  • 电子商务中最优网络拍卖方案 作者聂海峰 内容摘要本文研究了电子商务环境中当拍卖参与者不确定时拍卖 人的最优拍卖方案的设计和特征我们用泊松过程来描述拍卖参与者 得到达比较了两种拍卖的停止规则下的最优拍卖并用...
  • 研究结果表明:基于树木相对聚类特征的最优特征参数组进行树种分类的平均分类精度较低(45%);基于点云分布特征的最优特征参数组进行树种分类的平均分类精度有所增加(58.8%);基于树木表观特征的最优特征参数组进行树种...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 56,125
精华内容 22,450
关键字:

如何确定最优特征