精华内容
下载资源
问答
  • 最小二乘回归是PCA、CCA和传统最小二乘模型的结合。 一、PCA主成分分析: 1.我们希望对数据进行有损压缩,即将属于R^n的x投影为属于R^l的c,有编码函数f(x)=c,使得损失的信息尽量少。同时有对应的解码函数g(c)...

    偏最小二乘回归是PCA、CCA和传统最小二乘模型的结合。

    一、PCA主成分分析:

    1.我们希望对数据进行有损压缩,即将属于R^n的x投影为属于R^l的c,有编码函数f(x)=c,使得损失的信息尽量少。同时有对应的解码函数g(c)约等于x。

    2.PCA由我们确定的解码函数而定,为了简化解码器,我们让g(c)=Dc,其中设D为一个属于R^(n*l)的矩阵,D可以有多个解,但我们假设D中的列向量都有单位范数,并限制D的列向量彼此正交(由于垂直的基更容易表示向量)。

    3.假设我们现在已经找到了这个D,如何在给定x的情况下找到最优的编码c呢?方法是:选取使x-g(c)的二范数最小的c。x-g(c)的二范数可以进行如下变换。

    (1)使得x-g(c)的二范数--等价于--使得二范数的平方最小(二范数非负)

    (2)x-g(c)二范数的平方=(x-g(c))^T*(x-g(c)),根据矩阵运算的分配律和向量的xTy=yTx,矩阵的(AB)T=BTAT。上式最终变换为xTx-2xTg(c)+g(c)Tg(c)。第一项与c无关,去掉。

    (3).将g(c)=Dc代入,上式=-2(x’)Dc+c’D’Dc=-2(x’)Dc+c’c (因为设D有正交性和单位范数)。

    (4)上式的对c求最小化,令上式的对c的偏导为0,推出c=D’x。由此我们知道了当D被确定后如何给定x求c。

    4.现在挑选最优的D。考虑降到1维的情况,则选取的矩阵D为R^n的向量d,选取令sum(xi-dd’xi)的二范数的平方))最小(并满足d’d=1)的d,该最优化问题的矩阵形式为X-Xdd’的二范数的平方最小化,则

    X-Xdd’的二范数=Tr[(X-Xdd’)’(X-Xdd’)],

    5.以上最优化问题变化为(简化过程使用Tr迹运算的定理,(1)Tr(A)=Tr(A^T)  (2)Tr(ABC)=Tr(CAB)=Tr(BCA)  (3)Tr(实数)=实数)求使得Tr(d’X’Xd)最大并满足d’d=1的向量d。

    6.优化问题的最终形式使用特征分解来求解。最优的d是X‘X最大特征值对应的特征向量。以上为l=1时,选取特征值最大的向量,进行推广,则选取前l个最大的特征值对应的特征向量。以列为样本、行为属性的情况下,若零均值化,协方差矩阵即为(1/(m-1))* X‘X。对其求前l个最大特征值对应的特征向量,并进行单位化,将他们一行行排起来,用数据矩阵左乘它就能得到降维后的数据矩阵(即C=D’X)。

    7.使用:以行为样本为例,将原数据矩阵每个值减去该列的均值(零均值化),再计算数据集的协方差阵(1/m)* XX’,求出特征值和特征向量,将特征向量单位化,选取前k个最大的特征值对应的特征向量(k为需要的维度量,或按照k的选取选择1-前k个特征值总和占特征值总和的比例<=阈值(比如0.01)),按列排列,原零均值矩阵右乘该矩阵。

    8.矩阵的对角化:将一个变换左乘一组向量的逆,右乘一组向量,就能将这个变换表示成以那组向量为基视角下的变换矩阵。如果这组向量选的是特征向量(当然前提是特征向量能张成空间),那么就将那个变换变成对角矩阵了。所以矩阵能对角化的条件是有n个线性无关的特征向量,这样才有足够多的方向能用了选择作为对角化的视角。对于实特征阵,特征向量PCP‘=对角阵。

    9.协方差阵的对角化,即P*(1/(m-1))* XX’*P’=(1/(m-1))*PX*(PX)’,即为根据特征向量进行变换后的矩阵的协方差阵,其中各方差由大到小排列(因为特征向量如此排列)在对角线上,协方差都为零(满足各特征独立/正交)。故成功将原数据转化。

    10.其他降维方法总结:

    (1)PCA。需要注意的是,新的主成分并不是由实际系统产生的,因此在进行PCA变换后会丧失数据的解释性。

    (2)缺失值比例大于一个阈值的列去除。

    (3)低方差滤波:方差小于一个阈值的列去除。

    (4)高相关滤波:对归一化后的各列两两计算相关系数,大于一定阈值的删除其中一列。

    (5)随机森林判别法:在随机森林中常被选作最佳分类标准的属性评分更高。

     

     

    二、CCA典型相关分析:

    1.典型相关性分析研究假如有一堆样本点,每个点的x是多维的,y也是多维的,如何研究x与y间的相关关系。CCA是这样做的,将x用a1权重向量变换为一维,y用b1权重向量变换,选取a1、b1的标准是使得变换后的一维特征x和y的相关系数最大化。

    2.根据以上的思想,该问题可以转化为优化问题

    使得a1’*变换前x的方差矩阵*a1=1,b1’*变换前y的方差矩阵*b1=1,

    使得a1’*变换前协方差矩阵*b1最大

    设lambda和v为拉格朗日乘数,使用拉格朗日乘数法推导该问题,结合上面的多维求导公式,得结论

    (Lamda=v=变换后的相关系数(2)方1^-1*协方*方2^-1 *协方*a1=lambda^2*a1)

    解式二的特征值问题,特征向量为a1。

    3.CCA主要在多视图学习的特征融合方面有着广泛的应用,比如两张图片,一张正脸,一张侧脸,我们需要做一个人脸识别系统,就需要对其进行双视图学习,我想如果我们把这两张图结合在一起识别率一定会提高的,我们就需要用到CCA。

     

    三、PLSR偏最小二乘回归

    步骤:

    1.先对多维的x和y进行标准化,设权重向量w1和v1,将原来的x和y变换为一维特征t1和u1,权重选取的目标是使得变换后两个特征自身方差极大化且互相之间相关系数极大化。该问题可转化为问题:使得w1’X‘Yv1最大并使得w1、v1二范数平方=1。求解该问题,非常类似上面的CCA求解,最后解特征向量求得t1、u1。

    2.建立回归模型X0=t1alfa1+X1,X1为残差矩阵(Y也建立相同模型,自变量为t1)。Alfa1是参数向量。根据最小二乘估计解得alfa1=t1‘X0/t1二范数的平方,beta1将X0换Y0.

    3.估计出权重后计算残差的范数,未小于阈值则将残差矩阵看作X和Y重复以上步骤。

    4.最后的预测模型将所有式子一起代入,可求出通过多维X算出多维Y的式子。

    展开全文
  • 多元相关分析与多元回归分析

    万次阅读 多人点赞 2018-10-27 17:13:02
    什么是相关分析 什么是回归分析 分析步骤 回归分析与相关分析的主要区别 一元线性相关分析 一元线性回归分析 建模 方差分析检验  t检验 多元回归分析模型建立 线性回归模型基本假设 多元回归分析用途 ...

    目录

    变量间的关系分析

    什么是相关分析

    什么是回归分析

    分析步骤

    回归分析与相关分析的主要区别

    一元线性相关分析

    一元线性回归分析

    建模

    方差分析检验

     t检验

    多元回归分析模型建立

    线性回归模型基本假设

    多元回归分析用途

    多元线性相关分析

    矩阵相关分析

    复相关分析

    曲线回归模型

    多项式曲线

    二次函数

    对数函数

    指数函数

    幂函数

    双曲线函数


    变量间的关系分析

    变量间的关系有两类,一类是变量间存在着完全确定的关系,称为函数关系,另一类是变量间的关系不存在完全的确定性,不能用精缺的数学公式表示,但变量间存在十分密切的关系,这种称为相关关系,存在相关关系的变量称为相关变量

    相关变量间的关系有两种:一种是平行关系,即两个或两个以上变量相互影响。另一种是依存关系,即是一个变量的变化受到另一个或多个变量的影响。相关分析是研究呈平行关系的相关变量之间的关系。而回归分析是研究呈依存关系的相关变量间的关系。表示原因的变量称为自变量-independent variable,表示结果的变量称为因变量-dependent variable

    什么是相关分析

    通过计算变量间的相关系数来判断两个变量的相关程度及正负相关。

    什么是回归分析

    通过研究变量的依存关系,将变量分为因变量和自变量,并确定自变量和因变量的具体关系方程式

    分析步骤

    建立模型、求解参数、对模型进行检验

    回归分析与相关分析的主要区别

    1.在回归分析中,解释变量称为自变量,被解释变量称为因变量,相关分析中,并不区分自变量和因变量,各变量处于平的地位。--(自变量就是自己会变得变量,因变量是因为别人改变的)

    2.在相关分析中所涉及的变量全部是随机变量,在回归分析中只有只有因变量是随机变量。

    3.相关分析研究主要是为刻画两类变量间的线性相关的密切程度,而回归分析不仅可以揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。

    一元线性相关分析

    线性相关分析是用相关系数来表示两个变量间相互的线性关系,总体相关系数的计算公式为:

     δ^2x代表x的总体方差, δ^2y代表y的总体方差,δxy代表x变量与y变量的协方差,相关系数ρ没有单位,在-1到1之间波动,绝对值越接近1越相关,符号代表正相关或复相关。

    一元线性回归分析

    使用自变量与因变量绘制散点图,如果大致呈直线型,则可以拟合一条直线方程

    建模

    直线模型为:

     y是因变量y的估计值,x为自变量的实际值,a、b为待估值

    几何意义:a是直线方程的截距,b是回归系数

    经济意义:a是x=0时y的估计值,b是回归系数

    对于上图来说,x与y有直线的趋势,但并不是一一对应的,y与回归方程上的点的差距成为估计误差或残差,残差越小,方程愈加理想。

    当误差的平方和最小时,即Q,a和b最合适

    对Q求关于a和b的偏导数,并令其分别等于零,可得:

     式中,lxx表示x的离差平方和,lxy表示x与y的离差积和。

    方差分析检验

    将因变量y实测值的离均差平方和分成两部分即使:

    分为:

    实测值yi扣除了x对y的线性影响后剩下的变异

    和x对y的线性影响,简称为回归评方或回归贡献

    然后证明:

     t检验

    当β成立时,样本回归系数b服从正态分布,这是可以使用T检验判断是否有数学意义,检验所用统计量为

    例如t=10,那么可以判断α=0.05水平处拒绝H0,接受H1,那么x与y存在回归关系

    多元回归分析模型建立

    一个因变量与多个自变量间的线性数量关系可以用多元线性回归方程来表示

    b0是方程中的常数项,bi,i=1,2,3称为偏回归系数。

    当我们得到N组观测数据时,模型可表示为:

    其矩阵为:

    X为设计阵,β为回归系数向量。

    线性回归模型基本假设

    在建立线性回归模型前,需要对模型做一些假定,经典线性回归模型的基本假设前提为:

    1.解释变量一般来说是非随机变量

    2.误差等方差及不相关假定(G-M条件)

    3.误差正太分布的假定条件为:

    4. n>p,即是要求样本容量个数多于解释变量的个数

    多元回归分析用途

    1.描述解释现象,希望回归方程中的自变量尽可能少一些

    2.用于预测,希望预测的均方误差较小

    3.用于控制,希望各个回归系数具有较小的方差和均方误差

    变量太多,容易引起以下四个问题:
    1.增加了模型的复杂度

    2.计算量增大

    3.估计和预测的精度下降

    4.模型应用费用增加

    多元线性相关分析

    两个变量间的关系称为简单相关,多个变量称为偏相关或复相关

    矩阵相关分析

    设n个样本的资料矩阵为:

    此时任意两个变量间的相关系数构成的矩阵为:

    其中rij为任意两个变量之间的简单相关系数,即是:

    复相关分析

    系数计算:

    设y与x1,x2,....,回归模型为

    y与x1,x2,....做相关分析就是对y于y^做相关分析,相关系数计算公式为

    曲线回归模型

    多项式曲线

    二次函数

    y=a+bx+cx^2

    对数函数

    y=a+blogx

    指数函数

    y = ae^bx或y = ae^(b/x)

    幂函数

    y=ax^b (a>0)

    双曲线函数

    y = a+b/x

     实战操作见下一篇文章

    展开全文
  • 【建模应用】PLS最小二乘回归原理与应用

    千次阅读 多人点赞 2018-05-13 11:13:00
    我写这篇文章的目的,是想用最简洁的语言阐述清楚何为最小二乘分析,以及到底应该如何应用这个在数学建模应用中备受青睐的模型。在此之前,你应该已经学过线性代数、高等数学等基础课程,并了解过诸如主成分分...

    @author:Andrew.Du

    声明:本文为原创,转载请注明出处:http://www.cnblogs.com/duye/p/9031511.html,谢谢。

    一、前言

    1.目的:

       我写这篇文章的目的,是想用最简洁的语言阐述清楚何为偏最小二乘分析,以及到底应该如何应用这个在数学建模应用中备受青睐的模型。在此之前,你应该已经学过线性代数、高等数学等基础课程,并了解过诸如主成分分析(PCA)、多元线性回归等简单的数学模型,如果线性代数高等数学的知识已经还给老师,那么建议你重温一下。在正式讲解偏最小二乘回归之前,我先简单介绍一下几个基本概念。如果你对回归比较了解,下面的请略过直接看第二部分。

    2.回归是什么?

      ”回归“一词来源于对父母身高对于子女身高影响的研究。有人对父母的身高与子女身高做统计,发现除了父母高则子女普遍高的常识性结论外,子女的身高总是“趋向”于人类平均身高,最早“回归”一词就来源于此,即子女的身高总是回归于人类平均身高。
      现代意义上的回归,是研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。简单地说,回归就是去分析因变量与自变量之间的关系,从而为分析数据、预测数据提供科学的、合理的方法。

    3.回归的方法有哪些?

    目前常用的回归方法有以下几种:

    • 多元线性回归:入门练习常见,但用在模型上基本无用,因为多个变量之间难免有复杂的相关性,多元线性回归不能处理多个自变量之间的“糅合”性。
    • 逻辑回归:当预测的是1/0时使用。 这也是机器学习中的一种常用二分类方法。
    • 主成分回归:类似于主成分分析,将具有相关性的多维变量降维到互不相关的少数几维变量上,可以处理变量之间具有相关性的情况。
    • 岭回归:同上,但方法不同。

     

    • 偏最小二乘回归:当数据量小,甚至比变量维数还小,而相关性又比较大时使用,这个方法甚至优于主成分回归。

    4.回归的检验?

      建模是最重要的,但好的回归模型是需要检验的,否则你的模型就会显得“苍白无力”。回归结果好与坏,应该怎么检验呢?从以下几方入手:

    • 自变量与因变量是否具有预期的关系。如果有非常不符合逻辑的系数,我们就应该考虑剔除它了。
    • 自变量对模型是否有帮助。如果自变量的系数为零(或非常接近零),我们认为这个自变量对模型没有帮助,统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值(p值),则表示系数为零的概率很小。如果概率小于0.05,汇总报告上概率(Probability)旁边的一个星号(*)表示相关自变量对模型非常重要。换句话说,其系数在95%置信度上具有统计显著性。
    • 残差是否有空间聚类。残差在空间上应该是随机分布的,而不应该出现聚类。
    • 模型是否出现了倾向性。如果我们正确的构建了回归分析模型,那么模型的残差会符合完美的正态分布,其图形为钟形曲线。
    • 自变量中是否存在冗余。建模的过程中,应尽量去选择表示各个不同方面的自变量,也就是尽量避免传达相同或相似信息的自变量。 评估模型的性能。评估矫R2值,有时还要加上修正的Akaike信息准则/Akaike's information criterion (AIC),效果是否好。

    二、进入正题:偏最小二乘回归

    1.偏最小二乘回归的思想:

      一般来说,能用主成分分析就能用偏最小二乘。偏最小二乘集成了主成分分析、典型相关分析、线性回归分析的优点。在普通多元线形回归的应用中,我们常受到许多限制。 最典型的问题就是:自变量之间的多重相关性。并且有的时候样例很少,甚至比变量的维度还少,变量之间又存在多重相关性。偏最小二乘回归就是为解决这些棘手的问题而生的。
      举个例子,比如现在,有一堆因素(X1,X2,...Xn)(这是自变量),这些因素可以导致(Y1,Y2,...Yn)(这是因变量),给的样例很少,而我们又完全不清楚自变量之间、因变量之间存在的关系,这时问自变量与因变量之间到底是一个什么关系?这就是偏最小二乘要解决的问题。

    2.偏最小二乘回归建模原理:

      设有 q个因变量{y1,…,yq}和p自变量{x1,…,xp}。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={x1,…,xp}和.Y={y1,…,yp}。偏最小二乘回归分别在X与Y中提取出成分t1和u1(也就是说, t1是x1,x2,…,xq的线形组合, u1是y1,y2,…,yp的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:

      (1) t1和u1应尽可能大地携带他们各自数据表中的变异信息;

      (2) t1与u1的相关程度能够达到最大。

      这两个要求表明,t1和u1应尽可能好的代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

      在第一个成分t1和u1被提取后,偏最小二乘回归分别实施X对t1的回归以及 Y对u1的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被t1解释后的残余信息以及Y 被t2解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分t1,t2,…,tm,偏最小二乘回归将通过实施yk对t1,t2,…,tm的回归,然后再表达成yk关于原变量X1,X2,…,Xq的回归方程,k=1,2,…,p。

    3.推导偏最小二乘回归:

      为了彻底理解偏最小二乘回归,我建议下面的步骤你都亲自推导一遍。相信经过下面的推导,能让你对偏最小二乘有一个更加清晰的认识。

    • step1:数据说明与标准化
      数据矩阵E0,F0,其中E0为自变量矩阵,每一行是一个样例,每一列代表了一个维度的变量;F0是因变量矩阵,解释同E0。
      数据标准化即,要将数据中心化,方法是每个样本都做如下操作:减去一个维度变量的均值除以该维度的标准差。以下设E0,F0都为标准化了的数据。即:自变量经标准化处理后的数据矩阵记为E0(n*m),因变量经标准化处理后的数据矩阵记为F0(n*p)。
    • step2:求符合要求的主成分(☆)
      即求自变量与因变量的第一对主成分t1和u1,根据主成分原理,要求t1与u1的方差达到最大,这是因为:方差最大则表示的信息就越多。另一方面,又要求t1对u1有最大的解释能力,由典型相关分析的思路知,t1与u1的相关度达到最大值。
      因此,综合上述两点,我们只要要求t1与u1的协方差达到最大,即:

              Cov(t1,u1) –> max

      而且,t1是X的线性组合,那么权重系数设为W1,即t1 = E0W1,同理,u1是Y的线性组合,u1 = F0C1。同时又要求,W1与C1同为单位向量,问题的数学表达式为:

              max <E0w1,F0c1>

              S.T.

                ||W1|| = 1; 

                ||c1|| = 1

      这就是一个条件极值的问题,你可以采用拉格朗日方法求解(如果你还有兴趣,可以查阅高数课本,当然,你也可以直接看结论,这里我只给出结论,推导省略,实际上推导并不影响你理解)。

      通过拉格朗日求解,知w1就是矩阵E0‘F0F0’E0的对应于最大特征值的特征向量,c1就是矩阵F0’E0E0’F0对应于最大特征值的最大特征向量,均单位化。

      有了权系数w1,c1,自然可以求得主成分t1,u1。至此,第一对主成分完成。

    • step3:建立主成分与原自变量、因变量之间的回归(☆)
      建立E0,F0对t1,u1的三个回归方程,如下:

    image

      式中,回归系数向量是:

    image

      而E1,F*1,F1分别是三个回归方程的残差矩阵.

    • step4:继续求主成分,直到满足要求
      用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第二个成分t2,u2,有

    image

      重新执行step3。直到求出所有主成分或者满足要求(后面说明)。

    • step5:推导因变量之于自变量的回归表达式(☆)
      如此经过step3-step4反复,若E0的秩为A,则可以求出:

    image

      由于t1….tA都可以表示E01,E02….E0q的线性组合,那么就自然还原成下面的形式:

    image

      Fak为残差矩阵Fa的第k列。这样,就求出了回归方程。

    • step6:检验-交叉有效性(☆)
      这是最后一步,也是非常重要的一步。下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。在许多情形下,偏最小二乘回归方程并不需要选用全部的成分进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分,仅用这m 个后续的成分就可以得到一个预测性较好的模型。事实上,如果后续的成分已经不能为解释因变量提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。

      下面的问题是怎样来确定所应提取的成分个数

      在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。采用类似于抽样测试法的工作方式,把所有n个样本点分成两部分:第一部分除去某个样本点i的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代入前面拟合的回归方程,得到yj在样本点i上的拟合值image。对于每一个i=1,2,…,n,重复上述测试,则可以定义yj的预测误差平方和为PRESShj。有:

    image

      定义Y 的预测误差平方和为PRESSh,有

    image

      显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大PRESSh的值。

      另外,再采用所有的样本点,拟合含h 个成分的回归方程。这是,记第i个样本点的预测值为image,则可以记yj的误差平方和为SShj,有

    image

      定义Y的误差平方和为SSh,有

    image

      定义称为交叉有效性,对于每一个变量yk,定义

    image

      对于全部因变量Y,成分th交叉有效性定义

    image

      用交叉有效性测量成分th对预测模型精度的边际贡献有如下两个尺度

      (1) 当image时, th成分的边际贡献是显著的。显而易见,image是完全等价的决策原则。

      (2) 对于k=1,2,…,q,至少有一个k,使得image 。这时增加成分th,至少使一个因变量yk的预测模型得到显著的改善,因此,也可以考虑增加成分th是明显有益的。

    三、实现偏最小二乘回归算法步骤:

      上面推导了偏最小二乘回归,分析了其中的原理。为了使得在实际应用中更加快速的使用偏最小二乘回归,在此,贴上实现偏最小二乘法实现的简洁步骤,需说明的是,下面算法来自司守奎老师《数学建模算法与应用》一书,该书推导过程跨度大,个人认为不适合新手直接阅读,建议你在理解了上述第二部分后再去阅读此书“偏最小二乘回归”章节,定会有更加高层次的认识。步骤如下:

      

    四、MATLAB实例以及实现

      有必要贴出偏最小二乘的简单建模应用,并用matlab去是实现之,你可以按照上述步骤,通过基本的运算如求矩阵特征值等,来实现,也可以使用matlab工具箱方法实现之,下面给出的依旧是一个来自司守奎老师书本上的案例:

      例:采用兰纳胡德(Linnerud)给出的关于体能训练的数据进行偏小二乘回归建 模。在这个数据系统中被测的样本点,是某健身俱乐部的 20 位中年男子。被测变量分 为两组。第一组是身体特征指标 X ,包括:体重、腰围、脉搏。第二组变量是训练结果指标Y ,包括:单杠、弯曲、跳高。原始数据见表 1。 表 2 给出了这 6 个变量的简单相关系数矩阵。从相关系数矩阵可以看出,体重与 腰围是正相关的;体重、腰围与脉搏负相关;而在单杠、弯曲与跳高之间是正相关的。 从两组变量间的关系看,单杠、弯曲和跳高的训练成绩与体重、腰围负相关,与脉搏正相关。

      可以利用如下的MATLAB程序:

     1 clc,clear
     2 load pz.txt %原始数据存放在纯文本文件 pz.txt 中
     3 mu=mean(pz);sig=std(pz); %求均值和标准差
     4 rr=corrcoef(pz); %求相关系数矩阵
     5 data=zscore(pz); %数据标准化,变量记做 X*和 Y*
     6 n=3;m=3; %n 是自变量的个数,m 是因变量的个数
     7 x0=pz(:,1:n);y0=pz(:,n+1:end); %原始的自变量和因变量数据
     8 e0=data(:,1:n);f0=data(:,n+1:end); %标准化后的自变量和因变量数据
     9 -679-
    10 num=size(e0,1);%求样本点的个数
    11 chg=eye(n); %w 到 w*变换矩阵的初始化
    12 for i=1:n
    13 %以下计算 w,w*和 t 的得分向量,
    14 matrix=e0'*f0*f0'*e0;
    15 [vec,val]=eig(matrix); %求特征值和特征向量
    16 val=diag(val); %提出对角线元素,即提出特征值
    17 [val,ind]=sort(val,'descend');
    18 w(:,i)=vec(:,ind(1)); %提出最大特征值对应的特征向量
    19 w_star(:,i)=chg*w(:,i); %计算 w*的取值
    20 t(:,i)=e0*w(:,i); %计算成分 ti 的得分
    21 alpha=e0'*t(:,i)/(t(:,i)'*t(:,i)); %计算 alpha_i
    22 chg=chg*(eye(n)-w(:,i)*alpha'); %计算 w 到 w*的变换矩阵
    23 e=e0-t(:,i)*alpha'; %计算残差矩阵
    24 e0=e;
    25 %以下计算 ss(i)的值
    26 beta=t\f0; %求回归方程的系数,数据标准化,没有常数项
    27 cancha=f0-t*beta; %求残差矩阵
    28 ss(i)=sum(sum(cancha.^2)); %求误差平方和
    29 %以下计算 press(i)
    30 for j=1:num
    31 t1=t(:,1:i);f1=f0;
    32 she_t=t1(j,:);she_f=f1(j,:); %把舍去的第 j 个样本点保存起来
    33 t1(j,:)=[];f1(j,:)=[]; %删除第 j 个观测值
    34 beta1=[t1,ones(num-1,1)]\f1; %求回归分析的系数,这里带有常数项
    35 cancha=she_f-she_t*beta1(1:end-1,:)-beta1(end,:); %求残差向量
    36 press_i(j)=sum(cancha.^2); %求误差平方和
    37 end
    38 press(i)=sum(press_i);
    39 Q_h2(1)=1;
    40 if i>1, Q_h2(i)=1-press(i)/ss(i-1); end
    41 if Q_h2(i)<0.0975
    42 fprintf('提出的成分个数 r=%d',i); break
    43 end
    44 end
    45 beta_z=t\f0; %求 Y*关于 t 的回归系数
    46 xishu=w_star*beta_z; %求 Y*关于 X*的回归系数,每一列是一个回归方程
    47 mu_x=mu(1:n);mu_y=mu(n+1:end); %提出自变量和因变量的均值
    48 sig_x=sig(1:n);sig_y=sig(n+1:end); %提出自变量和因变量的标准差
    49 ch0=mu_y-(mu_x./sig_x*xishu).*sig_y; %计算原始数据回归方程的常数项
    50 for i=1:m
    51 xish(:,i)=xishu(:,i)./sig_x'*sig_y(i); %计算原始数据回归方程的系数
    52 end
    53 sol=[ch0;xish] %显示回归方程的系数,每一列是一个方程,每一列的第一个数是常数项
    54 save mydata x0 y0 num xishu ch0 xish

      求解过程如下:

      

      

      

      

     

      至此,偏最小二乘回归推导以及案例讲解完毕,通过第二部分可以了解片最小二乘回归的原理,这是论文正确写作的保证,参考第三部分可以使得你在具体应用中快速实现之,这是正确求解的保证。

      参考:

        《数学建模算法与引用》司守奎老师

    pdf下载链接:

    http://vdisk.weibo.com/s/t0L2pU6fgiP9L?category_id=0&parents_ref=t0L2pU6fgiPav

          

    转载于:https://www.cnblogs.com/duye/p/9031511.html

    展开全文
  • 主成分分析(PCA)原理详解

    万次阅读 多人点赞 2018-06-09 15:08:25
    主成分分析(PCA)原理详解 - Microstrong的文章 - 知乎https://zhuanlan.zhihu.com/p/377770741.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观...

    “微信公众号”

    1.相关背景

    在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。

    因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。

    2. 数据降维

    降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

    降维具有如下一些优点:

    • 1) 使得数据集更易使用。
    • 2) 降低算法的计算开销。
    • 3) 去除噪声。
    • 4) 使得结果容易理解。

    降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

    3. PCA原理详解

    3.1 PCA的概念

    PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

    思考:我们如何得到这些包含最大差异性的主成分方向呢?

    答案:事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。

    由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。

    既然提到协方差矩阵,那么就简单介绍一下方差和协方差的关系。然后概括介绍一下特征值分解矩阵原理、奇异值分解矩阵的原理。概括介绍是因为在我之前的《机器学习中SVD总结》文章中已经详细介绍了特征值分解原理和奇异值分解原理,这里就不再重复讲解了。可以看我的

    《机器学习中SVD总结》文章。地址:机器学习中SVD总结

    3.2 协方差和散度矩阵

    样本均值:

    样本方差:


    样本X和样本Y的协方差:

    由上面的公式,我们可以得到以下结论:

    (1) 方差的计算公式是针对一维特征,即针对同一特征不同样本的取值来进行计算得到;而协方差则必须要求至少满足二维特征;方差是协方差的特殊情况。

    (2) 方差和协方差的除数是n-1,这是为了得到方差和协方差的无偏估计。

    协方差为正时,说明X和Y是正相关关系;协方差为负时,说明X和Y是负相关关系;协方差为0时,说明X和Y是相互独立。Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。例如,对于3维数据(x,y,z),计算它的协方差就是:

    散度矩阵定义为:

    对于数据X的散度矩阵为。其实协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。这里值得注意的是,散度矩阵是SVD奇异值分解的一步,因此PCA和SVD是有很大联系。

    3.3 特征值分解矩阵原理

    (1) 特征值与特征向量

    如果一个向量v是矩阵A的特征向量,将一定可以表示成下面的形式:

    其中,λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。

    (2) 特征值分解矩阵

    对于矩阵A,有一组特征向量v,将这组向量进行正交化单位化,就能得到一组正交单位向量。特征值分解,就是将矩阵A分解为如下式:


    其中,Q是矩阵A的特征向量组成的矩阵,\Sigma则是一个对角阵,对角线上的元素就是特征值。

    具体了解这一部分内容看我的《机器学习中SVD总结》文章。地址:机器学习中SVD总结

    3.4 SVD分解矩阵原理

    奇异值分解是一个能适用于任意矩阵的一种分解的方法,对于任意矩阵A总是存在一个奇异值分解:

    假设A是一个m*n的矩阵,那么得到的U是一个m*m的方阵,U里面的正交向量被称为左奇异向量。Σ是一个m*n的矩阵,Σ除了对角线其它元素都为0,对角线上的元素称为奇异值。是v的转置矩阵,是一个n*n的矩阵,它里面的正交向量被称为右奇异值向量。而且一般来讲,我们会将Σ上的值按从大到小的顺序排列。

    SVD分解矩阵A的步骤:

    (1) 求的特征值和特征向量,用单位化的特征向量构成 U。

    (2) 求的特征值和特征向量,用单位化的特征向量构成 V。

    (3) 将或者的特征值求平方根,然后构成 Σ。

    具体了解这一部分内容看我的《机器学习中SVD总结》文章。地址:机器学习中SVD总结

    3.5 PCA算法两种实现方法

    (1) 基于特征值分解协方差矩阵实现PCA算法

    输入:数据集 ,需要降到k维。

    1) 去平均值(即去中心化),即每一位特征减去各自的平均值。、

    2) 计算协方差矩阵,注:这里除或不除样本数量n或n-1,其实对求出的特征向量没有影响。

    3) 用特征值分解方法求协方差矩阵的特征值与特征向量。

    4) 对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。

    5) 将数据转换到k个特征向量构建的新空间中,即Y=PX。

    总结:

    1)关于这一部分为什么用 ,这里面含有很复杂的线性代数理论推导,想了解具体细节的可以看下面这篇文章。

    CodingLabs - PCA的数学原理

    2)关于为什么用特征值分解矩阵,是因为 是方阵,能很轻松的求出特征值与特征向量。当然,用奇异值分解也可以,是求特征值与特征向量的另一种方法。

    举个例子:


    以X为例,我们用PCA方法将这两行数据降到一行。

    1)因为X矩阵的每行已经是零均值,所以不需要去平均值。

    2)求协方差矩阵:

    3)求协方差矩阵的特征值与特征向量。

    求解后的特征值为:

    对应的特征向量为:


    其中对应的特征向量分别是一个通解,可以取任意实数。那么标准化后的特征向量为:


    4)矩阵P为:


    5)最后我们用P的第一行乘以数据矩阵X,就得到了降维后的表示:


    结果如图1所示:


                                                                                        图1:数据矩阵X降维投影结果

    注意:如果我们通过特征值分解协方差矩阵,那么我们只能得到一个方向的PCA降维。这个方向就是对数据矩阵X从行(或列)方向上压缩降维。

    (2) 基于SVD分解协方差矩阵实现PCA算法

    输入:数据集,需要降到k维。

    1) 去平均值,即每一位特征减去各自的平均值。

    2) 计算协方差矩阵。

    3) 通过SVD计算协方差矩阵的特征值与特征向量。

    4) 对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

    5) 将数据转换到k个特征向量构建的新空间中。

    在PCA降维中,我们需要找到样本协方差矩阵的最大k个特征向量,然后用这最大的k个特征向量组成的矩阵来做低维投影降维。可以看出,在这个过程中需要先求出协方差矩阵,当样本数多、样本特征数也多的时候,这个计算还是很大的。当我们用到SVD分解协方差矩阵的时候,SVD有两个好处:

    1) 有一些SVD的实现算法可以先不求出协方差矩阵也能求出我们的右奇异矩阵V。也就是说,我们的PCA算法可以不用做特征分解而是通过SVD来完成,这个方法在样本量很大的时候很有效。实际上,scikit-learn的PCA算法的背后真正的实现就是用的SVD,而不是特征值分解。

    2)注意到PCA仅仅使用了我们SVD的左奇异矩阵,没有使用到右奇异值矩阵,那么右奇异值矩阵有什么用呢?

    假设我们的样本是m*n的矩阵X,如果我们通过SVD找到了矩阵最大的k个特征向量组成的k*n的矩阵 ,则我们可以做如下处理:


    可以得到一个m*k的矩阵X',这个矩阵和我们原来m*n的矩阵X相比,列数从n减到了k,可见对列数进行了压缩。也就是说,左奇异矩阵可以用于对行数的压缩;右奇异矩阵可以用于对列(即特征维度)的压缩。这就是我们用SVD分解协方差矩阵实现PCA可以得到两个方向的PCA降维(即行和列两个方向)。

    4. PCA实例

    (1)PCA的Python实现:

    ##Python实现PCA
    import numpy as np
    def pca(X,k):#k is the components you want
      #mean of each feature
      n_samples, n_features = X.shape
      mean=np.array([np.mean(X[:,i]) for i in range(n_features)])
      #normalization
      norm_X=X-mean
      #scatter matrix
      scatter_matrix=np.dot(np.transpose(norm_X),norm_X)
      #Calculate the eigenvectors and eigenvalues
      eig_val, eig_vec = np.linalg.eig(scatter_matrix)
      eig_pairs = [(np.abs(eig_val[i]), eig_vec[:,i]) for i in range(n_features)]
      # sort eig_vec based on eig_val from highest to lowest
      eig_pairs.sort(reverse=True)
      # select the top k eig_vec
      feature=np.array([ele[1] for ele in eig_pairs[:k]])
      #get new data
      data=np.dot(norm_X,np.transpose(feature))
      return data
    
    X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
    
    print(pca(X,1))

    上面代码实现了对数据X进行特征的降维。结果如下:

    (2)用sklearn的PCA与我们的PCA做个比较:

    ##用sklearn的PCA
    from sklearn.decomposition import PCA
    import numpy as np
    X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
    pca=PCA(n_components=1)pca.fit(X)
    print(pca.transform(X))

    结果如下:

    搞了半天结果不是很一样啊!分析一下吧!

    sklearn中的PCA是通过svd_flip函数实现的,sklearn对奇异值分解结果进行了一个处理,因为ui*σi*vi=(-ui)*σi*(-vi),也就是u和v同时取反得到的结果是一样的,而这会导致通过PCA降维得到不一样的结果(虽然都是正确的)。具体了解可以看参考文章9或者自己分析一下sklearn中关于PCA的源码。

    5. PCA的理论推导

    PCA有两种通俗易懂的解释:(1)最大方差理论;(2)最小化降维造成的损失。这两个思路都能推导出同样的结果。

    我在这里只介绍最大方差理论:

    在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。

    因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。

    比如我们将下图中的5个点投影到某一维上,这里用一条过原点的直线表示(数据已经中心化):

    假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)。

    计算投影的方法见下图:


    图中,红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是<x,u>(即或者)。

    6. 选择降维后的维度K(主成分的个数)

    如何选择主成分个数K呢?先来定义两个概念:


    选择不同的K值,然后用下面的式子不断计算,选取能够满足下列式子条件的最小K值即可。

    其中t值可以由自己定,比如t值取0.01,则代表了该PCA算法保留了99%的主要信息。当你觉得误差需要更小,你可以把t值设置的更小。上式还可以用SVD分解时产生的S矩阵来表示,如下面的式子:


    Reference:

    (1) 主成分分析(PCA)原理详解

    http://blog.csdn.net/zhongkelee/article/details/44064401

    (2) 机器学习之PCA主成分分析 - steed灬 - 博客园

    https://www.cnblogs.com/steed/p/7454329.html

    (3) 简单易学的机器学习算法——主成分分析(PCA)

    https://blog.csdn.net/google19890102/article/details/27969459

    (4) 机器学习实战之PCA - 笨鸟多学 - 博客园

    https://www.cnblogs.com/zy230530/p/7074215.html

    (5) 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 - LeftNotEasy - 博客园

    http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

    (6) 从PCA和SVD的关系拾遗

    https://blog.csdn.net/Dark_Scope/article/details/53150883

    (7) CodingLabs - PCA的数学原理

    http://blog.codinglabs.org/articles/pca-tutorial.html

    (8) PCA(主成分分析)python实现

    https://www.jianshu.com/p/4528aaa6dc48

    (9) 主成分分析PCA(Principal Component Analysis)在sklearn中的应用及部分源码分析

    https://www.cnblogs.com/lochan/p/7001907.html

    展开全文
  • 空间分析极其应用

    千次阅读 2007-02-09 15:30:00
    空间分析的对象是空间数据,空间分析的结果直接依赖于分析对象的空间位置,如果分析对象的空间位置发生了变化,则分析的结果也随之变化。正是这种对分析对象空间位置信息的依赖,形成了空间分析与传统统计分析的根本...
  • 数学建模之相关分析分类与总结 相关分析是一种重要的统计方法,相关...相关分析在工农业、水文、气象、社会经济和生物学等方面都有应用。1 数学建模中经常遇到研究变量之间关系的问题,变量之间关系类型多样,通常我们
  • 典型相关分析(Canonical correlation analysis)(一):基本思想 、复相关系数、偏相关系数 典型相关分析(Canonical correlation analysis)(二):原始变量与典型变量之间的相关性 、典型相关系数的检验 典型...
  • 最小二乘回归分析实例plsregress命令
  • 7.1 单因素方差分析 7.1.1 方差分析概念 7.1.2 单因素方差分析的数据结构 例7.1.1三种治疗方案对降血糖的疗效比较 7.1.3 单因素方差分析模型 7.2 双因素方差分析 ...7.3.3 一元线性回归分析应用 多元线性回归分析
  • 时间序列分析应用实例(使用Eviews软件实现)

    万次阅读 多人点赞 2020-01-08 13:40:28
    从图2可知,序列Qt的自相关系数(Autocorrelation)和相关系数(Partial correlation)均在阶数1处突然衰减为在零附近小值波动,因此我们初步选择AR(1)、ARMA(1,1)这两个模型拟合样本数据 3 模型参数估计 ...
  • 时间序列分析系统综述及应用

    千次阅读 2020-01-22 11:27:56
    系统日志分析 1 需求分析 XX系统的日志量非常庞大,每天落地日志将近四亿到五亿条。XX表有二十几个字段。这里选择对每日业务量峰值和业务总量进行分析。 1.1 分析对象 每日业务量峰值、业务总量。 1.2 分析目标...
  • 应用系统负载分析与磁盘容量预测

    千次阅读 2018-10-03 20:12:36
    截尾就是在某阶之后,系数都为 0 ,怎么理解呢,看上面偏相关的图,当阶数为 1 的时候,系数值还是很大, 0.914. 二阶长的时候突然就变成了 0.050. 后面的值都很小,认为是趋于 0 ,这种状况就是截尾。再就是拖尾,...
  • 主要论述了基于深度学习方法的图像语义分析,包括图片分类、图片搜索、图片标注(image2text、image2sentence),以及训练深度神经网络的一些tricks,并介绍语义分析方法在腾讯广点通上的实际应用。以下为全文内容:...
  • 最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称最小二乘回归为第二代回归分析方法。...
  • EXCEL在水质监测分析工作中的应用

    千次阅读 2009-08-13 09:54:00
    摘 要:Excel在水质计算方面的应用广泛,包括监测数据的计算、成果的评价和水环境监测质量控制工作的计算措施,有效地保证了监测数据在分析中的及时性和可靠性,从而使日常工作规范化,达到水质监测表格的通用性和...
  • H无穷控制理论与应用案例分析

    千次阅读 2020-10-30 21:45:54
    在直升机省子系统中x=[w, psi, r , a0, a1, b1 ],将意味着不能将psi和r同时作为输出,因为没有任何一个控制器能同时镇定psi和r,可能的原因是他们是积分的关系,具体C应该怎么取值能让所有yi同时镇定,条件是?...
  • 黄勇 爱分析 首席分析师 报告执笔人 莫业林 爱分析 分析师 李毓 爱分析 分析师 外部专家(按姓氏拼音排序) 陈志豪 华东空管局 气象中心气象创新实验室主任 胡一川 来也科技 CTO 黄九鸣 星汉数智 CEO 简仁贤 竹间...
  • 典型相关分析(CCA)简述

    千次阅读 2020-10-24 09:44:18
    典型相关分析(Canonical Correlation Analysis)是研究两组变量之间相关关系的一种多元统计方法,它能够揭示出两组变量之间的内在联系。         在一元统计分析中,用相关系数来...
  • 本博客通过浅显的语言简单介绍了凸优化问题中的拉格朗日对偶问题,KKT条件,并阐述了KKT条件的几何分析
  • 平稳时间序列分析 一个序列经过预处理被识别为平稳非白噪声序列,就说明该序列是一个蕴含着相关信息的平稳序列。在统计上,我们通常是建立一个线性模型来拟合该序列的发展,借此提取该序列中的有用信息。ARMA(auto ...
  • 数据挖掘在软件缺陷管理应用的可行性分析 作者:寒阡 综述:  众观很多的缺陷管理系统,都是为了更加合理的帮助开发进行缺陷管理。没有对见到的事物有充分的度量或适当的准则去判断、评估和决策,这样是无法进行...
  • 第一章 绪论1.1 论文...数据挖掘技术是数理统计分析应用的延伸和发展,假如人们利用数据库的方式从被动地查询变成了主动发现知识的话,那么概率论和数理统计可以为我们从数据归纳知识这样的数据挖掘技术提供理论基础
  • 根据检验的结果可以将序列分为不同的类型,对不同的类型我们采用不同的分析方法。 2.1 平稳性检验特征统计量:平稳性是某些时间序列具有的一种统计特征。要描述清楚这个特征,我们必须借助如下统计工具: 概率分布 ...
  • 王燕《应用时间序列分析》学习笔记1

    千次阅读 多人点赞 2018-03-14 22:28:24
    在时间序列分析中,方差齐性是一个非常重要的限制条件,因为根据马尔科夫定理,只有方差齐性假设成立时,我们用最小二乘法得到的位置参数估计才是准确的、有效的。如果假设不成立,那么最小二乘估计值就不是方差最小...
  •  红外摄像机应用原理   一般红外摄像机主通常由:感光芯片(CCD或CMOS)、DSP处理芯片、红外LED补光灯板、镜头、摄像机外壳、线缆等主要部件组成。下面对每个部件进行深一步的剖析:   1、感光芯片   ...
  • 关于大学计算机相关专业学习路线的见解与分析

    万次阅读 多人点赞 2018-03-18 12:25:27
    从就业的角度来说,国内互联网大厂相关技术岗位招聘均要求掌握数据结构与算法,熟悉操作系统、计算机组成原理、计算机网络的相关知识,虽没有考研难度高,但也是必要条件。 基础篇 C语言 编程语言是编程的工具,...
  • 有限差分法求解微分方程

    万次阅读 多人点赞 2016-11-06 14:23:03
    微分方程在工程技术(甚至图像处理)中有重要应用。差分方法又称为有限差分方法或网格法,是求微分方程定解问题的数值解中应用最广泛的方法之一。本文主要介绍利用有限差分(涉及Jacobi迭代和Gauss-Siedel迭代)...
  • 最小二乘法

    万次阅读 多人点赞 2016-06-06 22:06:10
    最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称最小二乘回归为第二代回归分析方法。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,717
精华内容 11,086
关键字:

偏相关分析应用条件