精华内容
下载资源
问答
  • 最小二乘回归是一种新型的多元分析方法,回归建模提高模型的精度和可靠性
  • 提出了基于偏最小二乘回归模型的带钢热镀锌质量监控方法。以带钢热镀锌生产中带钢力学性能和锌层质量的质量监控为研究对象,用偏最小二乘方法建立了生产过程参数与质量结果之间的回归模型,对生产过程控制能力进行了...
  • 算例分析表明,偏最小二乘回归模型所分离出的各个影响分量能时大坝实测变量的变化作出合理的物理成因解释,而且偏最小二乘回归模型的预测能力也远优于普通最小二乘回归模型,前者的预测误差平方和约只有后者的二十分...
  • 最小二乘回归(一):模型介绍

    千次阅读 2019-04-29 09:50:37
    最小二乘回归(一):模型介绍 偏最小二乘回归(二):一种更简洁的计算方法 偏最小二乘回归(三):身体特征与体能训练结果的 案例分析 目录 1 偏最小二乘回归方程式 偏最小二乘回归分析建模的具体步骤 ...

    偏最小二乘回归系列博文:

    偏最小二乘回归(一):模型介绍

    偏最小二乘回归(二):一种更简洁的计算方法

    偏最小二乘回归(三):身体特征与体能训练结果的 案例分析


    目录

    1 偏最小二乘回归方程式

     偏最小二乘回归分析建模的具体步骤

    模型效应负荷量

               交叉有效性检验


    在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用 一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量), 除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法

    偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很 多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分 析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以 同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些 信息。

    本章介绍偏最小二乘回归分析的建模方法;通过例子从预测角度对所建立的回归模 型进行比较。

    1 偏最小二乘回归方程式

     偏最小二乘回归分析建模的具体步骤

     

    模型效应负荷量

               (5)交叉有效性检验


    偏最小二乘回归(二):一种更简洁的计算方法

    偏最小二乘回归(三):身体特征与体能训练结果的 案例分析

    展开全文
  • 在此基础上,本书详细介绍了偏最小二乘回归的线性与非线性方法,其中包括了偏最小二乘回归线性模型、偏最小二乘通径分析、递阶偏最小二乘回归模型、成分数据回归的建模方法和应用技术、基于函数变换的非线性偏最小...
  • 考虑到军用飞机采购价格样本数据少、难于...结果表明,在军用飞机价格预测方面,与未筛选变量的回归模型和逐步多元回归相比,经过变量筛选的偏最小二乘回归模型预测的精度更高,更能体现采购价格与飞机性能参数之间的
  • 摘要:考虑到军用飞机采购价格样本数据少、难于预测的特点和偏最小二乘回归方法在处理小样本多元数 ...经过变量筛选的偏最小二乘回归模型预测的精度 更高,更能体现采购价格与飞机性能参数之间的关系.
  • 利用气象因子计算水面蒸发量过程中, 各自变量之间经常存在多重相关性, 从而导致传统的多元回归模型(基于最小二乘法)的...该文采用偏最小二乘回归建模, 有效地解决了各气象因子之间的多重相关性, 得到满意效果。
  • 针对常规多元回归模型无法克服预报因子间复相关性的问题,提出了基于偏最小二乘回归的洪水预报方法.通过结合遗传算法与偏最小二乘回归来进行因子筛选,对筛选后的因子采用 Bootstrap方法进行检验,再建立基于偏最小...
  • 最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很 多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归 建立的模型具有传统的经典回归分析等方法所没有的优点。
  • 最小二乘回归分析

    2020-07-15 22:01:44
    在实际问题中,要研究两组多重相关变量间的相互依赖关系时,可使用的方法有:经典多元线性回归分析(MLR)、主成分回归分析(PCR)、偏最小二乘回归分析(PLS)。 当两组变量的个数很多,且都存在多重相关性,而观测...

    在实际问题中,要研究两组多重相关变量间的相互依赖关系时,可使用的方法有:经典多元线性回归分析(MLR)、主成分回归分析(PCR)、偏最小二乘回归分析(PLS)。
    当两组变量的个数很多,且都存在多重相关性,而观测的样本数又较少时,用PLS建立模型具有MLR等方法所没有的优点。
    PLS在建模的过程中集中了主成分分析、典型相关分析、线性回归分析方法的特点,除了能提供一个合理的回归模型外,还可以提供一些更深入的信息。

    1. 偏最小二乘回归分析概述

    假定p个因变量y1,,ypy_1,\cdots,y_p与m个自变量x1,,xmx_1,\cdots,x_m均为标准化变量。自变量组合因变量组的标准化观测数据矩阵分别为An×m,Bn×p\bm{A}^{n\times m},\bm{B}^{n\times p},偏最小二乘回归分析建模的具体步骤如下:

    1. 分别提取两变量组的第一对成分u1,v1u_1,v_1,代表自变量和因变量的线性组合u1=ρ(1)TX ,v1=γ(1)TYu_1=\bm{\rho^{(1)T}X}\ ,v_1=\bm{\gamma^{(1)T}Y}为了回归分析的需要,要求:① u1u_1v1v_1各自尽可能多地提取所在变量组的变异信息;② u1u_1v1v_1的相关程度达到最大。
      由两组变量集的标准化观测数据矩阵A\bm{A}B\bm{B},可以计算第一对成分的得分向量,记为u^1\bm{\hat{u}_1}v^1\bm{\hat{v}_1}u^1=Aρ(1) ,v^1=Bγ(1)\bm{\hat{u}_1=A\rho^{(1)}}\ ,\bm{\hat{v}_1=B\gamma^{(1)}}此时可将以上两个要求化为数学上的条件极值问题max(u^1v^1)=ρ(1)TATBγ(1)s.t.{ρ(1)Tρ(1)=ρ(1)2=1γ(1)Tγ(1)=γ(1)2=1\max(\bm{\hat{u}_1\cdot\hat{v}_1})=\bm{\rho^{(1)T}A^TB\gamma^{(1)}}\\ \text{s.t.}\begin{cases}\bm{\rho^{(1)T}\rho^{(1)}}=||\bm{\rho^{(1)}}||^2=1\\\bm{\gamma^{(1)T}\gamma^{(1)}}=||\bm{\gamma^{(1)}}||^2=1\end{cases}利用拉格朗日乘数法,将问题转为计算矩阵M=ATBBTA\bm{M=A^TBB^TA}的特征值和特征向量,其中最大特征值对应的单位特征向量就是ρ(1)\bm{\rho^{(1)}},且有γ(1)=1λ1BTAρ(1)\bm{\gamma^{(1)}}=\cfrac{1}{\lambda_1}\bm{B^TA\rho^{(1)}}
    2. 建立y1,,ypy_1,\cdots,y_pu1u_1的回归,及x1,,xmx_1,\cdots,x_mu1u_1的回归。假定回归模型为{A=u^1σ(1)T+A1B=u^1τ(1)T+B1\begin{cases}\bm{A=\hat{u}_1\sigma^{(1)T}+A_1}\\\bm{B=\hat{u}_1\tau^{(1)T}+B_1}\end{cases}式中σ(1)=[σ11,,σ1m]T ,τ(1)=[τ11,,τ1p]T\bm{\sigma^{(1)}}=[\sigma_{11},\cdots,\sigma_{1m}]^T\ ,\bm{\tau^{(1)}}=[\tau_{11},\cdots,\tau_{1p}]^T分别为多对一的回归模型中的参数向量;A1,B1\bm{A_1,B_1}是残差阵。则回归系数向量σ(1),τ(1)\bm{\sigma^{(1)}},\bm{\tau^{(1)}}的最小二乘估计为{σ(1)=ATu^1/u^12τ(1)=BTu^1/u^12\begin{cases}\bm{\sigma^{(1)}=A^T\hat{u}_1/||\hat{u}_1||^2}\\\bm{\tau^{(1)}=B^T\hat{u}_1/||\hat{u}_1||^2}\end{cases}σ(1),τ(1)\bm{\sigma^{(1)},\tau^{(1)}}为模型效应负荷量。
    3. 若残差阵B1\bm{B_1}中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已经满足需要了,可以停止抽取成分。否则用残差阵A1,B1\bm{A_1,B_1}代替A,B\bm{A,B},重复以上步骤。得{A=u^1σ(1)T+u^2σ(2)T+A2B=u^1τ(1)T+u^2τ(2)T+B2\begin{cases}\bm{A=\hat{u}_1\sigma^{(1)T}+\hat{u}_2\sigma^{(2)T}+A_2}\\\bm{B=\hat{u}_1\tau^{(1)T}+\hat{u}_2\tau^{(2)T}+B_2}\end{cases}
    4. n×mn\times m数据阵A\bm{A}的秩为rmin(n1,m)r\leqslant\min(n-1,m),则存在r个成分u1,,uru_1,\cdots,u_r,使得{A=u^1σ(1)T++u^rσ(r)T+ArB=u^1τ(1)T++u^rτ(r)T+Br\begin{cases}\bm{A=\hat{u}_1\sigma^{(1)T}+\cdots+\hat{u}_r\sigma^{(r)T}+A_r}\\\bm{B=\hat{u}_1\tau^{(1)T}+\cdots+\hat{u}_r\tau^{(r)T}+B_r}\end{cases}uxu\sim x带入yuy\sim u,即得yxy\sim x的偏最小二乘回归方程。
    5. 交叉有效性检验:一般情况下,偏最小二乘法并不需要选用存在的r个成分u1,,uru_1,\cdots,u_r来建立回归式,只选用前ll个成分即可得到预测能力较好地回归模型。对于建模所需提取的成分个数ll,可通过交叉有效性检验来确定。
      每次舍去第i(i=1,2,,n)i(i=1,2,\cdots,n)个观测数据,对余下n-1个观测数据用偏最小二乘回归方法建模,并考虑抽取h(hr)h(h\leqslant r)个成分后拟合的回归式,然后把舍去的自变量组第i个观测数据代入所拟合的回归方程式,得到yj(j=1,2,,p)y_j(j=1,2,\cdots,p)在第i个观测点上的预测值b^(i)j(h)\hat{b}_{(i)j}(h)
      i=1,2,,ni=1,2,\cdots,n重复以上的验证,抽取h个成分时第j个因变量yjy_j的预测误差平方和为PRESSj(h)=i=1n[bijb^(i)j(h)]2\operatorname{PRESS}_j(h)=\sum_{i=1}^n[b_{ij}-\hat{b}_{(i)j}(h)]^2Y=[y1,,yp]T\bm{Y}=[y_1,\cdots,y_p]^T的预测误差平方和为PRESS(h)=j=1pPRESSj(h)\operatorname{PRESS}(h)=\sum_{j=1}^p\operatorname{PRESS}_j(h)另外,再采用所有的样本点,拟合含h个成分的回归方程。此时,记第i个样本点的预测值为b^ij(h)\hat{b}_{ij}(h),则可以定义yjy_j的误差平方和为SSj(h)=i=1n[bijb^ij(h)]2\operatorname{SS}_j(h)=\sum_{i=1}^n[b_{ij}-\hat{b}_{ij}(h)]^2定义Y\bm{Y}的误差平方和为SS(h)=j=1pSSj(h)\operatorname{SS}(h)=\sum_{j=1}^p\operatorname{SS}_j(h)PRESS(h)\operatorname{PRESS}(h)达到最小值时,对应的h即为所求得成分个数l。定义交叉有效性为Qh2=1PRESS(h)SS(h1)Q^2_h=1-\cfrac{\operatorname{PRESS}(h)}{\operatorname{SS}(h-1)}在建模的每一步计算结束前,均进行交叉有效性检验,如果将限制值设为0.05,在第h步有Qh2<10.952=0.0975Q_h^2<1-0.95^2=0.0975,则模型达到精度要求,可停止提取成分;否则表示第h步提取的uhu_h成分边际贡献显著,应继续第h+1步计算。

    2. Matlab偏最小二乘回归命令plsregress

    [XL,YL,XS,YS,BETA,PCTVAR,MSE,stats] = plsregress(X,Y,ncomp)
    
    • X为[n,m]的自变量数据阵;Y为[n,p]的因变量数据阵;ncomp为成分个数,默认为min(n-1,m)
    • XL为[m,ncomp]的负荷量矩阵σ\bm{\sigma};YL为[p,ncomp]的负荷量矩阵τ\bm{\tau};XS为u^\bm{\hat{u}}的得分矩阵;YS为v^\bm{\hat{v}}的得分矩阵
    • BETA的每一列对应yxy\sim x的回归表达式;PCTVAR是一个两行的矩阵,两行分别代表每个元素对应自变量和因变量提出成分的贡献率;MSE是一个两行的矩阵,两行分别代表自变量和因变量对应提出成分之间回归方程的剩余标准差
    • stats返回4个值,其中stats.W的每一列对应特征向量ρ\bm{\rho},Matlab算得的特征向量不是单位向量
    展开全文
  • 5、spss做加权最小二乘回归及岭回归

    千次阅读 2015-04-15 15:23:34
    包括适用于含有加权变量的加权最小二乘回归方程等。然后继续讨论上一节中没有讨论完毕的如何解决多重共线性这个问题。 讲加权最小二乘回归之前,我们首先还是举个例子。假设我们想考察全国三十一个省的某种疾病的...

    上一节我们讲到一般多元线性回归的操作方法。本节要介绍的是多元线性回归的其他几种情况。包括适用于含有加权变量的加权最小二乘回归方程等。然后继续讨论上一节中没有讨论完毕的如何解决多重共线性这个问题。

    讲加权最小二乘回归之前,我们首先还是举个例子。假设我们想考察全国三十一个省的某种疾病的发病率和每个省的面积,平均气温等的关系,那么我们知道,这三十一个省的人口肯定是不同的。而且差距还蛮大。并且最重要的,我们知道,发病率的高低很可能和人口的多少有关系(考虑传染性,人口密度什么的),那么这个时候我们直接用最小二乘回归就不是那么合适了,我们更好的选择是加权最小二乘回归法。也就是说,当样本和某一个权数存在某种关系的时候,我们就用加权最小二乘回归。

    在上一节中我们提到过在线性回归主面板最下边有一个WLS权重框框。在加权最小二乘回归方法里边,我们就要用到这个框框了。我们在设置变量的时候除了自变量和因变量,还要设置一个权数变量(在上述的医学例子里,这个变量可以是每个省的人口。在其他一些金融案例里边,比方研究高价股票和低价股票的波动时,由于这两种股票在其他因素相同时的波动幅度不同,因此需要设一个权数,这个权数可能就是自己设定的了。)然后我们把这个权数变量选入到WLS权重框里边。其他过程和一般线性回归一致。

    解释结果的时候也和一般线性回归类似,只是有一个小小的地方需要大家注意一下。我们知道,模型汇总表里边的决定系数是一个比较重要的参考数据。它会告诉你你的方程能解释你的模型的百分之多少,从而从侧面考察了你的方程的合理性。但是不幸的是,这个决定系数在加权线性回归里边出现了比较严重的偏差。这个和决定系数的计算方法有关系。因此假如我们用同样的数据做一遍加权的回归,和一遍不加权的回归,往往会发现不加权的方程决定系数大于加权的。但是这个并不能代表不加权的方程就一定比加权后的准确。实际上加权以后的模型和不加权的模型到底孰优孰劣,好的那个方程又能好多少,这些问题spss都不能给出直接的数据。因此在使用加权最小二乘回归的时候应当格外谨慎。

    此外,由于有时候权重并不特别明确,(比如上边那个金融的案例),这时候可以使用分析——回归——权重估计这个选项。这个选项的主面板和回归分析主面板类似,自变量,因变量,权重。变量选择的方法和上边的加权回归也类似。这个方法也需要你事先给出一个大概的权重变量,然后系统会做一定的调整来使方程达到最佳效果。结果解释等也类似,就不赘述了。

    除了加权回归以外,还有一个比较特别的线性回归是曲线参数估计。

    如果你的线性模型拟合的不是那么理想,那么你的模型很可能就是曲线型的(尤其是你有两个变量的时候,线性模型有时候会非常糟糕)。需要打开分析——回归——曲线估计,选择你的因变量,自变量。此外下边还有十一种模型供你选择。选好以后,结果会给出每种模型的决定系数,F值,P值,你可以从这些数据中判断哪个方程最适合你的模型。

    当然,这个不会给出你非常详细的数据。如果你还想要看更详细的数据,比如方程中每个参数的P值什么的,你最好还是用线性回归做一下。啊,当然,当然,你的数据肯定是没办法直接做线性回归的,不然也就不用做曲线估计了。你需要首先转换你的数据。举个例子:Y=X1^2*a1+X2^2*a2……,假设你的模型做出来符合这种形式。那你首先要在数据——计算新变量里边,计算出新变量x1的方,x2的方,然后在做这两个新变量和因变量的一般线性回归。当然,如果你想要在方程的自变量里在加一个x1和x2的积,你也可以这么加上去。

    那么除了logistic回归以外,线性回归的内容基本就完毕了。下边我们继续讨论一个问题:如何消除自变量间的共线性?

    上一节里边提到,如果VIF(方差因子膨胀率)合格,而DW不合格的话,我们可以使用广义差分法来改善DW,得到好的模型。那这一节,我们就来讨论一下VIF不合格的情况。我们已经知道,如果VIF不合格的话,说明自变量存在严重的共线性。在回归的范畴里边,通常有三种方法可以解决这个问题。他们分别是偏最小平方回归,岭回归,路径分析。

    偏最小平方回归对于初学者来讲,是一个并不常用的回归方法。如果想用这个分析的话,需要额外下载相关模块。下好相关模块以后,打开分析——回归——部分最小回归,(如果没有下载相关模块的话,他会提示你下载),打开主面板,这是一个相当简单的面板,选好自变量,因变量之后,点确定就可以。结果会呈现四个表,也并不难判断。就不赘述了。

    岭回归可以下载相关模块,也可以自己编程来实现。大部分人都会选择后一种方法。这个主要是因为代码很简洁,很容易编写。代码如下:

    INCLUDE’d:\spss20.0\Ridge Regression.sps’.

    Ridgereg enter=X1 X2 X3

    /dep=y

    诺,就这么三行。第一行单引号里边填写你的spss安装目录。比如我的按在d盘下面,所以我就填d:\spss20.0,如果你的按在c盘,那就填C盘呗。然后目录后边那个ridge regression,是最小二乘平方的宏的调用。然后第二行X1,X2,X3的位置填写你的自变量的名字。有几个就填几个。中间用空格隔开。第三行y的位置填你的因变量。运行的时候,打开文件——新建——语法,进入语法编辑器窗口,输入上边的代码,然后点运行——全部就可以了。结果会有一个系数表,这个表的第一列是K值,第二列是决定系数,第三列往后是你的自变量。其中k值会从0开始增大,同时决定系数也会慢慢变小,最终趋于稳定。(岭回归舍弃了一定的信息,从而改善了多重共线性)要从这张表里边选取合适的k值,使决定系数尽量大,同时尽量稳定。选好k值就可以参照系数写出方程了。此外在岭回归里边是不会输出常数的。这也是和一般回归方法的一个不同之处。

    岭回归和偏最小平方回归比较而言,岭回归的优势在于容易操作。偏最小平方回归的优势在于可以用于例数很少的情况。如果例数很少,自变量又很多,甚至例数都少于自变量的数目,那么就一定要用偏最小平方回归了。额,通常在金融领域不会发生这种情况,但是在一些特殊的领域,医学啊什么的,则是有可能发生的。因此在某种程度上来讲,偏最小平方回归是给特殊需要的人使用的。

    最后补充介绍一下路径分析。如果说前边两种方法都是从过程中实现的话,那么路径分析就是从专业角度来刻画方程了。举个例子,比如你想看看一朵鲜花的开放时间和阳光强度,空气湿度,空气温度,日照时间等等的关系,做出分析来一看,存在共线性。如果你是专业人员,那么很可能你就知道,由于空气温度受到阳光强度,和日照时间的影响,所以你的方程就存在了共线性。所以呢,你就能写出一个空气温度,阳光强度,日照时间之间的一个回归方程。然后你就能画出一个路径图,代表阳光强度的圈圈不仅直接影响了花朵开放时间,而且还影响了空气温度,从而间接影响了花朵开放时间,并且你还能写出彼此之间的影响系数。这就是路径分析的主要内容。

    当然路径分析需要有专业知识的人来做。并且呢,通常需要经过许多尝试,才能正确的写出因变量和自变量之间的方程。而且,最重要的是,路径分析只能帮助我们搞清楚自变量之间到底存在怎么样的共线性,对于矫正方程没有什么作用。也就是说,方程的决定系数可能依然很糟糕。所以它更多的是用来做演示图或者什么的,对于改善多重共线性真的没什么用。

    解决多重共线性的常见方法可以告一段落了。在非线性回归,分类回归之后我们介绍因子分析时将会旧话重提,再次讨论多重共线性的问题。


    展开全文
  • 数学建模之偏最小二乘回归分析

    千次阅读 2020-07-18 12:20:51
    最小二乘回归(PLS-Partial Least Squares)是一种新型的多元统计数据分析方法,是一种多因变量对多自变量的回归建模方法,是对最小二乘方法的推广。 优点: 1)提供了一种多因变量对多自变量的回归建模方法; 2)...

    EverydayOneCat

    💯💯!

    cacd00df1fa0ccce9f98ac004a3f759a72ba7ef1.jpg@518w_1e_1c

    知识点

    1.偏最小二乘回归介绍

    偏最小二乘回归(PLS-Partial Least Squares)是一种新型的多元统计数据分析方法,是一种多因变量对多自变量的回归建模方法,是对最小二乘方法的推广。

    优点:

    1)提供了一种多因变量对多自变量的回归建模方法;
    2)有效地解决变量之间的多重共线性问题;
    3)适合当样本点数量少于自变量个数时进行回归建模;
    4)最终模型中含原有所有自变量,回归系数容易解释。
    5)计算简单、预测精度高,易于定性解释。

    偏最小二乘回归≈主成分分析+典型相关分析+多元回归

    2.偏最小二乘回归法的建模

    (1)建立回归方程进行共线性检验
    (2)若存在共线性,进行偏最小二乘回归
    (3)确定成分个数
    (4)建立偏最小二乘回归模型,进行解释

    例:某康复俱乐部对20名中年人测量了
    三个生理指标:体重x1, 腰围x2, 脉搏x3
    三个训练指标: 单杠y1, 弯曲y2, 跳高y3
    试用偏最小二乘回归建立由三个生理指标分别预测三个训练指标的回归模型。

    image-20200718112522359

    SAS代码:

    data example;
    input x1-x3 y1-y3 @@;
    cards; @@:/**/指针控制符,读取下面数据时自动换行
    输入数据
    ;
    proc corr data=example;  /*proc:过程步的开始,表示调用*/
    var x1-x3 y1-y3;  /*corr:相关系数矩阵*/
    run;
    proc pls data=example cv=one details;/*pls: 偏最小二乘回归;cv=one:舍一交叉有效性检验*/ 
    model y1-y3=x1-x3/solution; /*solution:标准化和原本的都有*/ 
    run;
    

    相关系数矩阵:

    image-20200718112747463

    1.体重和腰围正相关; 2.体重、腰围与脉搏负相关;
    3.单杠、跳高、弯曲的训练成绩与体重、腰围负相关,与脉搏正相关

    用交叉验证法确定提取成分个数:

    image-20200718112912058

    由结果可知,采用舍一交叉验证法提取1个成分,可使得PRESS最小

    image-20200718112948704

    提取的1个成分解释自变量的比率为69.4781%,解释因变量的比率为20.9447%。

    标准化模型参数估计:

    image-20200718113031396

    由表可写出标准化变量的回归方程,结果如下:

    image-20200718113049673

    原始模型的参数估计:

    image-20200718113104742

    还原成原始变量的回归方程,结果如下:

    image-20200718113121829

    作业

    下列数据是2个因变量和6个自变量。请用偏最小二乘回归建立方程组,并预测最后四个数的因变量值。

    Y1 Y2 X1 X2 X3 X4 X5 X6
    1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43
    920.11 2720 345.46 6501 342.8 115.2 110.6 582.51
    2849.52 1258 704.87 4839 2233.3 115.2 115.8 1234.85
    1092.48 1250 290.90 4721 717.3 116.9 115.6 697.25
    832.88 1387 250.23 4134 781.7 117.5 116.8 419.39
    2793.37 2397 387.99 4911 1371.1 116.1 114.0 1840.55
    1129.20 1872 320.45 4430 497.4 115.2 114.2 762.47
    2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.37
    2462.57 5343 996.48 9279 207.4 118.7 113.0 1642.95
    5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64
    3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.59
    2003.58 1254 474.00 4069 908.3 114.8 112.7 824.14
    2003.58 1254 474.00 4069 908.3 114.8 112.7 824.14
    2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67
    1205.11 1182 282.84 4211 411.7 116.9 115.9 571.84
    5002.34 1527 1229.55 5154 1196.6 117.6 114.2 2207.69
    3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92
    2391.42 1527 571.68 4685 849.0 120.0 116.6 1220.72
    2195.70 1408 422.61 4797 1011.8 119.0 115.5 843.83
    5381.72 2699 1639.83 8250 656.5 114.0 111.6 1396.35
    1606.15 1314 382.59 5105 556.0 118.4 116.4 554.97
    364.17 1814 198.35 5340 232.1 113.5 111.3 64.33
    3534.00 1261 822.54 4645 902.3 118.5 117.0 1431.81
    630.07 942 150.84 4475 301.1 121.4 117.2 324.00
    1206.68 1261 334.00 5149 310.4 121.3 118.1 716.65
    55.98 1110 17.87 7382 4.2 117.3 114.9 5.57
    1000.03 1208 300.27 4396 500.9 119.0 117.0 600.98
    114.81 5493 507.0 119.8 116.5 468.79
    47.76 5753 61.6 118.0 116.3 105.80
    61.98 5079 121.8 117.1 115.3 114.40
    376.95 5348 339.0 119.7 116.7 428.76

    调用SAS 软件中的pls 函数作偏最小二乘回归,SAS代码如下:

    data ex;
    input y1-y2 x1-x6@@;
    cards;
    1394.89	2505	519.01	8144	373.9	117.3	112.6	843.43
    920.11	2720	345.46	6501	342.8	115.2	110.6	582.51
    2849.52	1258	704.87	4839	2233.3	115.2	115.8	1234.85
    1092.48	1250	290.90	4721	717.3	116.9	115.6	697.25
    832.88	1387	250.23	4134	781.7	117.5	116.8	419.39
    2793.37	2397	387.99	4911	1371.1	116.1	114.0	1840.55
    1129.20	1872	320.45	4430	497.4	115.2	114.2	762.47
    2014.53	2334	435.73	4145	824.8	116.1	114.3	1240.37
    2462.57	5343	996.48	9279	207.4	118.7	113.0	1642.95
    5155.25	1926	1434.95	5943	1025.5	115.8	114.3	2026.64
    3524.79	2249	1006.39	6619	754.4	116.6	113.5	916.59
    2003.58	1254	474.00	4069	908.3	114.8	112.7	824.14
    2003.58	1254	474.00	4069	908.3	114.8	112.7	824.14
    2160.52	2320	553.97	5857	609.3	115.2	114.4	433.67
    1205.11	1182	282.84	4211	411.7	116.9	115.9	571.84
    5002.34	1527	1229.55	5154	1196.6	117.6	114.2	2207.69
    3002.74	1034	670.35	4344	1574.4	116.5	114.9	1367.92
    2391.42	1527	571.68	4685	849.0	120.0	116.6	1220.72
    2195.70	1408	422.61	4797	1011.8	119.0	115.5	843.83
    5381.72	2699	1639.83	8250	656.5	114.0	111.6	1396.35
    1606.15	1314	382.59	5105	556.0	118.4	116.4	554.97
    364.17	1814	198.35	5340	232.1	113.5	111.3	64.33
    3534.00	1261	822.54	4645	902.3	118.5	117.0	1431.81
    630.07	942	150.84	4475	301.1	121.4	117.2	324.00
    1206.68	1261	334.00	5149	310.4	121.3	118.1	716.65
    55.98	1110	17.87	7382	4.2	117.3	114.9	5.57
    1000.03	1208	300.27	4396	500.9	119.0	117.0	600.98
    ;
    proc corr data=ex;
    var y1-y2 x1-x6;
    run;
    proc pls data=ex cv=one details;
    model y1-y2=x1-x6/solution;
    run;
    

    用交叉验证法确定提取成分个数:

    image-20200718115857454

    提取4 个成分可使得PRESS 最小。

    image-20200718115941974

    提取的4 个成分解释自变量的比率为94.5063%,解释因变量的比率为82.7957%,说明建模效果较好。

    原模型的参数估计:

    image-20200718120044252

    根据分析结果,可得到原始变量的回归方程。

    𝑦1 = −2598.08360 + 2.92088𝑥1 − 0.05099𝑥2 + 0.38517𝑥3 − 55.58412𝑥4 + 80.15261𝑥5 + 0.42225𝑥6

    𝑦2 = 12626.50026 − 0.59073𝑥1 + 0.37517𝑥2 − 0.19742𝑥3 + 52.63768𝑥4 − 167.85207𝑥5 + 0.74289𝑥6

    data ex;
    input y1-y2 x1-x6@@;
    y11=-2598.08360+2.92088*x1-0.05099*x2+0.38517*x3-55.58412*x4+80.15261*x5+0.42225*x6;
    q1+(y1-y11)**2;
    y21=12626.50026-0.59073*x1+0.37517*x2-0.19742*x3+52.63768*x4-167.85207*x5+0.74289*x6;
    q2+(y2-y21)**2;
    cards;
    数据区
    . . 114.81	5493	507.0	119.8	116.5	468.79
    . . 47.76	5753	61.6	118.0	116.3	105.80
    . . 61.98	5079	121.8	117.1	115.3	114.40
    . . 376.95	5348	339.0	119.7	116.7	428.76
    ;
    proc print;
    var q1 q2 y11 y21;
    run;
    

    image-20200718120955013

    对模型做残差检验,得到y1 和y2 的总残差分别为1985848.01、6386427.07,故此模型拟合不佳。

    预测结果

    image-20200718121111316

    结语

    今晚IG打RNG,芜湖春晚又到了。我已经开始唱了你们呢:难忘今宵难忘今宵~~

    展开全文
  • 模型多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网 语言:R语言 参考书:应用预测建模 Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译 案例 #载入...
  • MATLAB,可直接替换数据运行。主成分回归分析 Principal Component Regression(PCR)是一种多元回归分析方法,旨在解决自变量间存在多重共线性问题。
  • 模型多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网 语言:R语言 参考书:应用预测建模 Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译 案例: ( b)在...
  • 最小二乘回归

    2017-11-21 21:15:20
    最小二乘法(Least squares又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为...
  • 多元回归&最小二乘

    2019-09-15 23:43:01
    最小二乘回归分析的区别: 最小二乘法是在模型确定的情况下对未知参数由观测数据来进行估计,而回归分析则是研究变量间相关关系的统计分析方法。 ...
  • 最小二乘回归分析原理详解背景偏最小二乘回归分析 Partial least squares regression analysis基本思想建模步骤步骤一:分别提取两变量组的第一对成分,并使之相关性达最大步骤二:建立 y1,⋯ ,yp\boldsymbol{y}_...
  • 在之前的文章《机器学习---线性回归(Machine Learning Linear Regression)》中说到,使用最小二乘回归模型需要满足一些假设条件。但是这些假设条件却往往是人们容易忽略的地方。如果不考虑模型的适用情况,就只会...
  • partial least square PLS 原理 与MLS、PCR、MRA比较 适用情况 数学推导与软件实现 参考文献 原理 ...在影响因变量的大量的因素中,会存在隐形的影响因素但却具有很强的...【建模应用】PLS偏最小二乘回归原理与应用
  • 最小二乘回归是一种回归形式 。 当使用pls时,新 的线性组合有助于解释模型中的自变量和因变量。 在本文中,我们将使用pls在“ Mroz”数据集中使用预测“收入”。 library(pls);library(Ecdat) data("Mroz")...
  • 通过MATLAB实现偏最小二乘回归预测

    千次阅读 2019-09-23 22:17:33
    最小二乘回归是一种新的多元统计数学分析方法,将多元线性回归、典型相关分析和主成分分析进行有机结合。 建模原理: 假定p有自变量x1,x2,…,xp(这个就是特征值)和q个因变量y1,y2,…,y3(这个就是你要预测的值)...
  • 模型多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网 语言:R语言 参考书:应用预测建模 Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译 案例: ...
  • 最小二乘回归(一):模型介绍 偏最小二乘回归(二):一种更简洁的计算方法 本节采用兰纳胡德(Linnerud)给出的关于体能训练的数据进行偏最小二乘回归建 模。在这个数据系统中被测的样本点,是某健身俱乐部的 ...
  • 看一篇文章,其中提到了偏最小二乘回归PLS,PLS方法在普通多元回归的基础(最小二乘法),结合了主成分分析PCA和典型相关分析CCA的思想,解决回归分析中自变量多重共线性的问题。 首先需要补充一下PCA和CCA的基础...
  • 文中针对目前通过求解多元方程反演计算气体各组分浓度时,会引入吸收系数、池常数等参数误差的缺点,分析了光声光谱检测原理,提出了一种基于最小二乘回归的光声光谱定量分析方法,并建立了定量分析模型;应用该方法...
  • 加权最小二乘回归方法-程序范例 在一般的线性回归求相关系数时候,大都选择最小二乘回归分析方法来拟合。它的原理是:假设拟合方程为:,将实测值Yi与预测值(Yj=a0+a1X)的离差(Yi-Yj)的平方和最小作为“优化判据...
  • 0.偏最小二乘回归集成了多元线性回归、主成分分析和典型相关分析的优点,在建模中是一个更好的选择,并且MATLAB提供了完整的实现,应用时主要的问题是: 注意检验,各种检验参数:有关回归的检验以及有关多元分析...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,915
精华内容 1,966
关键字:

多元最小二乘回归模型