精华内容
下载资源
问答
  • 2021-08-28 13:30:45

    1. 偏最小二乘回归(Partial least squares regression, PLS回归)

    偏最小二乘 (PLS) 回归是将预测变量减少为较小的一组不相关分量对这些分量(而不是原始数据)执行最小二乘回归的方法。当预测变量高度共线,或者预测变量比观测值多并且普通的最小二乘回归所产生的系数标准误高或完全失败时,PLS 回归特别有用。与多个回归不同,PLS 不会假设预测变量是固定的。这意味着预测变量的测量可能会有误差,使 PLS 的测量更具不确定性。


    在 PLS 回归中,重点是建立预测模型。因此,通常不用来筛选在解释响应时无用的变量

    与最小二乘回归不同的是,PLS 可以在单个模型中拟合多个响应变量。PLS 回归可拟合单个模型中的多个响应变量。因为 PLS 回归以多元方式对响应变量进行建模,所以结果可能与为响应变量单独计算得出的值显著不同。仅在多个响应互不相关时才单独对这些响应建模。

    偏最小二乘回归(PLS)其实解决的是一个比较实际的问题:高维数据预测问题。换句话说就是自变量的个数大于观测值的个数。你可能一开始会觉得不可思议,但是在经济学中这是很常见的。

    偏最小二乘的基本思路就是——考虑与因变量的相关性情况下的最小二乘算法

    回归分析|笔记整理(B)——主成分回归(下),偏最小二乘回归 - 知乎 (zhihu.com)

    偏最小二乘回归法用于处理环境因子变量多于样本量多元线性回归情况。普通的多元线性回归,环境因子的数量一定要小于样本量,不然求不出那么多回归系数。只能先通过主成分分析或因子分析方法来处理这个问题:即先通过主成分(或因子分析)获取原始环境变量的线性组合(即新的变量),这样用新的变量代替原来的变量,减少了变量的个数,就可以求出回归系数,然后在通过回归系数与因子的荷载量再来求响应变量与原始环境因子之间的系数。偏最小二乘回归法与普通做法(先不管响应变量y,然后先主成分分析,然后做直接拿主成分做回归)的区别在于前者在主成分分析过程充分考虑到响应变量的角色,即得到的主成分是要让响应变量与主成分之间的回归R2最大,而不是普通的主成分那样让前两几轴承载更多的方差。

    科学网—如何在R里面实现偏最小二乘回归法(partial least squares 回归 - 赖江山的博文 (sciencenet.cn)

    2. 偏最小二乘路径模型(Partial Least Squares Path Modeling,pls-pm)

    特点:1、是结构方程模型的偏最小二乘方式

       2、用于研究显变量和潜变量的完整多元相关关系

       3、是一种数据分析方式,用于研究一组设定的显变量区块中,每个模块都能被潜变量和潜变量之间的相关性所代表

    科学网—R语言统计:偏最小二乘路径模型(plspm) - 涂波的博文 (sciencenet.cn)

    plspm包使用说明文件:http://www.gastonsanchez.com/PLS Path Modeling withR.pdf

    更多相关内容
  • 最小二乘回归是一种新型的多元分析方法,回归建模提高模型的精度和可靠性
  • 最小二乘回归是回归分析方法的一种,其可以进行多对多线性回归建模,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等...

    这一定是一篇真正的傻瓜攻略,原理为根,算法为骨,应用为肉,傻瓜为皮。
    本文主要介绍偏最小二乘回归的基本实现,主要内容基于司守奎《数学建模算法与应用》第11章,在其基础上进行优化。

    偏最小二乘回归分析

    偏最小二乘回归是回归分析方法的一种,其可以进行多对多线性回归建模,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

    偏最小二乘回归分析在建模过程中集中了主成分分析、典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供一些更丰富、深入的信息。

    建模步骤

    偏最小二乘回归分析的简单步骤如下图所示

    在这里插入图片描述

    代码实现

    将以下数据保存到txt文件中,命名为pz.txt,作为分析的对象。

    191	36	50	5	162	60
    189	37	52	2	110	60
    193	38	58	12	101	101
    162	35	62	12	105	37
    189	35	46	13	155	58
    182	36	56	4	101	42
    211	38	56	8	101	38
    167	34	60	6	125	40
    176	31	74	15	200	40
    154	33	56	17	251	250
    169	34	50	17	120	38
    166	33	52	13	210	115
    154	34	64	14	215	105
    247	46	50	1	50	50
    193	36	46	6	70	31
    202	37	62	12	210	120
    176	37	54	4	60	25
    157	32	52	11	230	80
    156	33	54	15	225	73
    138	33	68	2	110	43
    

    首先是数据处理,进行标准化;

    %% 数据处理
    ab0=load('pz.txt');   %原始数据存放在纯文本文件pz.txt中
    mu=mean(ab0);sig=std(ab0); %求均值和标准差
    rr=corrcoef(ab0);   %求相关系数矩阵
    ab=zscore(ab0); %数据标准化
    a=ab(:,[1:3]);    %提出标准化后的自变量数据
    b=ab(:,[4:end]);  %提出标准化后的因变量数据
    

    通过提取成分的贡献率确定要用的主成分个数,即ncomp。也可以跳过这一步,直接指定ncomp数值进行下一步。这个的具体数值要根据效果而定,选的越多效果越好(应该是)。

    %% 判断提出成分对的个数
    [XL,YL,XS,YS,BETA,PCTVAR,MSE,stats] =plsregress(a,b);
    xw=a\XS;  %求自变量提出成分的系数,每列对应一个成分,这里xw等于stats.W
    yw=b\YS;  %求因变量提出成分的系数
    a_0=PCTVAR(1,:);b_0=PCTVAR(2,:);% 自变量和因变量提出成分的贡献率
    a_1=cumsum(a_0);b_1=cumsum(b_0);% 计算累计贡献率
    i=1;%赋初始值
    

    while ((a_1(i)<0.9)&(a_0(i)>0.05)&(b_1(i)<0.9)&(b_0(i)>0.05)) % 提取主成分的条件
    i=i+1;
    end
    ncomp=i;% 选取的主成分对的个数
    fprintf(’%d对成分分别为:\n’,ncomp);% 打印主成分的信息
    for i=1:ncomp
    fprintf(‘第%d对成分:\n’,i);
    fprintf(‘u%d=’,i);
    for k=1:size(a,2)%此处为变量x的个数
    fprintf(’+(%fx_%d)’,xw(k,i),k);
    end
    fprintf(’\n’);
    fprintf(‘v%d=’,i);
    for k=1:size(b,2)%此处为变量y的个数
    fprintf(’+(%fy_%d)’,yw(k,i),k);
    end
    fprintf(’\n’);
    end

    确定主成分个数以后就开始回归分析,得到回归方程;

    %% 确定主成分后的回归分析
    [XL2,YL2,XS2,YS2,BETA2,PCTVAR2,MSE2,stats2] =plsregress(a,b,ncomp);
    n=size(a,2); m=size(b,2);%n是自变量的个数,m是因变量的个数
    beta3(1,:)=mu(n+1:end)-mu(1:n)./sig(1:n)*BETA2([2:end],:).*sig(n+1:end); %原始数据回归方程的常数项
    beta3([2:n+1],:)=(1./sig(1:n))'*sig(n+1:end).*BETA2([2:end],:); %计算原始变量x1,...,xn的系数,每一列是一个回归方程
    fprintf('最后得出如下回归方程:\n')
    for i=1:size(b,2)%此处为变量y的个数
        fprintf('y%d=%f',i,beta3(1,i));
        for j=1:size(a,2)%此处为变量x的个数
            fprintf('+(%f*x%d)',beta3(j+1,i),j);
        end
        fprintf('\n');
    end
    

    相关结果展示

    根据回归方程计算预测值,并提取相应的真实值,用于后面的对比;对预测结果的展示,详情见MATLAB回归预测模型的结果展示和效果检验

    %% 求预测值
    y1 = repmat(beta3(1,:),[size(a,1),1])+ab0(:,[1:n])*beta3([2:end],:);  %求y1,..,ym的预测值
    y0 = ab0(:,end-size(y1,2)+1:end);  % 真实值
    

    绘制回归系数的直方图,

    %% 画回归系数的直方图
    bar(BETA2','k')
    

    分别绘制主成分对自变量和因变量的贡献率,较为直观;

    %% 贡献率画图
    figure 
    percent_explained1 = 100 * PCTVAR(1,:) / sum(PCTVAR(1,:));
    pareto(percent_explained1);
    xlabel('主成分')
    ylabel('贡献率(%)')
    title('主成分对自变量的贡献率')
    

    figure
    percent_explained = 100 * PCTVAR(2,:) / sum(PCTVAR(2,:));
    pareto(percent_explained);
    xlabel(‘主成分’)
    ylabel(‘贡献率(%)’)
    title(‘主成分对因变量的贡献率’)

    绘制预测值与真实值的对比图;

    %% 绘制预测结果和真实值的对比
    N = size(a,1);% 样本个数
    for i =1:size(b,2)
        yz = y0(:,i);% 真实值
        yc = y1(:,i);% 预测值    
        R2 = (N*sum(yc.*yz)-sum(yc)*sum(yz))^2/((N*sum((yc).^2)-(sum(yc))^2)*(N*sum((yz).^2)-(sum(yz))^2)); %计算R方
    
    figure
    <span class="token function">plot</span><span class="token punctuation">(</span><span class="token number">1</span><span class="token punctuation">:</span>N<span class="token punctuation">,</span>yz<span class="token punctuation">,</span><span class="token string">&#39;b:*&#39;</span><span class="token punctuation">,</span><span class="token number">1</span><span class="token punctuation">:</span>N<span class="token punctuation">,</span>yc<span class="token punctuation">,</span><span class="token string">&#39;r-o&#39;</span><span class="token punctuation">)</span>
    <span class="token function">legend</span><span class="token punctuation">(</span><span class="token string">&#39;真实值&#39;</span><span class="token punctuation">,</span><span class="token string">&#39;预测值&#39;</span><span class="token punctuation">,</span><span class="token string">&#39;location&#39;</span><span class="token punctuation">,</span><span class="token string">&#39;best&#39;</span><span class="token punctuation">)</span>
    <span class="token function">xlabel</span><span class="token punctuation">(</span><span class="token string">&#39;预测样本&#39;</span><span class="token punctuation">)</span>
    <span class="token function">ylabel</span><span class="token punctuation">(</span><span class="token string">&#39;值&#39;</span><span class="token punctuation">)</span>
    string <span class="token operator">&#61;</span> <span class="token punctuation">{<!-- --></span><span class="token punctuation">[</span><span class="token string">&#39;第&#39;</span><span class="token punctuation">,</span><span class="token function">num2str</span><span class="token punctuation">(</span>i<span class="token punctuation">)</span><span class="token punctuation">,</span><span class="token string">&#39;个因变量预测结果对比&#39;</span><span class="token punctuation">]</span><span class="token punctuation">;</span><span class="token punctuation">[</span><span class="token string">&#39;R^2&#61;&#39;</span> <span class="token function">num2str</span><span class="token punctuation">(</span>R2<span class="token punctuation">)</span><span class="token punctuation">]</span><span class="token punctuation">}</span><span class="token punctuation">;</span>
    <span class="token function">title</span><span class="token punctuation">(</span>string<span class="token punctuation">)</span>
    

    end

    通过三种方法评价回归模型的效果;

    %% 三种方法检验网络性能
    for i =1:size(b,2)
        yz = y0(:,i);% 真实值
        yc = y1(:,i);% 预测值   
        % 第一种方法,均方误差
        perf = mse(y0,y1)
        % 第二种方法,回归图
        figure;
        plotregression(yz,yc,['第',num2str(i),'个回归图'])
        % 第三种方法,误差直方图
        e = yz-yc;
        figure;
        ploterrhist(e,['第',num2str(i),'个误差直方图'])
    end
    
    展开全文
  • 提出了基于偏最小二乘回归模型的带钢热镀锌质量监控方法。以带钢热镀锌生产中带钢力学性能和锌层质量的质量监控为研究对象,用偏最小二乘方法建立了生产过程参数与质量结果之间的回归模型,对生产过程控制能力进行了...
  • 在此基础上,本书详细介绍了偏最小二乘回归的线性与非线性方法,其中包括了偏最小二乘回归线性模型、偏最小二乘通径分析、递阶偏最小二乘回归模型、成分数据回归的建模方法和应用技术、基于函数变换的非线性偏最小...
  • 最小二乘回归(一):模型介绍

    万次阅读 多人点赞 2019-04-29 09:50:37
    最小二乘回归(一):模型介绍 偏最小二乘回归(二):一种更简洁的计算方法 偏最小二乘回归(三):身体特征与体能训练结果的 案例分析 目录 1 偏最小二乘回归方程式 偏最小二乘回归分析建模的具体步骤 ...

    偏最小二乘回归系列博文:

    偏最小二乘回归(一):模型介绍

    偏最小二乘回归(二):一种更简洁的计算方法

    偏最小二乘回归(三):身体特征与体能训练结果的 案例分析


    目录

    1 偏最小二乘回归方程式

     偏最小二乘回归分析建模的具体步骤

    模型效应负荷量

               交叉有效性检验


    在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用 一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量), 除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法

    偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很 多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分 析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以 同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些 信息。

    本章介绍偏最小二乘回归分析的建模方法;通过例子从预测角度对所建立的回归模 型进行比较。

    1 偏最小二乘回归方程式

     偏最小二乘回归分析建模的具体步骤

     

    模型效应负荷量

               (5)交叉有效性检验


    偏最小二乘回归(二):一种更简洁的计算方法

    偏最小二乘回归(三):身体特征与体能训练结果的 案例分析

    展开全文
  • Partial least squares regression 偏最小二乘回归–潘登同学的Machine ...偏最小二乘回归是集主成分分析,典型相关分析和多元线性回归分析3种分析方法的优点于一身 MLR的缺点: 当自变量的数量大于样本量的时候,

    Partial least squares regression 偏最小二乘回归–潘登同学的Machine Learning笔记

    什么时候用PLS

    偏最小二乘回归是集主成分分析,典型相关分析和多元线性回归分析3种分析方法的优点于一身

    • MLR的缺点: 当自变量的数量大于样本量的时候,解不出 θ \theta θ,回顾解析解
      θ = ( X T X ) − 1 X T Y \theta = (X^TX)^{-1}X^TY θ=(XTX)1XTY

      X n ∗ k X_{n*k} Xnk,当 k > n k>n k>n时, ( X T X ) k ∗ k (X^TX)_{k*k} (XTX)kk的秩为n,不是满秩的,所以没有逆矩阵 R a n k ( A B ) ≤ R a n k ( B ) Rank(AB)\leq Rank(B) Rank(AB)Rank(B)

    • PCA的缺点: PCA只考虑了自变量的方差,然后选取了方差最大的几个正交变量,可以用于解决共线性问题(计量),没有考虑自变量对因变量的贡献

    • PLS: 偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而样本又比较少的时候。

    基本原理

    考虑 P P P个因变量 y 1 , y 2 , ⋯   , y p y_1,y_2,\cdots,y_p y1,y2,,yp m m m个自变量 x 1 , x 2 , ⋯   , x m x_1,x_2,\cdots,x_m x1,x2,,xm的回归问题。

    首先在自变量集中提出第一成分 u 1 u_1 u1( u 1 u_1 u1 x 1 , … , x n x_1,\ldots,x_n x1,,xn的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分 v 1 v_1 v1,并要求 u 1 u_1 u1 v 1 v_1 v1相关程度达到最大。 然后建立因变量 y 1 , … , y p y_1,\ldots,y_p y1,,yp u 1 u_1 u1的回归,重复这个过程直到提取到足够的指定的成分。

    计算步骤

    先将 X 与 Y X与Y XY标准化
    A = [ x 11 ⋯ x 1 m ⋮ ⋮ x n 1 ⋯ x n m ] B = [ y 11 ⋯ y 1 m ⋮ ⋮ y n 1 ⋯ y n m ] A = \begin{bmatrix} x_{11} & \cdots & x_{1m}\\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{nm} \end{bmatrix} B = \begin{bmatrix} y_{11} & \cdots & y_{1m}\\ \vdots & & \vdots \\ y_{n1} & \cdots & y_{nm} \end{bmatrix} A=x11xn1x1mxnmB=y11yn1y1mynm

    第一步

    1. 分别提取两组( X 与 Y X与Y XY变量的第一对成分,并使之相关性达到最大
      假设从两组变量中第一对成分为 u 1 和 v 1 u_1和v_1 u1v1, u 1 u_1 u1是自变量集 X = [ x 1 , ⋯   , x m ] T X=[x_1,\cdots,x_m]^T X=[x1,,xm]T的线性组合, v 1 v_1 v1是自变量集 X = [ y 1 , ⋯   , y p ] T X=[y_1,\cdots,y_p]^T X=[y1,,yp]T的线性组合
      u 1 = ρ 1 T X v 1 = γ 1 T Y u_1 = \rho_1^T X \\ v_1 = \gamma_1^T Y \\ u1=ρ1TXv1=γ1TY

    为了回归分析的需要,要求

    • u 1 和 v 1 u_1和v_1 u1v1各自尽可能多地提取所在变量组的变异信息
    • u 1 和 v 1 u_1和v_1 u1v1的相关程度达到最大

    第二步

    计算 ρ 1 与 γ 1 \rho_1与\gamma_1 ρ1γ1

    1. 最大化协方差,使得 u 1 和 v 1 u_1和v_1 u1v1的相关程度达到最大,可以用得分向量 u 1 ^ 和 v 1 ^ \hat{u_1}和\hat{v_1} u1^v1^的內积来计算
      max ⁡ < u 1 ^ , v 1 ^ > = ρ 1 T A B γ 1 s . t . { ρ 1 T ρ 1 = 1 γ 1 T γ 1 = 1 \max <\hat{u_1},\hat{v_1}> = \rho_1^T A B \gamma_1 \\ s.t. \begin{cases} \rho_1^T \rho_1 = 1 \\ \gamma_1^T \gamma_1 = 1 \\ \end{cases} max<u1^,v1^>=ρ1TABγ1s.t.{ρ1Tρ1=1γ1Tγ1=1

    2. 采用Lagrange乘数法,问题化为求单位向量 ρ 1 和 γ 1 \rho_1和\gamma_1 ρ1γ1,使 θ 1 = ρ 1 T A B γ 1 \theta_1 = \rho_1^T A B \gamma_1 θ1=ρ1TABγ1达到最大,问题求解只需计算 M = A T B B T A M=A^TBB^TA M=ATBBTA的特征值与特征向量,且 M M M的最大特征值为 θ 1 2 \theta_1^2 θ12,相应的特征向量就是所要求解的 ρ 1 \rho_1 ρ1,进而也能得到 γ 1 \gamma_1 γ1
      γ 1 = 1 θ 1 B T A ρ 1 \gamma_1 = \frac{1}{\theta_1}B^TA\rho_1 γ1=θ11BTAρ1

    第三步

    由两组变量集的标准化观察数据矩阵 X 和 Y X和Y XY,可以计算第一对成分的得分向量,记为 u 1 ^ 和 v 1 ^ \hat{u_1}和\hat{v_1} u1^v1^
    u 1 ^ = A ρ 1 v 1 ^ = B γ 1 \hat{u_1} = A \rho_1 \\ \hat{v_1} = B \gamma_1 \\ u1^=Aρ1v1^=Bγ1

    1. 建立 y 1 , ⋯   , y p y_1,\cdots,y_p y1,,yp u 1 u_1 u1的回归及 x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm u 1 u_1 u1的回归,假定回归模型
      { A = u 1 ^ σ 1 T + A 1 B = u 1 ^ τ 1 T + B 1 \begin{cases} A = \hat{u_1}\sigma_1^{T} + A_1 \\ B = \hat{u_1}\tau_1^{T} + B_1 \\ \end{cases} {A=u1^σ1T+A1B=u1^τ1T+B1
      其中, σ 1 T = [ σ 1 , … , σ m ] , τ 1 T = [ τ 1 , … , τ m ] \sigma_1^{T} = [\sigma_{1},\ldots,\sigma_{m}],\tau_1^{T} = [\tau_{1},\ldots,\tau_{m}] σ1T=[σ1,,σm],τ1T=[τ1,,τm]分别是多对一回归模型中的参数向量, A 1 , B 1 A_1,B_1 A1,B1是残差阵

    2. 回归系数向量 σ 1 , τ 1 \sigma_1,\tau_1 σ1,τ1的最小二乘估计为
      { σ 1 = A T u 1 ^ ∣ ∣ u 1 ^ ∣ ∣ 2 τ 1 = B T u 1 ^ ∣ ∣ u 1 ^ ∣ ∣ 2 \begin{cases} \sigma_1 = \frac{A^T\hat{u_1}}{||\hat{u_1}||^2} \\ \tau_1 = \frac{B^T\hat{u_1}}{||\hat{u_1}||^2} \\ \end{cases} {σ1=u1^2ATu1^τ1=u1^2BTu1^

    3. 用残差阵 A 1 和 B 1 A_1和B_1 A1B1代替 A , B A,B A,B,重复以上步骤,直到残差阵中元素的绝对值近似为0,每进行一次得到一个 σ t 和 τ t \sigma_t和\tau_t σtτt,

    第四步

    重复上面的步骤,得到 r r r个成分
    { A = u 1 ^ σ 1 T + ⋯ + u r ^ σ r T + A r B = u 1 ^ τ 1 T + ⋯ + u r ^ τ r T + B r \begin{cases} A = \hat{u_1}\sigma_1^{T} + \cdots + \hat{u_r}\sigma_r^{T} + A_r \\ B = \hat{u_1}\tau_1^{T} + \cdots + \hat{u_r}\tau_r^{T} + B_r \\ \end{cases} {A=u1^σ1T++ur^σrT+ArB=u1^τ1T++ur^τrT+Br

    u 1 = ρ 1 T X u_1 = \rho_1^T X u1=ρ1TX代入 Y = u 1 ^ τ 1 T + ⋯ + u r ^ τ r T Y=\hat{u_1}\tau_1^{T} + \cdots + \hat{u_r}\tau_r^{T} Y=u1^τ1T++ur^τrT,即得 P P P个因变量的偏最小二乘回归方程式
    y j = c j 1 x 1 + … + c j m x m , j = 1 , 2 , … , p y_j = c_{j1}x_1 + \ldots + c_{jm}x_m, j= 1,2,\ldots,p yj=cj1x1++cjmxm,j=1,2,,p

    交叉有效性检验

    应该提取多个个成分,可以使用交叉有效性检验

    每次舍去第 i i i个观察数据,对余下的 n − 1 n-1 n1个观测数据用偏最小二乘回归方法,并考虑抽取 h ( h ≤ r ) h(h\leq r) h(hr)个肠粉后拟合的回归式,然后把舍去的自变量组第 j j j个观测数据代入所拟合的回归方程式,得到 y j ( j = 1 , 2 , ⋯   , p ) y_j(j=1,2,\cdots,p) yj(j=1,2,,p)在第 i i i观测点上的预测值为 b ( i ) j ^ ( h ) \hat{b_{(i)j}}(h) b(i)j^(h)

    i = 1 , 2 , … , n i=1,2,\ldots,n i=1,2,,n重复以上的验证,即得抽取 h h h个成分时第 j j j个因变量 y j ( j = 1 , 2 , … , p ) y_j(j=1,2,\ldots,p) yj(j=1,2,,p)的预测误差平方和为
    P R E S S j ( h ) = ∑ i = 1 n ( b ( i ) j − b ^ ( i ) j ( h ) ) 2 , j = 1 , 2 , … , p PRESS_j(h) = \sum_{i=1}^n(b_{(i)j}-\hat{b}_{(i)j}(h))^2,j=1,2,\ldots,p PRESSj(h)=i=1n(b(i)jb^(i)j(h))2,j=1,2,,p
    Y Y Y的预测误差平方和为
    P R E S S ( h ) = ∑ i = 1 p P R E S S j ( h ) PRESS(h) = \sum_{i=1}^pPRESS_j(h) PRESS(h)=i=1pPRESSj(h)

    另外,再采用所有的样本点,拟合含 h h h个成分的回归方程。这时,记第 i i i个样本点的预测值为 b ^ i j ( h ) \hat{b}_{ij}(h) b^ij(h),则可以定义 y j y_j yj的误差平方和为
    S S j ( h ) = ∑ i = 1 n ( b i j − b ^ i j ( h ) ) 2 SS_j(h) = \sum_{i=1}^n(b_{ij}-\hat{b}_{ij}(h))^2 SSj(h)=i=1n(bijb^ij(h))2
    定义 h h h成分的误差平方和
    S S ( h ) = ∑ j = 1 p S S j ( h ) SS(h) = \sum_{j=1}^p SS_j(h) SS(h)=j=1pSSj(h)

    P R E S S ( h ) PRESS(h) PRESS(h)达到最小值时,对应的 h h h即为所求的成分 l l l个数。通常,总有 P R E S S ( h ) > S S ( h ) PRESS(h) > SS(h) PRESS(h)>SS(h),而 S S ( h ) < S S ( h − 1 ) SS(h) < SS(h-1) SS(h)<SS(h1)。因此在提取成分时,总是希望 P R E S S ( h ) S S ( h − 1 ) \frac{PRESS(h)}{SS(h-1)} SS(h1)PRESS(h)越小于好,一般可以设定阈值为0.05,判定规则为,当
    P R E S S ( h ) S S ( h − 1 ) ≤ ( 1 − 0.05 ) 2 \frac{PRESS(h)}{SS(h-1)} \leq (1-0.05)^2 SS(h1)PRESS(h)(10.05)2
    时,新加成分对回归改善是有帮助的

    因此,可以定义交叉有效性
    Q h 2 = 1 − P R E S S ( h ) S S ( h − 1 ) Q_h^2 = 1 - \frac{PRESS(h)}{SS(h-1)} Qh2=1SS(h1)PRESS(h)
    在每一步计算结束前,计算交叉有效性,在第 h h h步有 Q h 2 ^ < 1 − 0.9 5 2 \hat{Q_h^2} < 1 - 0.95^2 Qh2^<10.952,则模型到达精度,可以停止提取成分

    python实现

    from sklearn.cross_decomposition import PLSRegression
    pls = PLSRegression(n_compoents=k)
    pls.fit(X,Y)
    y_pred = pls.predict(X_test)
    
    展开全文
  • R构建加权最小二乘回归模型(Weighted Least Squares Regression) 目录 R构建加权最小二乘回归模型(Weighted Least Squares Regression) 加权最小二乘回归模型(Weighted Least Squares Regression) 创建...
  • 最小二乘回归分析

    千次阅读 2020-07-15 22:01:44
    在实际问题中,要研究两组多重相关变量间的相互依赖关系时,可使用的方法有:经典多元线性回归分析(MLR)、主成分回归分析(PCR)、偏最小二乘回归分析(PLS)。 当两组变量的个数很多,且都存在多重相关性,而观测...
  • The following are a set of methods intended ...非负最小二乘回归模型https://scikit-learn.org/stable/auto_examples/linear_model/plot_nnls.html#sphx-glr-auto-examples-linear-model-plot-nnls-py​​​​​​​
  • R语言普通最小二乘回归分析

    千次阅读 2022-01-24 16:12:52
    普通最小二乘(OLS)回归包括简单线性回归、多项式回归多元线性回归。 OLS回归的数据必须满足以下统计假设: (1)正态性:对于固定的自变量值,因变量值成正态分布。 (2)独立性: Yi值之间相互独立。 (3)线性:因变量...
  • 多元回归&最小二乘

    2019-09-15 23:43:01
    最小二乘回归分析的区别: 最小二乘法是在模型确定的情况下对未知参数由观测数据来进行估计,而回归分析则是研究变量间相关关系的统计分析方法。 ...
  • 算例分析表明,偏最小二乘回归模型所分离出的各个影响分量能时大坝实测变量的变化作出合理的物理成因解释,而且偏最小二乘回归模型的预测能力也远优于普通最小二乘回归模型,前者的预测误差平方和约只有后者的二十分...
  • 最小二乘回归分析原理详解背景偏最小二乘回归分析 Partial least squares regression analysis基本思想建模步骤步骤一:分别提取两变量组的第一对成分,并使之相关性达最大步骤二:建立 y1,⋯ ,yp\boldsymbol{y}_...
  • 说的直白一点,当我们确定了一组数的模型之后,然后想通过最小二乘的办法来确定模型的参数。举个两变量(一个自变量、一个因变量)线性回归的例子来说明一下,如下面所示一堆散点图。一堆观测数据绘制的散点图上面这...
  • 最小二乘回归

    千次阅读 2017-11-21 21:15:20
    最小二乘法(Least squares又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为...
  • python 偏最小二乘回归实现

    千次阅读 2020-11-07 22:16:52
    用自己数据实现偏最小二乘回归。用Hitters数据集做演示如何使用自己的数据实现偏最小二乘回归。 此数据集有322个运动员的20个变量的数据, 其中的变量Salary(工资)是我们关心的。 数据下载 百度网盘链接:...
  • 0.偏最小二乘回归集成了多元线性回归、主成分分析和典型相关分析的优点,在建模中是一个更好的选择,并且MATLAB提供了完整的实现,应用时主要的问题是:注意检验,各种检验参数:有关回归的检验以及有关多元分析的...
  • 最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法
  • 我们需要进行以下六个假设,这些假设是经典的多元线性回归模型有效的前提: 1、因变量Y和自变量X1,X2,…,Xk之间的关系是线性的。 2、自变量(X1,X2,…,Xk)不是随机的。而且,两个或多个自变量之间不存在精确...
  • 最小二乘回归是一种回归形式 。 当使用pls时,新 的线性组合有助于解释模型中的自变量和因变量。 在本文中,我们将使用pls在“ Mroz”数据集中使用预测“收入”。 library(pls);library(Ecdat) data("Mroz")...
  • 考虑到军用飞机采购价格样本数据少、难于...结果表明,在军用飞机价格预测方面,与未筛选变量的回归模型和逐步多元回归相比,经过变量筛选的偏最小二乘回归模型预测的精度更高,更能体现采购价格与飞机性能参数之间的
  • 最小二乘法多元线性回归(岭回归实现)多元线性回归回归实现一、理论分析二、实现代码第一部分(LinRegression类)第二部分(main,调用类并做对比)三、代码解读及结果分析1.代码解读2.结果分析 采用岭回归的方式...
  • partial least square PLS 原理 与MLS、PCR、MRA比较 适用情况 数学推导与软件实现 参考文献 原理 ...在影响因变量的大量的因素中,会存在隐形的影响因素但却具有很强的...【建模应用】PLS偏最小二乘回归原理与应用
  • 数学建模之偏最小二乘回归分析

    千次阅读 2020-07-18 12:20:51
    最小二乘回归(PLS-Partial Least Squares)是一种新型的多元统计数据分析方法,是一种多因变量对多自变量的回归建模方法,是对最小二乘方法的推广。 优点: 1)提供了一种多因变量对多自变量的回归建模方法; 2)...
  • 【建模应用】PLS偏最小二乘回归原理与应用

    千次阅读 多人点赞 2018-05-13 11:13:00
    我写这篇文章的目的,是想用最简洁的语言阐述清楚何为偏最小二乘分析,以及到底应该如何应用这个在数学建模应用中备受青睐的模型。在此之前,你应该已经学过线性代数、高等数学等基础课程,并了解过诸如主成分分...
  • 利用气象因子计算水面蒸发量过程中, 各自变量之间经常存在多重相关性, 从而导致传统的多元回归模型(基于最小二乘法)的...该文采用偏最小二乘回归建模, 有效地解决了各气象因子之间的多重相关性, 得到满意效果。
  • 普通最小二乘(OLS)回归

    万次阅读 2020-08-10 13:43:01
    OLS(普通最小二乘)回归是最简单的线性回归模型,也称为线性回归的基础模型。 尽管它是一个简单的模型,但是在机器学习中却没有太多的权重。 OLS就是这样一种模型,它告诉您的不仅是整个模型的准确性。 它还告诉您每...
  • 如何理解多维数据的线性回归问题?背景就是我们有一个训练集:( x1, y1 ), (x2,y2 )........ ( xN,yN ),通过这个数据集估计参数向量β。每个 xi是第i个数据(第i个样本)的特征度量向量,但是每个 yi就是一个...
  • 针对常规多元回归模型无法克服预报因子间复相关性的问题,提出了基于偏最小二乘回归的洪水预报方法.通过结合遗传算法与偏最小二乘回归来进行因子筛选,对筛选后的因子采用 Bootstrap方法进行检验,再建立基于偏最小...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,616
精华内容 2,246
关键字:

多元最小二乘回归模型