精华内容
下载资源
问答
  • 偏回归分析
    2020-08-07 15:58:31

    一般多元回归

    线性多元回归用于探讨多个自变量对因变量的影响,一般关注的有如下几个指标:

    1. 因子的敏感性
    2. 因子的影响重要性评价
    3. 模型的解释能力
    • 因子敏感性可用标准化回归系数
    • 影响程度可用方差解释度来评价,常用方法是方差因子分解
    • 模型解释能力则用决定系数(R2)

    然而,自变量也很难独立,或多或少存在某种相关行,还有交互作用,自相关可用方差膨胀因子加以衡量,交互作用也可以通过散点图,或者直接看方差解释度。因此,判断一个因子的影响程度,不仅要考虑其单因子模型,还需要考虑其它变量的影响,偏回归提供了一个分析思路。

    偏线性回归

    更多相关内容
  • 对多元线性回归进行因子筛选,最后给出一定显著性水平下各因子均为显著的回归方程中的' 诸回归系数、偏回归平方和、估计的标准偏差、复相关系数、F-检验值、各回归系数的标准' 偏差、应变量条件期望值的估计值及残差...
  • 介绍数学建模中最小二乘的应用,介绍最小二乘原理及项目案例代码。
  • 数据回归-最小二乘回归分析若干问题的研究.pdf
  • 最小二乘回归分析 Matlab代码与数据,教程
  • 最小二乘回归分析PPT教案.pptx
  • 数据回归-最小二乘回归分析在短期负荷预测中的应用.pdf
  • 最小二乘回归是一种新型的多元分析方法,回归建模提高模型的精度和可靠性
  • 非常好的最小二乘分析的程序,包含了典型相关分析、主成分分析和多元线性回归。可以根据具体的需要更改代码变成非线性回归,建立多个自变量和多个因变量之间的关系应用很广。包含计算程序和画图表示结果的程序两个...
  • 11第11章 最小二乘回归分析.ppt
  • MATLAB-最小二乘回归分析

    多人点赞 2022-07-27 22:10:00
    MATLAB-最小二乘回归分析

            偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

            偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供一些更丰富、深入的信息。

             考虑 P 个因变量 y_{1},y_{2},...,y_{p} 与 m 个自变量 x_{1},x_{2},...,x_{m} 的建模问题。偏最小二乘回归的基本作法是首先在自变量集中提出第一成分 u_{1}

    展开全文
  • 最小二乘回归是第二代回归方法,它可以实现多种数据分析方法的综合应用。
  • 最小二乘回归分析PLS

    千次阅读 2022-04-06 22:21:12
    Partial least squares regression 最小二乘回归–潘登同学的Machine ...最小二乘回归是集主成分分析,典型相关分析和多元线性回归分析3种分析方法的优点于一身 MLR的缺点: 当自变量的数量大于样本量的时候,

    Partial least squares regression 偏最小二乘回归–潘登同学的Machine Learning笔记

    什么时候用PLS

    偏最小二乘回归是集主成分分析,典型相关分析和多元线性回归分析3种分析方法的优点于一身

    • MLR的缺点: 当自变量的数量大于样本量的时候,解不出 θ \theta θ,回顾解析解
      θ = ( X T X ) − 1 X T Y \theta = (X^TX)^{-1}X^TY θ=(XTX)1XTY

      X n ∗ k X_{n*k} Xnk,当 k > n k>n k>n时, ( X T X ) k ∗ k (X^TX)_{k*k} (XTX)kk的秩为n,不是满秩的,所以没有逆矩阵 R a n k ( A B ) ≤ R a n k ( B ) Rank(AB)\leq Rank(B) Rank(AB)Rank(B)

    • PCA的缺点: PCA只考虑了自变量的方差,然后选取了方差最大的几个正交变量,可以用于解决共线性问题(计量),没有考虑自变量对因变量的贡献

    • PLS: 偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而样本又比较少的时候。

    基本原理

    考虑 P P P个因变量 y 1 , y 2 , ⋯   , y p y_1,y_2,\cdots,y_p y1,y2,,yp m m m个自变量 x 1 , x 2 , ⋯   , x m x_1,x_2,\cdots,x_m x1,x2,,xm的回归问题。

    首先在自变量集中提出第一成分 u 1 u_1 u1( u 1 u_1 u1 x 1 , … , x n x_1,\ldots,x_n x1,,xn的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分 v 1 v_1 v1,并要求 u 1 u_1 u1 v 1 v_1 v1相关程度达到最大。 然后建立因变量 y 1 , … , y p y_1,\ldots,y_p y1,,yp u 1 u_1 u1的回归,重复这个过程直到提取到足够的指定的成分。

    计算步骤

    先将 X 与 Y X与Y XY标准化
    A = [ x 11 ⋯ x 1 m ⋮ ⋮ x n 1 ⋯ x n m ] B = [ y 11 ⋯ y 1 m ⋮ ⋮ y n 1 ⋯ y n m ] A = \begin{bmatrix} x_{11} & \cdots & x_{1m}\\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{nm} \end{bmatrix} B = \begin{bmatrix} y_{11} & \cdots & y_{1m}\\ \vdots & & \vdots \\ y_{n1} & \cdots & y_{nm} \end{bmatrix} A=x11xn1x1mxnmB=y11yn1y1mynm

    第一步

    1. 分别提取两组( X 与 Y X与Y XY变量的第一对成分,并使之相关性达到最大
      假设从两组变量中第一对成分为 u 1 和 v 1 u_1和v_1 u1v1, u 1 u_1 u1是自变量集 X = [ x 1 , ⋯   , x m ] T X=[x_1,\cdots,x_m]^T X=[x1,,xm]T的线性组合, v 1 v_1 v1是自变量集 X = [ y 1 , ⋯   , y p ] T X=[y_1,\cdots,y_p]^T X=[y1,,yp]T的线性组合
      u 1 = ρ 1 T X v 1 = γ 1 T Y u_1 = \rho_1^T X \\ v_1 = \gamma_1^T Y \\ u1=ρ1TXv1=γ1TY

    为了回归分析的需要,要求

    • u 1 和 v 1 u_1和v_1 u1v1各自尽可能多地提取所在变量组的变异信息
    • u 1 和 v 1 u_1和v_1 u1v1的相关程度达到最大

    第二步

    计算 ρ 1 与 γ 1 \rho_1与\gamma_1 ρ1γ1

    1. 最大化协方差,使得 u 1 和 v 1 u_1和v_1 u1v1的相关程度达到最大,可以用得分向量 u 1 ^ 和 v 1 ^ \hat{u_1}和\hat{v_1} u1^v1^的內积来计算
      max ⁡ < u 1 ^ , v 1 ^ > = ρ 1 T A B γ 1 s . t . { ρ 1 T ρ 1 = 1 γ 1 T γ 1 = 1 \max <\hat{u_1},\hat{v_1}> = \rho_1^T A B \gamma_1 \\ s.t. \begin{cases} \rho_1^T \rho_1 = 1 \\ \gamma_1^T \gamma_1 = 1 \\ \end{cases} max<u1^,v1^>=ρ1TABγ1s.t.{ρ1Tρ1=1γ1Tγ1=1

    2. 采用Lagrange乘数法,问题化为求单位向量 ρ 1 和 γ 1 \rho_1和\gamma_1 ρ1γ1,使 θ 1 = ρ 1 T A B γ 1 \theta_1 = \rho_1^T A B \gamma_1 θ1=ρ1TABγ1达到最大,问题求解只需计算 M = A T B B T A M=A^TBB^TA M=ATBBTA的特征值与特征向量,且 M M M的最大特征值为 θ 1 2 \theta_1^2 θ12,相应的特征向量就是所要求解的 ρ 1 \rho_1 ρ1,进而也能得到 γ 1 \gamma_1 γ1
      γ 1 = 1 θ 1 B T A ρ 1 \gamma_1 = \frac{1}{\theta_1}B^TA\rho_1 γ1=θ11BTAρ1

    第三步

    由两组变量集的标准化观察数据矩阵 X 和 Y X和Y XY,可以计算第一对成分的得分向量,记为 u 1 ^ 和 v 1 ^ \hat{u_1}和\hat{v_1} u1^v1^
    u 1 ^ = A ρ 1 v 1 ^ = B γ 1 \hat{u_1} = A \rho_1 \\ \hat{v_1} = B \gamma_1 \\ u1^=Aρ1v1^=Bγ1

    1. 建立 y 1 , ⋯   , y p y_1,\cdots,y_p y1,,yp u 1 u_1 u1的回归及 x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm u 1 u_1 u1的回归,假定回归模型
      { A = u 1 ^ σ 1 T + A 1 B = u 1 ^ τ 1 T + B 1 \begin{cases} A = \hat{u_1}\sigma_1^{T} + A_1 \\ B = \hat{u_1}\tau_1^{T} + B_1 \\ \end{cases} {A=u1^σ1T+A1B=u1^τ1T+B1
      其中, σ 1 T = [ σ 1 , … , σ m ] , τ 1 T = [ τ 1 , … , τ m ] \sigma_1^{T} = [\sigma_{1},\ldots,\sigma_{m}],\tau_1^{T} = [\tau_{1},\ldots,\tau_{m}] σ1T=[σ1,,σm],τ1T=[τ1,,τm]分别是多对一回归模型中的参数向量, A 1 , B 1 A_1,B_1 A1,B1是残差阵

    2. 回归系数向量 σ 1 , τ 1 \sigma_1,\tau_1 σ1,τ1的最小二乘估计为
      { σ 1 = A T u 1 ^ ∣ ∣ u 1 ^ ∣ ∣ 2 τ 1 = B T u 1 ^ ∣ ∣ u 1 ^ ∣ ∣ 2 \begin{cases} \sigma_1 = \frac{A^T\hat{u_1}}{||\hat{u_1}||^2} \\ \tau_1 = \frac{B^T\hat{u_1}}{||\hat{u_1}||^2} \\ \end{cases} {σ1=u1^2ATu1^τ1=u1^2BTu1^

    3. 用残差阵 A 1 和 B 1 A_1和B_1 A1B1代替 A , B A,B A,B,重复以上步骤,直到残差阵中元素的绝对值近似为0,每进行一次得到一个 σ t 和 τ t \sigma_t和\tau_t σtτt,

    第四步

    重复上面的步骤,得到 r r r个成分
    { A = u 1 ^ σ 1 T + ⋯ + u r ^ σ r T + A r B = u 1 ^ τ 1 T + ⋯ + u r ^ τ r T + B r \begin{cases} A = \hat{u_1}\sigma_1^{T} + \cdots + \hat{u_r}\sigma_r^{T} + A_r \\ B = \hat{u_1}\tau_1^{T} + \cdots + \hat{u_r}\tau_r^{T} + B_r \\ \end{cases} {A=u1^σ1T++ur^σrT+ArB=u1^τ1T++ur^τrT+Br

    u 1 = ρ 1 T X u_1 = \rho_1^T X u1=ρ1TX代入 Y = u 1 ^ τ 1 T + ⋯ + u r ^ τ r T Y=\hat{u_1}\tau_1^{T} + \cdots + \hat{u_r}\tau_r^{T} Y=u1^τ1T++ur^τrT,即得 P P P个因变量的偏最小二乘回归方程式
    y j = c j 1 x 1 + … + c j m x m , j = 1 , 2 , … , p y_j = c_{j1}x_1 + \ldots + c_{jm}x_m, j= 1,2,\ldots,p yj=cj1x1++cjmxm,j=1,2,,p

    交叉有效性检验

    应该提取多个个成分,可以使用交叉有效性检验

    每次舍去第 i i i个观察数据,对余下的 n − 1 n-1 n1个观测数据用偏最小二乘回归方法,并考虑抽取 h ( h ≤ r ) h(h\leq r) h(hr)个肠粉后拟合的回归式,然后把舍去的自变量组第 j j j个观测数据代入所拟合的回归方程式,得到 y j ( j = 1 , 2 , ⋯   , p ) y_j(j=1,2,\cdots,p) yj(j=1,2,,p)在第 i i i观测点上的预测值为 b ( i ) j ^ ( h ) \hat{b_{(i)j}}(h) b(i)j^(h)

    i = 1 , 2 , … , n i=1,2,\ldots,n i=1,2,,n重复以上的验证,即得抽取 h h h个成分时第 j j j个因变量 y j ( j = 1 , 2 , … , p ) y_j(j=1,2,\ldots,p) yj(j=1,2,,p)的预测误差平方和为
    P R E S S j ( h ) = ∑ i = 1 n ( b ( i ) j − b ^ ( i ) j ( h ) ) 2 , j = 1 , 2 , … , p PRESS_j(h) = \sum_{i=1}^n(b_{(i)j}-\hat{b}_{(i)j}(h))^2,j=1,2,\ldots,p PRESSj(h)=i=1n(b(i)jb^(i)j(h))2,j=1,2,,p
    Y Y Y的预测误差平方和为
    P R E S S ( h ) = ∑ i = 1 p P R E S S j ( h ) PRESS(h) = \sum_{i=1}^pPRESS_j(h) PRESS(h)=i=1pPRESSj(h)

    另外,再采用所有的样本点,拟合含 h h h个成分的回归方程。这时,记第 i i i个样本点的预测值为 b ^ i j ( h ) \hat{b}_{ij}(h) b^ij(h),则可以定义 y j y_j yj的误差平方和为
    S S j ( h ) = ∑ i = 1 n ( b i j − b ^ i j ( h ) ) 2 SS_j(h) = \sum_{i=1}^n(b_{ij}-\hat{b}_{ij}(h))^2 SSj(h)=i=1n(bijb^ij(h))2
    定义 h h h成分的误差平方和
    S S ( h ) = ∑ j = 1 p S S j ( h ) SS(h) = \sum_{j=1}^p SS_j(h) SS(h)=j=1pSSj(h)

    P R E S S ( h ) PRESS(h) PRESS(h)达到最小值时,对应的 h h h即为所求的成分 l l l个数。通常,总有 P R E S S ( h ) > S S ( h ) PRESS(h) > SS(h) PRESS(h)>SS(h),而 S S ( h ) < S S ( h − 1 ) SS(h) < SS(h-1) SS(h)<SS(h1)。因此在提取成分时,总是希望 P R E S S ( h ) S S ( h − 1 ) \frac{PRESS(h)}{SS(h-1)} SS(h1)PRESS(h)越小于好,一般可以设定阈值为0.05,判定规则为,当
    P R E S S ( h ) S S ( h − 1 ) ≤ ( 1 − 0.05 ) 2 \frac{PRESS(h)}{SS(h-1)} \leq (1-0.05)^2 SS(h1)PRESS(h)(10.05)2
    时,新加成分对回归改善是有帮助的

    因此,可以定义交叉有效性
    Q h 2 = 1 − P R E S S ( h ) S S ( h − 1 ) Q_h^2 = 1 - \frac{PRESS(h)}{SS(h-1)} Qh2=1SS(h1)PRESS(h)
    在每一步计算结束前,计算交叉有效性,在第 h h h步有 Q h 2 ^ < 1 − 0.9 5 2 \hat{Q_h^2} < 1 - 0.95^2 Qh2^<10.952,则模型到达精度,可以停止提取成分

    python实现

    from sklearn.cross_decomposition import PLSRegression
    pls = PLSRegression(n_compoents=k)
    pls.fit(X,Y)
    y_pred = pls.predict(X_test)
    
    展开全文
  • 最小二乘回归分析

    千次阅读 2020-07-15 22:01:44
    在实际问题中,要研究两组多重相关变量间的相互依赖关系时,可使用的方法有:经典多元线性回归分析(MLR)、主成分回归分析(PCR)、最小二乘回归分析(PLS)。 当两组变量的个数很多,且都存在多重相关性,而观测...

    在实际问题中,要研究两组多重相关变量间的相互依赖关系时,可使用的方法有:经典多元线性回归分析(MLR)、主成分回归分析(PCR)、偏最小二乘回归分析(PLS)。
    当两组变量的个数很多,且都存在多重相关性,而观测的样本数又较少时,用PLS建立模型具有MLR等方法所没有的优点。
    PLS在建模的过程中集中了主成分分析、典型相关分析、线性回归分析方法的特点,除了能提供一个合理的回归模型外,还可以提供一些更深入的信息。

    1. 偏最小二乘回归分析概述

    假定p个因变量 y 1 , ⋯   , y p y_1,\cdots,y_p y1,,yp与m个自变量 x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm均为标准化变量。自变量组合因变量组的标准化观测数据矩阵分别为 A n × m , B n × p \bm{A}^{n\times m},\bm{B}^{n\times p} An×m,Bn×p,偏最小二乘回归分析建模的具体步骤如下:

    1. 分别提取两变量组的第一对成分 u 1 , v 1 u_1,v_1 u1,v1,代表自变量和因变量的线性组合 u 1 = ρ ( 1 ) T X   , v 1 = γ ( 1 ) T Y u_1=\bm{\rho^{(1)T}X}\ ,v_1=\bm{\gamma^{(1)T}Y} u1=ρ(1)TX ,v1=γ(1)TY为了回归分析的需要,要求:① u 1 u_1 u1 v 1 v_1 v1各自尽可能多地提取所在变量组的变异信息;② u 1 u_1 u1 v 1 v_1 v1的相关程度达到最大。
      由两组变量集的标准化观测数据矩阵 A \bm{A} A B \bm{B} B,可以计算第一对成分的得分向量,记为 u ^ 1 \bm{\hat{u}_1} u^1 v ^ 1 \bm{\hat{v}_1} v^1 u ^ 1 = A ρ ( 1 )   , v ^ 1 = B γ ( 1 ) \bm{\hat{u}_1=A\rho^{(1)}}\ ,\bm{\hat{v}_1=B\gamma^{(1)}} u^1=Aρ(1) ,v^1=Bγ(1)此时可将以上两个要求化为数学上的条件极值问题 max ⁡ ( u ^ 1 ⋅ v ^ 1 ) = ρ ( 1 ) T A T B γ ( 1 ) s.t. { ρ ( 1 ) T ρ ( 1 ) = ∣ ∣ ρ ( 1 ) ∣ ∣ 2 = 1 γ ( 1 ) T γ ( 1 ) = ∣ ∣ γ ( 1 ) ∣ ∣ 2 = 1 \max(\bm{\hat{u}_1\cdot\hat{v}_1})=\bm{\rho^{(1)T}A^TB\gamma^{(1)}}\\ \text{s.t.}\begin{cases}\bm{\rho^{(1)T}\rho^{(1)}}=||\bm{\rho^{(1)}}||^2=1\\\bm{\gamma^{(1)T}\gamma^{(1)}}=||\bm{\gamma^{(1)}}||^2=1\end{cases} max(u^1v^1)=ρ(1)TATBγ(1)s.t.{ρ(1)Tρ(1)=ρ(1)2=1γ(1)Tγ(1)=γ(1)2=1利用拉格朗日乘数法,将问题转为计算矩阵 M = A T B B T A \bm{M=A^TBB^TA} M=ATBBTA的特征值和特征向量,其中最大特征值对应的单位特征向量就是 ρ ( 1 ) \bm{\rho^{(1)}} ρ(1),且有 γ ( 1 ) = 1 λ 1 B T A ρ ( 1 ) \bm{\gamma^{(1)}}=\cfrac{1}{\lambda_1}\bm{B^TA\rho^{(1)}} γ(1)=λ11BTAρ(1)
    2. 建立 y 1 , ⋯   , y p y_1,\cdots,y_p y1,,yp u 1 u_1 u1的回归,及 x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm u 1 u_1 u1的回归。假定回归模型为 { A = u ^ 1 σ ( 1 ) T + A 1 B = u ^ 1 τ ( 1 ) T + B 1 \begin{cases}\bm{A=\hat{u}_1\sigma^{(1)T}+A_1}\\\bm{B=\hat{u}_1\tau^{(1)T}+B_1}\end{cases} {A=u^1σ(1)T+A1B=u^1τ(1)T+B1式中 σ ( 1 ) = [ σ 11 , ⋯   , σ 1 m ] T   , τ ( 1 ) = [ τ 11 , ⋯   , τ 1 p ] T \bm{\sigma^{(1)}}=[\sigma_{11},\cdots,\sigma_{1m}]^T\ ,\bm{\tau^{(1)}}=[\tau_{11},\cdots,\tau_{1p}]^T σ(1)=[σ11,,σ1m]T ,τ(1)=[τ11,,τ1p]T分别为多对一的回归模型中的参数向量; A 1 , B 1 \bm{A_1,B_1} A1,B1是残差阵。则回归系数向量 σ ( 1 ) , τ ( 1 ) \bm{\sigma^{(1)}},\bm{\tau^{(1)}} σ(1),τ(1)的最小二乘估计为 { σ ( 1 ) = A T u ^ 1 / ∣ ∣ u ^ 1 ∣ ∣ 2 τ ( 1 ) = B T u ^ 1 / ∣ ∣ u ^ 1 ∣ ∣ 2 \begin{cases}\bm{\sigma^{(1)}=A^T\hat{u}_1/||\hat{u}_1||^2}\\\bm{\tau^{(1)}=B^T\hat{u}_1/||\hat{u}_1||^2}\end{cases} {σ(1)=ATu^1/u^12τ(1)=BTu^1/u^12 σ ( 1 ) , τ ( 1 ) \bm{\sigma^{(1)},\tau^{(1)}} σ(1),τ(1)为模型效应负荷量。
    3. 若残差阵 B 1 \bm{B_1} B1中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已经满足需要了,可以停止抽取成分。否则用残差阵 A 1 , B 1 \bm{A_1,B_1} A1,B1代替 A , B \bm{A,B} A,B,重复以上步骤。得 { A = u ^ 1 σ ( 1 ) T + u ^ 2 σ ( 2 ) T + A 2 B = u ^ 1 τ ( 1 ) T + u ^ 2 τ ( 2 ) T + B 2 \begin{cases}\bm{A=\hat{u}_1\sigma^{(1)T}+\hat{u}_2\sigma^{(2)T}+A_2}\\\bm{B=\hat{u}_1\tau^{(1)T}+\hat{u}_2\tau^{(2)T}+B_2}\end{cases} {A=u^1σ(1)T+u^2σ(2)T+A2B=u^1τ(1)T+u^2τ(2)T+B2
    4. n × m n\times m n×m数据阵 A \bm{A} A的秩为 r ⩽ min ⁡ ( n − 1 , m ) r\leqslant\min(n-1,m) rmin(n1,m),则存在r个成分 u 1 , ⋯   , u r u_1,\cdots,u_r u1,,ur,使得 { A = u ^ 1 σ ( 1 ) T + ⋯ + u ^ r σ ( r ) T + A r B = u ^ 1 τ ( 1 ) T + ⋯ + u ^ r τ ( r ) T + B r \begin{cases}\bm{A=\hat{u}_1\sigma^{(1)T}+\cdots+\hat{u}_r\sigma^{(r)T}+A_r}\\\bm{B=\hat{u}_1\tau^{(1)T}+\cdots+\hat{u}_r\tau^{(r)T}+B_r}\end{cases} {A=u^1σ(1)T++u^rσ(r)T+ArB=u^1τ(1)T++u^rτ(r)T+Br u ∼ x u\sim x ux带入 y ∼ u y\sim u yu,即得 y ∼ x y\sim x yx的偏最小二乘回归方程。
    5. 交叉有效性检验:一般情况下,偏最小二乘法并不需要选用存在的r个成分 u 1 , ⋯   , u r u_1,\cdots,u_r u1,,ur来建立回归式,只选用前 l l l个成分即可得到预测能力较好地回归模型。对于建模所需提取的成分个数 l l l,可通过交叉有效性检验来确定。
      每次舍去第 i ( i = 1 , 2 , ⋯   , n ) i(i=1,2,\cdots,n) i(i=1,2,,n)个观测数据,对余下n-1个观测数据用偏最小二乘回归方法建模,并考虑抽取 h ( h ⩽ r ) h(h\leqslant r) h(hr)个成分后拟合的回归式,然后把舍去的自变量组第i个观测数据代入所拟合的回归方程式,得到 y j ( j = 1 , 2 , ⋯   , p ) y_j(j=1,2,\cdots,p) yj(j=1,2,,p)在第i个观测点上的预测值 b ^ ( i ) j ( h ) \hat{b}_{(i)j}(h) b^(i)j(h)
      i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,,n重复以上的验证,抽取h个成分时第j个因变量 y j y_j yj的预测误差平方和为 PRESS ⁡ j ( h ) = ∑ i = 1 n [ b i j − b ^ ( i ) j ( h ) ] 2 \operatorname{PRESS}_j(h)=\sum_{i=1}^n[b_{ij}-\hat{b}_{(i)j}(h)]^2 PRESSj(h)=i=1n[bijb^(i)j(h)]2 Y = [ y 1 , ⋯   , y p ] T \bm{Y}=[y_1,\cdots,y_p]^T Y=[y1,,yp]T的预测误差平方和为 PRESS ⁡ ( h ) = ∑ j = 1 p PRESS ⁡ j ( h ) \operatorname{PRESS}(h)=\sum_{j=1}^p\operatorname{PRESS}_j(h) PRESS(h)=j=1pPRESSj(h)另外,再采用所有的样本点,拟合含h个成分的回归方程。此时,记第i个样本点的预测值为 b ^ i j ( h ) \hat{b}_{ij}(h) b^ij(h),则可以定义 y j y_j yj的误差平方和为 SS ⁡ j ( h ) = ∑ i = 1 n [ b i j − b ^ i j ( h ) ] 2 \operatorname{SS}_j(h)=\sum_{i=1}^n[b_{ij}-\hat{b}_{ij}(h)]^2 SSj(h)=i=1n[bijb^ij(h)]2定义 Y \bm{Y} Y的误差平方和为 SS ⁡ ( h ) = ∑ j = 1 p SS ⁡ j ( h ) \operatorname{SS}(h)=\sum_{j=1}^p\operatorname{SS}_j(h) SS(h)=j=1pSSj(h) PRESS ⁡ ( h ) \operatorname{PRESS}(h) PRESS(h)达到最小值时,对应的h即为所求得成分个数l。定义交叉有效性为 Q h 2 = 1 − PRESS ⁡ ( h ) SS ⁡ ( h − 1 ) Q^2_h=1-\cfrac{\operatorname{PRESS}(h)}{\operatorname{SS}(h-1)} Qh2=1SS(h1)PRESS(h)在建模的每一步计算结束前,均进行交叉有效性检验,如果将限制值设为0.05,在第h步有 Q h 2 < 1 − 0.9 5 2 = 0.0975 Q_h^2<1-0.95^2=0.0975 Qh2<10.952=0.0975,则模型达到精度要求,可停止提取成分;否则表示第h步提取的 u h u_h uh成分边际贡献显著,应继续第h+1步计算。

    2. Matlab偏最小二乘回归命令plsregress

    [XL,YL,XS,YS,BETA,PCTVAR,MSE,stats] = plsregress(X,Y,ncomp)
    
    • X为[n,m]的自变量数据阵;Y为[n,p]的因变量数据阵;ncomp为成分个数,默认为min(n-1,m)
    • XL为[m,ncomp]的负荷量矩阵 σ \bm{\sigma} σ;YL为[p,ncomp]的负荷量矩阵 τ \bm{\tau} τ;XS为 u ^ \bm{\hat{u}} u^的得分矩阵;YS为 v ^ \bm{\hat{v}} v^的得分矩阵
    • BETA的每一列对应 y ∼ x y\sim x yx的回归表达式;PCTVAR是一个两行的矩阵,两行分别代表每个元素对应自变量和因变量提出成分的贡献率;MSE是一个两行的矩阵,两行分别代表自变量和因变量对应提出成分之间回归方程的剩余标准差
    • stats返回4个值,其中stats.W的每一列对应特征向量 ρ \bm{\rho} ρ,Matlab算得的特征向量不是单位向量
    展开全文
  • 数据回归-多元线性回归中复共线问题及最小二乘回归分析.pdf
  • (1)分别提取两变量组的第一对成分,并使之相关性达最大 (2)建立 (3)用残差阵 (4)设 (5)交叉有效性检验
  • 先用动态聚类法对福州市居民历史用电负荷进行聚类分析以获得一个样本空间,在此基础上采用最小二乘回归方法进行建模和短期负荷预测分析
  • 1.PCR 主成分分析回归 2.PLSR 最小二乘回归 3.直接替换数据就能运行
  • 讲得比较清晰的一个最小二乘,附带了MATLAB最小二乘函数的使用
  • 最小二乘回归分析原理详解背景最小二乘回归分析 Partial least squares regression analysis基本思想建模步骤步骤一:分别提取两变量组的第一对成分,并使之相关性达最大步骤二:建立 y1,⋯ ,yp\boldsymbol{y}_...
  • (真正的好东西)最小二乘回归=多元线性回归分析典型相关分析主成分分析报告.doc
  • 最小二乘回归在matlap中的实现,源代码,有交叉效应
  • 0.最小二乘回归集成了多元线性回归、主成分分析和典型相关分析的优点,在建模中是一个更好的选择,并且MATLAB提供了完整的实现,应用时主要的问题是:注意检验,各种检验参数:有关回归的检验以及有关多元分析的...
  • 数据回归-结合最小二乘回归的复杂疾病基因定位全基因组关联分析.pdf
  • 包含python实现最小二乘回归的源代码,同时文件中还有所需数据格式
  • 最小二乘回归 MATLA01序代 码 最小二乘回归MATLAB程序代码 单因变量 fun cti on y=pls(pz) [row,col]=size(pz; aver=mea n( pz; stdcov=std(pz; %求均值和标准差 rr=corrcoef(pz; %求相关系数矩阵 %data=zscore...
  • MATLAB进行图像处理相关的学习是非常友好的,可以从零开始,对基础的图像处理都已经有了封装好的许多可直接调用...与传统多元线性回归模型相比,最小二乘法的特点是:1、能够在自变量存在严重多重相关性的条件下进行
  • 数学建模-11第11章 最小二乘回归分析.zip
  • 最小二乘回归.pdf

    2021-09-01 22:22:48
    本章介绍最小二乘回归分析的建模方法;通过例子从预测角度对所建立的回归模型进行比较
  • 全秩和部分秩最小二乘回归。 这些函数接受 X 和 Y 数据作为矩阵或表格。 X 和 Y 被转换为矩阵并进行处理。 PLS 组件的最佳数量是通过留一法交叉验证找到的,但它可以由用户修改。 输出被组织在用户定义的结构变量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 31,427
精华内容 12,570
关键字:

偏回归分析

友情链接: LED_SCAN.zip