精华内容
下载资源
问答
  • 神经网络变量筛选—基于BP的神经网络变量筛选 matlab程序
  • 神经网络变量筛选—基于BP的神经网络变量筛选matlab代码程序
  • 目录##变量筛选方法预测与回归诊断其他统计量SAS中Weight和Freq的区别Refreence1. 变量筛选方法全回归模型 (None)向前发(Forward) -- 逐步引入法向后发(Backward) --逐步剔除法逐步筛选法 (Stepwise)最大Rsquare增量...

    目录##

    变量筛选方法

    预测与回归诊断

    其他统计量

    SAS中Weight和Freq的区别

    Refreence

    1. 变量筛选方法

    全回归模型 (None)

    向前发(Forward) -- 逐步引入法

    向后发(Backward) --逐步剔除法

    逐步筛选法 (Stepwise)

    最大Rsquare增量法(Maxr)

    最小Rsquare增量法(Minr)

    Rsquare选择法(Rsquare)

    修正Rsquare选择法(Adjrsq)

    Mallow的\( C_p \)选择法(CP)

    \(C_p\)衡量回归模型的拟合效果(fittness),值越小,表示模型越精确

    \(\hat\sigma\) 代表预测的响应变量方差, d 代表预测变量的个数\(X_1,..,X_d\)

    $$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$

    2. 预测与回归诊断##

    2.1. 杠杆率: 刻画第i个观测点距离中心的远近 (\( x_ i\) 为设计矩阵X的第i行)

    $$ h _ i = x _ i (X'X)^{-1} x'_i $$

    2.2. CookD统计量 (影响诊断统计量)

    探查对回归估计或预测具有很大影响的观测点,即强影响点。其中:b(i)是删掉第i个观测后,从余下的n-1个观测得出的参数\( \beta \)的最小二乘估计, k是模型中参数的个数,\( t_i\) 是学生化残差

    $$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$

    2.3.共线诊断

    当某个回归变量近似地是模型中绮月变量的线性组合是,得到的参数估计是不稳定的,而且估计量的方差很大。这种问题被称为共线性(colinearity) 或者多重共线性(multicolinearity).共线性诊断就是找出那些变量间存在共线关系:

    特征值法:把\( X'X \)变换为对角线为1 的矩阵,然后求特征值和特征向量,若有r个特征值近似为0,则相应的r个变量有强共线关系

    条件指数(Condition Index):最大特征值和每个特征值之比的平方根。最大条件指数为矩阵X的条件数。当条件数较大是,这组数据被认为是病态数据。当条件数很大时,认为有严重共线性。

    方差膨胀因子:记\( C=(c_{ij})=(X'X)^{-1} \), R(i)为变量\(X_i\)对其余m-1个自变量的复相关系数,则有:

    $$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$

    \( c_{ii}\)被称为方差膨胀因子。

    参数的容许度定义为: $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$

    3. 其他统计量

    3.1 决定系数\(R^2\)定义

    $$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$

    3.2 修正的决定系数 Adj-Rsquare 定义

    $$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}

    =1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$

    Adj-Rsquare 可能为负值,

    \(当R^2 < \frac{k}{n-k-1}时,Adj-Rsquare < 0 , 在这种情况下,R^2 失去意义,当做R^2=0处理\)。因此,Adj-Rquare 只适用于 y与 \(x_1,...,x_k \) 整体相关程度比较高的情况

    4. SAS中 Weight和Freq的区别?

    Freq 变量标识观测数显的次数;weight变量给出观测的相应权重。当每个观测的权重都是整数时,weight语句也可以用freq 语句代替

    data demo;

    input FW Value;

    cards;

    1 1

    2 3

    ;

    proc means data=demo n mean var std;

    var value;

    freq fw;

    run;

    proc means data=demo n mean var std;

    var value;

    weight fw;

    run;

    Reference:

    计量经济学 - Adj-Rsquare

    展开全文
  • 变量筛选用在天然植物特征成分筛选,提升传统天然植物特征成分筛选的准度、速度
  • 由于《An Introduction to Statistical Learning with R》...这些方法会在后面的模拟实验以及真实数据中进行应用,并且比较书上传统的方法与下述三种方法的真实变量筛选效果。 首先介绍将L0L0L^0范数与L1L1L^1范...

    由于《An Introduction to Statistical Learning with R》书中的方法书中的方法都是一些比较基础的方法,在做模拟实验以及真实超高维数据时,会出现很多局限性。因此本文后半部分介绍了课本上未提及到的一些方法。这些方法会在后面的模拟实验以及真实数据中进行应用,并且比较书上传统的方法与下述三种方法的真实变量筛选效果。

    首先介绍将L0L^0范数与L1L^1范数相结合的SCAD方法。


    SCAD(Smoothly Clipped Absolute Deviation)

    与岭回归相比,SCAD降低了模型的预测方差,与此同时与Lasso相比,SCAD又缩小了参数估计的偏差,同时它还有很多前面算法所不具备的优秀性质,因而受到了广泛的关注。

    SCAD将前面博客提到的gλ(β)=λf(β)g_\lambda(\beta) = \lambda f(\beta),变为如下形式:
    gλ(β)={λβj,0βj&lt;λ,(βj22aλβj+λ2)/(2a2),λβj&lt;aλ,(a+1)λ2/2,βjaλ.g_\lambda(\beta) = \left\{ \begin{array}{ll} \lambda |\beta_j|, &amp; 0 \leq |\beta_j| &lt; \lambda,\\ -(|\beta_j| ^ 2 - 2a \lambda |\beta_j| + \lambda^2)/(2a-2), &amp; \lambda \leq |\beta_j| &lt; a\lambda,\\ (a+1)\lambda^2 / 2, &amp; |\beta_j| \geq a \lambda. \\ \end{array} \right.

    其中,λ0,a&gt;2\lambda \geq 0, a&gt;2,Fan和Li\cite{article11} 建议a取3.7。特别地,若设计矩阵XX正交时,SCAD法参数估计显式表达式如下:
    β^SCAD={sign(βj^)βj^λ),0βj&lt;2λ,((a1)βj^sign(βj^)aλ)/(a2),2λβj^&lt;aλ,βj^,βj^aλ. \hat{\beta}^{SCAD} = \left\{ \begin{array}{ll} sign(\hat{\beta_j}) |\hat{\beta_j}| - \lambda ), &amp; 0 \leq |\beta_j| &lt; 2 \lambda,\\((a - 1)\hat{\beta_j} - sign(\hat{\beta_j})a\lambda)/(a-2), &amp; 2\lambda \leq |\hat{\beta_j}| &lt; a\lambda,\\ \hat{\beta_j}, &amp; |\hat{\beta_j}| \geq a \lambda. \\\end{array} \right.

    这里写图片描述

    上图说明了L0L^0惩罚,L1L^1惩罚,与SCAD三者惩罚之间的差别。可以看出,L0L^0方法只会进行变量筛选,不会进行压缩,L1L^1(LASSO)既会进行变量筛选,也会对系数继续一定的调整。而SCAD可以从图中很明显的其结合了两种方法,对系数较大的变量不进行惩罚,对系数较少的进行压缩或者删去,因此这种方法既可以筛选变量,也有着Oracle的性质,使其预测效果和真实模型别无二致。

    SCAD虽然有相应的迭代算法,但是由于其复杂度高,所以计算速度相对较慢。另外老师上课讲过的将L1L^1L2L^2范数相结合的Elastic Net方法\cite{article16},也是基于前面的一种衍生方法,本文不再进行阐述。


    SIS(Sure Independence Screening)

    当今大数据时代,维数远大于样本量的情况已经非常多见。尽管前面所提出的方法,而且也能一定程度上解决髙维数据问题。但当遇到超高维数据,即维数P无穷大时,上述的算法也会出现问题。针对这类超高维问题,Fan和Lv\cite{article12} 提出了SIS的方法。

    针对线性回归模型(2),按照SIS的思想,首先YY为中心化向量,计算YY与每一个自变量xix_i的相关系数,记为
    ω=XTY,\omega = X^T Y ,
    其中 ω=(ω1,&ThinSpace;,ωp)T\omega = (\omega_1,\cdots,\omega_p)^T,若ωi\omega_i越大,说明xix_iYY相关性越强。所以,可以根据ωi|\omega_i|的大小来进行变量选择。对任意的γ(0,1)\gamma \in (0,1),对ωi|\omega_i|进行从大到小排序,然后取其一个子集

    Mγ={1ip:ωi是前[γn]个最大的},M_\gamma = \lbrace 1 \leq i \leq p:|\omega_i| \text{是前}[\gamma n] \text{个最大的} \rbrace,

    其中,nn是样本数,[γn][\gamma n]γn\gamma n的整数部分,进而保证了[γn]&lt;n[\gamma n] &lt; n,与之对应的自变量则入选模型。如果觉得选择[γn][\gamma n]不便于确定,可以选择n1n - 1n/lognn/\log n

    而关于相关系数,可以选用自己认为合适的。本文后面的模拟选用传统的Pearson相关系数,以及近几年比较火的可用于检验独立的无参数假设的距离相关性(Distance Covariance),下面其计算公式:

    距离相关性(Distance Covariance)

    aj,k=XjXk,j,k=1,2,,n,bj,k=YjYk,j,k=1,2,,n,\begin{aligned} a_{j,k}&amp;=\|X_{j}-X_{k}\|,\qquad j,k=1,2,\ldots ,n,\\b_{j,k}&amp;=\|Y_{j}-Y_{k}\|,\qquad j,k=1,2,\ldots ,n, \end{aligned}
    其中:||\cdot||表示Euclidean范数(欧几里得距离),有:
    Aj,k:=aj,kajak+a,Bj,k:=bj,kbjbk+b, A_{j,k}:=a_{j,k}-{\overline {a}}_{j\cdot }-{\overline {a}}_{\cdot k}+{\overline {a}}_{\cdot \cdot },\qquad B_{j,k}:=b_{j,k}-{\overline {b}}_{j\cdot }-{\overline {b}}_{\cdot k}+{\overline {b}}_{\cdot \cdot },

    其中:aj\overline {a}_{j\cdot}表示由aj,ka_{j,k}组成的矩阵,第jj行均值,ak\overline {a}_{\cdot k} 表示第kk列均值,以及a\overline {a}_{\cdot \cdot }XX样本中所有数取平均。bb的符号标记同aa一样,则样本的距离相关性定义为:
    dCovn2(X,Y):=1n2j=1nk=1nAj,k&ThinSpace;Bj,k.\text{dCov}_{n}^{2}(X,Y):={\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k=1}^{n}A_{j,k}\,B_{j,k}.


    利用随机森林进行变量筛选

    其实使用随机森林进行变量筛选是一个比较小众的方法,但其实代表了一类方法。模型本身是用于预测的模型,但在预测过程中,可以对变量重要性进行排序,然后通过这种排序来进行变量筛选。这类方法其实还适用于最近比较火的xgboost,lightgbm等一些非常流行的基于树的机器学习算法,在实际应用中,效果都非常突出。

    本文只以较为基础的随机森林中的变量筛选为例:

    变量重要性评判用Gini指数为标准,针对一棵树中的每个节点kk,我们都可以计算一个Gini指数:
    Gk=2p^k(1p^k),G_k = 2 \hat{p}_k (1 - \hat{p}_k),
    其中p^k\hat{p}_k表示样本在节点kk属于任意一类的概率估计值。

    一个节点的重要性由节点分裂前后Gini指数的变化量来确定:
    Ik=GkGk1Gk2,I_{\triangle k} = G_k - G_{k1} - G_{k2},
    Gk1G_{k1}Gk2G_{k2}分别表示GkG_k产生的子节点。针对森林中的每棵树,都用上述的标准来递归产生,最终随机抽取样本和变量,产生森林,假设森林共产生TT棵树。

    森林中,如果变量XiX_i在第tt棵树中出现MM次,则变量XiX_i在第tt棵树的重要性为:
    Iit=j=1MIj.I_{it} = \sum_{j = 1}^M I_{\triangle j}.

    XiX_i在整个森林中的变量重要性为:
    I(i)=1nt=1TIit.I_{(i)} =\frac{1}{n} \sum_{t = 1}^T I_{it}.

    最终我们根据变量重要性来选择变量,选择的个数可以用SIS中的方法,选取n1n - 1n/lognn/\log n个。

    至此,变量筛选的一些方法已进行了简要的概述,包括课本中的以及一些延伸的方法。下面将用模拟实验以及真实数据,来对这些方法进行比较分析。


    原始对偶激活集算法(PDAS)

    原始对偶激活集算法(Primal Dual Active Set,PDAS)是一个非常新的方法,但做的事情是最优子集选择的事情。其主要思想是引入激活集,对所有的β\beta进行批量迭代更新。这个方法的优势在于,可以处理超高维数据(上万维),而最优子集选择一旦超过了50维,基本就完全没办法进行运算。后面我们也将采用PDAS来进行模拟。

    其算法如下:

    1. 给定某固定的TT,初始的β0\beta^0d0=g(β0)h(β0)d^0=-\dfrac{g(\beta_0)}{h(\beta_0)},根据β0\beta^0d0d^0得出A0\mathcal{A}^0I0\mathcal{I}^0。令k=0k=0
    1. For k=0,1,2,,Kmaxk=0,1,2,\ldots,K_{max}, do
      (2.a) 更新(βk+1,dk+1)(\beta^{k+1},d^{k+1}):
      {βIkk+1=0dAkk+1=0βAkk+1=arg&ThinSpace;min&ThinSpace;l(βAkY,XAk)dIkk+1=g(βIkk)h(βIkk) \left\{ \begin{array}{ll} \beta_{I^k}^{k+1}=0\\ d_{A^k}^{k+1}=0\\ \beta_{A^k}^{k+1}=arg\,min\,l(\beta_{A^k}|\textit{Y},\textit{X}_{A^k})\\ d_{I^k}^{k+1}=-\dfrac{g(\beta_{I^{k}}^{k})}{h(\beta_{I^{k}}^{k})} \end{array} \right.
      (2.b) 通过以下方式计算新的激活集Ak+1\mathcal{A}^{k+1}和非激活集Ik+1\mathcal{I}^{k+1}:
      Ak+1={j:h(βjk+1)βjk+1+djk+1h(βjk+1)βjk+1+djk+1T,}, A^{k+1}=\lbrace{j}:\sqrt{-h(\beta_{j}^{k+1})}\vert\beta_{j}^{k+1}+d_{j}^{k+1}\vert\geqslant\sqrt{-h(\beta_{j}^{k+1})}\Vert\beta_{j}^{k+1}+d_{j}^{k+1}\Vert_{T,\infty}\rbrace,
      Ik+1=(Ak+1)c I^{k+1}=(A^{k+1})^c
      (2.c) 如果Ak+1=Ak\mathcal{A}^{k+1}=\mathcal{A}^{k},则停止迭代;否则令k=k+1k=k+1,继续(2.a)和(2.b)步。
      (2.d) 输出β=βk+1\beta=\beta^{k+1}

    后面我们将对前面提及的一些算法进行模拟,以及真实案例操作。传送门:一些变量筛选方法——4、模拟实验

    展开全文
  • 基于MIV的神经网络变量筛选----基于BP神经网络的变量筛选 %% 清空环境变量 clc clear %% 产生输入 输出数据 % 设置步长 interval=0.01; % 产生x1 x2 x1=-1.5:interval:1.5; x2=-1.5:interval:1.5; % 产生x3 x4...

    基于MIV的神经网络变量筛选----基于BP神经网络的变量筛选

    %% 清空环境变量
    clc
    clear
    %% 产生输入 输出数据
    
    % 设置步长
    interval=0.01;
    
    % 产生x1 x2
    x1=-1.5:interval:1.5;
    x2=-1.5:interval:1.5;
    
    % 产生x3 x4(噪声)
    x=rand(1,301);
    x3=(x-0.5)*1.5*2;
    x4=(x-0.5)*1.5*2;
    
    % 按照函数先求得相应的函数值,作为网络的输出。
    F =20+x1.^2-10*cos(2*pi*x1)+x2.^2-10*cos(2*pi*x2);
    
    %设置网络输入输出值
    p=[x1;x2;x3;x4];
    t=F;
    
    
    %% 变量筛选 MIV算法的初步实现(增加或者减少自变量)
    
    p=p';
    [m,n]=size(p);
    yy_temp=p;
    
    % p_increase为增加10%的矩阵 p_decrease为减少10%的矩阵
    for i=1:n
        p=yy_temp;
        pX=p(:,i);
        pa=pX*1.1;
        p(:,i)=pa;
        aa=['p_increase'  int2str(i) '=p;'];
        eval(aa);
    end
    
    
    for i=1:n
        p=yy_temp;
        pX=p(:,i);
        pa=pX*0.9;
        p(:,i)=pa;
        aa=['p_decrease' int2str(i) '=p;'];
        eval(aa);
    end
    
    
    %% 利用原始数据训练一个正确的神经网络
    nntwarn off;
    p=yy_temp;
    p=p';
    % bp网络建立
    net=newff(minmax(p),[8,1],{'tansig','purelin'},'traingdm');
    % 初始化bp网络
    net=init(net);
    % 网络训练参数设置
    net.trainParam.show=50;
    net.trainParam.lr=0.05;
    net.trainParam.mc=0.9;
    net.trainParam.epochs=2000;
    
    % bp网络训练
    net=train(net,p,t);
    
    
    %% 变量筛选 MIV算法的后续实现(差值计算)
    
    % 转置后sim
    
    for i=1:n
        eval(['p_increase',num2str(i),'=transpose(p_increase',num2str(i),');'])
    end
    
    for i=1:n
        eval(['p_decrease',num2str(i),'=transpose(p_decrease',num2str(i),');'])
    end
    
    
    % result_in为增加10%后的输出 result_de为减少10%后的输出
    for i=1:n
        eval(['result_in',num2str(i),'=sim(net,','p_increase',num2str(i),');'])
    end
    
    for i=1:n
        eval(['result_de',num2str(i),'=sim(net,','p_decrease',num2str(i),');'])
    end
    
    for i=1:n
        eval(['result_in',num2str(i),'=transpose(result_in',num2str(i),');'])
    end
    
    for i=1:n
        eval(['result_de',num2str(i),'=transpose(result_de',num2str(i),');'])
    end
    

    输出
    在这里插入图片描述

    
    MIV_1 =
    
        1.8008
    
    
    MIV_2 =
    
        0.7467
    
    
    MIV_3 =
    
        0.0024
    
    
    MIV_4 =
    
       -0.0043
    

    完毕

    展开全文
  • 美食该如何制作?食品安全以什么为标准?用什么来检测食品成分?这么一份SPSS软件在变量筛选中的应用来为...该文档为SPSS软件在变量筛选中的应用,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看
  • 变量筛选之PSI

    2020-05-14 18:18:33
    变量筛选之PSI的计算逻辑: 变量稳定性作为入模型变量筛选的其中一个标准,变量的稳定性决定了模型的稳定性,模型分数的跌宕起伏影响公司风控的把控和正确性。 群体稳定性指标(population stability index)公式: ...

    变量筛选之PSI的计算逻辑:

    变量稳定性作为入模型变量筛选的其中一个标准,变量的稳定性决定了模型的稳定性,模型分数的跌宕起伏影响公司风控的把控和正确性。
    群体稳定性指标(population stability index)公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))

    计算例子:

    在这里插入图片描述

    R语言计算代码

    library(smbinning)
    PSI_table=data.frame()###numer_names
    mydata_d=mydata
    for(i in 1:length(numer_names)){
      mydata_d[,numer_names[i]]<-as.factor(mydata_d[,numer_names[i]])
      a=smbinning.psi(df=mydata_d,y="users",x=numer_names[i]) 
      PSI_value=a$psimg["PSI","train"]
      psi_DATA=data.frame(names=numer_names[i],PSI=PSI_value)
      PSI_table=rbind(PSI_table,psi_DATA)
    }
    
    PSI_table
    

    PSI筛选变量的方法

    一般认为PSI小于0.1时候模型稳定性很高,0.1-0.2一般,需要进一步研究,大于0.2模型稳定性差,建议修复。当然也是视实际情况而定,比如目前公司数据的数量级以及风控情况的考虑,在进行PSI筛选变量的时候以0.5一下的变量来考虑选入。

    展开全文
  • 评分卡模型变量筛选

    2020-08-08 19:03:42
    变量筛选 用户的属性很多,如果全部输入模型,时间开销太大,而且模型复杂度过高。也会导致模型泛化能力降低,需要提前剔除没有意义的变量。 挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性...
  • 原标题:SPSS分析技术:回归模型的自变量筛选方法;欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区。 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的...
  • 撰文 Yotsunoha编辑 袁老师这里我们使用logit回归和OLS(最小二乘回归)回归展示一下python的变量筛选过程。from scipy import statsfrom statsmodels.formula.api import olsfrom statsmodels.stats.anova import ...
  • 影像学、基因组学等数据进入医学统计分析,经常会面临对高维变量特征选择的问题,Lasso回归是在线性回归模型的代价函数后面加上L1范数的约束项的模型,它通过控制参数lambda进行变量筛选和复杂度调整,被广泛的用到...
  • 光谱数据分析中的通用非线性变量筛选新方法
  • 回归模型的变量筛选与预测

    千次阅读 2019-06-21 10:27:35
    我眼中的回归变量筛选 变量筛选是回归建模过程关键的一步,由于变量间的相关性,必然会导致不同的筛选方法得到不同的模型。 在所有变量筛选方法中,向前法、向后法以及逐步回归法的使用频率较高,因为这类方法...
  • 风险模型 - 变量筛选

    千次阅读 2019-08-18 20:36:50
    风险模型 - 变量筛选模型搭建的一般步骤变量探索覆盖率PSIIVWOE 写在前面的话,我们建模,希望建模型做细,尤其风险类模型,切记不要以为将特征库的变量筛选出来直接扔到模型里,训练出来一版模型,发现KS0.5,AUC...
  • 风控建模三:变量筛选原则

    千次阅读 2019-12-09 22:24:09
    风控建模一:变量筛选一 变量自身分布稳定性psi长期趋势图二 变量和目标值的强相关关系IV值变量数的选择 好的模型变量直接决定着一个风险模型是否稳定和有效,而好的模型变量都具备以下三种特性: 1、变量自身的...
  • PART 4 风控建模 变量筛选

    千次阅读 2019-03-10 10:48:23
    变量筛选包含核心点如下 1 变量可解释性 确定筛选变量是可解释变量,不是没有含义的 2 变量相关性 由于很多变量基于时间切片或者衍变模式类似,所以需要检测剔除,目前剔除方式是保留IV最大的,剔除IV较小的,...
  • 数据预处理:变量筛选和变换

    千次阅读 2018-09-19 14:21:27
    变量筛选和变换 我们在尽心数据处理中会遇到变量的筛选问题 这里我们不是PCA(主成分分析),就是简单的人工变量筛选, 比如就像提取其中几个变量,或者想删除一些变量,还有就是某一个变量根据内容的一些简单筛选和...
  • 论文研究-灰色关联度分析在变量筛选应用中的误区.pdf, 探讨了多元回归建模中灰色关联度分析应用于变量筛选时存在的问题及其原因 ;结合实例阐明 ,GM(1 ,n )模型本身无法...
  • 影像学、基因组学等数据进入医学统计分析,经常会面临对高维变量特征选择的问题,Lasso回归是在线性回归模型的代价函数后面加上L1范数的约束项的模型,它通过控制参数lambda进行变量筛选和复杂度调整,被广泛的用到...
  • 一些变量筛选方法——1、综述

    万次阅读 多人点赞 2018-05-11 00:32:32
    由于《An Introduction to Statistical Learning with R》课程论文需要我们进行对一些变量筛选方法与降维的方法进行综述,所以这里将分几个部分,将学到的一些变量筛选方法写在博客之中。写成一篇长博客看得比较吃力...
  • 如何利用BP网络进行神经网络变量筛选
  • 利用激光诱导击穿光谱(LIBS)技术,对油漆涂层中的重金属Pb进行定量检测研究。优化实验参数后,利用多通道光谱仪采集...CARS变量筛选方法能够从光谱中有效筛选出与Pb相关的重要信息,能够结合PLS准确检测油漆涂层中的Pb。
  • :数据预处理》中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类...
  • 【临床研究】---多元回归分析中的变量筛选问题方法选择的思考路径:1、变量筛选方法的归纳1)变量筛选的一般流程:①逐个变量:单因素回归分析②分析P值:依据样本量大小情况调整P值选择范围③纳入规则:将单因素...
  • (注:有不对的之处望路过大神指正,本文只做记录,非教程,转载请附原文链接。...实现一个自定义类的变量筛选,且该类不继承于已能筛选的父类,接口除外 FSlateBrush 这个结构体中的ResourceObject就是在编辑器中...
  • 基于相关性分析和主成分分析的变量筛选方法 https://www.zybuluo.com/notmylove/note/1508052 主成分分析法指标筛选 既然在课程专题四中讲到主成分分析法,那么这里再进一步介绍主成分分析法,概括起来说,...
  • 一些变量筛选方法——6、代码

    千次阅读 多人点赞 2019-01-16 15:45:25
    之前有小伙伴说希望公开之前变量筛选文章的代码,这里时隔好多个月,或许都一年了,将之前的代码整理出来了。 当时由于时间有限,只有几天的时间将论文和代码赶出来,所以写的不是很好,全程for循环,还请见谅! ...
  • Python 根据AIC准则定义向前逐步回归进行变量筛选(二) AIC简介 AIC即赤池值,是衡量模型拟合优良性和模型复杂性的一种标准,在建立多元线性回归模型时,变量过多,且有不显著的变量时,可以使用AIC准则结合逐步...
  • 前面(机器学习第17篇 - 特征变量筛选(1))评估显示Boruta在生物数据中具有较高的特征变量选择准确度,下面就具体看下如何应用Boruta进行特征变量选择。Boruta算法概述Bor...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,298
精华内容 919
关键字:

变量筛选