精华内容
下载资源
问答
  •   Lasso回归与岭回归都是对线性回归进行正则化。 线性回归的损失函数为: RSS=J(w)=∑i=1N(yi−w0−∑j=1pwjxij)2RSS=J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2RSS=J(w)=i=1∑N​...

    文章目录

    1.问题解答

      Lasso回归与岭回归都是对线性回归进行正则化。
    线性回归的损失函数为:
    RSS=J(w)=i=1N(yiw0j=1pwjxij)2RSS=J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2
    岭回归的损失函数为:
    J(w)=i=1N(yiw0j=1pwjxij)2+λj=1pwj2=RSS+λj=1pwj2,    λ0J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}w_j^2=RSS+\lambda\sum\limits_{j=1}^{p}w_j^2,\;\;其中,\lambda \ge 0
    在这里插入图片描述

    Lasso回归的损失函数为:
    J(w)=i=1N(yiw0j=1pwjxij)2+λj=1pwj=RSS+λj=1pwj,    λ0J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}|w_j|=RSS+\lambda\sum\limits_{j=1}^{p}|w_j|,\;\;其中,\lambda \ge 0
    在这里插入图片描述
      当p=2时,lasso的参数估计是所有满足|β1|+|β2|≤s的β1和β2取值中最小化RSS的。ridge是估计所有满足β21+β22≤s的参数取值中最小化RSS的。从图上来看,

    p=3或者其他大于1的数字,改变的只是特征空间

    在这里插入图片描述
      椭圆形曲线为RSS等高线,菱形和圆形区域分别代表了L1和L2约束,Lsaao回归和岭回归都是在约束下的回归,因此最优的参数为椭圆形曲线与菱形和圆形区域相切的点。但是Lasso回归的约束在每个坐标轴上都有拐角,因此当RSS曲线与坐标轴相交时恰好回归系数中的某一个为0,这样就实现了特征提取。反观岭回归的约束是一个圆域,没有尖点,因此与RSS曲线相交的地方一般不会出现在坐标轴上,因此无法让某个特征的系数为0,因此无法做到特征提取。Lsaao回归可以让某些回归系数为0,对应的特征变量就没有被挑选。岭回归只能让回归系数趋近于0但永不为0.虽然可以使损失函数变小,但起不到特征挑选的作用。

      从图像上比较好理解,理论上L1正则化实现了参数稀疏,即可使某些回归系数为0.
    参考:
    为什么Lasso有变量选择作用?


    如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论留言!
    在这里插入图片描述


    展开全文
  • 二就是特征归一化(Feature Scaling),这也许多机器学习模型需要注意的问题。 有些模型在各个维度进行均匀伸缩后,最优解与原来不等价,例如SVM。对于这样的模型,除非本来各维数据的...

    在求解线性回归的模型时,有两个需要注意的问题

    一就是特征组合问题,比如房子的长和宽作为两个特征参与模型的构造,不如把其相乘得到面积然后作为一个特征来进行求解,这样在特征选择上就做了减少维度的工作。

    二就是特征归一化(Feature Scaling),这也是许多机器学习模型都需要注意的问题。

    有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。

    有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。

    归一化后有两个好处:

    1. 提升模型的收敛速度

    如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快

     


    2.提升模型的精度

    归一化的另一好处是提高精度,这在涉及到一些距离计算的算法时效果显著,比如算法要计算欧氏距离,上图中x2的取值范围比较小,涉及到距离计算时其对结果的影响远比x1带来的小,所以这就会造成精度的损失。所以归一化很有必要,他可以让各个特征对结果做出的贡献相同。

    下边是常用归一化方法

    1). 线性归一化,线性归一化会把输入数据都转换到[0 1]的范围,公式如下

    该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始数据,Xmax、Xmin分别为原始数据集的最大值和最小值。

    2). 0均值标准化,0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集,归一化公式如下:

    其中,μ、σ分别为原始数据集的均值和方法。该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕。

    关于归一化方法的选择

    1) 在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好。


    2) 在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

    选择方法是参考自http://blog.csdn.net/zbc1090549839/article/details/44103801,至于为什么,我现在也还不清楚

     

    参考文献:

    http://www.cnblogs.com/LBSer/p/4440590.html

    NG讲义2012版

    展开全文
  • 主要原因是特征分裂的评价标准一样,cart有两种评价标准:Variance和Gini系数。 而ID3(信息增益)和C4.5(信息增益率)的评价基础都是信息熵。 信息熵和Gini系数是针对分类任务的指标,而Variance是针对连续值...

    主要原因是特征分裂的评价标准不一样,cart有两种评价标准:Variance和Gini系数。

    而ID3(信息增益)和C4.5(信息增益率)的评价基础都是信息熵。

    信息熵和Gini系数是针对分类任务的指标,而Variance是针对连续值的指标因此可以用来做回归。

     

    此外,CART生成的树是二叉树,回归时的损失函数是最小化均方差,预测值等于该节点所有值的平均。

     

    参考:https://www.zhihu.com/question/299719792/answer/807545759

    展开全文
  • )对于没有权重的方法,特征不适合归一化(标准化)如果对特征做了Feature Scaling 那么 可以结合回归的算法,在特征前加上权重。 对于线性模型,特征值差别很大时,比如说LR,我有两个特征,一个(0,1)的,一...

    相关解释: 

    1. 没有考虑变量之间相关性,每次筛选都只考虑一个变量(因此不需要归一化);
    2. 对于有权重的模型,Feature可以Scaling 比如:线性回归、SVM、(BP??)对于没有权重的方法,特征不适合做归一化(标准化)如果对特征做了Feature Scaling 那么 可以结合回归的算法,在特征前加上权重。
    3. 对于线性模型,特征值差别很大时,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。但是如果进行了归一化,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要的迭代次数较少。所以说是因为梯度下降的算法需要进行归一化,归一化后加快了梯度下降求解最优解的速度。树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,可以看下决策树ID3算法python实现理解。因为求导没意义,也就不需要归一化
    4. 概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率。像svm、线性回归之类的最优化问题就需要归一化。决策树属于前者。

    实验对比说明结论: 

    • 对于Lasso模型,使用MaxAbsScaler方式时,MSE增大十分明显,且归一化后结果高于不进行归一化时(可能是数据的问题),
    • 对于Redige模型,归一化结果也明显高于不归一化时的结果。
    • 对于SVR模型,不进行归一化时,其MSE会非常大,是因为svm实质上选择的是分割两类数据最远的超平面,由于错分类造成了影响,不进行归一化会造成对平面的影响,导致得到的划分平面不准确测试集成功率低。
    • 对于RandomForest和XGBoost来说,是否进行归一化对结果影响不大。这也是树模型的一大特征。
    展开全文
  • 回归

    2021-03-23 22:40:53
    回归树使用树模型做回归问题,这个时候,每片叶子节点代表的就不是一个种类了,而是代表一个预测数值。预测数值一般叶子节点所包含样本的均值。分类树使用的熵或者基尼纯度进行划分的,根据不同特征划分数据...
  • 当训练数据的特征都集中在一个区间内,而测试数据偏离该区间较大时会出现能拟合的情况,根本原因因为分类回归树对于某一个叶子节点上的数据的目标值采取该叶子节点的目标值均值梯度提升最终确定预测值的。...
  • 对于绝大部分的数据回归问题,线性回归都是我们的首选。他主要有以下优点: 模型简单、易于建模 解释性强、易于调试 一般形式 给定由d个属性描述的示例x=(x1;x2;...;xd)x=(x_1;x_2;...;x_d)x=(x1​;x2​;...;xd​)...
  • 机器学习之回归算法

    万次阅读 2018-06-29 16:52:16
    1线性回归 线性回归是有监督学习的一种算法,科学的介绍这里就不做说明了。通俗的说,就是根据数据集中的特征(X),找到一个合适的线或是面。。来拟合我们的数据集标签(Y)。 假设我们有一个简单的数据集,里面...
  • 当x为一个数时一个特征,当x成为一个向量时,即多个特征与y的关系目标函数的探索——确定参数化解y的预测值即点成的结果推导结果称为多元线性回归方程解优点与问题:因为对应每个特征都有其系数所以需要归一化...
  • 1.首先一点,线性回归,逻辑回归都是要基于最小化训练误差来,应该是基本所有的分类算法都是要最小化训练误差的,只是损失函数的不同导致选择的目标函数不同的原因,太会因为可能过拟合而选择最小化训练误差...
  • 初学者太懂,想请教各位老师是否应该先混淆矩阵,如果特征之间没有相关性,都是独立存在,那么才可以用过滤法把。如果特征之间有相关性,那即便单个特征无意义,可以放到模型中又有意义的可能?
  • 计算广告CTR预估的特征处理方法

    千次阅读 2018-10-12 16:34:06
    1.CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样的好处在哪里? A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给...
  • Python实现逻辑回归(LogisticRegression)完整过程

    万次阅读 多人点赞 2019-04-15 19:00:22
    最近正在的项目正好利用到了逻辑回归,所以正好系统的学习了下,本篇博文把自己的学习笔记、项目思路及代码记录下来。它的计算原理很多网站和书籍有介绍,就在这班门弄斧了,主要还是记录自己如何实现 一、...
  • 前言 袁同学学位论文需要,要一个航空...注:`·`后面的都是输出内容,不是代码 1.导包 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.cross_validation im...
  • 文章目录前言F检验法F检验概述示例互信息法互信息法...F检验即可做分类也可以做回归 分类:feature_selection.f_classif(标签离散) 回归:feature_selection.f_regression(标签连续) 与卡方检验一样,这两个方法
  • #但请注意,以上的数据经过特殊处理, 10个数据中的每个都做了均值中心化处理,然后又用标准差乘以个体数量调整了数值范围。 #验证就会发现任何一列的所有数值平方和为1. import matplotlib.pyplot as plt i
  • 理解了单变量线性回归那么多变量线性回归就很简单了,思想和操作都是一样的,只不过更一般化了而已。这里我们主要说明一些多变量梯度下降算法的使用技巧和正规方程的使用。 1特征缩放: 对于多变量的情况,每个...
  • 1、logistic回归的优缺点...在每个特征乘以一个回归系数,然后把所有的结果值相加,将这个总和代入sigmoid函数中,进而得到一个范围在0~1之间的数值,所要的工作主要确定最佳回归系数多少,如何确定它们的大
  • 作为半路出家研究机器学习的我来说就大概了解了一下线性回归的基本内容,对梯度下降的方法也了了解。好在两个部分内容不是特别复杂,理解起来也不会太困难。线性回归参考(一)线性回归特征归一化(feature ...
  • 回归分析中,我们关心真实的参数是否0或者说特定的数值。 由于数据抽样等等的情况,我们可能获得最小二乘估计正好为0的情况。 那么非0的参数这个特征是由于x和y的相关关系产生的还是测量误差产生的 参数 ...
  • 降维中的特征选择

    千次阅读 2015-12-07 09:24:34
    在建模中第一步就是特征处理,之前用spss modeler这种集成好的软件,没有处理过维度很高的数据,上来就是数据各种图形、缺失值、噪声处理,这次接触到上千个维度,数据看了下倒是没有缺失值,用r去逻辑回归,但是...
  • 百度上找了挺多文章,讲得不是很系统,比如大多文章没讲懂标准化和归一化的区别或者不同文章讲的内容矛盾了。 用谷歌一搜,就找到了很多很有价值的相关文章,然后我也写了这篇文章个记录。 相对来讲,中文...
  • 数据预处理:如何处理数据中的缺失值 假设有 100 个样本和 20 个特征 ,...因为有时候数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。 在预处理阶段需要两件事: 第一,所有...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 239
精华内容 95
关键字:

不做回归都是特征