精华内容
下载资源
问答
  • Lasso回归

    2020-06-27 16:14:45
    lasso回归1.利用lars函数实现lasso回归并可视化显示2.选取cp值最小时对应的模型,获取模型对应系数对于选取最小cp值对应的模型可以通过两种方式实现:(1)显示所有cp值,从中挑选最小的(2)直接选取最小的cp值3....


    Lasso回归又称为套索回归,是Robert Tibshirani于1996年提出的一种新的变量选择技术。Lasso是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,进一步得到可以解释的模型。R语言中有多个包可以实现Lasso回归,这里使用lars包实现。

    1.利用lars函数实现lasso回归并可视化显示

    x = as.matrix(data5[, 2:7]) #data5为自己的数据集
    y = as.matrix(data5[, 1])
    lar1 <-lars(x,y,type = "lasso")
    lar1 #查看得到的结果
    

    在这里插入图片描述

    从图1可以看出通过lasso回归得到的R^2为0.426,较低。标红的部分是在进行lasso回归时,自变量被选入的顺序。下面用图表的形式显示。

    plot(lar1)
    在这里插入图片描述

    可以看到图2中的竖线对应于lasso中迭代的次数,对应的系数值不为0的自变量即为选入的,竖线的标号与图1中的step相对应。

    2.选取cp值最小时对应的模型,获取模型对应系数

    对于选取最小cp值对应的模型可以通过两种方式实现:

    (1)显示所有cp值,从中挑选最小的

    summary(lar1) #输出lasso对象的细节,包括Df、RSS和Cp,其中Cp是MallowsCp统计量,通常选取Cp最小的那个模型
    

    在这里插入图片描述

    图3显示了lasso回归中所有的cp值,选择最小的,即上图标红的部分,对应的df=3,最前面一列对应迭代次数(即步数),step=2 。

    (2)直接选取最小的cp值

    lar1Cp[which.min(larCp[which.min(larCp)] #选择最小Cp,结果如下:
    1
    与图3中标红的部分结果一样,但是要注意,2表示的是step大小。

    3.选取cp值最小时对应的模型系数

    (1)获取所有迭代系数,根据step大小选择cp值最小对应的自变量系数值

    lar1$beta #可以得到每一步对应的自变量对应的系数
    

    在这里插入图片描述

    图4标红的部分就是step=2对应的cp值最小时对应的模型的自变量的系数

    (2)获取指定迭代次数(即步数)对应的自变量的系数,可以通过下面的代码实现:

    coef <-coef.lars(lar,mode="step",s=3) #s为step+1,也比图2中竖线为2的迭代次数对应,与图3中df值相等;s取值范围1-7.
    coef[coef!=0] #获取系数值不为零的自变量对应的系数值
    

    与图4中标红部分一样。
    在这里插入图片描述

    4.获取截距的系数

    通过第4部分可以获取cp值最小时对应的自变量的系数,但是没有办法获取对应模型的截距值,下面的代码可以获取对应模型的截距值。

    predict(lar1,data.frame(SHDI=0,MIDU=0,LSI=0,CONTAF=0,MPS=0,PD=0),s=3) #s的含义和第4部分求取coef中的s相同,代表第几次迭代对应的模型的截距值。且data.frame中自变量的数量和数据框中进行lasso拟合的自变量数目相同,都要写上。
    

    在这里插入图片描述
    上面的代码就是求取cp值最小时对应的模型的截距值,结果如下:

    总结:
    通过上面的4步可以利用R语言实现Lasso回归,并可以获取模型相应的系数和截距值。

    原文链接:https://blog.csdn.net/qq_38650208/article/details/88766738

    展开全文
  • LASSO回归

    千次阅读 2019-09-27 19:23:29
    LASSO回归,不重要的回归系数缩减为0。 LASSO回归模型的目标函数: 使用坐标轴下降法: 迭代算法,坐标轴下降法是沿着坐标轴下降,梯度下降是沿着梯度的负方向下降,对于p维参数的可微凸函数J(B)而言,如果存在一点...

    LASSO回归

    添加l2正则的惩罚项,不管怎么缩减,都会保留建模时的所有变量,无法降低模型复杂度。
    LASSO回归,不重要的回归系数缩减为0。
    LASSO回归模型的目标函数:
    在这里插入图片描述
    使用坐标轴下降法:
    迭代算法,坐标轴下降法是沿着坐标轴下降,梯度下降是沿着梯度的负方向下降,对于p维参数的可微凸函数J(B)而言,如果存在一点B,使得函数J(B)在每个坐标轴上均达到最小值,则J(B)就是B上的全局最小值。
    坐标轴下降法,对目标函数中的某个Bi做偏导,即控制其他p-1个参数不变,沿着一个轴的方向求导,再对剩下的p-1个参数求导,令每个分量下的导函数为0,得到使目标函数达到全局最小值。
    在这里插入图片描述
    其中ESS(B)代表误差平方和,\lambdal(B)代表惩罚项,
    在这里插入图片描述
    假设xij=hj(xi)
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    由于惩罚项是不可导函数,不能直接使用梯度方法,而使用次梯度方法,解决不可导凸函数的最小值。
    对于某个分量Bj来说,惩罚项为\lambda|Bj|
    次导函数为:
    在这里插入图片描述
    为了求解最终的LASSO回归函数,需要将ESS与l1的分量导函数相结合,令函数为0
    在这里插入图片描述
    转化为:
    在这里插入图片描述
    1.可视化
    选定惩罚系数\lambda的值

    from sklearn.linear_model import Lasso,LassoCV
    Lasso(alpha=1.0,fit_intercept,normalize,precompute,copy_X,max_iter,tol,
    		warm_start,positive,random_state,selection='cyclic')
    #precompute:在建模前通过计算Gram矩阵提升运算速度,默认False
    #copy_X:复制自变量X的数值
    #tol:模型收敛阙值
    #warm_start:将前一次训练结果作为下一次开始,默认false
    #positive:回归系数强制为正数
    #selection:迭代时选择的回归系数
    			#random:随机更新回归系数
    			#cyclic:更新基于上一次运算
    lasso_coefficients=[]
    for Lambda in Lambdas:
    	lasso = Lasso(alpha=Lambda,normalize=True,max_iter=10000)
    	lasso.fit(x_train,y_train)
    	lasso_coefficients.append(lasso.coef_)
    plt.plot(Lambdas,lasso_coefficients)
    plt.xscale('log')
    plt.show()
    

    在这里插入图片描述
    2.交叉验证

    LassoCV(eps=0.001,n_alphas,alphas,fit_intercept,normalize,precompute,max_iter,
    		tol,copy_X,cv,verbose,n_jobs,positive,random_state,selection)
    #eps:指定正则化路径长度,默认0.001,指代lambda的最大值与最小值之商
    #n_alphas:指定正则化lambda的个数,默认100个
    #verbose:返回日志
    #n_jobs:使用并行处理
    lasso_cv = LassoCV(alphas=Lambdas,normalize=True,cv=10,max_iter=10000)
    lasso_cv.fit(x_train,y_train)
    lasso_best_alpha = lasso_cv.alpha_
    lasso_best_alpha
    

    在这里插入图片描述
    借助Lasso重构Lasso回归模型

    lasso = Lasso(alpha=lasso_best_alpha,normalize=True,max_iter=10000)
    lasso.fit(x_train,y_train)
    pd.Series(index=['Intercept']+x_train.columns.tolist(),
    			data=[lasso.intercept_]+lasso.coef_.tolist())
    lasso_predict = lasso.predict(x_test)
    RMSE = np.sqrt(mean_squared_error(y_test,lasso_predict))
    

    在这里插入图片描述

    展开全文
  • LASSO 回归

    2018-11-05 15:28:33
    转载::::https://cosx.org/2016/10/data-mining-1-lasso/
    展开全文
  • lasso回归-回归实操

    2021-01-22 14:48:24
    python lasso回归算法之回归实操 基本概念 正则化 正则化是指对模型做显式约束,以避免过拟合。本文用到的lasso回归就是L1正则化。(从数学的观点来看,lasso惩罚了系数向量的L1范数,换句话说,就是系数的绝对值之...

    python lasso回归算法之回归实操

    基本概念

    正则化

    正则化是指对模型做显式约束,以避免过拟合。本文用到的lasso回归就是L1正则化。(从数学的观点来看,lasso惩罚了系数向量的L1范数,换句话说,就是系数的绝对值之和。)

    正则化的具体原理就不在这里多叙述了,感兴趣的朋友可以看一下这篇文章:机器学习中正则化项L1和L2的直观理解

    算法简介

    lasso回归

    在了解lasso回归之前,建议朋友们先对普通最小二乘法和岭回归做一些了解,可以参考这两篇文章:最小二乘法-回归实操岭回归-回归实操

    除了岭回归之外,lasso是另一种正则化的线性回归模型,因此它的模型公式与最小二乘法的相同,如下式所示:

    y=w[0]*x[0]+w[1]*x[1]+w[2]x[2]+…+w[p]x[p]+b

    与岭回归相同,使用lasso也是约束系数w使其接近于0,但用到的方法不同,叫做L1正则化。L1正则化的结果是,使用lasso时某些系数刚好是0。这说明某些特征被模型完全忽略。这可以看作是一种自动化的特征选择。某些系数刚好为0,这样模型更容易被理解,也可以呈现模型最重要的特征。

    数据来源

    波士顿房价:https://www.kaggle.com/altavish/boston-housing-dataset
    非常经典的一个数据
    在这里插入图片描述

    简单解释一下这个数据的几个主要指标:
    ZN:25,000平方英尺以上的土地划为住宅用地的比例。
    RM:每个住宅的平均房间数。
    AGE:1940年之前建造的自有住房的比例
    CHAS:有没有河流经过 (如果等于1,说明有,等于0就说明没有)
    CRIM:犯罪率
    MEDV:住房的价格
    其它指标就不用说了,都是一些住房的其它指标,感兴趣的小伙伴可以自己查一下。

    数据挖掘

    1.导入第三方库

    import pandas as pd
    import numpy as np
    import winreg
    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import Lasso###导入岭回归算法
    from sklearn.metrics import r2_score
    

    老规矩,上来先依次导入建模需要的各个模块

    2.读取文件

    import winreg
    real_address = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders',)
    file_address=winreg.QueryValueEx(real_address, "Desktop")[0]
    file_address+='\\'
    file_origin=file_address+"\\源数据-分析\\HousingData.csv"#设立源数据文件的桌面绝对路径
    house_price=pd.read_csv(file_origin)#https://www.kaggle.com/altavish/boston-housing-dataset
    

    因为之前每次下载数据之后都要将文件转移到python根目录里面,或者到下载文件夹里面去读取,很麻烦。所以我通过winreg库,来设立绝对桌面路径,这样只要把数据下载到桌面上,或者粘到桌面上的特定文件夹里面去读取就好了,不会跟其它数据搞混。
    其实到这一步都是在走流程,基本上每个数据挖掘都要来一遍,没什么好说的。

    3.清洗数据

    1.查找缺失值
    在这里插入图片描述

    可以看到这个数据并包括一些缺失值,并不是很多,所以直接删掉就好了。

    house_price1=house_price.dropna().reset_index()
    del house_price1["index"]
    

    2.突变值查找

    在这里插入图片描述
    一般是看看特征值里面是否包含等于零的数据。其实说的直接一点就是看看数据里面是否包含不符合实际的数值,比如像是犯罪率,实际中不可能出现犯罪率等于0的片区。那么从上面的结果来看,这份数据并没有其它问题。
    这份数据里面的ZN和CHAS都是利用0和1来当作一种指标,所以包含0是很正常的。

    4.建模

    train=house_price1.drop(["MEDV"],axis=1)
    X_train,X_test,y_train,y_test=train_test_split(train,house_price1["MEDV"],random_state=23)
    lasso=Lasso(alpha=10,max_iter=0)
    lasso.fit(X_train,y_train)
    print("Lasso训练模型得分:"+str(r2_score(y_train,lasso.predict(X_train))))#训练集
    print("Lasso待测模型得分:"+str(r2_score(y_test,lasso.predict(X_test))))#待测集
    

    引入lasso算法,进行建模后,对测试集进行精度评分,得到的结果如下:

    在这里插入图片描述
    如结果所见,lasso在训练集和测试集上的表现很差。这表示存在过拟合。与岭回归类似,lasso也有一个正则化参数alpha,可以控制系数趋向于0的强度。在上一个模型中,我们使用的是alpha=10,为了降低欠拟合,我们尝试减小alpha。同时,我们还需要增加max_iter的值(运行迭代的最大次数)。结果如下所示:
    在这里插入图片描述

    依次修改系数之后,可以看到,该模型的训练精度为79%左右,对于新的数据来说,模型精度在60%左右。
    至此,这个数据集的将建模就算是完成了。
    ps:如果max_iter取值过小的话,就会出现警告说需要取值取大一点,而且max_iter的取值过大并不会对模型的精度造成影响。

    讨论

    与岭回归算法的比较

    我们通过变换约束参数的取值,来具体看一下lasso与岭回归的优缺点。

    from sklearn.linear_model import Ridge###导入岭回归算法
    result=pd.DataFrame(columns=["参数","lasso训练模型得分","lasso待测模型得分","岭回归训练模型得分","岭回归待测模型得分"])
    for i in range(1,100):
        alpha=i/10
        ridge=Ridge(alpha=alpha)
        lasso=Lasso(alpha=alpha,max_iter=10000)
        ridge.fit(X_train,y_train)
        lasso.fit(X_train,y_train)
        result=result.append([{"参数":alpha,"lasso训练模型得分":r2_score(y_train,lasso.predict(X_train)),"lasso待测模型得分":r2_score(y_test,lasso.predict(X_test)),"岭回归训练模型得分":r2_score(y_train,ridge.predict(X_train)),"岭回归待测模型得分":r2_score(y_test,ridge.predict(X_test))}])
    

    结果如下所示:
    在这里插入图片描述

    可以看出,随着alpha的变化,两个算法无论是训练模型还是待测模型都会呈现一定的规律。接下来,我们通过一个折线图来更直观地表现上面的数据:

    import matplotlib.pyplot as plt
    import seaborn as sns
    plt.style.use("fivethirtyeight")
    sns.set_style({'font.sans-serif':['SimHei','Arial']})#设定汉字字体,防止出现方框
    %matplotlib inline
    #在jupyter notebook上直接显示图表
    fig= plt.subplots(figsize=(15,5))
    plt.plot(result["参数"],result["lasso训练模型得分"],label="lasso训练模型得分")#画折线图
    plt.plot(result["参数"],result["lasso待测模型得分"],label="lasso待测模型得分")
    plt.plot(result["参数"],result["岭回归训练模型得分"],label="岭回归训练模型得分")
    plt.plot(result["参数"],result["岭回归待测模型得分"],label="岭回归待测模型得分")
    plt.rcParams.update({'font.size': 15})
    plt.legend()
    plt.xticks(fontsize=15)#设置坐标轴上的刻度字体大小
    plt.yticks(fontsize=15)
    plt.xlabel("参数",fontsize=15)#设置坐标轴上的标签内容和字体
    plt.ylabel("得分",fontsize=15)
    

    结果如下所示:
    在这里插入图片描述

    可以看出如果alpha很小,我们可以拟合一个更复杂的模型,在训练集和测试集上的表现也更好,模型的泛化能力比使用岭回归要略好一点(红线和绿线)。但随着alpha参数的增加,lasso算法模型的欠拟合现象会越来越明显(红线与蓝线),即模型精度和泛化能力都会逐渐降低。

    但如果把alpha设得太小,那么就会消除正则化的效果,并出现过拟合,得到与最小二乘法类似的结果。

    同时还可以看出当alpha取到某一个值的时候,岭回归的预测性能和lasso的模型类似(看两条线的交点)。

    所以在实践中,对于这两个模型一般首选岭回归,从图中就可以看出来,随着参数的变化,模型得分的变化很平稳,甚至随着参数的增加,泛化能力也会有轻微的提高(绿线)。但如果特征很多,你认为只有其中几个是重要的,那么选择lasso可能更好。同样,如果你想要一个更容易解释的模型,lasso可以给出更容易理解的模型,因为它只选择了一部分特征值来做为输入。

    以上就是关于lasso算法的实际操作与看法了,有很多地方做的不是很好,欢迎网友来提出建议,也希望可以遇到些朋友来一起交流讨论。

    展开全文
  • 回归问题-Lasso回归

    万次阅读 多人点赞 2019-07-21 23:44:33
    Lasso(Least absolute shrinkage and selection operator)方法是以缩小变量集(降阶)为思想的压缩估计方法。它通过构造一个惩罚函数,可以将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的。 ...
  • R语言实现LASSO回归

    万次阅读 多人点赞 2019-03-23 19:52:53
    Lasso回归又称为套索回归,是Robert Tibshirani于1996年提出的一种新的变量选择技术。Lasso是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生...
  • Lasso 回归是通过最小角度回归 (LAR) 的修改版本执行的,请参阅参考文献 [1] 了解该算法。 返回值是一个 lassoClass 对象,其中 lassoClass 是 lassoClass.R 中定义的 S4 类。 lassoTest2.R 中提供了一个测试程序...
  • Lasso回归和岭回归

    2020-08-14 00:58:12
    Lasso回归和岭回归1、两个回归的产生原因2、lambda的确定方法:最小化均方差预测误差(K折交叉验证)3、实例:分析棉花产量问题4、Lasso回归的使用步骤5、附录(1)OLS原理(2)岭回归原理(3)Lasso回归原理 Lasso...
  • 机器学习总结(一):线性回归、岭回归、Lasso回归

    万次阅读 多人点赞 2017-08-15 21:41:51
    回归分析属于有监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现的问题进行简单探讨,引出线性回归的两个变种岭回归以及Lasso回归,最后通过sklearn库模拟整个回归过程。 目录结构 线性...
  • 岭回归与Lasso回归

    2019-06-13 08:43:00
    岭回归 岭回归与Lasso回归
  • 岭回归和lasso回归

    2020-02-09 19:47:36
    岭回归和lasso回归 在 OLS 回归模型的损失函数上加入了不同的惩罚项,本质就是正则化。 文章目录(1) 古典回归模型1. 线性假定2. 严格外生性3. 无完全多重共线性4. 误差的球面方差(2) 岭回归和lasso回归1. 基本的线性...
  • 岭回归与lasso回归

    千次阅读 2018-09-27 19:44:26
    什么是岭回归和lasso回归?为什么要用岭回归和lasso回归?岭回归选参的一般原则是什么。 对OLS进行范数1正则化叫Lasso回归。 对OLS进行范数2正则化叫岭回归。   进行岭回归和Lasso回归的主要目的: 1.解决...
  • 也有些正则方法可以限制回归算法输出结果中系数的影响,其中最常用的两种正则方法是lasso回归和岭回归。 lasso回归和岭回归算法跟常规线性回归算法极其相似,有一点不同的是,在公式中增加正则项来限制斜率(或者净...
  • 推导Lasso回归

    2020-09-03 10:26:18
    推导Lasso回归 文章目录推导Lasso回归一、推导过程二、用python编写求解函数三、Lasso求解稀疏表示做人脸识别代码展示:运行结果四、调整不同的超参lambda,对seta的影响代码展示 一、推导过程 ​ Lasso方法是在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,419
精华内容 967
关键字:

lasso回归