精华内容
下载资源
问答
  • 处理多元线性回归自变量共线性的几种方法
  • Python实现多元线性回归

    万次阅读 多人点赞 2018-04-12 21:39:25
    Python实现多元线性回归 线性回归介绍 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的...

    Python实现多元线性回归

     

     

    线性回归介绍

     

    线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
    线性回归属于回归问题。对于回归问题,解决流程为: 
    给定数据集中每个样本及其正确答案,选择一个模型函数h(hypothesis,假设),并为h找到适应数据的(未必是全局)最优解,即找出最优解下的h的参数。这里给定的数据集取名叫训练集(Training Set)。不能所有数据都拿来训练,要留一部分验证模型好不好使,这点以后说。先列举几个几个典型的模型:
    ● 最基本的单变量线性回归: 
    形如h(x)=theta0+theta1*x1
    ● 多变量线性回归: 
    形如h(x)=theta0+theta1*x1+theta2*x2+theta3*x3
    ● 多项式回归(Polynomial Regression): 
    形如h(x)=theta0+theta1*x1+theta2*(x2^2)+theta3*(x3^3) 
    或者h(x)=ttheta0+theta1*x1+theta2*sqr(x2) 
    但是可以令x2=x2^2,x3=x3^3,于是又将其转化为了线性回归模型。虽然不能说多项式回归问题属于线性回归问题,但是一般我们就是这么做的。
    ● 所以最终通用表达式就是: 
    这里写图片描述

     

     

    数据导入与清洗

     

    对于数据导入来说,可以利用pandas内的read_csv的函数来对数据进行导入操作,在进行多元线性回归之间通过简单线性回归来展现线性回归的特性和结果之后再延伸至多元线性回归。

     

    在进行数据导入之间需要导入进行线性回归的包:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    from pandas import DataFrame,Series
    from sklearn.cross_validation import train_test_split
    from sklearn.linear_model import LinearRegression

    我们利用pandas和numpy对数据进行操作,使用matplotlib进行图像化,使用sklearn进行数据集训练与模型导入。

     

    简单线性回归

     

    对于学生来说,所学习的时间和考试的成绩挂钩,所学习的时间与考试的成绩也是呈线性相关。创建一个数据集来描述学生学习时间与成绩的关系并且做简单的线性回归。

     

    in:

    #创建数据集
    examDict  = {'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,
                         2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
                 '分数':[10,22,13,43,20,22,33,50,62,
                       48,55,75,62,73,81,76,64,82,90,93]}
    
    #转换为DataFrame的数据格式
    examDf = DataFrame(examDict)

     

    通过DataFrame的函数将字典转化为所需要的数据集,也就是学生成绩与考试成绩的数据集。且关于pandas的数据内容Series与DataFrame可以查看关于pandas的博客了解点击打开链接

     

    out:

      分数  学习时间
    0   10  0.50
    1   22  0.75
    2   13  1.00
    3   43  1.25
    4   20  1.50
    5   22  1.75
    6   33  1.75
    7   50  2.00
    8   62  2.25
    9   48  2.50
    10  55  2.75
    11  75  3.00
    12  62  3.25
    13  73  3.50
    14  81  4.00
    15  76  4.25
    16  64  4.50
    17  82  4.75
    18  90  5.00
    19  93  5.50

     

    从上面的数据可以看到数据的特征值与其标签,学生所学习的时间就是所需要的特征值,而成绩就是通过特征值所反应的标签。在这个案例中要对数据进行观测来反应学习时间与成绩的情况,将利用散点图来实现简单的观测。

     

    in:

    #绘制散点图
    plt.scatter(examDf.分数,examDf.学习时间,color = 'b',label = "Exam Data")
    
    #添加图的标签(x轴,y轴)
    plt.xlabel("Hours")
    plt.ylabel("Score")
    #显示图像
    plt.show()

    out:

     

    从上图可以看到对于分数和时间来说存在相应的线性关系,且俩数据间相关性较强。

    在此可以通过相关性来衡量两个变量因素的相关密切程度。

    相关系数是用以反映变量之间相关关系密切程度的统计指标。

    r(相关系数) = x和y的协方差/(x的标准差*y的标准差) == cov(x,y)/σx*σy(即person系数)

    对于相关性强度来说的化有以下的关系:

    0~0.3 弱相关

    0.3~0.6  中等程度相关

    0.6~1  强相关

     

    in:

    rDf = examDf.corr()
    print(rDf)

    out:

    分数      学习时间
    分数    1.000000  0.923985
    学习时间  0.923985  1.000000

     

    pandas中的数学统计函数D.corr()可以反应数据间的相关性关系,可从表值中反应出学习时间与分数之间的相关性为强相关(0.6~1)。对于简单线性回归来来说,简单回归方程为: y = a + b*x (模型建立最佳拟合线)最佳拟合线也是需要通过最小二乘法来实现其作用。对于OLS即最小二乘法我们需要知道的一个关系为点误差,点误差 = 实际值 - 预测值,而误差平方和(Sum of square error) SSE = Σ(实际值-预测值)^2,最小二乘法就是基于SSE实现,最小二乘法 : 使得误差平方和最小(最佳拟合)。解释完简单线性回归后进行对训练集和测试集的创建,将会使用train_test_split函数来创建(train_test_split是存在与sklearn中的函数)

     

    in:

    #将原数据集拆分训练集和测试集
    X_train,X_test,Y_train,Y_test = train_test_split(exam_X,exam_Y,train_size=.8)
    #X_train为训练数据标签,X_test为测试数据标签,exam_X为样本特征,exam_y为样本标签,train_size 训练数据占比
    
    print("原始数据特征:",exam_X.shape,
          ",训练数据特征:",X_train.shape,
          ",测试数据特征:",X_test.shape)
    
    print("原始数据标签:",exam_Y.shape,
          ",训练数据标签:",Y_train.shape,
          ",测试数据标签:",Y_test.shape)
    
    #散点图
    plt.scatter(X_train, Y_train, color="blue", label="train data")
    plt.scatter(X_test, Y_test, color="red", label="test data")
    
    #添加图标标签
    plt.legend(loc=2)
    plt.xlabel("Hours")
    plt.ylabel("Pass")
    #显示图像
    plt.savefig("tests.jpg")
    plt.show()

    out:

    原始数据特征: (20,) ,训练数据特征: (16,) ,测试数据特征: (4,)
    原始数据标签: (20,) ,训练数据标签: (16,) ,测试数据标签: (4,)

     

    tips:由于训练集随机分配的原因每一次运行的结果(点的分布情况,训练集内的情况,测试集内的情况)不都相同在创建数据集之后我们需要将训练集放入skleran中的线性回归模型(LinearRegression())进行训练,使用函数种的.fit函数进行模型的训练操作。

     

    in:

    model = LinearRegression()
    
    #对于模型错误我们需要把我们的训练集进行reshape操作来达到函数所需要的要求
    # model.fit(X_train,Y_train)
    
    #reshape如果行数=-1的话可以使我们的数组所改的列数自动按照数组的大小形成新的数组
    #因为model需要二维的数组来进行拟合但是这里只有一个特征所以需要reshape来转换为二维数组
    X_train = X_train.values.reshape(-1,1)
    X_test = X_test.values.reshape(-1,1)
    
    model.fit(X_train,Y_train)

     

    在模型训练完成之后会得到所对应的方程式(线性回归方程式)需要利用函数中的intercept_与coef_来得到

     

    a  = model.intercept_#截距
    
    b = model.coef_#回归系数
    
    print("最佳拟合线:截距",a,",回归系数:",b)

     

    out:

     

    最佳拟合线:截距 7.5580754557 ,回归系数: [ 16.28401865]

     

    由上述的最佳拟合线的截距和回归系数可以算出其线性回归线方程:y = 7.56 + 16.28*x

    接下来需要对模型进行预测和对模型进行评价,在进行评价之间将会引入一个决定系数r平方的概念。

    对于决定系数R平方常用于评估模型的精确度。

    下列为R平方的计算公式:

    ● y误差平方和 = Σ(y实际值 - y预测值)^2

    ● y的总波动 = Σ(y实际值 - y平均值)^2

    ● 有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动

    ● 有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方

    对于决定系数R平方来说

    (1) 回归线拟合程度:有多少百分比的y波动刻印有回归线来描述(x的波动变化)

    (2)值大小:R平方越高,回归模型越精确(取值范围0~1),1无误差,0无法完成拟合对于预测来说我们需要运用函数中的model.predict()来得到预测值

     

    in:

    #训练数据的预测值
    y_train_pred = model.predict(X_train)
    #绘制最佳拟合线:标签用的是训练数据的预测值y_train_pred
    plt.plot(X_train, y_train_pred, color='black', linewidth=3, label="best line")
    
    #测试数据散点图
    plt.scatter(X_test, Y_test, color='red', label="test data")
    
    #添加图标标签
    plt.legend(loc=2)
    plt.xlabel("Hours")
    plt.ylabel("Score")
    #显示图像
    plt.savefig("lines.jpg")
    plt.show()
    
    
    score = model.score(X_test,Y_test)
    
    print(score)

     

    out:

    score : 0.834706696876

     

    多元线性回归

     

    在间单线性回归的例子中可以得到与线性回归相关的分析流程,接下来对多元线性回归进行分析对于多元线性回归前面已经提到,形如h(x)=theta0+theta1*x1+theta2*x2+theta3*x3http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv(已经失效)来下载数据集 Advertising.csv,其数据描述了一个产品的销量与广告媒体的投入之间影响。将会利用pandas的pd.read()来读取数据。

     

     

    in:

    #通过read_csv来读取我们的目的数据集
    adv_data = pd.read_csv("C:/Users/Administrator/Desktop/Advertising.csv")
    #清洗不需要的数据
    new_adv_data = adv_data.ix[:,1:]
    #得到我们所需要的数据集且查看其前几列以及数据形状
    print('head:',new_adv_data.head(),'\nShape:',new_adv_data.shape)

    out:

    head:       TV  radio  newspaper  sales
           0  230.1   37.8       69.2   22.1
           1   44.5   39.3       45.1   10.4
           2   17.2   45.9       69.3    9.3
           3  151.5   41.3       58.5   18.5
           4  180.8   10.8       58.4   12.9 
    Shape:  (200, 4)

     

    对于上述的数据可以得到数据中

    标签值(sales):

    • Sales:对应产品的销量

    特征值(TV,Radio,Newspaper):

    • TV:对于一个给定市场中单一产品,用于电视上的广告费用(以千为单位)
    • Radio:在广播媒体上投资的广告费用
    • Newspaper:用于报纸媒体的广告费用

    在这个案例中,通过不同的广告投入,预测产品销量。因为响应变量是一个连续的值,所以这个问题是一个回归问题。数据集一共有200个观测值,每一组观测对应一个市场的情况。接下里对数据进行描述性统计,以及寻找缺失值(缺失值对模型的影响较大,如发现缺失值应替换或删除),且利用箱图来从可视化方面来查看数据集,在描述统计之后对数据进行相关性分析,以此来查找数据中特征值与标签值之间的关系。

     

    in:

    #数据描述
    print(new_adv_data.describe())
    #缺失值检验
    print(new_adv_data[new_adv_data.isnull()==True].count())
    
    new_adv_data.boxplot()
    plt.savefig("boxplot.jpg")
    plt.show()
    ##相关系数矩阵 r(相关系数) = x和y的协方差/(x的标准差*y的标准差) == cov(x,y)/σx*σy
    #相关系数0~0.3弱相关0.3~0.6中等程度相关0.6~1强相关
    print(new_adv_data.corr())

     

    out:

                   TV       radio   newspaper       sales
    count  200.000000  200.000000  200.000000  200.000000
    mean   147.042500   23.264000   30.554000   14.022500
    std     85.854236   14.846809   21.778621    5.217457
    min      0.700000    0.000000    0.300000    1.600000
    25%     74.375000    9.975000   12.750000   10.375000
    50%    149.750000   22.900000   25.750000   12.900000
    75%    218.825000   36.525000   45.100000   17.400000
    max    296.400000   49.600000  114.000000   27.000000
    TV           0
    radio        0
    newspaper    0
    sales        0
    dtype: int64
                     TV     radio  newspaper     sales
    TV         1.000000  0.054809   0.056648  0.782224
    radio      0.054809  1.000000   0.354104  0.576223
    newspaper  0.056648  0.354104   1.000000  0.228299
    sales      0.782224  0.576223   0.228299  1.000000

     

     

     

     

    可以从corr表中看出,TV特征和销量是有比较强的线性关系的,而Radio和Sales线性关系弱一些但是也是属于强相关的,Newspaper和Sales线性关系更弱。接下来建立散点图来查看数据里的数据分析情况以及对相对应的线性情况,将使用seaborn的pairplot来绘画3种不同的因素对标签值的影响

     

    in:

    # 通过加入一个参数kind='reg',seaborn可以添加一条最佳拟合直线和95%的置信带。
    sns.pairplot(new_adv_data, x_vars=['TV','radio','newspaper'], y_vars='sales', size=7, aspect=0.8,kind = 'reg')
    plt.savefig("pairplot.jpg")
    plt.show()

    out:

     

    上如图种所示,可以了解到不同的因素对销量的预测线(置信度= 95 %),也可可以大致看出不同特征对于标签值的影响与相关关系在了解了数据的各种情况后需要对数据集建立模型,在建立模型的第一步我们将建立训练集与测试集同样的将会使用train_test_split函数来创建(train_test_split是存在与sklearn中的函数)

     

    in:

    X_train,X_test,Y_train,Y_test = train_test_split(new_adv_data.ix[:,:3],new_adv_data.sales,train_size=.80)
    
    print("原始数据特征:",new_adv_data.ix[:,:3].shape,
          ",训练数据特征:",X_train.shape,
          ",测试数据特征:",X_test.shape)
    
    print("原始数据标签:",new_adv_data.sales.shape,
          ",训练数据标签:",Y_train.shape,
          ",测试数据标签:",Y_test.shape)

    out:

    原始数据特征: (200, 3) ,训练数据特征: (160, 3) ,测试数据特征: (40, 3)
    原始数据标签: (200,) ,训练数据标签: (160,) ,测试数据标签: (40,)

     

    建立初步的数据集模型之后将训练集中的特征值与标签值放入LinearRegression()模型中且使用fit函数进行训练,在模型训练完成之后会得到所对应的方程式(线性回归方程式)需要利用函数中的intercept_与coef_。

     

    in:

    model = LinearRegression()
    
    model.fit(X_train,Y_train)
    
    a  = model.intercept_#截距
    
    b = model.coef_#回归系数
    
    print("最佳拟合线:截距",a,",回归系数:",b)

     

    out:

    最佳拟合线:截距 2.79361553401 ,回归系数: [ 0.04711495  0.18719875 -0.00185999]

     

    即所得的多元线性回归模型的函数为 : y = 2.79 + 0.04 * TV + 0.187 * Radio - 0.002 * Newspaper,对于给定了Radio和Newspaper的广告投入,如果在TV广告上每多投入1个单位,对应销量将增加0.04711个单位。就是加入其它两个媒体投入固定,在TV广告上每增加1000美元(因为单位是1000美元),销量将增加47.11(因为单位是1000)。但是大家注意这里的newspaper的系数居然是负数,所以我们可以考虑不使用newspaper这个特征。接下来对数据集进行预测与模型测评。同样使用predict与score函数来获取所需要的预测值与得分。

     

    in:

    #R方检测
    #决定系数r平方
    #对于评估模型的精确度
    #y误差平方和 = Σ(y实际值 - y预测值)^2
    #y的总波动 = Σ(y实际值 - y平均值)^2
    #有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动
    #有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方
    #对于决定系数R平方来说1) 回归线拟合程度:有多少百分比的y波动刻印有回归线来描述(x的波动变化)
    #2)值大小:R平方越高,回归模型越精确(取值范围0~1),1无误差,0无法完成拟合
    score = model.score(X_test,Y_test)
    
    print(score)
    
    #对线性回归进行预测
    
    Y_pred = model.predict(X_test)
    
    print(Y_pred)
    
    plt.plot(range(len(Y_pred)),Y_pred,'b',label="predict")
    #显示图像
    plt.savefig("predict.jpg")
    plt.show()

     

    out:

    score : 0.871755480886
    predict :[ 14.17217173  17.42866884  16.81933374  18.16079802   7.64784604
      17.8670496   16.66488531  14.98782916   9.41023763  16.21679696
      19.32696651   7.76788593  23.34231219   3.59006148  13.15777984
      24.26609169  15.47571902  15.39542342  13.98430709  12.65446708
       7.59818691  13.85179898  12.16325619  10.34902817  11.9813427
      11.05726513   8.13405159  21.94038306  16.4388483   14.06506403
       4.36052153   6.45326681   7.55083036  24.25987365  17.13603444
      14.04814117   7.28664465  17.24163581  20.42745536   6.55512244]

    预测集与源数据集的对比如下:

     

    模型的检测方法-ROC曲线:

     ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。

    1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。

    2.选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。

    3.两种或两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC最大,则哪一种试验的诊断价值最佳(百度百科)

    模型提升:

    对于提升模型准确度的方法很多,在这个模型下,可以利用异常值替换,将Newspaper中的异常值进行拉格朗日法插补,朗格朗日插补法(from scipy.interpolate import lagrange即scipy中的函数)可以间接提高模型的准确度,如果不需要插补异常值或缺失值的话可以将Newspaper不列为特征值考虑,在不考虑Newspaper为特征值的情况下,新的模型的准确率将超过旧模型,也可以从模型的准确度来反证Newspaper不适合作为特征值。

     

    整体代码如下,数据集再上面链接中可直接下载。

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    from pandas import DataFrame,Series
    from sklearn.cross_validation import train_test_split
    from sklearn.linear_model import LinearRegression
    #创建数据集
    examDict  = {'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,
                         2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
                 '分数':[10,22,13,43,20,22,33,50,62,
                       48,55,75,62,73,81,76,64,82,90,93]}
    
    #转换为DataFrame的数据格式
    examDf = DataFrame(examDict)
    
    #绘制散点图
    plt.scatter(examDf.分数,examDf.学习时间,color = 'b',label = "Exam Data")
    
    #添加图的标签(x轴,y轴)
    plt.xlabel("Hours")
    plt.ylabel("Score")
    #显示图像
    plt.savefig("examDf.jpg")
    plt.show()
    
    
    #相关系数矩阵 r(相关系数) = x和y的协方差/(x的标准差*y的标准差) == cov(x,y)/σx*σy
    #相关系数0~0.3弱相关0.3~0.6中等程度相关0.6~1强相关
    rDf = examDf.corr()
    print(rDf)
    
    #回归方程 y = a + b*x (模型建立最佳拟合线)
    #点误差 = 实际值 - 拟合值
    #误差平方和(Sum of square error) SSE = Σ(实际值-预测值)^2
    #最小二乘法 : 使得误差平方和最小(最佳拟合)
    exam_X  =  examDf.loc[:,'学习时间']
    exam_Y  =  examDf.loc[:,'分数']
    
    #将原数据集拆分训练集和测试集
    X_train,X_test,Y_train,Y_test = train_test_split(exam_X,exam_Y,train_size=.8)
    #X_train为训练数据标签,X_test为测试数据标签,exam_X为样本特征,exam_y为样本标签,train_size 训练数据占比
    
    print("原始数据特征:",exam_X.shape,
          ",训练数据特征:",X_train.shape,
          ",测试数据特征:",X_test.shape)
    
    print("原始数据标签:",exam_Y.shape,
          ",训练数据标签:",Y_train.shape,
          ",测试数据标签:",Y_test.shape)
    
    #散点图
    plt.scatter(X_train, Y_train, color="blue", label="train data")
    plt.scatter(X_test, Y_test, color="red", label="test data")
    
    #添加图标标签
    plt.legend(loc=2)
    plt.xlabel("Hours")
    plt.ylabel("Pass")
    #显示图像
    plt.savefig("tests.jpg")
    plt.show()
    
    
    
    model = LinearRegression()
    
    #对于下面的模型错误我们需要把我们的训练集进行reshape操作来达到函数所需要的要求
    # model.fit(X_train,Y_train)
    
    #reshape如果行数=-1的话可以使我们的数组所改的列数自动按照数组的大小形成新的数组
    #因为model需要二维的数组来进行拟合但是这里只有一个特征所以需要reshape来转换为二维数组
    X_train = X_train.values.reshape(-1,1)
    X_test = X_test.values.reshape(-1,1)
    
    model.fit(X_train,Y_train)
    
    a  = model.intercept_#截距
    
    b = model.coef_#回归系数
    
    print("最佳拟合线:截距",a,",回归系数:",b)
    
    #决定系数r平方
    #对于评估模型的精确度
    #y误差平方和 = Σ(y实际值 - y预测值)^2
    #y的总波动 = Σ(y实际值 - y平均值)^2
    #有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动
    #有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方
    #对于决定系数R平方来说1) 回归线拟合程度:有多少百分比的y波动刻印有回归线来描述(x的波动变化)
    #2)值大小:R平方越高,回归模型越精确(取值范围0~1),1无误差,0无法完成拟合
    
    plt.scatter(X_train, Y_train, color='blue', label="train data")
    
    #训练数据的预测值
    y_train_pred = model.predict(X_train)
    #绘制最佳拟合线:标签用的是训练数据的预测值y_train_pred
    plt.plot(X_train, y_train_pred, color='black', linewidth=3, label="best line")
    
    #测试数据散点图
    plt.scatter(X_test, Y_test, color='red', label="test data")
    
    #添加图标标签
    plt.legend(loc=2)
    plt.xlabel("Hours")
    plt.ylabel("Score")
    #显示图像
    plt.savefig("lines.jpg")
    plt.show()
    
    
    score = model.score(X_test,Y_test)
    
    print(score)
    import pandas as pd
    import seaborn as sns
    from sklearn.linear_model import LinearRegression
    import matplotlib.pyplot as plt
    from sklearn.cross_validation import train_test_split
    
    #通过read_csv来读取我们的目的数据集
    adv_data = pd.read_csv("C:/Users/Administrator/Desktop/Advertising.csv")
    #清洗不需要的数据
    new_adv_data = adv_data.ix[:,1:]
    #得到我们所需要的数据集且查看其前几列以及数据形状
    print('head:',new_adv_data.head(),'\nShape:',new_adv_data.shape)
    
    #数据描述
    print(new_adv_data.describe())
    #缺失值检验
    print(new_adv_data[new_adv_data.isnull()==True].count())
    
    new_adv_data.boxplot()
    plt.savefig("boxplot.jpg")
    plt.show()
    ##相关系数矩阵 r(相关系数) = x和y的协方差/(x的标准差*y的标准差) == cov(x,y)/σx*σy
    #相关系数0~0.3弱相关0.3~0.6中等程度相关0.6~1强相关
    print(new_adv_data.corr())
    
    #建立散点图来查看数据集里的数据分布
    #seaborn的pairplot函数绘制X的每一维度和对应Y的散点图。通过设置size和aspect参数来调节显示的大小和比例。
    # 可以从图中看出,TV特征和销量是有比较强的线性关系的,而Radio和Sales线性关系弱一些,Newspaper和Sales线性关系更弱。
    # 通过加入一个参数kind='reg',seaborn可以添加一条最佳拟合直线和95%的置信带。
    sns.pairplot(new_adv_data, x_vars=['TV','radio','newspaper'], y_vars='sales', size=7, aspect=0.8,kind = 'reg')
    plt.savefig("pairplot.jpg")
    plt.show()
    
    #利用sklearn里面的包来对数据集进行划分,以此来创建训练集和测试集
    #train_size表示训练集所占总数据集的比例
    X_train,X_test,Y_train,Y_test = train_test_split(new_adv_data.ix[:,:3],new_adv_data.sales,train_size=.80)
    
    print("原始数据特征:",new_adv_data.ix[:,:3].shape,
          ",训练数据特征:",X_train.shape,
          ",测试数据特征:",X_test.shape)
    
    print("原始数据标签:",new_adv_data.sales.shape,
          ",训练数据标签:",Y_train.shape,
          ",测试数据标签:",Y_test.shape)
    
    model = LinearRegression()
    
    model.fit(X_train,Y_train)
    
    a  = model.intercept_#截距
    
    b = model.coef_#回归系数
    
    print("最佳拟合线:截距",a,",回归系数:",b)
    #y=2.668+0.0448∗TV+0.187∗Radio-0.00242∗Newspaper
    
    #R方检测
    #决定系数r平方
    #对于评估模型的精确度
    #y误差平方和 = Σ(y实际值 - y预测值)^2
    #y的总波动 = Σ(y实际值 - y平均值)^2
    #有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动
    #有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方
    #对于决定系数R平方来说1) 回归线拟合程度:有多少百分比的y波动刻印有回归线来描述(x的波动变化)
    #2)值大小:R平方越高,回归模型越精确(取值范围0~1),1无误差,0无法完成拟合
    score = model.score(X_test,Y_test)
    
    print(score)
    
    #对线性回归进行预测
    
    Y_pred = model.predict(X_test)
    
    print(Y_pred)
    
    
    plt.plot(range(len(Y_pred)),Y_pred,'b',label="predict")
    #显示图像
    # plt.savefig("predict.jpg")
    plt.show()
    
    plt.figure()
    plt.plot(range(len(Y_pred)),Y_pred,'b',label="predict")
    plt.plot(range(len(Y_pred)),Y_test,'r',label="test")
    plt.legend(loc="upper right") #显示图中的标签
    plt.xlabel("the number of sales")
    plt.ylabel('value of sales')
    plt.savefig("ROC.jpg")
    plt.show()
    
    
    
    
    

    Advertising.csv的连接已经失效,以下是补充的数据,可复制粘贴到CSV进行保存

    TV radio newspaper sales
    230.1 37.8 69.2 22.1
    44.5 39.3 45.1 10.4
    17.2 45.9 69.3 9.3
    151.5 41.3 58.5 18.5
    180.8 10.8 58.4 12.9
    8.7 48.9 75 7.2
    57.5 32.8 23.5 11.8
    120.2 19.6 11.6 13.2
    8.6 2.1 1 4.8
    199.8 2.6 21.2 10.6
    66.1 5.8 24.2 8.6
    214.7 24 4 17.4
    23.8 35.1 65.9 9.2
    97.5 7.6 7.2 9.7
    204.1 32.9 46 19
    195.4 47.7 52.9 22.4
    67.8 36.6 114 12.5
    281.4 39.6 55.8 24.4
    69.2 20.5 18.3 11.3
    147.3 23.9 19.1 14.6
    218.4 27.7 53.4 18
    237.4 5.1 23.5 12.5
    13.2 15.9 49.6 5.6
    228.3 16.9 26.2 15.5
    62.3 12.6 18.3 9.7
    262.9 3.5 19.5 12
    142.9 29.3 12.6 15
    240.1 16.7 22.9 15.9
    248.8 27.1 22.9 18.9
    70.6 16 40.8 10.5
    292.9 28.3 43.2 21.4
    112.9 17.4 38.6 11.9
    97.2 1.5 30 9.6
    265.6 20 0.3 17.4
    95.7 1.4 7.4 9.5
    290.7 4.1 8.5 12.8
    266.9 43.8 5 25.4
    74.7 49.4 45.7 14.7
    43.1 26.7 35.1 10.1
    228 37.7 32 21.5
    202.5 22.3 31.6 16.6
    177 33.4 38.7 17.1
    293.6 27.7 1.8 20.7
    206.9 8.4 26.4 12.9
    25.1 25.7 43.3 8.5
    175.1 22.5 31.5 14.9
    89.7 9.9 35.7 10.6
    239.9 41.5 18.5 23.2
    227.2 15.8 49.9 14.8
    66.9 11.7 36.8 9.7
    199.8 3.1 34.6 11.4
    100.4 9.6 3.6 10.7
    216.4 41.7 39.6 22.6
    182.6 46.2 58.7 21.2
    262.7 28.8 15.9 20.2
    198.9 49.4 60 23.7
    7.3 28.1 41.4 5.5
    136.2 19.2 16.6 13.2
    210.8 49.6 37.7 23.8
    210.7 29.5 9.3 18.4
    53.5 2 21.4 8.1
    261.3 42.7 54.7 24.2
    239.3 15.5 27.3 15.7
    102.7 29.6 8.4 14
    131.1 42.8 28.9 18
    69 9.3 0.9 9.3
    31.5 24.6 2.2 9.5
    139.3 14.5 10.2 13.4
    237.4 27.5 11 18.9
    216.8 43.9 27.2 22.3
    199.1 30.6 38.7 18.3
    109.8 14.3 31.7 12.4
    26.8 33 19.3 8.8
    129.4 5.7 31.3 11
    213.4 24.6 13.1 17
    16.9 43.7 89.4 8.7
    27.5 1.6 20.7 6.9
    120.5 28.5 14.2 14.2
    5.4 29.9 9.4 5.3
    116 7.7 23.1 11
    76.4 26.7 22.3 11.8
    239.8 4.1 36.9 12.3
    75.3 20.3 32.5 11.3
    68.4 44.5 35.6 13.6
    213.5 43 33.8 21.7
    193.2 18.4 65.7 15.2
    76.3 27.5 16 12
    110.7 40.6 63.2 16
    88.3 25.5 73.4 12.9
    109.8 47.8 51.4 16.7
    134.3 4.9 9.3 11.2
    28.6 1.5 33 7.3
    217.7 33.5 59 19.4
    250.9 36.5 72.3 22.2
    107.4 14 10.9 11.5
    163.3 31.6 52.9 16.9
    197.6 3.5 5.9 11.7
    184.9 21 22 15.5
    289.7 42.3 51.2 25.4
    135.2 41.7 45.9 17.2
    222.4 4.3 49.8 11.7
    296.4 36.3 100.9 23.8
    280.2 10.1 21.4 14.8
    187.9 17.2 17.9 14.7
    238.2 34.3 5.3 20.7
    137.9 46.4 59 19.2
    25 11 29.7 7.2
    90.4 0.3 23.2 8.7
    13.1 0.4 25.6 5.3
    255.4 26.9 5.5 19.8
    225.8 8.2 56.5 13.4
    241.7 38 23.2 21.8
    175.7 15.4 2.4 14.1
    209.6 20.6 10.7 15.9
    78.2 46.8 34.5 14.6
    75.1 35 52.7 12.6
    139.2 14.3 25.6 12.2
    76.4 0.8 14.8 9.4
    125.7 36.9 79.2 15.9
    19.4 16 22.3 6.6
    141.3 26.8 46.2 15.5
    18.8 21.7 50.4 7
    224 2.4 15.6 11.6
    123.1 34.6 12.4 15.2
    229.5 32.3 74.2 19.7
    87.2 11.8 25.9 10.6
    7.8 38.9 50.6 6.6
    80.2 0 9.2 8.8
    220.3 49 3.2 24.7
    59.6 12 43.1 9.7
    0.7 39.6 8.7 1.6
    265.2 2.9 43 12.7
    8.4 27.2 2.1 5.7
    219.8 33.5 45.1 19.6
    36.9 38.6 65.6 10.8
    48.3 47 8.5 11.6
    25.6 39 9.3 9.5
    273.7 28.9 59.7 20.8
    43 25.9 20.5 9.6
    184.9 43.9 1.7 20.7
    73.4 17 12.9 10.9
    193.7 35.4 75.6 19.2
    220.5 33.2 37.9 20.1
    104.6 5.7 34.4 10.4
    96.2 14.8 38.9 11.4
    140.3 1.9 9 10.3
    240.1 7.3 8.7 13.2
    243.2 49 44.3 25.4
    38 40.3 11.9 10.9
    44.7 25.8 20.6 10.1
    280.7 13.9 37 16.1
    121 8.4 48.7 11.6
    197.6 23.3 14.2 16.6
    171.3 39.7 37.7 19
    187.8 21.1 9.5 15.6
    4.1 11.6 5.7 3.2
    93.9 43.5 50.5 15.3
    149.8 1.3 24.3 10.1
    11.7 36.9 45.2 7.3
    131.7 18.4 34.6 12.9
    172.5 18.1 30.7 14.4
    85.7 35.8 49.3 13.3
    188.4 18.1 25.6 14.9
    163.5 36.8 7.4 18
    117.2 14.7 5.4 11.9
    234.5 3.4 84.8 11.9
    17.9 37.6 21.6 8
    206.8 5.2 19.4 12.2
    215.4 23.6 57.6 17.1
    284.3 10.6 6.4 15
    50 11.6 18.4 8.4
    164.5 20.9 47.4 14.5
    19.6 20.1 17 7.6
    168.4 7.1 12.8 11.7
    222.4 3.4 13.1 11.5
    276.9 48.9 41.8 27
    248.4 30.2 20.3 20.2
    170.2 7.8 35.2 11.7
    276.7 2.3 23.7 11.8
    165.6 10 17.6 12.6
    156.6 2.6 8.3 10.5
    218.5 5.4 27.4 12.2
    56.2 5.7 29.7 8.7
    287.6 43 71.8 26.2
    253.8 21.3 30 17.6
    205 45.1 19.6 22.6
    139.5 2.1 26.6 10.3
    191.1 28.7 18.2 17.3
    286 13.9 3.7 15.9
    18.7 12.1 23.4 6.7
    39.5 41.1 5.8 10.8
    75.5 10.8 6 9.9
    17.2 4.1 31.6 5.9
    166.8 42 3.6 19.6
    149.7 35.6 6 17.3
    38.2 3.7 13.8 7.6
    94.2 4.9 8.1 9.7
    177 9.3 6.4 12.8
    283.6 42 66.2 25.5
    232.1 8.6 8.7 13.4
    展开全文
  • 经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的...1.线性回归原理 其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、sigmoid基函数等), 特...

    经典线性模型自变量的线性预测就是因变量的估计值。

    广义线性模型:自变量的线性预测的函数是因变量的估计值。

    常见的广义线性模型有:probit模型poisson模型对数线性模型等。对数线性模型里有:logistic regression、Maxinum entropy。

    1.线性回归原理

    其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、sigmoid基函数等),

    特别地,当 = ,即为简单的多元线性回归。当然,根据需要我们也可以在后面正则项。

    2.参数学习

    使用一般的平方和误差作为Loss function,主要有以下两种方法学习参数

    (1)根据梯度下降不断迭代,此处会涉及到learing rate(学习速率)

    (2)直接利用公式计算,得到一维精确解 
    平方和误差定义 : 

    令这个梯度等于零, 

    最终我们可以得到 (加黑表示为向量)

    当然,我们也可以根据实际的情况定义其他的Loss function。

    3.思考存在的意义

    我们可以利用平方和误差对进行求导,

    最终解得 

    其中, , 

    因此,偏置补偿了目标值的平均值(在训练集)与基函数的值的加权求和之间的差。

    4.从最根本的广义线性模型角度,导出经典线性模型

    1)指数家族

    当固定T时,这个分布属于指数家族中的哪种分布就由a和b两个函数决定。下面这种是伯努利分布,对应于逻辑回归问题

    注:从上面可知 ,从而,在后面用GLM导logistic regression的时候会用到这个sigmoid函数。

    下面这种是高斯分布,对应于经典线性回归问题

    2)GLM(广义线性模型)

    指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢?

    在给定x和参数后,y的条件概率p(y|x,θ) 需要满足下面三个假设:

    assum1) y | x; θ ∼ ExponentialFamily(η).

    assum2) h(x) = E[y|x]. 即给定x,目标是预测T(y)的期望,通常问题中T(y)=y

    assum3) η = θTx,即η和x之间是线性的

    3)经典线性回归

    经典线性回归:预测值y是连续的,假设给定x和参数,y的概率分布服从高斯分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,η=µ,根据构建GLM的第2、3条假设可将model表示成:

    5.加快模型收敛速度

    可以将训练集中的数据处理到某个特征的范围内(当然这样对最终的结果有一定的影响,这个需要根据集体的目标、数据分布等来分析),从而加快模型收敛,此法不仅限于线性回归。主要有以下几种方法 
    (1) 
    (2)[X-mean(X)]/std(X); 
    (3)sigmod 
    (4)tan 
    (5)log

    6.优点

    (1)训练速度快 
    (2)对趋势比较明显的数据预测效果比较好

    7.缺点

    (1)容易欠拟合 
    (2)针对线性不可分的情况效果往往不佳

    8.注意事项

    (1)特征之间应相互独立(防止多元共线性,对于多元共线性问题,我们也可以通过逐步回归、岭回归的方法解决,从某种意义上来说类似于添加正则项) 
    (2)特征不宜过多 
    (3)做下One-hot处理效果还不错 
    (4)特征与预测变量之间应有一定相关性(可以使用皮尔逊方法检测) 
    (5)残差e 服从正态分布N(0,σ2) 。其方差σ2 = var (ei) 反映了回归模型的精度, σ 越小,用所得到回归模型预测y的精确度愈高 
    (6) e 的大小不随所有变量取值水平的改变而改变,即方差齐性 

    实例:

    线性回归包括一元线性回归和多元线性回归,一元的是只有一个x和一个y。多元的是指有多个x和一个y。 
    下面我只讲下一元的,多元只是将这里写图片描述 变成了这里写图片描述

    一元线性回归其实就是去找到一条直线,这条直线能以最小的误差(Loss)来拟合数据。 
    这里写图片描述

    怎么来表示误差呢?

    这里写图片描述 
    如上图所示,横坐标表示x,纵坐标表示y。我们要找的就是图中的这条直线。我们要去找到这条直线,大家可以想象,我们肯定希望找到的那条线,距离每个点都很近,最好所有的点上都在这条线上,但是一条直线去拟合所有的点都在这条直线上肯定不现实,所以我们希望这些点尽量离这条直线近一点。即去找每个点和直线的距离 这里写图片描述最小的那条线,为了简单起见,将绝对值转化为平方,那么误差可以表示为这里写图片描述,这里i表示第i个数据,N表示总的样本个数。一般我们还会把Loss求和平均,来当作最终的损失, 
    这里写图片描述

    怎么去最小化误差?

    我们要怎么去找到最能拟合数据的直线?即最小化误差呢? 
    一般有两个方法:

    最小二乘法

    上面我们讲了我们定义的损失这里写图片描述,其中的x,y,i,N都是已知的,那么我们就可以把这个方程看作是m和b的方程。作为一个m和b的二次方程。那么求Loss最小值的问题就转变成了求极值问题,这个高数学过的都应该知道点。

    怎么求极值呢?

    令每个变量的偏导数为零,求方程组的解呗,这个是很基础的高数问题了。 
    我们可以得到下面的方程组 
    这里写图片描述 
    这里写图片描述 
    然后就是巴拉巴拉巴拉把m和b求出来,这样就得到我们要的线性方程了。

    梯度下降法

    没有梯度下降就没有现在的深度学习,这是一个神奇的算法。 
    最小二乘法可以一步到位,直接算出m和b,但他是有前提的,具体我有点记不清了,好像是需要满秩什么的。梯度下降法和最小二乘不一样,它通过一步一步的迭代,慢慢的去靠近到那条最优直线。 
    最小二乘法里面我们提到了两个偏导数,分别为 
    这里写图片描述 
    这里写图片描述 
    我们要去找Loss这个方程的最小值,最小值怎么求?按数学的求法就是最小二乘法呗,但是大家可以直观的想一下,很多地方都会用一个碗来形容,那我也找个碗来解释吧。 
    这里写图片描述 
    大家把这个Loss函数想象成这个碗,而我们要求的最小值就是碗底。假设我们现在不能用最小二乘法求极小值,但是我们的计算机的计算能量很强,我们可以用计算量换结果,不管我们位于这个碗的什么位置,只要我们想去碗底,就要往下走。 
    往下走???????? 
    这个下不就是往梯度方向走吗,那我们沿着梯度一点一点滑下去呗,反正计算机不嫌累。梯度不就是上面那两个公式呗。现在梯度有了,那每次滑多远呢,一滑划过头了不久白算半天了吗,所以还得定义步长,用来表示每次滑多长。这样我们就能每次向下走一点点,再定义一个迭代值用来表示滑多少次,这样我们就能慢慢的一点点的靠近最小值了,不出意外还是能距离最优值很近的。

    衡量指标 SSE、MSE、RMSE、R-square

    SSE(和方差、误差平方和):The sum of squares dueto error
    MSE(均方差、方差):Meansquared error
    RMSE(均方根、标准差):Root mean squared error
    R-square(确定系数):Coefficientof determination
    Adjusted R-square:Degree-of-freedomadjusted coefficient of determination

    下面我对以上几个名词进行详细的解释下,相信能给大家带来一定的帮助!!

    一、SSE(和方差)
    该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下


    SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。接下来的MSE和RMSE因为和SSE是同出一宗,所以效果一样

    二、MSE(均方差)
    该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE/n,和SSE没有太大的区别,计算公式如下


    三、RMSE(均方根)
    该统计参数,也叫回归系统的拟合标准差,是MSE的平方根,就算公式如下


    在这之前,我们所有的误差参数都是基于预测值(y_hat)和原始值(y)之间的误差(即点对点)。从下面开始是所有的误差都是相对原始数据平均值(y_ba)而展开的(即点对全)!!!

    四、R-square(确定系数)
    在讲确定系数之前,我们需要介绍另外两个参数SSR和SST,因为确定系数就是由它们两个决定的
    (1)SSR:Sumof squares of the regression,即预测数据与原始数据均值之差的平方和,公式如下

    (2)SST:Totalsum of squares,即原始数据和均值之差的平方和,公式如下

    细心的网友会发现,SST=SSE+SSR,呵呵只是一个有趣的问题。而我们的“确定系数”是定义为SSR和SST的比值,故


    其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好,R^2  越大,说明预测出来的数据可以通过模型的解释性就越强。

    顺便把上面这个梯度下降法实现下

    每次向下滑要慢慢滑,就是要个步长,我们定义为learning_rate,往往很小的一个值。

    向下滑动的次数,就是迭代的次数,我定义为num_iter,相对learning_rate往往很大。

    定义好这两个,就可以一边求梯度,一边向下滑了。就是去更新m和b。 
    这里写图片描述 
    这里写图片描述 
    这里用了加号,很多人会误以为梯度下降就要减,但是其实梯度本身是有方向的,所以这里直接加就可以。

    自回归(Autoregressive Models,AR)模型

    1. 自回归模型的定义

              自回归模型(Autoregressive Model)是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型[1],它是时间序列中的一种常见形式[2]。


     

    2.  AR模型的状态空间形式(AR-Process in State Space Form)

    AR模型可以写成状态空间模型的形式[4] [5] [6],令: 


     

    3.  AR模型的求解

    AR模型可以采用Yule-Walker方程的形式进行求解[3]。考虑p阶AR模型有相应的AR特征多项式和相应的AR特征方程:



     


     

    4. AR模型示例

    展开全文
  • 多元线性回归变量设置方法

    千次阅读 2021-04-14 23:53:13
    多元线性回归是研究一个连续型变量和其他多个变量间线性关系的统计学分析方法,如果在自变量中存在分类变量,如果直接将分类变量和连续性变量统一纳入模型进行分析是有问题的,尤其是无序分类资料,即使进入了模型,...

    在这里插入图片描述

    多元线性回归是研究一个连续型变量和其他多个变量间线性关系的统计学分析方法,如果在自变量中存在分类变量,如果直接将分类变量和连续性变量统一纳入模型进行分析是有问题的,尤其是无序分类资料,即使进入了模型,也难以解释,因此分类资料纳入模型最佳的方式是设置哑变量。

    在SPSS软件中,做Logistic回归时,直接有选项可以将分类变量设置哑变量,但是在做多元线性回归时,分析过程中没有设置哑变量的选项,就需要对原始数据进行拆解,将分类变量拆解成哑变量的形式。(值得一提的是,如果应变量能够转化为二分类的变量,直接采用Logistic回归分析也可以直接分析)

    下面介绍在SPSS软件中多元线性回归哑变量设置的方法

    以模拟的脑卒中患者康复期生活质量影响因素分析的数据为例,脑卒中患者的生活质量采用卒中专门生存质量量表(SS-QOL)来体现,SS-QOL评分是一个连续性资料,其分数越高,生存质量越好,为探究其影响因素,纳入以下一些研究变量:年龄、婚姻状况、文化程度、职业、BI评分。下图是数据格式,可以看出婚姻状况、文化程度、职业是分类资料。
    在这里插入图片描述
    从变量的赋值来看,这三个分类资料是无序分类资料,分析时,需要设置哑变量。下面介绍哑变量设置的方法。

    在这里插入图片描述

    第一步 SPSS菜单栏中 转换-创建虚变量
    在这里插入图片描述
    第二步 选择分类变量,将其放入“针对下列变量创建虚变量”框里,再重新命名哑变量的名称
    在这里插入图片描述

    即可在数据中看到创建的哑变量,职业有4种分类,因此创建了4个哑变量

    在这里插入图片描述

    按照同样的方法,将其他分类变量创建哑变量
    在这里插入图片描述

    第三步 进行多元线性回归分析
    在这里插入图片描述
    第四步 哑变量选择

    这里注意的是,分类变量的哑变量中确定一个参照变量,然后将除参考变量以外的其他哑变量同时放入自变量框中,如下图所示,把职业=0的做为参照,其他3个哑变量放入模型。

    此外,由于哑变量要同出同进模型,因此方法必须选择“输入”

    设置好一个哑变量后点“下一个”设置另一个哑变量
    在这里插入图片描述
    在这里插入图片描述

    以此类推,先把所有分类变量设置好

    第五步 放置其余变量

    这个时候,其他的变量进入模型的方法就可以自由选择了,可以选择逐步,也可以选择其他。
    在这里插入图片描述
    以上就是多元线性回归哑变量的设置方法。即使解决了哑变量的设置问题,在多元线性回归中,由于哑变量要同进同出,如果有多个分类变量的话,这些多分类是用软件没有办法来进行逐步回归,只能手动选择分类变量进入模型,多次比较模型效果来确定,此外,哑变量的参照组选择不同,对模型结果也是有影响,因此在设置参照哑变量时,可以进行多次尝试,选择对模型解释最佳的参照哑变量。
    获取详细教学视频及粉丝交流群,请关注微信公众号【橙子数据军团】
    在这里插入图片描述

    展开全文
  • 多元回归自变量存在共线性

    千次阅读 2020-10-09 20:32:37
    多重线性回归要求各个自变量之间相互独立,不存在多重共线性。所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。 医学研究中常见的生理资料,...

    多重线性回归要求各个自变量之间相互独立,不存在多重共线性。所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。

    医学研究中常见的生理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等,这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时,把具有多重共线性的变量一同放在模型中进行拟合,就会出现方程估计的偏回归系数明显与常识不相符,甚至出现符号方向相反的情况,对模型的拟合带来严重的影响。

    今天我们就来讨论一下,如果自变量之间存在多重共线性,如何通过有效的变量筛选来加以解决?

     

    一、多重共线性判断

    回顾一下前期讲解多重线性回归时,介绍的判断自变量多重共线性的方法。

    1. 计算自变量两两之间的相关系数及其对应的P值,一般认为相关系数>0.7,且P<0.05时可考虑自变量之间存在共线性,可以作为初步判断多重共线性的一种方法。

    2. 共线性诊断统计量,即Tolerance(容忍度)和VIF(方差膨胀因子)。一般认为如果Tolerance<0.2或VIF>5(Tolerance和VIF呈倒数关系),则提示要考虑自变量之间存在多重共线性的问题。

     

    二、多重共线性解决方法:变量剔除

    顾名思义,当自变量之间存在多重共线性时,最简单的方法就是对共线的自变量进行一定的筛选,保留更为重要的变量,删除次要或可替代的变量,从而减少变量之间的重复信息,避免在模型拟合时出现多重共线性的问题。

    对于如何去把握应该删除哪一个变量,保留哪一个变量,近期也有小伙伴在微信平台中问到这个问题,下面举个例子进行一个简单的说明。

     

    表1. 自变量相关性

    如表1所示, X3和X4、X5之间相关系数>0.7,变量X4与X1、X3、X5之间相关系数>0.7,X5与X3、X4之间相关系数>0.7,说明X3、X4、X5之间存在一定的共线性,由于X4与X1的相关性也较高,故此时建议可以先将X4删除再进行模型拟合,当然也需要结合容忍度和VIF值及专业知识来进行判断。有些时候共线性不可能从统计上得到完全解决,因此在不损失重要信息的前提下,人为剔除共线的变量往往是最有效的方法。

     

    三、多重共线性解决方法:逐步选择

    当自变量之间的关系较为复杂,对于变量的取舍不易把握时,我们还可以利用逐步回归的方法进行变量筛选,以解决自变量多重共线性的问题。逐步回归法从共线性的自变量中筛选出对因变量影响较为显著的若干个变量,把对因变量贡献不大的自变量排除在模型之外,从而建立最优的回归子集,不仅克服了共线性问题,而且使得回归方程得到简化。

    %        MATLAB逐步回归
    mdl3 = stepwiselm(dat_del2);

    实际运行证明逐步回归并不能解决多重共线性,反而可能将重要变量剔除!

    https://zhuanlan.zhihu.com/p/91092190

    展开全文
  • 多元线性回归模型

    万次阅读 多人点赞 2019-07-02 19:22:12
    多元线性回归模型通常用来研究一个应变量依赖多个自变量的变化关系,如果二者的以来关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析。 1.模型简介 1.1模型的结构 多元线性回归模型通常用来描述变脸y和x...
  • 多重线性回归 多元线性回归Video Link 影片连结 We have taken a look at Simple Linear Regression in Episode 4.1 where we had one variable x to predict y, but what if now we have multiple variables, not ...
  • 多元线性回归

    千次阅读 2019-12-29 21:45:18
    所谓的多元线性回归就是指在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。 二、多元线性回归模型 1.建立模型 以二元线性回归模型为例 ,二元线性回归模型如下: 类似的使用最小二乘法进行参数估计 ...
  • 线性回归——简单线性回归、多元线性回归

    千次阅读 多人点赞 2020-04-30 22:13:37
    当只有一个自变量时,称为简单线性回归,当具有多个自变量时,称为多元线性回归。 线性关系的理解: 画出来的图像是直的。 每个自变量的最高次项为1。 拟合是指构建一种算法,使得该算法能够符合真实的数据。从...
  • 变量线性回归 绘制散点图 相关系数R 拆分训练集和测试集 多变量线性回归 数据检验(判断是否可以做线性回归) 训练线性回归模型 先甩几个典型的线性回归的模型,帮助大家捡起那些年被忘记的数学。 ● 单...
  • 多元线性回归推导过程

    万次阅读 多人点赞 2018-08-06 20:26:23
    常用算法一 多元线性回归详解1 此次我们来学习人工智能的第一个算法:多元线性回归.文章会包含必要的数学知识回顾,大部分比较简单,数学功底好的朋友只需要浏览标题,简单了解需要哪些数学知识即可. 本章主要包括...
  • 多元线性回归 python翻译: https://medium.com/ai-in-plain-english/implementing-multiple-linear-regression-in-python-1364fc03a5a8多元线性回归 python
  • 一个因变量依赖两个或两个以上自变量变化而变化的回归模型称为多元线性回归 ● 一元线性回归: y(x)=theta0 + theta1* x 1 ● 多元线性回归: y(x)=theta0 + theta1* x 1 + theta2* x 2 + theta3* x 3 ● 多项式...
  • matlab实现一元线性回归和多元线性回归

    万次阅读 多人点赞 2018-01-30 10:58:46
    回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 ...
  • 多元线性回归.ppt

    2011-04-15 10:27:47
    多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量... 内容安排: 多元线性回归模型与参数估计 回归方程和偏回归系数的假设检验 标准化偏回归系数和确定系数 多元回归分析中的若干...
  • 本系列为100天机器学习学习笔记。详细请参考下方作者链接: ...Day3多元线性回归 第1步: 数据预处理 导入库: import pandas as pd import numpy as np 导入数据集 dataset = pd.read_csv('50_Star...
  • 解决多元线性回归中多重共线性问题的方法分析,谢小韦,印凡成,为了解决多元线性回归自变量之间的多重共线性问题,常用的有三种方法: 岭回归、主成分回归和偏最小二乘回归。本文以考察职工平�
  • 线性回归系列(3)-多元线性回归

    千次阅读 2014-06-18 15:39:46
    多元回归分析,是指通过两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。
  • 多元线性回归分析预测 多元线性回归分析预测法概述 多元线性回归的计算模型 多元线性回归模型的检验 多元线性回归分析预测法案例分析
  • 2.0多元线性回归

    2020-05-16 08:34:13
    多元线性回归模型 多元线性回归模型的参数估计 最小二乘估计 最大似然估计 多元线性回归模型的显著性检验 回归方程是否显著: F 检验 回归系数是否显著:t 检验 多元线性回归模型的相关系数 自变量的标准化 简单相关...
  • 一元线性回归与多元线性回归

    千次阅读 2019-02-03 11:39:29
    线性回归action精讲 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分...如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关...
  • R语言多元线性回归

    千次阅读 2018-03-09 12:06:00
    多元线性回归关键在于自变量筛选。一般采用后退法。# 工业用电量的全变量回归 lm.fullind &lt;- lm(data[,10] ~ data[,3]+data[,5]+data[,6]+data[,7]+ data[,14]+data[,15]) summary(lm.fullind)R语言中...
  • 多元线性回归总结

    万次阅读 2018-10-26 10:51:45
    相对上一篇文章之中的一元线性回归,多元线性回归的主要特点是,自变量不再是一组数据,而是由多于一组以上的数据作为自变量。所以,多元线性回归的模型形式为: 其中,...是待定系数。是自变量,是剩余项。 ...
  • 用R进行多元线性回归分析建模

    万次阅读 多人点赞 2016-05-31 22:20:37
    概念:多元回归分析预测法,是指通过两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,735
精华内容 5,094
关键字:

多元线性回归对自变量之间