精华内容
下载资源
问答
  • sklearn:线性回归和逻辑回归对数几率回归
    2021-12-15 09:51:01


    在本次学习中,以实践为主,简要阐述理论原理即可

    1. 线性回归(LinearRegression)

    1.1 理论

    给定数据集D = { ( x 1 , y 1 ) , ( x 2 . y 2 ) , . . . , ( x m , y m ) (x_1, y_1), (x_2. y_2), ... , (x_m, y_m) (x1,y1),(x2.y2),...,(xm,ym)}, 其中 x i = ( x i 1 . x i 2 , . . . , x i d ) , y i ∈ R x_i = (x_{i1}. x_{i2}, ..., x_{id}), y_i \in R xi=(xi1.xi2,...,xid),yiR

    1. 目的:试图学得一个线性模型以尽可能准确的预测实值输出标记
    2. 模型的基本形式: f ( x ) = w x i + b f(x) = wx_i + b f(x)=wxi+b
    3. 常用指标:均方误差(基于均方误差最小化来进行模型求解的方法为"最小二乘法")
    4. 损失函数:通过使均方误差最小化得到的最小二乘损失函数
    5. 求解:通过梯度下降法求解出使损失函数最小时所对应的参数
    6. 梯度下降法的一般过程:
      在这里插入图片描述

    1.2 重要参数

    参数意义
    fit_intercept布尔值,可不填,默认为True 是否计算此模型的截距。如果设置为False,则不会计算截距
    normalize布尔值,可不填,默认为False。当fit_intercept设置为False时,将忽略此参数。如果为True,则特征矩阵X在进入回归之前将会被减去均值(中心化)并除以L2范式(缩放)
    copy_X布尔值,可不填,默认为True。如果为真,将在X.copy()上进行操作,否则的话原本的特征矩阵X可能被线性回归影响并覆盖
    n_jobs用于计算的作业数

    1.3 实践

    以波士顿房价为例

    1. 导入相关的包
    # 1. 导入相关的包
    import numpy as np
    import pandas as pd
    
    1. 导入数据集
    # 2. 导入波士顿房价数据集
    from sklearn.datasets import load_boston
    # 3. 加载相关数据
    data = load_boston()
    X = data.data
    y = data.target
    
    1. 划分训练集和测试集
    # 3. 划分训练集和测试集
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size= 0.3, random_state = 0)
    print(X_train.shape, X_test.shape,y_train.shape, y_test.shape)
    
    1. 导入模型并训练
    # 4. 导入相关模型并训练
    from sklearn.linear_model import LinearRegression
    # 实例化
    lr = LinearRegression()
    # 训练
    lr.fit(X_train, y_train)
    
    # 输出对应线性回归的系数
    
    print('线性回归的系数为:\n w = %s \n b = %s' % (lr.coef_, lr.intercept_))
    
    1. 利用学习好的模型进行预测
    # 5. 利用学的模型进行预测
    y_test_pred = lr.predict(X_test)
    
    1. 画出预测与真实值的图像
    plt.figure()
    plt.plot(y_test, c = 'r')
    plt.plot(y_test_pred, c = 'b')
    plt.show()
    

    在这里插入图片描述

    1. 计算均方误差
    from sklearn.metrics import mean_squared_error 
    mean_squared_error( y_test, y_test_pred)
    

    结果为27.2

    2. 对数几率回归(LogisticRegression,也被称为逻辑回归)

    给定数据X = x 1 , x 2 , . . . , Y = y 1 , y 2 , . . . x_1, x_2, ... , Y = y_1, y_2, ... x1,x2,...,Y=y1,y2,...,考虑为二分类任务,即 y i ∈ 0 , 1 y_i \in 0, 1 yi0,1

    2.1 理论

    1. 定义:是一种名为“回归”的线性分类器,其本质是由线性回
      归变化而来的,一种广泛使用于分类问题中的广义回归算法。
    2. 目的:通过对线性模型进行Sigmoid变换完成分类任务
    3. 基本形式: h θ ( x ) = g ( θ T x ) h_{\theta}(x) = g(\theta^Tx) hθ(x)=g(θTx), 其中 θ T = w T x + b , g ( z ) = 1 1 + e − z \theta ^T = w^Tx + b, g(z) = \frac{1}{1 + e^{-z}} θT=wTx+b,g(z)=1+ez1
    4. 损失函数:通过使用极大似然估计法定义损失函数
    5. 参数的求解:根据凸优化理论,可以使用梯度下降法得出最优解

    2.2 LogisticRegression的优点:

    1. 对线性关系的拟合效果极好(特征与标签之前的线性关系极强的数据,比如金融领域中的信用卡欺诈、评分卡制作以及营销预测等)
    2. 计算速度快
    3. 返回的分类结果不是固定的0和1,而是以小数呈现出来的类概率数组

    2.3 重要参数及其意义

    参数意义
    penalty可以通过输入’l1’或’l2’来指定使用哪一种正则化方式,默认为’l2’
    C正则化强度的倒数,必须是一个大于0的浮点数,不填写默认为1.0.越小,损失函数会越小。模型对损失函数的惩罚越重,正则化的效力越强
    max_iter整数,默认为100,求解器收敛的最大迭代次数
    multi_class输入"ovr"(二分类), “multinomial”(多分类), “auto”(根据数据的分类情况和其他参数来确定模型要处理的分类问题的类型)来告知模型处理的分类问题的类型,默认是"ovr"
    solver求解参数的方法选择,
    class_weight针对样本不均衡问题的参数,不过使用较难,一般采用上采样或下采样来解决样本不均衡问题

    2.4 实践

    以乳腺癌数据为例

    1. 导入相关的包
    # 1. 导入相关的包
    import numpy as np
    import pandas as pd
    
    1. 导入数据集
    from sklearn.datasets import load_breast_cancer
    data = load_breast_cancer()
    X = data.data
    y = data.target
    
    1. 划分训练集和测试集
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 0)
    
    1. 导入模型并训练
    from sklearn.linear_model import LogisticRegression
    lgr = LogisticRegression()
    lgr.fit(X_train, y_train)
    
    1. 预测并查看得分
    y_pred = lgr.predict(X_test)
    score = lgr.score(X_test, y_test)
    score
    

    结果为0.947

    更多相关内容
  • Excel—对数回归分析与预测

    千次阅读 2018-06-08 10:12:49
    背景:很多业务并不是线性增长,当增长某一程度时,其增长率会开始减缓1、准备数据 案例中准备数据如下 以excel2013为例选择数据“插入”散点图,见下图选择增加“趋势线”选择对数配置,选择公式显示,便可以看到...

    背景:很多业务并不是线性增长,当增长某一程度时,其增长率会开始减缓

    1、准备数据

        案例中准备数据如下 


    以excel2013为例

    选择数据“插入”散点图,见下图选择

    增加“趋势线”


    选择对数配置,选择公式显示,便可以看到公式
    也可以向前或后预测,图中实例向后预测5期,结果显示如下



    展开全文
  • 1 对数几率回归原理分析 1.1 引入 1.2 损失函数 1.3 求最优解 2 对数几率回归实践 Logistic回归的一般过程 Logistic回归的优缺点 Logistic回归算法描述(改进的随机梯度下降) 《机器学习实战》第五章代码...

    目录

    1 对数几率回归原理分析

    1.1 引入

    1.2 损失函数

    1.3  求最优解

    2 对数几率回归实践

    Logistic回归的一般过程

    Logistic回归的优缺点

    Logistic回归算法描述(改进的随机梯度下降)

    《机器学习实战》第五章代码解析

             5-1 Logistic回归梯度上升优化方法

    5-2 画出数据集和Logistic回归最佳拟合直线的函数

    5-3 随机梯度上升算法

    5-4 改进的随机梯度上升算法

    5-5  示例:从疝气病症预测病马的死亡率

    参考资料


    1 对数几率回归原理分析

    1.1 引入

    Logistic Regression,对数几率回归,又称逻辑斯谛回归。该模型最初是用来解决0/1二分类问题,明明是分类问题,为何叫回归?科普一下,线性回归是找到一条直线或超平面尽可能地接近所有的训练数据点(就是用线性方程来拟合数据),而对数几率回归是找到一条直线或超平面尽可能地分开两种不同类别的数据点就是在公式中的线性部分来做了回归)。
           首先,我们要解决的问题是:在线性模型z=w^Tx+b上做二分类(这里不讨论多分类)。
           把问题转化为,让模型输出为0或者1,而且在分界处变化很陡。
           直接想法是套一个函数y(z)来实现一个单位阶跃函数,如下
    :

    y=\begin{cases} &0, \text{ if } z<0 \\ & 0.5,\text{ if } z=0 \\ & 1,\text{ if } z>0 \end{cases}

    也就是把 线性模型z=w^Tx+b 看作为一个两种类别的分界线。
               由于分段函数性质太差,不符合优化问题的目标函数要连续可微的特点。所以我们找一个形似的函数(由下图可见),Sigmoid 函数(S型函数)中的杰出代表——对数几率函数(
    一个任意阶可导的凸函数,有良好的数学性质,很适合优化问题)。

    y= \frac{1}{1+e^{-z}}

    将线性模型z=w^Tx+b代入就得到总的模型

    y=\frac{1}{1+e^{-w^{T}x+b}}

    其实,对数几率回归模型就是在拟合 线性模型z=w^Tx+b,使得这条直线尽可能地将原始数据中的两个类别正确的划分开(引用张磊的知乎

    单位阶跃函数与对数几率函数(来源周志华《机器学习》)
    单位阶跃函数与对数几率函数(来源 周志华《机器学习》

     

    1.2 损失函数

    解决机器学习问题就要明确损失函数,回归问题一般用均方误差(平均损失)或者其平均数——平均误差平方损失来作为损失函数(这就是最小二乘法,用来找到一条直线使所有样本到直线的欧式距离之和最小)。
    平均误差平方损失公式如下:

    L=\frac{1}{n}\sum_{i=1}^{n}(\widehat{y}-y)^{2}

    Logistic回归模型,要用到的是对数损失来作为损失函数

    L=-y\log{\widehat{y}}+(1-y)\log{(1-\widehat{y)}}

    先来看它的效果,再来说怎么得来的

    效果:真实值 是有 0/1 两种情况,而推测值 由于借助对数几率函数,其输出是介于0~1之间连续概率值。这个损失函数其实在每次计算时永远都只有一项在发挥作用,转换为分段函数如下:

    L=\begin{cases} & -\log{(\widehat{y})}\text{ if } y=1 \\ & -\log{(1-\widehat{y})}\text{ if } y= 0 \end{cases}

     所以该损失函数可以达到这样的效果:当真实值 y为1时,输出值 y越接近1,则 L越小,当真实值 y为 0 时,输出值 y尖 越接近于0,则 L越小。

    由来:
    这与周志华《机器学习》的3.3节的对数几率回归模型最大化“对数似然”的似然项(详细过程看书P59)

    p(y_{i}|x_{i};w,b)=y_{i}p_{1}(\widehat{x_{i}};\beta )+(1-y_{i})p_0(\widehat{x_i};\beta )

    有着异曲同工之妙,可能存在某种联系吧。

     

    1.3  求最优解

     对数几率函数作为高阶可导连续凸函数,根据凸优化理论,典型的数值优化算法如梯度下降算法,牛顿法等
    牛顿法的求法看周志华《机器学习》的P59~60。
    下面我们用的是梯度下降算法(梯度上升同理,符号变为加号)来得到核心参数的更新方式:
    w看做是一个向量的话,迭代同样要加减一个向量,α是每次迭代的步长(大小),α后面的偏导表示的是迭代的方向,这种通过多次迭代能够使得函数收敛到局部最小值。

    w\leftarrow w-\alpha \frac{\partial L}{\partial w}

    b\leftarrow b-\alpha \frac{\partial L}{\partial b}

    具体怎么得来的看张磊知乎梯度下降算法,写得很棒。

    通过链式求导法则,(具体推导见张磊知乎梯度下降算法

    最终迭代方式为(矩阵形式,也是接下来实践用到的公式,其实是通过一系列推导得来的):

    W\leftarrow W-\alpha X^{T}\(\widehat{Y}-Y)

    (b归入了矩阵中W)

    2 对数几率回归实践

    • Logistic回归的一般过程

    (1)收集数据:采用任意方法收集数据。
    (2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。(有限)另外,结构化数据格式则最佳。
    (3)分析数据: 采用任意方法对数据进行分析。
    (4)训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数
    (5)测试算法:一旦训练完成,分类将会很快。
    (6)使用算法:首先,我们需要输入一些数据,并将起转化成对应的结构化数值。接着,基于训练好的回归系数既可以 对这些数值进行简单的回归计算,在这之后,我们就可以在输出的类别上做一些其他分析工作。

    • Logistic回归的优缺点

     优点:计算代价不高,易于理解和实现。
     缺点:容易欠拟合,分类精度可能不高。

    • Logistic回归算法描述(改进的随机梯度下降)

    输入:训练集D=\left \{ (x_{i},y_{i}) \right \}_{i=1}^{m} ,x_{i}n维样本向量,即x_{i}=(x_{i1},x_{i2},...,x_{in}) ,y_{i}是对应的分类标签
               学习率\alpha
    过程:

    1. 由对数似然得到代价函数J\left ( w \right )=-l(w)
    2. ##下面采用梯度下降对代价函数J(w)进行迭代,迭代t次(选择一个较大值,如500),得到最终的参数向量w=(w_1,w_2...w_m,b)
    3. 初始化w为全1矩阵
    4. repeat:
    5.    for all (x_i,y_i)\in D do(这里采用随机选取样本来更新回归系数)
    6.       动态调整\alpha
    7.       w=w+\Delta w,\Delta w=-\alpha \frac{\partial J(w)}{\partial w},\frac{\partial J(w)}{\partial w}=x_i*(y_i-sigmoid(x_i*w))
    8.      从数据集中删除该样本(避免重复)
    9. util: 迭代了t次(要到达J(w)达到局部最小的效果)

    输出:w的最优解

    • 《机器学习实战》第五章代码解析

        5-1 Logistic回归梯度上升优化方法

    •     算法伪代码:
    每个回归系数初始化为1
    重复R次:
        计算整个数据集的梯度
        使用 alpha*gradient 更新回归系数的向量
    返回回归系数
    •   数据集特点:

       testSet.txt每行如下: 

      -0.017612     14.053064     0
      每个样本点包括两个特征值x,y坐标,和对应的分类标签(0或1)

    from numpy import *
    def loadDataSet():   # 加载数据集
        dataMat = []  # 创建数据列表
        labelMat = []  # 创建标签列表
        fr = open('testSet.txt')  # 打开测试数据文件
        for line in fr.readlines():  # 读取文件每一行
            lineArr = line.strip().split()  # 除去每一行的空格后拆分成列表, 例如 ['0.317029', '14.739025', '0']
            dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  # 增加子列表,[1.0,lineArr第一个元素(float),lineArr第二个元素(float)]
            labelMat.append(int(lineArr[2]))  # 添加元素,元素来源于 lineArr列表的第三个元素(transform str to int first)         
        return dataMat, labelMat  # 返回数据列表,标签列表
    
    # 注:[1.0, float(lineArr[0]), float(lineArr[1])] 中的1.0 表示的是特征X0 的值,一般默认X0 = 1.0(or 1)
    def sigmoid(inX):   # 定义sigmoid函数, 同书P74
        return 1.0/(1+exp(-inX))
    
    def gradAscent(dataMatIn, classLabels):  # 定义梯度上升函数
        dataMatrix = mat(dataMatIn)   # 把数据列表转化成矩阵形式(列表和矩阵的简单差别:列表一般是一行,以逗号分隔,而矩阵是多行,没逗号)
        labelMat = mat(classLabels).transpose()  # 把标签列表转化成矩阵形式,然后转置 (行向量 -> 列向量)
        m,n = shape(dataMatrix)   # 取 数据矩阵的行和列   第一个是 行数m=100, 第二个是 列数n=3 
        alpha = 0.001   # 学习率初始化 = 0.001,步长为0.001
        maxCycles = 500   # 最大循环次数 = 500
        weights = ones((n,1))  # 权重初始化为全1矩阵  列向量(形式为n行1列)
        for k in range(maxCycles):  
            h = sigmoid(dataMatrix * weights)  # 1.0/(1+exp(-Z)    f[x,y] = Z = dataMatrix * weights
            error = (labelMat - h)#损失函数,真实值与预测值之间的差值
            weights = weights + alpha * dataMatrix.transpose() * error  # 更新权重  :要注意矩阵运算,几行几列要对应,注意转置,error(m行1列),
        return weights  # 返回 权重
    
    #运行代码
    dataArr, labelMat = loadDataSet()
    dataMatrix = mat(dataArr)
    #print(dataMatrix)
    res = gradAscent(dataArr,labelMat)
    print(res)
    • 结果如下:
    [[ 4.12414349]
     [ 0.48007329]
     [-0.6168482 ]]

    5-2 画出数据集和Logistic回归最佳拟合直线的函数

    def plotBestFit(weights):
        import matplotlib.pyplot as plt
        dataMat, labelMat = loadDataSet()  
        dataArr = array(dataMat)  # 列表要转为数组
        n = shape(dataArr)[0]  # n=100  数组的行n=100,(数组的列m=3)
        xcord1 = []  #类型1的x,y值
        ycord1 = []
        xcord2 = []  #类型0的x,y值
        ycord2 = []
        for i in range(n):  # 遍历 (0->100-1)
            if int(labelMat[i]) == 1:   # 如果第i个元素的标签值是 1
                xcord1.append(dataArr[i,1])   # 把对应数据数组(形似矩阵)的第i行的第2个元素 增加到 xcord1
                ycord1.append(dataArr[i,2])   # 把对应数据数组(形似矩阵)的第i行的第3个元素 增加到 ycord1
            else:   # 如果标签列表(labelMat)中第i个元素的标签是 0
                xcord2.append(dataArr[i,1])   # 同上 
                ycord2.append(dataArr[i,2])   # 同上
        fig = plt.figure()#画图画布
        ax = fig.add_subplot(111)#子图
        #画散点图
        ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
        ax.scatter(xcord2, ycord2, s=30, c='green')
        # 绘制拟合直线
        x = arange(-3.0,3.0)  # x取值范围 起点-3.0, 终点3.0 步长0.1 
        y = (-weights[0]-weights[1]*x)/weights[2]  # weight[1]是1*1的矩阵,z=w[0]+w[1]*x+w[2]*y,
        #print(x)
        #print(y)
        ax.plot(x,y)#绘制拟合直线
        plt.xlabel('X1')
        plt.ylabel('X2')
        plt.show()
    
    #运行代码
    %matplotlib inline#在界面上显示
    dataArr, LabelMat = loadDataSet()
    weights = gradAscent(dataArr,LabelMat)
    plotBestFit(weights.getA()) #getA()将numpy矩阵转换为数组
    • 结果如图

     

    • “梯度上升法”的不足在于每次更新回归系数时都要遍历整个数据集,计算复杂度高
       因此,产生了“随机梯度上升法”,即每次仅使用1个样本点数据来更新回归系数

      

    5-3 随机梯度上升算法

    随机梯度上升算法:一次仅用一个样本点来更新回归系数
    随机梯度上升伪代码:
    每个回归系数初始化为1
        对数据集中每个样本:
        计算该样本的梯度
        使用 alpha*gradient 更新回归系数的向量
    返回回归系数
    
    • 和梯度上升法的区别:第一,后者的变量h和error都是向量,而前者则全是数值;第二,前者没有矩阵的转化过程,所有变量的数据类型都是Numpy数组
    def stocGradAscent0(dataMatrix, classLabels):
        m,n = shape(dataMatrix)  # 取数组的行m, 列n
        alpha = 0.01  # 学习率初始化
        weights = ones(n)   # 创建 含有 n 个元素的 数组
        for i in range(m): # 循环每一行的元素
            h = sigmoid(sum(dataMatrix[i]*weights))# sum(dataMatrix[i]*weights)=w0*x0+w1*x1+w2*x2
            error = classLabels[i] - h 
            weights = weights + alpha * error * dataMatrix[i]    # 更新权重
        return weights   # 返回权重
    
    #运行代码:
    dataArr,labelMat = loadDataSet()
    weights = stocGradAscent0(array(dataArr), labelMat)
    plotBestFit(weights)
    • 结果如图
       

     

    • “随机梯度上升法”分错了三分之一,因为原始梯度上升算法(5-1)是在整个数据集上迭代500次得来的,这是不公平,我们对本算法同样进行多次迭代,发现问题如下:
      不足在于回归系数存在周期震荡波动。
      因此,产生了“改进的随机梯度上升法”,改进之处有两点:    
       1、动态调整步进因子;     
        2、随机选取样本来更新回归系数。

    5-4 改进的随机梯度上升算法

    def stocGradAscent1(dataMatrix, classLabels, numIter = 150):#因为由图可知迭代到150次左右就收敛(达到稳定值)
        m,n = shape(dataMatrix)   # 取数组(narray)的行,列 m=100, n=3  (narray 和 matrix 长的一样)
        weights = ones(n)  # [1. 1. 1.]
        for j in range(numIter):  # 循环到 最大循环次数numIter = 150:
            # dataIndex = range(m) ### 书中需要更改的地方  tip: TypeError: 'range' object doesn't support item deletion
            dataIndex = list(range(m))  # 创建一个0到99, 步长为1 的列表
            for i in range(m):   # 循环listIndex
                alpha = 4/(1.0+j+i)+0.01#动态调整步进因子
                randIndex = int(random.uniform(0, len(dataIndex)))   # 随机选取样本来更新回归系数
                h = sigmoid(sum(dataMatrix[randIndex]*weights))   #  1.0/(1+exp(-Z))    Z = dataMatrix * weights
                error = classLabels[randIndex] - h
                weights = weights + alpha * error * dataMatrix[randIndex]   # 更新权重
                del(dataIndex[randIndex])   # 删除用过的 随机数 (避免重复)
        return weights   # 返回权重
    
    #运行代码
    from numpy import *
    dataArr,labelMat = loadDataSet()
    weights = stocGradAscent1(array(dataArr), labelMat)
    plotBestFit(weights)
    • 结果如图

     

    5-5  示例:从疝气病症预测病马的死亡率
     

    def classifyVector(inX, weights):
        prob = sigmoid(sum(inX*weights))  # 输入Z=inX*weights(特征向量*回归系数) 计算Sigmoid值
        if prob > 0.5:
            return 1.0
        else:
            return 0.0
    
    def colicTest():
        frTrain = open('horseColicTraining.txt')   # 打开训练集
        frTest = open('horseColicTest.txt')   # 打开测试集
        trainingSet = []   # 训练集列表
        trainingLabels = []   # 训练标签列表
        #把训练集文本处理放入训练集列表和训练标签列表中
        for line in frTrain.readlines():   # 读取训练文本的 每一行 
            currLine = line.strip().split('\t')   # 除去空格,然后用split方法 转化 成list
            lineArr = []   # 定义行数组(处理每行数据)
            for i in range(21):  #数据有22列,前21个为特征,最后一个是分类标签
                lineArr.append(float(currLine[i]))  # 添加currLine的第i个元素到lineArr
            trainingSet.append(lineArr)   # 把 lineArr 作为 子列表 添加到 训练集列表trainingSet[ [],[],[],...]的形式
            trainingLabels.append(float(currLine[21]))  #  把 currLine 最后一个元素(是标签) 添加到训练标签trainingLabels
        trainWeights = stocGradAscent1(array(trainingSet),trainingLabels,500)   # 迭达500次 求 训练权重
        errorCount = 0   #错误计数器
        numTestVec = 0.0 #总数计数器
        #把测试集文本
        for line in frTest.readlines():   # 读取测试文本的每一行
            numTestVec += 1.0  # numTestVec == 1.0
            currLine = line.strip().split('\t')  # 除去空格,然后用split方法 转化 成list
            lineArr = []    # 定义行数组(处理每行数据)
            for i in range(21):  # 数据有22列,前21个为特征,最后一个是分类标签
                lineArr.append(float(currLine[i]))   # 添加currLine的第i个元素到lineArr
            if int(classifyVector(array(lineArr), trainWeights)) != int(currLine[21]):  # 如果分类有错误
                errorCount += 1
        errorRate = (float(errorCount)/numTestVec)   # 计算错误率
        print("the error rate of this test is: %f" % errorRate)
        return errorRate
        # errorCount,numTestVec 各变量结果  25, 67.0
    
    def multiTest():    # 调用colicTest()函数10次并求平均值
        numTests = 10
        errorSum = 0.0
        for k in range(numTests):
            errorSum += colicTest()
        print("after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests)))
    
    print(colicTest())
    multiTest()
    
    

    结果 如下:
     

    the error rate of this test is: 0.388060
    0.3880597014925373
    the error rate of this test is: 0.417910
    the error rate of this test is: 0.432836
    the error rate of this test is: 0.402985
    the error rate of this test is: 0.328358
    the error rate of this test is: 0.388060
    the error rate of this test is: 0.402985
    the error rate of this test is: 0.238806
    the error rate of this test is: 0.358209
    the error rate of this test is: 0.462687
    the error rate of this test is: 0.328358
    after 10 iterations the average error rate is: 0.376119


    ​​​​​

    参考资料

    【1】https://zhuanlan.zhihu.com/p/36670444
    【2】https://zhuanlan.zhihu.com/p/36564434
    【3】《机器学习》周志华
    【4】《机器学习实战》

    (仅供个人学习记录)

    展开全文
  • 当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用。对数据作对数变换常常起到降低数据波动性和减少不对称性的作用。。这一变换也能有效消除异方差性library(MASS)library(openxlsx)data= read.xlsx(...

    BG:在box-cox变换中,当λ = 0时即为对数变换。

    当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用。对数据作对数变换常常起到降低数据波动性和减少不对称性的作用。。这一变换也能有效消除异方差性

    library(MASS)

    library(openxlsx)

    data= read.xlsx("data104.xlsx",sheet = 1) #导入数据

    attach(data)

    op

    plot(size,effort) #图4-4(a)

    plot(log(size),log(effort)) #图4-4(b)

    #绘制频率分布直方图

    hist(effort) #图4-5(a)

    hist(size) #图4-5(b)

    effor 和 size 这两个变量的频率分布图表明,它们并不满足正态分布。为了接近正态分布,必须变换这些变量(通过频率分布图判断变量是否满足正态分布)

    1.先进行基本的线性回归,利用得到的模型进行box-cox变换

    lm1=lm(effort~size+t14) #拟合线性回归模型

    summary(lm1)

    #绘制残差图进行残差分析

    plot(fitted(lm1),resid(lm1),cex=1.2,pch=21,col="red",bg="orange",xlab="Fitted value",ylab="Residuals")

    boxcox(lm1,lambda=seq(0,1,by=0.1)) #进行box-cox变换

    从残差图可以看到误差项不满足Gauss-Markov假设。

    右图的Box-Cox变换建议问哦们λ可以取在[0.05,0.6]范围内,对投入工作量(effort) 取对数有一定的可信度(λ=0 几乎落在置信域内)

    进行对数变换

    lm2=lm(log(effort)~size+t14)

    summary(lm2)

    #绘制残差图

    plot(fitted(lm2),resid(lm2),cex=1.2,pch=21,col="red",bg="orange",xlab="Fitted value",ylab="Residuals")

    书上的结果时残差范围大致在[-25,40]内,不满足Gauss-Markov假设

    与书上结果不符,上图参擦汗图表示这个模型是可行的。

    2.试图拟合 effort 与 log(size),t14 的回归方程。

    lm3=lm(effort~log(size)+t14)

    summary(lm3)

    #绘制残差图

    plot(fitted(lm3),resid(lm3),cex=1.2,pch=21,col="red",bg="orange",xlab="Fitted value",ylab="Residuals")

    #box-cox变换求λ

    boxcox(lm3,lambda=seq(0,1,by=0.1))

    根据右图,Box-Cox变换建议我们取 λ=0

    建立如下方程 ln(effort) = β0 + β1ln(size) + β2 t14 + e

    lm4=lm(log(effort)~log(size)+t14) #进行线性回归

    summary(lm4)

    #绘制残差图

    plot(fitted(lm4),resid(lm4),cex=1.2,pch=21,col="red",bg="orange",xlab="Fitted value",ylab="Residuals")

    #进行box-cox变换

    boxcox(lm4,lambda=seq(0,1,by=0.1))

    因为λ=1 包含在box-cox图像所示的置信域内,说明不进行变换也是ok的

    而且通过残差分析,可以看出这个模型是合理的。

    展开全文
  • 公式推导对数几率回归用于处理二分类问题,其数学基础为对数几率函数,是一种 Sigmoid 函数\[y = \frac{1}{1+e^{-z}} \tag 1\]其函数图像如下取 $z = \boldsymbol{w}^T\boldsymbol{x}+b$,并对式 $(1)$ 进行一定变换...
  • 对数线性回归; y的衍生物 3.1 基本形式 假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w_{1}x_...
  • 回归方程是通过分析样本数据得到的变量间的回归关系的数字表达式。回归方程拟合程度足够好的话,可运用自变量来预测因变量的数值。比如,我们经常会构建销售额与客流量间的回归方程,以预测一定客流量下的销售额。 ...
  • 《机器学习:公式推导与代码实践》鲁伟著读书笔记。...在对数几率回归中,我们需要将线性回归模型的预测值转化为0/1值,而不是去逼近真实标签yyy。而取值范围为(0,1),单调可微的Sigmoid函数便是对
  • 为什么相关或回归分析时 x和y取log

    千次阅读 2020-12-23 13:14:15
    展开全部取对数作用主要有:缩小数32313133353236313431303231363533e4b893e5b19e31333363386231据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时...
  • R构建对数回归模型(Logarithmic Regression) 目录 R构建对数回归模型(Logarithmic Regression) 对数回归模型(Logarithmic Regression) 创建数据 数据可视化 拟合对数回归模型 对数回归模型...
  • 本文就来梳理下线性回归分析分析流程,闲话少说,我们开始吧!线性回归回归分析实质上就是研究一个或多个自变量X对一个因变量Y(定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;...
  • 我总是告诉学生,采用自然对数来转换变量的三个原因。记录变量的原因将决定您是要记录独立变量还是因变量或两者。为了清楚起见,我正在谈论采用自然对数。首先,如其他海报所指出的那样,提高模型拟合度。例如,如果...
  • 对数几率回归-Logistic Regression

    千次阅读 2018-05-05 21:09:33
    首先我们来看为什么Logistic Regression被称为对数几率回归。 几率:将一个实例映射到正例或者负例的可能性比率。令P(y=1|x;θ)P(y=1|x;θ)P(y = 1 | x; \theta)表示将样本分类成正例的概率。那么P(y=0|x...
  • 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 如下方程所示:y=a+b*x^2 在这种回归技术中,最佳拟合线不是直线。 而是一个用于拟合数据点的曲线。 重点: 虽然会有一个诱导...
  • 采用Minitab进行logistic回归分析

    千次阅读 2020-04-07 09:41:52
    在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性... logistic回归分析类型 因变量Y的特征 举例 二元logistic...
  • 并不是大的量和小的量放在一起大的就要对数,那我必然要问你,为什么不选择开N次方呢?或者把小的求阶乘(当然这种操作可能也不太“自然”)?事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:...
  • 机器学习 对数几率回归模型(Python实现)

    万次阅读 多人点赞 2019-05-23 20:23:41
    书接上回,我们可以对一个数据集得到它的回归方程 我们是这样去解读回归方程的:在相关属性下对样例的某一特征的度量 我们根据回归方程得到的特征度量是一个连续值,我们可以根据这个度量值进行分类 例如:大学的...
  • 对数几率回归 又常常称为逻辑回归,逻辑斯谛回归 如果是分类任务,如何使用线性回归模型呢?答案在广义线性模型的公式中,只需要找到一个单调可微函数将分类任务的真实标记y 与线性回归模型的预测值联系起来。 考虑...
  • 在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
  • 数学建模|回归分析

    2022-02-08 14:16:58
    回归分析相关介绍
  • 使用方法: 首先输入实验数据的对数 (一个x和一个y算一对) 然后输入x值和y值 全部输入结束时会被询问是否修改实验数据。如果修改,输入y,否则输入n 然后输入B类不确定度,随后显示最终结果
  • 对数几率回归模型是处理分类问题的算法,常用于垃圾邮件分类,天气预测等,很多文献也将其称为“逻辑回归”。 本文也将称为逻辑回归。 一. 逻辑回归由来 下面是一个简单的线性回归模型。   我们知道“线性回归...
  • 回归模型中对数变换的含义

    千次阅读 2020-06-23 18:32:44
    1.1 因变量采用对数变换 ln(y^)=β0+β1×xln(\hat y)=\beta_0 +\beta_1 \times xln(y^​)=β0​+β1​×x x→x+1;y^1→y^2x \to x+1; \hat y_1 \to \hat y_2x→x+1;y^​1​→y^​2​ {y^1=eβ0+β1×xy^2=eβ0+β1...
  • 7.直以外的回归方程 第3章 重回归分析 1.重回归分析的定义 2.重回归分析的实例 3.重回归分析过程中的注意事项 4.标准化残差 5.马氏距离以及重回归分析中的置信区间和预测区间 6.自变量为“不可测”数据时的重回归...
  • Logistic回归,也称为Logit模型,用于对二元结果变量进行建模。在Logit模型中,结果的对数概率被建模为预测变量的线性组合。 例子 例1. 假设我们对影响一个政治候选人是否赢得选举的因素感兴趣。结果(因)变量...
  • 如何近似计算回归方程的预测区间?

    万次阅读 多人点赞 2020-04-29 16:02:19
    预测区间估计(prediction interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间。变量的估计叫预测区间,预测区间反映了单个数值的不确定性; 置信...
  • 回归分析简介

    2022-02-11 16:26:46
    回归分析 相关分析是研究两个或两个以上...所以,回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析回归分析的一般步骤: 一元线性回归: 因变量..
  • 它是广义的线性模型,只是将线性回归方程中的y换成了ln[p/(1-p),p是p(y=1|x),p/(1-p)是“几率”。对数几率回归是用来做分类任务的,所以,需要找一个单调可微函数,将分类任务的真实标记和线性回归模型的预测值...
  • logistics回归分析——二元逻辑回归

    千次阅读 2020-05-11 14:57:57
    二元逻辑回归 适用于分析因变量为二分类变量。 基本原理 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客: 全新的界面设计 ,将会...
  • 1.3、简单线性回归   前面提到过,算法说白了就是公式,简单线性回归属于一个算法,它所对应的公式。   ????=????????+????y=wx+b   这个公式中,y 是目标变量即未来要预测的值,x 是影响 y 的因素,w,b 是...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,863
精华内容 3,145
关键字:

对数回归分析方程