精华内容
下载资源
问答
  • 更多相关内容
  • 实现多元逻辑回归

    2022-05-08 14:36:21
    现在,我们就选取山鸢尾(蓝色的点)和变色鸢尾(红色的点)这两种类型的样本,使用花萼长度和花萼宽度这两种属性通过逻辑回归实现对它们的分类。 1、使用训练集来训练模型 (此处的代码是下面的代码的一部分,不再...

    鸢尾花数据集中一共有150个样本,分为3类,每个样本中有四个属性。

    三种鸢尾花类别,每种类别有50个样本。每个样本中包括四种鸢尾花的属性特征和鸢尾花的品种。这四种属性特征分别为花萼的长度和宽度以及花瓣的长度和宽度。
    在这里插入图片描述
    标签就是类别。

    下面是三种属性两两组合之后的可视化结果。
    在这里插入图片描述
    可以看到蓝色的点是山鸢尾,红色的点是变色鸢尾,绿色的点是维吉尼亚鸢尾。可以看到,蓝色的点和其他两种颜色的点差距比较大,选择任何两种属性的组合都能够很好的将它们区分开。

    现在,我们就选取山鸢尾(蓝色的点)和变色鸢尾(红色的点)这两种类型的样本,使用花萼长度和花萼宽度这两种属性通过逻辑回归实现对它们的分类。

    1、使用训练集来训练模型

    (此处的代码是下面的代码的一部分,不再重复写了,只选择与下面不同的来写,建议从第二部分开始看。)

    1.1、输出训练集在训练模型上的损失率和准确率

    输出准确率和结果,这是运行结果:

    i: 0, Train Loss: 0.994269, Accuracy: 0.230769
    i: 30, Train Loss: 0.481892, Accuracy: 0.961538
    i: 60, Train Loss: 0.319128, Accuracy: 0.987179
    i: 90, Train Loss: 0.246626, Accuracy: 0.987179
    i: 120, Train Loss: 0.204982, Accuracy: 1.000000
    

    可以看到一开始的准确率只有23%,随着迭代次数的增加,准确率不断提高,最后达到了百分之百。同时损失也在不断地下降。

    1.2、绘制损失和准确率的变化曲线

    plt.figure(figsize=(5, 3))
    plt.plot(cross_train, color="blue", label="Loss")
    plt.plot(acc_train, color="red", label="Acc")
    plt.legend()
    plt.title("损失和准确率变化曲线", fontsize=22)
    

    在这里插入图片描述
    损失一直单调递减,所以损失变化曲线很光滑,而准确率上升到一定的数值之后,有时候会停留在某个数值一段时间,因此会呈现出台阶上升的态势。

    1.3、绘制出线性分类器的决策边界

    plt.figure()
    plt.scatter(x_train[:, 0], x_train[:, 1], c=y_train, cmap=cm_pt)
    x_ = [-1.5, 1.5]
    y_ = -(W[1]*x_+W[0])/W[2]
    plt.plot(x_, y_, color="g")
    plt.title("决策边界", fontsize=22)
    

    在这里插入图片描述
    这条直线的表达式如下:
    w1x1 + w2x2 + w0 =0
    其中的 wn 就是我们训练得到的模型参数。
    可以把它变换成下面这种形式:
    在这里插入图片描述
    (表达式中的 w1 就是程序中的 x_ ,而 w2 就是程序中的 y_)

    我们也可以把这段代码添加到模型训练的过程中,从而在迭代的过程中分类边界的变化情况。

    可以看到,

    # 第四步:设置模型参数初始值
    np.random.seed(612)
    # 这里的W是一个列向量
    W = tf.Variable(np.random.randn(3, 1), dtype=tf.float32)
    x_ = [-1.5, 1.5]
    y_ = -(W[1]*x_+W[0])/W[2]
    
    plt.figure()
    plt.scatter(x_train[:, 0], x_train[:, 1], c=y_train, cmap=cm_pt)
    plt.plot(x_, y_, color="red", linewidth=3)
    plt.xlim([-1.5, 1.5])
    plt.ylim([-1.5, 1.5])
    plt.title("决策边界变化图", fontsize=22)
    
    # 第五步:训练模型
    ......
    ......
    for i in range(0, itar+1):
    	......
    	......
    		......
    		......
    	    if i % display_step == 0:
            	print("i: %i, Train Loss: %f, Accuracy: %f" % (i, Loss_train, Accuarcy_train))
            	y_ = -(W[1] * x_ + W[0]) / W[2]
            	plt.plot(x_, y_)
    plt.show()
    

    在这里插入图片描述
    在上面的例子中,只使用了训练集数据,没有使用测试集。下面我们在训练模型的同时,使用测试集来评价模型的性能。

    2、使用测试集来评价模型的性能

    第一步:加载训练数据集和测试数据集

    import pandas as pd
    import numpy as np
    import tensorflow as tf
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    
    plt.rcParams['font.sans-serif'] = "SimHei"
    plt.rcParams['axes.unicode_minus'] = False
    
    # 第一步:加载数据集
    TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"
    train_path = tf.keras.utils.get_file(TRAIN_URL.split('/')[-1], TRAIN_URL)
    df_iris_train = pd.read_csv(train_path, header=0)  # 表示第一行数据作为列标题
    
    TEST_URL = "http://download.tensorflow.org/data/iris_test.csv"
    test_path = tf.keras.utils.get_file(TEST_URL.split('/')[-1], TEST_URL)
    df_iris_test = pd.read_csv(test_path, header=0)  
    

    第二步:数据处理

    2.1 转化为NumPy数组

    iris_train = np.array(df_iris_train)  # 将二维数据表转换为 Numpy 数组, (120, 5), iris的训练集中有120条样本,
    iris_test = np.array(df_iris_test)  # 将二维数据表转换为 Numpy 数组, (30, 5), iris的测试集中有30条样本,
    

    2.2 提取属性和标签

    train_x = iris_train[:, 0:2]  # 取出鸢尾花训练数据集的前两列属性值
    train_y = iris_train[:, 4]  # 取出最后一列作为标签值, (120,)
    
    test_x = iris_test[:, 0:2]  # 取出鸢尾花训练数据集的前两列属性值
    test_y = iris_test[:, 4]  # 取出最后一列作为标签值, (30, )
    

    2.3 提取指定标签的样本

    # 2.3 提取山鸢尾和变色鸢尾 (标签值——品种, 0 —— 山鸢尾、1 —— 变色鸢尾、2 —— 维吉尼亚鸢尾)
    x_train = train_x[train_y < 2]  # 提取出标签值为 01 的样本
    y_train = train_y[train_y < 2]
    print(x_train.shape, y_train.shape)  # (78, 2) (78,)
    
    x_test = test_x[test_y < 2]  # 提取出标签值为 01 的样本
    y_test = test_y[test_y < 2]
    print(x_test.shape, y_test.shape)  # (22, 2) (22,)
    

    2.4 记录训练集和测试集中的样本数

    num_train = len(x_train)  # 78
    num_test = len(x_test)  # 22
    

    2.5 数据可视化

    # 2.5 可视化样本
    plt.figure(figsize=(12, 5))
    cm_pt = mpl.colors.ListedColormap(["blue", "red"])
    
    plt.subplot(121)
    # 取出花萼长度和花萼宽度作为样本点的横坐标和纵坐标, 根据样本点的标签值确定样本的颜色, 设置色彩方案为cm_pt
    plt.scatter(x_train[:, 0], x_train[:, 1], c=y_train, cmap=cm_pt)
    # 之前的例程中, 我们使用的都是 matplotlib 中预设的色彩方案,这里我们使用自己定义的色彩方案,
    # 在散点图中, 蓝色的是山鸢尾, 红色的是变色鸢尾.
    # 设置标题
    plt.title("山鸢尾和变色鸢尾的训练集样本", fontsize=22)
    plt.xlabel('花萼长度', color='r', fontsize=16)
    plt.ylabel('花萼宽度', color='r', fontsize=16)
    
    plt.subplot(122)
    # 取出花萼长度和花萼宽度作为样本点的横坐标和纵坐标, 根据样本点的标签值确定样本的颜色, 设置色彩方案为cm_pt
    plt.scatter(x_test[:, 0], x_test[:, 1], c=y_test, cmap=cm_pt)
    # 设置标题
    plt.title("山鸢尾和变色鸢尾的测试集样本", fontsize=22)
    plt.xlabel('花萼长度', color='r', fontsize=16)
    plt.ylabel('花萼宽度', color='r', fontsize=16)
    

    运行代码如下:
    在这里插入图片描述

    2.6 数据归一化

    需要注意:在机器学习中,要求训练集和测试集是独立同分布的,也就是说,他们具有相同的方差和均值,在样本数量有限的情况下,可能无法做到完全相等,只需要尽量接近就可以了。

    # 2.6 数据归一化
    print(np.mean(x_train, axis=0))  # axis=0, 计算数组中每一列的均值
    # [5.42692308 3.1025641 ]
    print(np.mean(x_test, axis=0))
    # [5.62727273 3.06363636]
    
    # 可以看出这两个属性的尺寸相同,因此不需要进行归一化,可以直接对其进行中心化处理
    # 对每个属性进行中心化, 也就是按列中心化, 所以使用下面这种方式
    x_train = x_train-np.mean(x_train, axis=0)
    x_test = x_test-np.mean(x_test, axis=0)
    # 此时样本点的横坐标和纵坐标的均值都是0
    

    从输出结果可以看出,这两个数据集的均值虽然不同,但是已经非常接近了,所以该测试集可以用于测试。

    2.7 绘制中心化之后的散点图

    plt.figure(figsize=(12, 5))
    plt.subplot(121)
    plt.scatter(x_train[:, 0], x_train[:, 1], c=y_train, cmap=cm_pt)
    plt.title("归一化后的山鸢尾和变色鸢尾的训练集样本", fontsize=22)
    plt.xlabel('花萼长度', color='r', fontsize=16)
    plt.ylabel('花萼宽度', color='r', fontsize=16)
    
    plt.subplot(122)
    plt.scatter(x_test[:, 0], x_test[:, 1], c=y_test, cmap=cm_pt)
    plt.title("归一化后的山鸢尾和变色鸢尾的测试集样本", fontsize=22)
    plt.xlabel('花萼长度', color='r', fontsize=16)
    plt.ylabel('花萼宽度', color='r', fontsize=16)
    

    运行代码如下:
    在这里插入图片描述

    2.8 生成多元模型的属性矩阵和标签列向量

    # 2.8 生成多元模型的属性矩阵和标签列向量
    x0_train = np.ones(num_train).reshape(-1, 1)  # (78, 1)
    # 改变张量中元素的数据类型函数 tf.cast()
    # 拼接就是将多个张量在某个维度上合并,在TensorFlow中使
    # 用tf.concat()函数来拼接张量, 拼接并不会产生新的维度。
    X_train = tf.cast(tf.concat((x0_train, x_train), axis=1), tf.float32)
    Y_train = tf.cast(y_train.reshape(-1, 1), tf.float32)
    print(X_train.shape)  # (78, 3)
    print(Y_train.shape)  # (78, 1)
    
    x0_test = np.ones(num_test).reshape(-1, 1)  # (22, 1)
    # 改变张量中元素的数据类型函数 tf.cast()
    # 拼接就是将多个张量在某个维度上合并,在TensorFlow中使
    # 用tf.concat()函数来拼接张量, 拼接并不会产生新的维度。
    X_test = tf.cast(tf.concat((x0_test, x_test), axis=1), tf.float32)
    Y_test = tf.cast(y_test.reshape(-1, 1), tf.float32)
    print(X_test.shape)  # (22, 3)
    print(Y_test.shape)  # (22, 1)
    

    第三步:设置超参数和显示间隔

    # 第三步:设置超参数和显示间隔
    learn_rate = 0.2
    itar = 120
    
    display_step = 30
    

    第四步:设置模型参数初始值

    # 第四步:设置模型参数初始值
    np.random.seed(612)
    # 这里的W是一个列向量
    W = tf.Variable(np.random.randn(3, 1), dtype=tf.float32)
    

    第五步:训练模型

    # 第五步:训练模型
    cross_train = []  # 列表cross_train用来保存每一次迭代的交叉熵损失
    acc_train = []  # 用来存放训练集的分类准确率
    
    cross_test = []  # 列表cross_test用来保存每一次迭代的交叉熵损失
    acc_test = []  # 用来存放测试集的分类准确率
    
    for i in range(0, itar + 1):
    
        with tf.GradientTape() as tape:
    
            # Sigmoid 函数
            # 属性矩阵X和参数向量W相乘的结果是一个列向量
            # X - (78, 3), W - (3, 1) , 所以 Pred_train - (78, 1), 是每个样本的预测概率
            Pred_train = 1 / (1 + tf.exp(-tf.matmul(X_train, W)))
            # 计算平均交叉熵损失函数
            Loss_train = -tf.reduce_mean(Y_train * tf.math.log(Pred_train) + (1 - Y_train) * tf.math.log(1 - Pred_train))
    
            Pred_test = 1 / (1 + tf.exp(-tf.matmul(X_test, W)))
            # 计算平均交叉熵损失函数
            Loss_test = -tf.reduce_mean(Y_test * tf.math.log(Pred_test) + (1 - Y_test) * tf.math.log(1 - Pred_test))
    
        # 计算准确率函数 -- 因为不需要对其进行求导运算, 因此也可以把这条语句写在 with 语句的外面
        Accuarcy_train = tf.reduce_mean(tf.cast(tf.equal(tf.where(Pred_train.numpy() < 0.5, 0., 1.), Y_train), tf.float32))
        Accuarcy_test = tf.reduce_mean(tf.cast(tf.equal(tf.where(Pred_test.numpy() < 0.5, 0., 1.), Y_test), tf.float32))
    
        # 记录每一次迭代的交叉熵损失和准确率
        cross_train.append(Loss_train)
        cross_test.append(Loss_test)
        acc_train.append(Accuarcy_train)
        acc_test.append(Accuarcy_test)
    
        # 对交叉熵损失函数W求偏导
        dL_dW = tape.gradient(Loss_train, W)
        # 更新模型参数
        W.assign_sub(learn_rate * dL_dW)
    
        if i % display_step == 0:
            print("i: %i, TrainLoss: %f, TrainAccuracy: %f, TestLoss: %f, TestAccuracy: %f"
                  % (i, Loss_train, Accuarcy_train, Loss_test, Accuarcy_test))
    

    运行结果如下:
    在这里插入图片描述
    从上面结果可以看出,虽然训练集的准确率达到了百分之百,但是测试集的准确率只有86%,训练集和测试集的损失仍然在持续下降。可以尝试继续训练这个模型,看下测试集的准确率能否达到百分之百。

    这里将迭代次数提升到510次,然后运行代码。
    在这里插入图片描述
    可以看出在迭代330次的时候,达到了100%

    第六步:分别绘制训练集和测试集的损失曲线

    plt.figure(figsize=(10, 4))
    
    plt.subplot(121)
    plt.plot(cross_train, color="blue", label="TrainLoss")
    plt.plot(cross_test, color="red", label="TestLoss")
    plt.ylabel("Loss")
    plt.title("训练集和测试集的损失率变化曲线", fontsize=20)
    plt.legend()
    
    plt.subplot(122)
    plt.plot(acc_train, color="blue", label="TrainAccuracy")
    plt.plot(acc_test, color="red", label="TestAccuracy")
    plt.ylabel("Accuracy")
    plt.title("训练集和测试集的准确率变化曲线", fontsize=20)
    plt.legend()
    

    在这里插入图片描述

    总结

    前面一开始提到通过三种属性两两组合之后的可视化结果得到下图。
    第一行是 花萼长度、和花萼长度、 花萼宽度、花瓣长度和花瓣宽度的组合
    第二行是 花萼宽度、和花萼长度、 花萼宽度、花瓣长度和花瓣宽度的组合
    第三行是 花瓣长度、和花萼长度、 花萼宽度、花瓣长度和花瓣宽度的组合
    第四行是 花瓣宽度、和花萼长度、 花萼宽度、花瓣长度和花瓣宽度的组合
    在这里插入图片描述
    通过这个图可以看出来,山鸢尾是比较容易和其他两种鸢尾花区分开的(蓝色的点是山鸢尾,红色的点是变色鸢尾,绿色的点是维吉尼亚鸢尾。),我们其实选择的是一种难度最大的组合(花萼长度和花萼宽度,图中为第一行第二个图),选择其他几种属性的组合,看起来更容易把山鸢尾区分开来。另外,观察第三行第一张图(花萼长度和花瓣长度),可以发现山鸢尾的花瓣长度和其他两种鸢尾花不在一个区间,也就是说其实只需要花瓣长度这一个属性就能够把山鸢尾区分开来了,这采用一元逻辑回归就可以完成。

    如果我们要把变色鸢尾和维吉尼亚鸢尾区分开来,应该选择哪两个属性呢?
    也就是说要分开这些红色的点和绿色的点,显然混在一起特别多的不能选,比如可以选择四行三列那个图(花瓣宽度和花瓣长度属性的组合),也可以找到一个准确率比较高的线性分类器。

    那么是否可以找到一个更好的分类方法呢?

    鸢尾花数据集中有四个属性,这个图中只给出了两种属性组合的情况,如果采用三种或者四种属性去训练模型应该可以把变色鸢尾和维吉尼亚鸢尾完全区分开来。

    展开全文
  • R语言多元Logistic回归 应用案例 多元Logistic回归 如何进行多重逻辑回归 可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC,而不是像手册中的SAS示例那样根据p值。另请注意,在此...

    原文链接http://tecdat.cn/?p=2640  

    原文出处:拓端数据部落公众号

    相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

    ,时长06:48

    可以使用逐步回归过程确定多元逻辑回归。此函数选择模型以最小化AIC。

    如何进行多元逻辑回归

    可以使用step函数通过逐步回归过程确定多元逻辑回归。此函数选择模型以最小化AIC。

    通常建议不要盲目地遵循逐步回归程序,而是要使用拟合统计(AIC,AICc,BIC)比较模型,或者根据生物学或科学上合理的可用变量建立模型。

    多元相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。

    多元相关

    创建数值变量的数据框

    
    
    Data.num $ Status = as.numeric(Data.num $ Status)
    
    Data.num $ Length = as.numeric(Data.num $ Length)
    
    Data.num $ Migr = as.numeric(Data.num $ Migr)
    
    Data.num $ Insect = as.numeric(Data.num $ Insect)
    
    Data.num $ Diet = as.numeric(Data.num $ Diet)
    
    Data.num $ Broods = as.numeric(Data.num $ Broods)
    
    Data。 num $ Wood = as.numeric(Data.num $ Wood)
    
    Data.num $ Upland = as.numeric(Data.num $ Upland)
    
    Data.num $ Water = as.numeric(Data.num $ Water)
    
    Data.num $ Release = as.numeric(Data.num $ Release)
    
    Data.num $ Indiv = as.numeric(Data.num $ Indiv)
    
    ###检查新数据框
    
    headtail(Data.num)
    
    1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 29
    
    2 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 85
    
    3 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 8
    
    77 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 2
    
    78 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 2
    
    79 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2
    
    ###检查变量之间的相关性
    
    ###这里使用了Spearman相关性

    2e6087f14e3b26ec7e1286ce44e2bdce.png

    多元逻辑回归的例子

    在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步回归过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察样本。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。

    尽管二项式和poission分布中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。

    用逐步回归确定模型

    最终模型

    summary(model.final)
    
    
    Coefficients:
    
                  Estimate Std. Error z value Pr(>|z|)   
    
    (Intercept) -3.5496482  2.0827400  -1.704 0.088322 . 
    
    Upland      -4.5484289  2.0712502  -2.196 0.028093 * 
    
    Migr        -1.8184049  0.8325702  -2.184 0.028956 * 
    
    Mass         0.0019029  0.0007048   2.700 0.006940 **
    
    Indiv        0.0137061  0.0038703   3.541 0.000398 ***
    
    Insect       0.2394720  0.1373456   1.744 0.081234 . 
    
    Wood         1.8134445  1.3105911   1.384 0.166455   

    伪R方

    $Pseudo.R.squared.for.model.vs.null
    
                                 Pseudo.R.squared
    
    McFadden                             0.700475
    
    Cox and Snell (ML)                   0.637732
    
    Nagelkerke (Cragg and Uhler)         0.833284

    模型总体p值

    在最终模型中创建包含变量的数据框,并省略NA。

    偏差表分析

    Analysis of Deviance Table
    
     
    
    Model 1: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood
    
    Model 2: Status ~ 1
    
      Resid. Df Resid. Dev Df Deviance  Pr(>Chi)   
    
    1        63     30.392                         
    
    2        69     93.351 -6  -62.959 1.125e-11 ***

    似然比检验

    Likelihood ratio test
    
     
    
      #Df  LogLik Df  Chisq Pr(>Chisq)   
    
    1   7 -15.196                        
    
    2   1 -46.675 -6 62.959  1.125e-11 ***

    标准化残差图

    简单的预测值图

    在最终模型中创建包含变量的数据框,并在NA中省略

    过度离散检验

    过度离散是glm的deviance残差相对于自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果deviance残差与剩余自由度的比率超过1.5,则模型过度离散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是 在glm中使用quasibinomial family选项。

    Null deviance: 93.351  on 69  degrees of freedom
    
    Residual deviance: 30.392  on 63  degrees of freedom
    
    deviance /   df.residual
    
     
    
    [1] 0.482417

    评估模型的替代方法

    使用逐步回归程序的替代或补充是将模型与拟合统计进行比较。我的compare.glm 函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都拟合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,您希望在最终模型中使用较少的项,我可能会推荐AICc或BIC。

    一系列模型可以与标准的anova 进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中; 和模型应该拟合相同的数据。在比较多个回归模型时,通常放宽p值为0.10或0.15。

    在以下示例中,使用通过逐步回归过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。  

    compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,
               model.7, model.8, model.9)
    
     
    
    $Models
    
      Formula                                                  
    
    1 "Status ~ 1"                                             
    
    2 "Status ~ Release"                                       
    
    3 "Status ~ Release + Upland"                               
    
    4 "Status ~ Release + Upland + Migr"                       
    
    5 "Status ~ Release + Upland + Migr + Mass"                
    
    6 "Status ~ Release + Upland + Migr + Mass + Indiv"        
    
    7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"
    
    8 "Status ~ Upland + Migr + Mass + Indiv + Insect"         
    
    9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood"  
    
     
    
    $Fit.criteria
    
      Rank Df.res   AIC  AICc   BIC McFadden Cox.and.Snell Nagelkerke   p.value
    
    1    1     66 94.34 94.53 98.75   0.0000        0.0000     0.0000       Inf
    
    2    2     65 62.13 62.51 68.74   0.3787        0.3999     0.5401 2.538e-09
    
    3    3     64 56.02 56.67 64.84   0.4684        0.4683     0.6325 3.232e-10
    
    4    4     63 51.63 52.61 62.65   0.5392        0.5167     0.6979 7.363e-11
    
    5    5     62 50.64 52.04 63.87   0.5723        0.5377     0.7263 7.672e-11
    
    6    6     61 49.07 50.97 64.50   0.6118        0.5618     0.7588 5.434e-11
    
    7    7     60 46.42 48.90 64.05   0.6633        0.5912     0.7985 2.177e-11
    
    8    6     61 44.71 46.61 60.14   0.6601        0.5894     0.7961 6.885e-12
    
    9    7     60 44.03 46.51 61.67   0.6897        0.6055     0.8178 7.148e-12
    
    
    Analysis of Deviance Table
    
     
    
    Model 1: Status ~ 1
    
    Model 2: Status ~ Release
    
    Model 3: Status ~ Release + Upland
    
    Model 4: Status ~ Release + Upland + Migr
    
    Model 5: Status ~ Release + Upland + Migr + Mass
    
    Model 6: Status ~ Release + Upland + Migr + Mass + Indiv
    
    Model 7: Status ~ Release + Upland + Migr + Mass + Indiv + Insect
    
    Model 8: Status ~ Upland + Migr + Mass + Indiv + Insect
    
    Model 9: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood
    
     
    
      Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
    
    1        66     90.343                        
    
    2        65     56.130  1   34.213 4.94e-09 ***
    
    3        64     48.024  1    8.106 0.004412 **
    
    4        63     41.631  1    6.393 0.011458 * 
    
    5        62     38.643  1    2.988 0.083872 . 
    
    6        61     35.070  1    3.573 0.058721 . 
    
    7        60     30.415  1    4.655 0.030970 * 
    
    8        61     30.710 -1   -0.295 0.587066   
    
    9        60     28.031  1    2.679 0.101686


    最受欢迎的见解

    1.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

    2.R语言多元Logistic逻辑回归 应用案例

    3.R语言面板平滑转移回归(PSTR)分析案例实现

    4.R语言回归中的Hosmer-Lemeshow拟合优度检验

    5.R语言泊松Poisson回归模型分析案例

    6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

    7.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

    8.在R语言中实现Logistic逻辑回归

    9.R语言实现向量自回归VAR模型

    展开全文
  • R语言多元Logistic逻辑回归 应用案例

    千次阅读 2021-01-16 21:26:34
    可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。如何进行多重逻辑回归可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。通常建议不要盲目地遵循逐步程序,...

    196602442_1_20200720033542599

    可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。

    如何进行多重逻辑回归

    可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。

    通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较竞争模型,或者根据生物学或科学上合理的可用变量建立模型。

    多重相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。

    多重相关

    创建数值变量的数据框Data.num $ Status = as.numeric(Data.num $ Status)

    Data.num $ Length = as.numeric(Data.num $ Length)

    Data.num $ Migr = as.numeric(Data.num $ Migr)

    Data.num $ Insect = as.numeric(Data.num $ Insect)

    Data.num $ Diet = as.numeric(Data.num $ Diet)

    Data.num $ Broods = as.numeric(Data.num $ Broods)

    Data。 num $ Wood = as.numeric(Data.num $ Wood)

    Data.num $ Upland = as.numeric(Data.num $ Upland)

    Data.num $ Water = as.numeric(Data.num $ Water)

    Data.num $ Release = as.numeric(Data.num $ Release)

    Data.num $ Indiv = as.numeric(Data.num $ Indiv)

    ###检查新数据框架

    headtail(Data.num)

    1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 29

    2 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 85

    3 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 8

    77 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 2

    78 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 2

    79 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2

    检查变量之间的相关性

    ###注意我在这里使用了Spearman相关

    196602442_2_20200720033542724

    多个逻辑回归的例子

    在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。

    尽管二项式和poission系列中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。

    用逐步回归确定模型

    最终模型summary(model.final)

    Coefficients:

    Estimate Std. Error z value Pr(>|z|)

    (Intercept) -3.5496482 2.0827400 -1.704 0.088322 .

    Upland -4.5484289 2.0712502 -2.196 0.028093 *

    Migr -1.8184049 0.8325702 -2.184 0.028956 *

    Mass 0.0019029 0.0007048 2.700 0.006940 **

    Indiv 0.0137061 0.0038703 3.541 0.000398 ***

    Insect 0.2394720 0.1373456 1.744 0.081234 .

    Wood 1.8134445 1.3105911 1.384 0.166455

    伪R平方$Pseudo.R.squared.for.model.vs.null

    Pseudo.R.squared

    McFadden 0.700475

    Cox and Snell (ML) 0.637732

    Nagelkerke (Cragg and Uhler) 0.833284

    模型的总体p值

    ###在最终模型中创建包含变量的数据框,并在NA中省略

    偏差表分析

    Analysis of Deviance Table

    Model 1: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood

    Model 2: Status ~ 1

    Resid. Df Resid. Dev Df Deviance Pr(>Chi)

    1 63 30.392

    2 69 93.351 -6 -62.959 1.125e-11 ***

    似然比检验

    Likelihood ratio test

    #Df LogLik Df Chisq Pr(>Chisq)

    1 7 -15.196

    2 1 -46.675 -6 62.959 1.125e-11 ***

    标准化残差图

    196602442_3_20200720033543240

    简单的预测值图

    在最终模型中创建包含变量的数据框,并在NA中省略

    196602442_4_20200720033543380

    过度离散检验

    过度离散是glm的剩余偏差相对于剩余自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果剩余偏差与剩余自由度的比率超过1.5,则模型过度分散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是 在glm中使用quasibinomial family选项。Null deviance: 93.351 on 69 degrees of freedom

    Residual deviance: 30.392 on 63 degrees of freedom

    deviance / df.residual

    [1] 0.482417

    评估模型的替代方法:使用compare.glm

    使用逐步程序的替代或补充是将竞争模型与拟合统计进行比较。我的compare.glm 函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都适合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,如果您希望在最终模型中使用较少的术语,我可能会推荐AICc或BIC。

    一系列模型可以与标准的anova 功能进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中; 和模型应该适合相同的数据。在比较多个回归模型时,通常放宽包含新术语的p值为0.10或0.15。

    在以下示例中,使用通过逐步过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,

    model.7, model.8, model.9)

    $Models

    Formula

    1 "Status ~ 1"

    2 "Status ~ Release"

    3 "Status ~ Release + Upland"

    4 "Status ~ Release + Upland + Migr"

    5 "Status ~ Release + Upland + Migr + Mass"

    6 "Status ~ Release + Upland + Migr + Mass + Indiv"

    7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"

    8 "Status ~ Upland + Migr + Mass + Indiv + Insect"

    9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood"

    $Fit.criteria

    Rank Df.res AIC AICc BIC McFadden Cox.and.Snell Nagelkerke p.value

    1 1 66 94.34 94.53 98.75 0.0000 0.0000 0.0000 Inf

    2 2 65 62.13 62.51 68.74 0.3787 0.3999 0.5401 2.538e-09

    3 3 64 56.02 56.67 64.84 0.4684 0.4683 0.6325 3.232e-10

    4 4 63 51.63 52.61 62.65 0.5392 0.5167 0.6979 7.363e-11

    5 5 62 50.64 52.04 63.87 0.5723 0.5377 0.7263 7.672e-11

    6 6 61 49.07 50.97 64.50 0.6118 0.5618 0.7588 5.434e-11

    7 7 60 46.42 48.90 64.05 0.6633 0.5912 0.7985 2.177e-11

    8 6 61 44.71 46.61 60.14 0.6601 0.5894 0.7961 6.885e-12

    9 7 60 44.03 46.51 61.67 0.6897 0.6055 0.8178 7.148e-12

    Analysis of Deviance Table

    Model 1: Status ~ 1

    Model 2: Status ~ Release

    Model 3: Status ~ Release + Upland

    Model 4: Status ~ Release + Upland + Migr

    Model 5: Status ~ Release + Upland + Migr + Mass

    Model 6: Status ~ Release + Upland + Migr + Mass + Indiv

    Model 7: Status ~ Release + Upland + Migr + Mass + Indiv + Insect

    Model 8: Status ~ Upland + Migr + Mass + Indiv + Insect

    Model 9: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood

    Resid. Df Resid. Dev Df Deviance Pr(>Chi)

    1 66 90.343

    2 65 56.130 1 34.213 4.94e-09 ***

    3 64 48.024 1 8.106 0.004412 **

    4 63 41.631 1 6.393 0.011458 *

    5 62 38.643 1 2.988 0.083872 .

    6 61 35.070 1 3.573 0.058721 .

    7 60 30.415 1 4.655 0.030970 *

    8 61 30.710 -1 -0.295 0.587066

    9 60 28.031 1 2.679 0.101686

    展开全文
  • 这三者的理解 结合具体案例
  • 文章目录 前置章节 数据载入 数据可视化 代价-梯度函数 一对多完成多元分类 预测 前置章节 二元分类问题的逻辑回归包含原理及实现。 这次做多元分类,目的是能够识别 20 × 20 20\times20 20×20像素的手写体数字。 ...
  • linear_train(X_train, y_train, 0.01, 100000) print(params) # 预测 y_pred = predict(X_test, params) print(y_pred[:10]) 以上就是python实现逻辑回归的示例的详细内容,更多关于python 逻辑回归的资料请关注...
  • 逻辑回归模型实例

    2017-07-01 17:02:41
    逻辑回归模型实例
  • PCA和SVD一般不用 逻辑回归是由线性回归演变而来,线性回归的一个核心目的是通过求解参数来探究特征X与标签y之间的 关系,而逻辑回归也传承了这个性质,我们常常希望通过逻辑回归的结果,来判断什么样的特征与分类...
  • 3.0 多元逻辑回归案例:手写多分类问题 使用逻辑回归和神经网络来识别手写数字(从0到9)。逻辑回归,并将其应用于one-vs-all分类。 数据:本次的数据是以.mat格式储存的,mat格式是matlab的数据存储格式,按照矩阵...
  • C6、逻辑回归中的特征工程业务选择PCA和SVD一般不用统计方法可以使用,但不是非常必要高效的嵌入法embedded比较麻烦的系数累加法简单快速的包装法7、梯度下降(1)梯度下降的概念(2)步长的概念8、二元回归与多元...
  • 文章目录1、回归算法-线性回归分析1.1 线性模型1.2 线性回归1.3 损失函数(误差大小)1.3.1 最小二乘法之正规方程(小数据,少特征)1.3.2 最小二乘法之梯度下降(大数据>10w,多特征) 1、回归算法-线性回归分析 ...
  • 回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的...
  • 文章目录回归定义最常用回归方法一、线性回归(Linear Regression)二、逻辑回归(Logistic Regression) 回归定义 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常...
  • Matlab实现多元回归实例

    千次阅读 2020-12-21 17:10:39
    如果只考虑f是线性函数的情形,当自变量只有一个时,即,,,nxxx1中n1时,称为一元线性回归,当自变量有多个时,即,,,nxxx1中n2时,称为多元线性回归。进行线性回归时,有4个基本假定:...
  • 文章目录简单案例来啦红酒质量的判断问题读入数据用散点图考察个别数据关系得到所有的变量X和变量Y先选择一个简单模型进行拟合和评估详细评估(交叉验证)多模型的尝试和选择 简单案例来啦 下面举一个简单的例子哈??...
  • 文章目录回归算法-线性回归分析线性模型线性回归损失函数(误差大小)最小二乘法之正规方程(不做要求)最小...Ridge分类算法-逻辑回归逻辑回归公式逻辑回归的损失函数、优化(了解)sklearn 逻辑回归APILogisticRegres
  • 逻辑回归案例练习

    2021-06-29 17:34:43
    逻辑回归案例练习 1、概述 逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法,叫着“回归”的名背地里却做着“分类”的事,完美诠释“曲线救国”...
  • 逻辑回归和线性回归的对比;交叉熵的应用;判别方法(逻辑回归)和生成方法(用高斯描述后验概率);Softmax推导(常规推导和最大熵推导);特征转换引入神经网络
  • 逻辑回归算法模型

    千次阅读 2022-03-23 21:21:33
    一篇搞定逻辑回归算法模型
  • 逻辑回归原理详解
  • 逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选、概率预测、分类等,例如医学研究中高通里测序技术得到的数据给高维变量选择问题带来挑战,惩罚logisitc回归可以对高维数据进行变量选择和系数估计,且其...
  • 多元logistic回归

    千次阅读 2021-11-11 10:04:31
    SPSS多元有序logistic回归分析在医学统计中的运用(冠心病案例)——【杏花开医学统计】_哔哩哔哩_bilibili陈老师数据分析QQ/微信1622275006更多视频、资料下载, 互动问答www.databbs.net微信公众号: 谦瑞数据...
  • (或者后期有时间了再新写帖子专门记录原理)目录一、python逻辑回归简单案例1. 加载相关库# 基础函数库import numpy as np# 导入画图库import matplotlib.pyplot as pltimport seaborn as sns# 导入逻辑回归模型函数...
  • 机器学习-逻辑回归分析(Python)

    万次阅读 多人点赞 2018-11-12 00:16:09
    回归和分类方法是机器学习中经常用到的方法,本文首先介绍这两种方法的区别和联系,然后对分类方法中的逻辑回归进行较详细的说明(包括其基本原理及评估指标),最后结合案例介绍如何利用Python进行逻辑回归分析。...
  • 本文回答了关于逻辑回归的问题:它与线性回归有什么不同,如何在R中用glm()函数拟合和评估这些模型等等? ...你将首先探索逻辑回归背后的理论:你将了解更多关于与线性回归的区别以及逻辑回归..
  • 线性回归线性回归模型简单线性回归多元线性回归 线性回归模型 相关:检验X、Y是否独立 回归:构建Y与X的关系(线性关系、抛物线关系、对数关系) y=f(x) 简单线性回归 方法:最小似然估计 import pandas as pd ...
  • 业务理解 不良贷款对银行利益的侵蚀效应不仅仅体现在利润和收入上,在市场营销、新设备投入、社会声誉等方面都会受到影响。因为创收能力的下滑,在经营管理各方面的费用投入不如之前了...多元线性回归步骤 业务目的为预

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,615
精华内容 1,046
关键字:

多元逻辑回归案例