精华内容
下载资源
问答
  • 监督数据挖掘算法-分类

    千次阅读 2019-02-17 12:11:01
    tips:决策树,随机森林,KNN也可用于连续型变量的预测。 Logistic回归: 思想:前边的线性,岭回归,LASSO等均是预测连续型因变量,如根据价格,广告力度,销售渠道等因素预测利润高低。Logistic针对离散型...
    1. 回归:在建模的过程中需同时具备自变量x和因变量y,属于有监督的学习算法。输出变量为离散型。
    2. 主要介绍:Logistic,决策树,随机森林,KNN,朴素贝叶斯
    3. tips:决策树,随机森林,KNN也可用于连续型变量的预测。

    Logistic回归:

    1. 思想:前边的线性,岭回归,LASSO等均是预测连续型因变量,如根据价格,广告力度,销售渠道等因素预测利润高低。Logistic针对离散型因变量的判别,如客户是否优质,客户的流失率概率等。在这里插入图片描述
      在这里插入图片描述
      将线性回归的预测值经过非线性的Logit函数转换为[0,1]之间的概率值。参数求解:结合迭代对每一个未知的参数做梯度下降,学习率的步长通常可以取0.1,0.05,0.01,太小时需要迭代太多次收敛速度过慢,过大时难以得到理想的值可能只是局部最小。参数解释:优势比/发生比之比,如肿瘤体积每增加一个单位,将会使癌症发生比变化e参数次倍。
    2. PYTHON的实现:sklearn.linear_model.LogisticRegression。
    3. 重要:分类模型的评估方法:混淆矩阵;ROC曲线:
      混淆矩阵:pandas.crosstab/sklearn.metrics.confusion_matrix,一般会选择准确率Accuracy,正例覆盖率Sensitivity,负例覆盖率Specificity这三个作为评估模型的指标。结合heat map。
      ROC曲线:x轴为1-Specificity负例错判率,y轴为Sensitivity正例覆盖率。面积为AUC。sklearn.roc_curve。

    决策树:

    1. 思想:可用于数值型因变量的预测和离散型因变量的分类。熵的概念。
      经验信息熵:
      在这里插入图片描述
      条件熵:
      在这里插入图片描述
      信息增益:
      在这里插入图片描述
      信息增益率:
      在这里插入图片描述
      基尼系数(二分类):
      在这里插入图片描述
      PYTHON中选择了用基尼系数的CART算法,对于离散型的分类问题,叶节点中哪一类样本多,该叶节点就代表哪一类,对于数值型的预测问题,将叶节点的样本均值作为该节点的预测值。

    2. PYTHON的实现:sklearn.tree.DecisionTreeClassifier;sklearn.tree.DrcisionTreeRegressor。

    3. 重要:sklearn.model_selection.GridSearchCV,得到最佳的树生长深度,能继续分支的最小样本量,叶节点的最小样本量。

    4. 决策树的减枝:误差降低剪枝;悲观剪枝;代价复杂度剪枝等,不过没有实现的模块。分类问题,依旧可用混淆矩阵和ROC判定模型的好坏。预测问题,MSE/RMSE。

    随机森林:

    1. 思想:利用Bootstrap从原始数据中生成k个数据集,每个数据集有N个观测值,P个自变量;每个数据集构造一颗CART决策树,字段随机选择p个;充分生长不剪枝;对于分类问题用投票法,最高得票的类别用于最终的判断结果,回归问题则利用均值法。运行速度快,预测准确率高。
    2. PYTHON的实现:sklearn.ensemble.RandomForestClassifier;sklearn.ensemble.RandomForestRef=gressor。

    KNN:

    1. 思想:K最近邻算法,搜寻最近的k个已知类别样本用于未知类别样本的预测。确定未知样本近邻的个数k值;根据样本间的度量指标(如欧式距离)将每一个未知类别样本的最近k个样本搜寻出来,形成一个簇;对搜寻出来的已知样本进行投票,将各簇内的类别最多的分类用于未知样本点的预测。

    2. PYTHON的实现:sklearn.neighbors.KNeighborsClassifier;sklearn.neighbors.KNeighborsRegressor。

    3. 最佳K值:K过小,未知样本由最近的已知样本决定,训练效果好,测试不好,过拟合;K过大,由已知样本的最高频数类别决定,欠拟合。A:设置投票权重,B:采用多重交叉验证(model_selection.cross_val_score)在这里插入图片描述
      相似度的度量方法:欧式距离;曼哈顿距离;余弦相似度;杰卡德相似度。
      近邻搜索法:暴力搜寻法;KD树搜寻(方差)和球树搜寻(球心的寻找和半径的计算)。

    4. 分类问题,依旧可用混淆矩阵和ROC判定模型的好坏。预测问题,MSE/RMSE。

    朴素贝叶斯:

    1. 思想:专门用于解决分类问题,如垃圾邮件的识别,手字体的识别,广告技术中的推荐系统等。
      条件概率:
      在这里插入图片描述
      全概率:
      在这里插入图片描述
      最大概率值对应的类别作为样本的最终分类:
      在这里插入图片描述
      假设自变量是独立的(自变量间的独立性越强,贝叶斯的分类器效果越好):
      在这里插入图片描述

    2. PYTHON的实现:数值型,sklearn.naive_bayes.GaussianNB;离散型,sklearn.naive_bayes.MultinatioanalNB;0-1型,sklearn.naive_bayes.BernoulliNB。

    3. 重要:
      高斯分类器:
      在这里插入图片描述
      多项式分类器:
      在这里插入图片描述
      伯努利分类器:
      在这里插入图片描述

    4. 分类问题,依旧可用混淆矩阵和ROC判定模型的好坏。

    展开全文
  • 朴素贝叶斯,决策树,支持向量机等都是属于离散型监督分类,本文要讲连续型监督分类:回归(regression)其实回归太常见不过了,我们学过一元一次方程,x作为自变量,y作为因变量,就是一个连续型的回归,...

    567464fa207f8d53bf90673e0a82badb.png

    朴素贝叶斯,决策树,支持向量机等都是属于离散型的监督分类,本文要讲的是连续型监督分类:回归(regression)

    c30e94b6dea5f41a3b697f098674dbf2.png

    其实回归太常见不过了,我们学过的一元一次方程,x作为自变量,y作为因变量,就是一个连续型的回归,例如下图的年龄和收入的关系

    00aef94699cd7dcd6660083bf2809d46.png

    连续还是离散

    连续和离散这个概念也是非常简单的,离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。而连续则不可以,下面有个简单的图表可以让你更直观了解这个概念:

    3628e96ff8d6023a5667d51fa930631d.png

    线性回归

    不同于小时候我们学的一元一次方程,回归可能是多元的,有很多不同的变量,如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析,公式如下:

    那么这个公式中x前面有很多系数,这些系数是怎么求得的呢?就是通过线性回归最常用的方法:最小二乘法,这个方法简单了说就是我们通过使拟合得到的预测数据与实际数据之间的误差的平方和是最小的而得出来得式子(这个在下一部分也会讲到)

    打开scikit-leant 线性模型我们可以看到线性回归的代码示范,之后我们如果要使用线性回归的模型的时候,就可以用这里的示范来帮助我们完成自己的代码:

    c54e60a3ab79d44071bfd1861f1d6252.png

    如果想要知道线性回归的一些参数,比方说斜率、截距、R²值,可以用以下的代码:

    #斜率
    reg.coef_
    
    #截距
    reg.intercept_
    
    #计算test数据的R²
    reg.score(ages_test,net_worths_test)
    
    #计算训练数据的R²
    reg.score(ages_train,net_worths_train)

    误差

    任何的预测都是存在误差的,我们在用线性回归的模型对数据进行了处理之后,也想知道最后得到的这个式子是不是真的拟合的很好,那么就需要看看误差有多少了

    显然,这个值是可以有正有负的,那么所有的数据的误差都计算出来相加,有可能那些正正负负的值相互之间消掉了,所以不能看出真正的误差大不大。 因此我们在决定误差的时候,最好是使用所有误差的绝对值的和,或者所有误差的平方和。

    线性回归模型最终选择了所有误差的平方和这一指标,也就是说我们需要找到一些w,使得所有误差的平方和最小

    那么问题又来了,怎么才能计算出所有误差的平方和最小呢 ?总共有两种比较常见的方法,分别是最小二乘法梯度下降法(如果曾经学过ANdrew Ng的机器学习的同学应该对这种方法很熟悉吧~)(对这两种方法感兴趣的同学可以看我的另一篇文章[机器学习] 线性回归中的最小二乘法和梯度下降法比较

    3e10e0dc4a6c6f11325c26b3305a350d.png

    所有误差的平方和最小并不是一个完美的评估拟合好不好的方法,因为只要稍微一想,我们就知道数据越多,那么计算出来的平方和肯定越大。只有3个数据的平方和比不过有30000个数据的平方和,但是并不代表30000个数据的拟合效果不好。 是时候认识真正的评估指标了:R² R²是很好的一个评估拟合效果的指标,与数据的多少没有关系,从下面的公式也可以看得出来:


    你的是对作者莫大的支持哦~

    如果你想看其他的关于机器学习的一些知识,可以关注我的知乎专栏,我是一个机器学习小白,初学者总会遇到各种各样的困难,我会从初学者的角度把每一个坑都给你仔仔细细的讲明白咯~

    更多内容请看本专栏目录

    任妍Carol:机器学习小白笔记目录zhuanlan.zhihu.com
    f0065e3b0ea7a07b0b4211e1d37b1d9f.png
    展开全文
  • 朴素贝叶斯,决策树,支持向量机等都是属于离散型监督分类,本文要讲连续型监督分类:回归(regression)其实回归太常见不过了,我们学过一元一次方程,x作为自变量,y作为因变量,就是一个连续型的回归,...

    cb46d2865a0fa94767f95b586e28490d.png

    朴素贝叶斯,决策树,支持向量机等都是属于离散型的监督分类,本文要讲的是连续型监督分类:回归(regression)

    b1a9d1685331c90ab8e7abfda53dd62d.png

    其实回归太常见不过了,我们学过的一元一次方程,x作为自变量,y作为因变量,就是一个连续型的回归,例如下图的年龄和收入的关系

    2dbc5f3a4dd92094a9b8ebab30f0958e.png

    连续还是离散

    连续和离散这个概念也是非常简单的,离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。而连续则不可以,下面有个简单的图表可以让你更直观了解这个概念:

    5e723a42fd1186f5de0edebe6c3e0122.png

    线性回归

    不同于小时候我们学的一元一次方程,回归可能是多元的,有很多不同的变量,如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析,公式如下:

    equation?tex=%5Chat%7By%7D%28w%2C+x%29+%3D+w_0+%2B+w_1+x_1+%2B+...+%2B+w_p+x_p

    那么这个公式中x前面有很多系数,这些系数是怎么求得的呢?就是通过线性回归最常用的方法:最小二乘法,这个方法简单了说就是我们通过使拟合得到的预测数据与实际数据之间的误差的平方和是最小的而得出来得式子(这个在下一部分也会讲到)

    打开scikit-leant 线性模型我们可以看到线性回归的代码示范,之后我们如果要使用线性回归的模型的时候,就可以用这里的示范来帮助我们完成自己的代码:

    e5a75d024d87d33765a961f67c14e51f.png

    如果想要知道线性回归的一些参数,比方说斜率、截距、R²值,可以用以下的代码:

    #斜率
    reg.coef_
    
    #截距
    reg.intercept_
    
    #计算test数据的R²
    reg.score(ages_test,net_worths_test)
    
    #计算训练数据的R²
    reg.score(ages_train,net_worths_train)

    误差

    任何的预测都是存在误差的,我们在用线性回归的模型对数据进行了处理之后,也想知道最后得到的这个式子是不是真的拟合的很好,那么就需要看看误差有多少了

    equation?tex=%E8%AF%AF%E5%B7%AEerror%3D%E5%AE%9E%E9%99%85%E5%80%BC-%E9%A2%84%E6%B5%8B%E5%80%BC

    显然,这个值是可以有正有负的,那么所有的数据的误差都计算出来相加,有可能那些正正负负的值相互之间消掉了,所以不能看出真正的误差大不大。 因此我们在决定误差的时候,最好是使用所有误差的绝对值的和,或者所有误差的平方和。

    线性回归模型最终选择了所有误差的平方和这一指标,也就是说我们需要找到一些w,使得所有误差的平方和最小

    equation?tex=%5Chat%7By%7D%28w%2C+x%29+%3D+w_0+%2B+w_1+x_1+%2B+...+%2B+w_p+x_p

    那么问题又来了,怎么才能计算出所有误差的平方和最小呢 ?总共有两种比较常见的方法,分别是最小二乘法梯度下降法(如果曾经学过ANdrew Ng的机器学习的同学应该对这种方法很熟悉吧~)(对这两种方法感兴趣的同学可以看我的另一篇文章[机器学习] 线性回归中的最小二乘法和梯度下降法比较

    6d01c6cc7be5256630fe6c8f4cb10321.png

    所有误差的平方和最小并不是一个完美的评估拟合好不好的方法,因为只要稍微一想,我们就知道数据越多,那么计算出来的平方和肯定越大。只有3个数据的平方和比不过有30000个数据的平方和,但是并不代表30000个数据的拟合效果不好。 是时候认识真正的评估指标了:R² R²是很好的一个评估拟合效果的指标,与数据的多少没有关系,从下面的公式也可以看得出来:

    equation?tex=R%5E2+%3D+%5Cfrac%7B%5CSigma%28%5Chat%7By%7D_i-%5Cbar%7By%7D%29%5E2%7D%7B%5CSigma%28y_i-%5Cbar%7By%7D%29%5E2%7D

    你的是对作者莫大的支持哦~

    如果你想看其他的关于机器学习的一些知识,可以关注我的知乎专栏,我是一个机器学习小白,初学者总会遇到各种各样的困难,我会从初学者的角度把每一个坑都给你仔仔细细的讲明白咯~

    更多内容请看本专栏目录

    任妍Carol:机器学习小白笔记目录zhuanlan.zhihu.com
    1f16188eff1d9e06890c833bc28dcd63.png
    展开全文
  • 机器学习总结(一):线性回归、岭回归、Lasso回归

    万次阅读 多人点赞 2017-08-15 21:41:51
    线性回归作为一种回归分析技术,其分析因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现问题...

    线性回归作为一种回归分析技术,其分析的因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于有监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现的问题进行简单探讨,引出线性回归的两个变种岭回归以及Lasso回归,最后通过sklearn库模拟整个回归过程。

    目录结构


    • 线性回归的一般形式
    • 线性回归中可能遇到的问题
    • 过拟合问题及其解决方法
    • 线性回归代码实现
    • 岭回归与Lasso回归
    • 岭回归以及Lasso回归代码实现

    线性回归的一般形式

    这里写图片描述


    线性回归中可能遇到的问题

    • 求解损失函数的最小值有两种方法:梯度下降法以及正规方程,两者的对比在附加笔记中有列出。
    • 特征缩放:即对特征数据进行归一化操作,进行特征缩放的好处有两点,一是能够提升模型的收敛速度,因为如果特征间的数据相差级别较大的话,以两个特征为例,以这两个特征为横纵坐标绘制等高线图,绘制出来是扁平状的椭圆,这时候通过梯度下降法寻找梯度方向最终将走垂直于等高线的之字形路线,迭代速度变慢。但是如果对特征进行归一化操作之后,整个等高线图将呈现圆形,梯度的方向是指向圆心的,迭代速度远远大于前者。二是能够提升模型精度。
    • 学习率α的选取:如果学习率α选取过小,会导致迭代次数变多,收敛速度变慢;学习率α选取过大,有可能会跳过最优解,最终导致根本无法收敛。

    过拟合问题及其解决方法

    • 问题:以下面一张图片展示过拟合问题
      这里写图片描述
    • 解决方法:(1):丢弃一些对我们最终预测结果影响不大的特征,具体哪些特征需要丢弃可以通过PCA算法来实现;(2):使用正则化技术,保留所有特征,但是减少特征前面的参数θ的大小,具体就是修改线性回归中的损失函数形式即可,岭回归以及Lasso回归就是这么做的。

    线性回归代码示例

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn import datasets, linear_model, discriminant_analysis, cross_validation
    
    def load_data():
        diabetes = datasets.load_diabetes()
        return cross_validation.train_test_split(diabetes.data, diabetes.target, test_size=0.25, random_state=0)
    
    def test_LinearRegression(*data):
        X_train, X_test, y_train, y_test = data
        #通过sklearn的linear_model创建线性回归对象
        linearRegression = linear_model.LinearRegression()
        #进行训练
        linearRegression.fit(X_train, y_train)
        #通过LinearRegression的coef_属性获得权重向量,intercept_获得b的值
        print("权重向量:%s, b的值为:%.2f" % (linearRegression.coef_, linearRegression.intercept_))
        #计算出损失函数的值
        print("损失函数的值: %.2f" % np.mean((linearRegression.predict(X_test) - y_test) ** 2))
        #计算预测性能得分
        print("预测性能得分: %.2f" % linearRegression.score(X_test, y_test))
    
    if __name__ == '__main__':
        #获得数据集
        X_train, X_test, y_train, y_test = load_data()
        #进行训练并且输出预测结果
        test_LinearRegression(X_train, X_test, y_train, y_test)

    线性回归示例输出

    权重向量:[ -43.26774487 -208.67053951  593.39797213  302.89814903 -560.27689824
      261.47657106   -8.83343952  135.93715156  703.22658427   28.34844354], b的值为:153.07
    损失函数的值: 3180.20
    预测性能得分: 0.36

    岭回归与Lasso回归


    岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的,具体三者的损失函数对比见下图:
    这里写图片描述
    其中λ称为正则化参数,如果λ选取过大,会把所有参数θ均最小化,造成欠拟合,如果λ选取过小,会导致对过拟合问题解决不当,因此λ的选取是一个技术活。
    岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项,Lasso回归引入的是L1范数惩罚项,Lasso回归能够使得损失函数中的许多θ均变成0,这点要优于岭回归,因为岭回归是要所有的θ均存在的,这样计算量Lasso回归将远远小于岭回归。
    岭回归
    这里写图片描述
    可以看到,Lasso回归最终会趋于一条直线,原因就在于好多θ值已经均为0,而岭回归却有一定平滑度,因为所有的θ值均存在。

    岭回归以及Lasso回归代码实现


    岭回归代码示例

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn import datasets, linear_model, discriminant_analysis, cross_validation
    
    def load_data():
        diabetes = datasets.load_diabetes()
        return cross_validation.train_test_split(diabetes.data, diabetes.target, test_size=0.25, random_state=0)
    
    def test_ridge(*data):
        X_train, X_test, y_train, y_test = data
        ridgeRegression = linear_model.Ridge()
        ridgeRegression.fit(X_train, y_train)
        print("权重向量:%s, b的值为:%.2f" % (ridgeRegression.coef_, ridgeRegression.intercept_))
        print("损失函数的值:%.2f" % np.mean((ridgeRegression.predict(X_test) - y_test) ** 2))
        print("预测性能得分: %.2f" % ridgeRegression.score(X_test, y_test))
    
    #测试不同的α值对预测性能的影响
    def test_ridge_alpha(*data):
        X_train, X_test, y_train, y_test = data
        alphas = [0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000]
        scores = []
        for i, alpha in enumerate(alphas):
            ridgeRegression = linear_model.Ridge(alpha=alpha)
            ridgeRegression.fit(X_train, y_train)
            scores.append(ridgeRegression.score(X_test, y_test))
        return alphas, scores
    
    def show_plot(alphas, scores):
        figure = plt.figure()
        ax = figure.add_subplot(1, 1, 1)
        ax.plot(alphas, scores)
        ax.set_xlabel(r"$\alpha$")
        ax.set_ylabel(r"score")
        ax.set_xscale("log")
        ax.set_title("Ridge")
        plt.show()
    
    if __name__ == '__main__':
        #使用默认的alpha
        #获得数据集
        #X_train, X_test, y_train, y_test = load_data()
        #进行训练并且预测结果
        #test_ridge(X_train, X_test, y_train, y_test)
    
        #使用自己设置的alpha
        X_train, X_test, y_train, y_test = load_data()
        alphas, scores = test_ridge_alpha(X_train, X_test, y_train, y_test)
        show_plot(alphas, scores)

    Lasso回归代码示例

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn import datasets, linear_model, discriminant_analysis, cross_validation
    
    def load_data():
        diabetes = datasets.load_diabetes()
        return cross_validation.train_test_split(diabetes.data, diabetes.target, test_size=0.25, random_state=0)
    
    def test_lasso(*data):
        X_train, X_test, y_train, y_test = data
        lassoRegression = linear_model.Lasso()
        lassoRegression.fit(X_train, y_train)
        print("权重向量:%s, b的值为:%.2f" % (lassoRegression.coef_, lassoRegression.intercept_))
        print("损失函数的值:%.2f" % np.mean((lassoRegression.predict(X_test) - y_test) ** 2))
        print("预测性能得分: %.2f" % lassoRegression.score(X_test, y_test))
    
    #测试不同的α值对预测性能的影响
    def test_lasso_alpha(*data):
        X_train, X_test, y_train, y_test = data
        alphas = [0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000]
        scores = []
        for i, alpha in enumerate(alphas):
            lassoRegression = linear_model.Lasso(alpha=alpha)
            lassoRegression.fit(X_train, y_train)
            scores.append(lassoRegression.score(X_test, y_test))
        return alphas, scores
    
    def show_plot(alphas, scores):
        figure = plt.figure()
        ax = figure.add_subplot(1, 1, 1)
        ax.plot(alphas, scores)
        ax.set_xlabel(r"$\alpha$")
        ax.set_ylabel(r"score")
        ax.set_xscale("log")
        ax.set_title("Ridge")
        plt.show()
    
    if __name__=='__main__':
        X_train, X_test, y_train, y_test = load_data()
        # 使用默认的alpha
        #test_lasso(X_train, X_test, y_train, y_test)
        # 使用自己设置的alpha
        alphas, scores = test_lasso_alpha(X_train, X_test, y_train, y_test)
        show_plot(alphas, scores)

    附上学习笔记

    这里写图片描述这里写图片描述这里写图片描述这里写图片描述

    参考文献

    展开全文
  • Strategy是属于设计模式中 对象行为模式,主要是定义一系列算法,把这些算法一个个封装成单独类.Stratrgy应用比较广泛,比如, 公司经营业务变化图, 可能两种实现方式,一个是线条曲线,一个是框图(bar),这是两...
  • Lasso回归与岭回归

    2019-02-16 15:31:48
    线性回归作为一种回归分析技术,其分析因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现问题...
  • 线性回归作为一种回归分析技术,其分析因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现问题...
  • 字段不多,连续型变量有5个,离散变量8个,Y值是二分类,1代表属于高收入群体,0代表不是高收入群体。 # 连续型变量 col_values = ["年龄", "工作天数", "投资收入", "投资损失", "教育时间"] # 离散型变量 col_l....
  • 线性回归作为一种回归分析技术,其分析因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现问题...
  • 线性回归作为一种回归分析技术,其分析因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现问题...
  •  函数属于过程,函数是过程表达式形式........函数体内所有代码都作为(挂定为)一个值,一个表达式,return语句也不必写了,真是懒人语言  变量就像代数符号,既可描述相互关系,也有点无中生有感觉 ; 估计是因为...
  • 回归(Regression)和分类(Classification)的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。 以下是一些常用的监督学习方法。
  • 机器学习分类

    2021-01-08 10:36:43
    回归:根据输入特征数据预测出一个数据,适用于连续型变量。 分类:二分类与多分类。二分类主要解决0、1型数据,类似于根据某一患者症状数据判断此患者是否属于某种证候,或者一封邮件是否为垃圾邮件。多...
  • 简单认识R语言和逻辑斯蒂回归

    千次阅读 2018-04-10 20:44:09
    在生活中并不是所有问题都要预测一个连续型的数值,比如药剂量,某人薪水,或者客户价值;逻辑斯蒂回归回归它主要用于只有两个结果分类问题,它定义结果的变量只有两类值,然后根据线性模型来预测归属类概率...
  • 如何在R语言中使用Logistic回归模型

    千次阅读 2016-12-13 17:06:00
    在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价、身高、GDP、学生成绩等,发现这些被预测变量都属于连续型变量。然而有些情况下,被预测变量可能是二元变量,即成功或失败、流失或不...
  • 机器学习之朴素贝叶斯简介

    千次阅读 2017-04-09 19:37:00
    综述适用于标称型数据监督学习方法。NB本质是个分类问题,根据样例属于哪个类...贝叶斯定理:算法流程NB中常用几个模型:高斯模型通过高斯分布,可以把连续的变量转换成标称型变量。 多项式模型多项式分布适合词
  • 第三周java学习总结

    2018-10-05 10:52:11
    1.数组属于引用型变量,因此两个相同类型数组如果具有相同引用,他们就完全相同元素。需要注意是,对于char型数组a,System.out.println(a)不会输出数组a引用而是输出数组a全部元素值。 2.运算符与...
  • 相当于连线,一般是将一个变量的值不间断地赋值给另一个变量,对应的被赋值变量为wire,只要输入变化,输出马上反应。 (2)always属于行为级建模,为过程赋值语句。对应的被赋值变量为reg,一定要触发,...
  • 朴素贝叶斯算法

    2018-12-26 20:55:59
    朴素贝叶斯算法是一种生成算法,主要... 连续型特征服从正太分布假设:如果特征是连续型的变量,就假设该特征服从正太分布。 这些假设使朴素贝叶斯算法变得简单(这个我们可以在后面看到),但有时也会牺牲一定分类...
  • 而回归Y变量连续数值,如房价、降雨量等。 线性回归几种分类,我们从最简单线性回归开始说。 -简单线性回归(simple linear regression) 简单线性回归通常就是包含一个自变量x和一个因变量y,这两个变量...
  • 连续型变量常用控制图单值-移动极差图、均值-极差图、均值-标准差图。单值-移动极差图用于不属于子组单个观测值监视,对于原料药年度质量回顾是个不错选择。极差R与平均移动极差[1] 极差 平均移动极差 2...
  • 关于代码一些问题

    2020-12-01 16:57:35
    尤其是main函数实际上是要求返回一个int型变量的,最好是不要落下这句<code>return 0;。UP感兴趣的话也可以去查一查main()函数返回值到底意味着什么。 </li></ol> 代码的问题其实很多,限于篇幅先只写...
  • STM32F103入门 | 16.ADC实验

    万次阅读 多人点赞 2019-05-01 09:08:06
    是指将连续变量的模拟信号转换为离散的数字信号的器件。典型的模拟数字转换器将模拟信号转换为表示一定比例电压值的数字信号。在存储或传输时,模数转换器几乎必不可少。 STM32 在片上集成的 ADC 外设非常强大,STM...
  • LINGO软件学习

    2009-08-08 22:36:50
    为此,LINGO为用户提供了两个可选部分:输入集成员和数据数据部分(Data Section)和为决策变量设置初始值初始部分(Init Section)。 3.1 模型数据部分 3.1.1 数据部分入门 数据部分提供了模型相对静止部分...
  • 引言 例子:房价预测 属于有监督学习 从给定输入和输出训练即中学习输入...回归(Regression)——预测目标值是数值连续变量 分类(Classification)——预测目标值是离散 01 回归与线性回归(Line...
  • 西交应用统计学(四)

    2013-06-05 10:23:00
    连续型随机变量发生在某一特定值上概率是0。 对概率密度函数作傅里叶变换可得特征函数。 特征函数与概率密度函数一对一关系。因此知道一个分布特征函数就等同于知道一个分布概率密度函数。 ...
  • 常见分类算法应用范围/数据要求

    千次阅读 2019-10-28 19:58:08
    ,下面几个其他算法具体介绍 单一分类算法:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则分类,HMM ...模型输入要求:连续值,类别型变量需进行one-hot编码,由于是...
  • 与之前讲分类机器学习方法不同,回归在于其目标变量连续数值。 回归目的是预测数值型的目标值。最直接办法是依据输入写出一个目标值计算公式,就是所谓回归方程。确定回归方程回归系数过程就是...

空空如也

空空如也

1 2 3
收藏数 51
精华内容 20
关键字:

属于连续型变量的有