精华内容
下载资源
问答
  • 分类:离散 回归:连续 算法:随机森林,决策树,知识向量机 svm 聚类:无监督学习 sklearn处理机器学习问题的三个步骤 数据准备与预处理 =》模型选择与训练=》模型验证与参数调优 ...

    sklearn6大功能

     

    分类:离散

    回归:连续

    聚类:无监督学习

    算法:随机森林,决策树,知识向量机 svm,KNN,线性回归

    sklearn处理机器学习问题的三个步骤:数据准备与预处理 =》模型选择与训练=》模型验证与参数调优

     

    知识向量机svm 杨丽坤  98~2006年吊打神经网络,直到希顿的深度信念网络出现

    决策树就一棵树;随机森林有很多棵树,集成的思想。

     

    sklearn_regression.py

    import numpy as np
    import matplotlib.pyplot as plt
    # from sklearn import linear_model
    # from sklearn import tree
    # from sklearn.tree import DecisionTreeRegressor
    # from sklearn import neighbors
    # from sklearn import svm
    from sklearn import ensemble
    
    def f(x1,x2):
        y=0.5*np.sin(x1)+0.5*np.cos(x2)+0.1*x1+3
        return y
    
    def load_data():
        x1_train=np.linspace(0,50,500)
        x2_train=np.linspace(-10,10,500)
        data_train=np.array([[x1,x2,f(x1,x2)+(np.random.random(1)-0.5)]for x1,x2 in zip(x1_train,x2_train)])
        x1_test= np.linspace(0,50,100)+0.5*np.random.random(100)
        x2_test= np.linspace(-10,10,100)+0.02*np.random.random(100)
        data_test = np.array([[x1,x2,f(x1,x2)] for x1,x2 in zip(x1_test,x2_test)])
        return data_train, data_test
    
    def try_different_method(clf):
        train, test = load_data()
        x_train, y_train = train[:,:2], train[:,2] #数据前两列是x1,x2 第三列是y,这里的y有随机噪声
        x_test ,y_test = test[:,:2], test[:,2] # 同上,不过这里的y没有噪声
        clf.fit(x_train,y_train) # 训练
        score = clf.score(x_test, y_test) #训练的怎么样
        result = clf.predict(x_test) # 预测
        plt.figure()
        plt.plot(np.arange(len(result)), y_test,'go-',label='true value')
        plt.plot(np.arange(len(result)),result,'ro-',label='predict value')
        plt.title('score: %f'%score)
        plt.legend()
        plt.show()
    
    def main():
    
    #  clf=linear_model.LinearRegression()
    #  try_different_method(clf)
    
    #  clf = DecisionTreeRegressor()
    #  try_different_method(clf)
    
    #  clf = svm.SVR()
    #  try_different_method(clf)
    
    #  clf=neighbors.KNeighborsRegressor()
    #  try_different_method(clf)
    
    #  clf = ensemble.RandomForestRegressor(n_estimators=20)  #随机森林
    #  try_different_method(clf)
       
    #  clf = ensemble.AdaBoostRegressor(n_estimators=50) # adaboost
    #  try_different_method(clf)
    
     clf = ensemble.GradientBoostingRegressor(n_estimators=100) # GBRT 梯度回升
     try_different_method(clf)
    
    if __name__=="__main__":
       main()
    

     

    数据为王,有算法没数据没有意义

    残差网络2015年

    残差网络之后就没有很牛逼的网络,imagenet 2015年后停止比赛,是因为发现比赛都是残差网络resnet的基础上调参,没有实质的发展。

    理论跟不上应用。

     

     

     

     

     

    展开全文
  • 2. 分类:有监督学习,学习结果将产生几个函数,通过函数划分为几个集合,数据对象是离散值; 3. 回归:有监督学习,学习结果将产生几个函数,通过函数产生连续的结果,数据对象是连续值; 聚类 聚类算法是无...

    Date: 2019-08-15

    今天开始总结和复习机器学习知识点:

    一句话概括:

    1. 聚类:无监督学习,学习结果将产生几个集合,集合中的元素彼此相似;

    2. 分类:有监督学习,学习结果将产生几个函数,通过函数划分为几个集合,数据对象是离散值;

    3. 回归:有监督学习,学习结果将产生几个函数,通过函数产生连续的结果,数据对象是连续值;

     

    聚类

    聚类算法是无监督学习的一种算法,也就是说,并没有一批已经打好标签的数据供机器训练模型。因此该算法用于在数据中寻找数据间隐藏的联系和区别。通过聚类后形成几个集合,集合内部的元素间具有较高的相似度,相似度的衡量可以通过欧几里得距离、概率距离、加权重距离计算。

    常见的聚类算法有:

    1.划分聚类: K-means 算法、k-medoids算法、K-pototypes算法、CLARANS算法

    2.层次聚类:BIRCH算法、CURE算法、

    3.密度聚类:DBSCAN算法、OPTICS算法、DENCLUE算法

    4.网格聚类:STING算法、CLIQUE算法、WAVE-CLUSTER算法

    5.混合聚类:高斯混合模型、CLIQUE算法(综合密度和网格的算法)

    几个聚类算法的简单对比:


            

    分类

    分类算法要求先向模型输入数据的训练样本,从训练样本中提取描述该类数据的一个函数或模型。通过该模型对其他数据进行预测和归类,分类算法是一种对离散型随机变量建模或预测的监督学习算法,同时产生离散的结果。比如在医疗诊断中判断是否患有癌症,在放贷过程中进行客户评级等。

    常见的分类算法:

    1.决策树:ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ、SPRINT算法;

    2.神经网络:BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络);

    3.贝叶斯:朴素贝叶斯(Naive Bayes)算法、TAN算法;

    4.基于关联规则的分类:CBA算法、ADT算法、CMAR算法、ARCS算法;

    5.混合分类方法:Bagging算法、Boosting算法

    6.支持向量机;SVM

     

    回归

    回归算法与分类算法一样都是有监督的学习算法,因此也需要先向模型输入数据的训练样本。但是与分类算法的区别是,回归算法是一种对数值型连续随机变量进行预测和建模的监督学习算法,产生的结果也一般是数值型的。

    例如向已经训练好的回归模型中输入一个人的数据,判断此人20年后的经济能力,则模型的回归结果是连续的,往往得到一条回归曲线。当自变量改变时,因变量呈现连续型变化。

    常见的回归算法:

    1.线性回归/逻辑回归/多项式回归:LR算法、LWLR算法(局部加权)、LRCV算法(交叉验证)、MLP算法(神经网络);

    2.逐步回归;

    3.岭回归;

    4.LASSO回归;

    5.ElasticNet回归;
     

    展开全文
  • WEKA使用教程 简介 数据格式 数据准备 分类回归 聚类分析
  • 回归分类聚类推荐

    2020-11-02 10:23:17
    回归:线性回归,损失函数 分类:逻辑回归 聚类:k-means

    回归(房价预测,股市预测等):线性回归,损失函数
    什么时候用回归:
    优化算法:RSS,梯度下降,坐标递降
    在数据中拟合一条线,用训练集计算误差平方和,迭代不断调整权重,找到最小的训练损失,从而得到最能拟合数据的线。
    分类(垃圾邮件分类,话题分类,语义分析等):分类器——线性分类器(输出是输入的权值的简单的求和,根据输出做决策判断),逻辑回归。
    什么时候用分类:

    决策边界:两个权值是面,三个权值是三维平面,多个权值是超平面。
    衡量分类效果:错误率和正确率,正确或错误的数量占总测试集的比率。
    偏差:训练集越大,偏差越小。
    情绪分析:找到单词的权重,输出结果和准确结果比较的到模型的准确率,调整权重。
    FN:真的被预测为假
    FP:假的被预测为真
    积极消极评价

    聚类、相似度(检索感兴趣文档、图片搜索、病人分组、产品推荐):词袋模型(表示文档,单纯考虑单词在文档中出现的次数)k-means
    计算两篇文章的相似度:计算两篇文章中单词统计向量对应位置的元素乘积,结果大小表示相似度,同时出现一个问题即结果更倾向于长文章,文章越长,出现次数越多,相似度越大。这个问题用归一化解决,

    计算向量范数:计算向量中元素的平方和,再取平方根。
    那么如何确定权重问题:TF—IDF(词频—逆向文件频率法)常用加权技术,用来衡量某个词条对一篇文章或一份文件的重要程度,重要性与在该文章中出现的次数成正比,与在语料库中出现的频率成反比,滤掉常见词,保留关键词。
    词频(TF)=该词文章中出现的次数/该文章中的总词数
    在这里插入图片描述

    IDF计算方法为:
    在这里插入图片描述
    分子是语料库中的文件总数,分母是包含目标词的文件数,通常情况下分母要加1,这是为了避免生僻词出现在文件中的次数为0的情况。
    两者相乘就是TF-IDF

    相似文章推荐:最近邻域搜索
    k-means:度量标准是看与集群中心的距离,需提前给定最终集群数量。1.初始化集群中心的位置
    2.把数据点分给最近的集群中心(沃罗诺伊镶嵌算法)
    3.修正集群中心位置
    4.重复2,3两步直到结果收敛
    聚类算法工作流程:拿到数据,某种方法进行表示(单词统计量、TF-IDF、二元、三元词组),聚类算法输出集群标签(k-means)迭代更新集群中心,通过观测点到集群中心距离。
    映射规约:

    协同过滤系统(推荐系统)
    预测用户对没看过电影的评价,定义两个向量,一个是电影的不同类型,一个是用户对这几种类型的喜欢程度,做乘法相加。根据结果对电影进行排序,推荐预测评价最高的电影,和两篇文章预测相似度方法类似
    矩阵因子分解模型:通过把矩阵因式分解,逼近它本身。
    矩阵填充:
    相关算法:,冷启动问题无法解决,新用户新电影没有数据可用
    召回率:喜欢的当中有多少推荐的
    精度:推荐系统推荐的当中又多少喜欢的(关注范围有限情况下的测度)
    如何使召唤率最大:推荐所有物品,但此时精度最小
    精度-召回率曲线:锯齿状下降的曲线
    评价最好的算法:根据精度-召回率曲线下方面积,越大越好。

    迁移学习:在一个数据集上学习的特征能被迁移到新的任务当中。

    展开全文
  • 分类聚类及其回归的区别

    万次阅读 多人点赞 2018-05-06 19:38:06
    from:...由上图我们可以看到,机器学习分为四大块,分别是classification (分类),regression (回归),clustering (聚类),dimensionality reduction (降维...

    from:https://blog.csdn.net/u011630575/article/details/78637517

     

    以前偶然找到过下图,该图对分类,聚类及其回归表达的很清晰。

     

    这里写图片描述

    由上图我们可以看到,机器学习分为四大块,分别是

     classification (分类),

     regression (回归), 

     clustering (聚类), 

     dimensionality reduction (降维)。

    1,给定一个样本特征 , 我们希望预测其对应的属性值 , 如果  是离散的, 那么这就是一个分类问题,反之,如果  是连续的实数, 这就是一个回归问题

    2,如果给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在 二维空间的分布, 比如分析哪些样本靠的更近,哪些样本之间离得很远, 这就是属于聚类问题

    3,如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题

     

    1. 聚类(clustering)

      无监督学习的结果。聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异

      没有标准参考的学生给书本分的类别,表示自己认为这些书可能是同一类别的(具体什么类别不知道,没有标签和目标,即不是判断书的好坏(目标,标签),只能凭借特征而分类)。

    2. 分类(classification)

      有监督学习的两大应用之一,产生离散的结果。

      例如向模型输入人的各种数据的训练样本,产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”。(即有目标和标签,能判断目标特征是属于哪一个类型)

    3. 回归(regression)

      有监督学习的两大应用之一,产生连续的结果。

      例如向模型输入人的各种数据的训练样本,产生“输入一个人的数据,判断此人20年后今后的经济能力”的结果,结果是连续的,往往得到一条回归曲线。当输入自变量不同时,输出的因变量非离散分布(不仅仅是一条线性直线,多项曲线也是回归曲线)。

     

    classification & regression:分类与回归

     

     

           无论是分类还是回归,都是想建立一个预测模型 ,给定一个输入  , 可以得到一个输出 : 

     

         不同的只是在分类问题中,  是离散的; 而在回归问题中  是连续的。所以总得来说,两种问题的学习算法都很类似。所以在这个图谱上,我们看到在分类问题中用到的学习算法,在回归问题中也能使用。分类问题最常用的学习算法包括

     SVM (支持向量机) , SGD (随机梯度下降算法), Bayes (贝叶斯估计), Ensemble, KNN 等。回归问题也能使用 

    SVR, SGD, Ensemble 等算法,以及其它线性回归算法。

     

    clustering:聚类

          聚类也是分析样本的属性, 有点类似classification, 不同的就是classification 在预测之前是知道  的范围, 或者说知道到底有几个类别, 而聚类是不知道属性的范围的。所以 classification 也常常被称为 supervised learning(有监督学习)分类和回归都是监督学习, 而clustering就被称为unsupervised learning(无监督学习)常见的有聚类和关联规则。 
    clustering 事先不知道样本的属性范围,只能凭借样本在特征空间的分布来分析样本的属性。这种问题一般更复杂。而常用的算法包括 k-means (K-均值), GMM (高斯混合模型) 等。

    dimensionality reduction:降维

          降维是机器学习另一个重要的领域, 降维有很多重要的应用, 特征的维数过高, 会增加训练的负担与存储空间, 降维就是希望去除特征的冗余, 用更加少的维数来表示特征.降维算法最基础的就是PCA了, 后面的很多算法都是以PCA为基础演化而来。

     


    项目推荐:

    2000多G的计算机各行业电子资源分享(持续更新)

    2020年微信小程序全栈项目之喵喵交友【附课件和源码】

    Spring Boot开发小而美的个人博客【附课件和源码】

    Java微服务实战296集大型视频-谷粒商城【附代码和课件】

    Java开发微服务畅购商城实战【全357集大项目】-附代码和课件

    最全最详细数据结构与算法视频-【附课件和源码】

    在这里插入图片描述

     

    展开全文
  • 模型保存 逻辑回归 线性回归的式子作为逻辑回归的输入 应用场景:二分类 案例 聚类 非监督学习 没有目标值
  • 回归分类聚类的分析与比较

    千次阅读 2019-03-18 11:06:38
    机器学习任务在本次梳理中,我们将涵盖目前「三大」最常见机器学习任务:回归方法分类方法聚类方法说明:本文的梳理不会涵盖具体领域的问题,比如自然语言处理。本文也不会对每个算法都进行梳理。因为现有太多算法,...
  • 机器学习-分类聚类分类回归、逻辑回归和KNN 分类聚类的概念: ** 1、分类:使用已知的数据集(训练集)得到相应的模型,通过这个模型可以划分未知数据。分类涉及到的数据集通常是带有标签的数据集,分类是有...
  • 开学有两个礼拜了,在经历了体检、选课、见导师等一系列活动之后,我的研究生生活总算是要开始了。...分类回归是属于监督学习(Supervised learning)的,而聚类则是属于无监督学习(Unsupervised learni...
  • 回归 (regression):输入变量与输出变量均为...聚类分类分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,
  • 分类聚类回归

    2019-08-01 16:38:07
    所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分...聚类分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。 ...
  • 机器学习 它由回归分类聚类问题组成
  • 原文地址:回归分类聚类:三大方向剖解机器学习算法的优缺点 在本教程中,作者对现代机器学习算法进行了简要梳理。虽然类似的总结有很多,但是它们都没有真正解释清楚每个算法在实践中的好坏,而这正是本文...
  • 回归分类聚类 回归(regression)——Supervised Learning (监督学习) 1.定义 给定一个样本特征,希望预测其对应的属性值,如果是离散的,那么这就是一个分类问题,反之,如果是连续的实数,这就是一个回归...
  • 华盛顿大学机器学习:我的机器学习项目涉及回归分类聚类
  • 回归分类聚类:三大方向剖解机器学习算法的优缺点
  •   分类分类方法是一种对离散型随机变量建模或预测的监督学习算法。...许多回归算法都有与其相对应的分类算法,分类算法通常适用于预测一个类别(或类别的概率)而不是连续的数值。 1.逻辑回归 logistic Lo...
  • 回归 1>简单线性回归。 2>多元线性回归。 3>多项式回归。 4>支持向量回归。 5>决策树回归。 6>随机森林回归。 7> Logistic回归。 b。 分类 1> K最近邻居。 2>支持向量机。 3>内核SVM。 4>纳维·贝叶斯。 ...
  • 通过在UCI开源网站上下载Car Evaluation数据集,对其使用机器学习算法进行分析,分别使用了分类算法,回归算法,聚类算法,文件中附数据集以及代码,代码使用jupyter运行即可,代码中介绍比较详细,通熟易懂,...
  • 回归任务 回归是对已有的数据样本点进行拟合,再根据拟合出来的函数,对未来进行预测。回归数据是连续的值,比如商品价格走势的预测就是回归任务。 分类任务 分类需要先找到数据样本点中的分界线,再根据分界线对新...
  • 简述回归分类聚类方法的区别和联系并分别举出一个例子一级目录二级目录三级目录 一级目录 二级目录 三级目录 以前偶然找到过下图,该图对分类聚类及其回归表达的很清晰。 由上图我们可以看到,机器学习分为...
  • 分类-回归-聚类-异常检测

    千次阅读 2018-06-06 18:49:15
    分类: 支持向量机(SVM)可用于找到尽可能宽的分类的边界。当两个分类不能被清楚地分开时,该算法会找到其所能找到的最佳...人工神经网络是涵盖二分类、多分类回归问题的脑启发式学习算法。它们有无限的种类,...
  • 分类聚类模型

    千次阅读 2020-08-22 18:25:53
    分类聚类模型一、分类模型(1)逻辑回归(2)举个逻辑回归的例子--水果分类(3)Fisher线性判别分析(4)举个Fisher线性判断的例子二、聚类模型(1)K-means聚类算法(2)K-means++算法(3)举个例子--K-means++...
  • 分类聚类的区别

    千次阅读 2018-10-18 10:56:08
    机器学习中分类聚类的本质区别 机器学习中有两类的大问题,一个是分类,一个是聚类。 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类分类也差不多就是聚类,下面,我们就具体来研究下...
  • 有监督学习、无监督学习、分类聚类回归等概念 这篇是很久之前写的了.. 后来才开始上 Andrew Ng 老师的 MOOC,发现其实老师讲得很好了,建议有时间看看他的《Machina Learning》,只看第一节课就可以很了解这些...
  • 算法有关联算法Apriori,分类算法BP、adboost,KNN,聚类算法kmeans、kmedoids、Clarans,回归有线性回归,里面程序代码有自带样例,下载相应包即可运行

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,169
精华内容 17,667
关键字:

分类、回归、聚类