精华内容
下载资源
问答
  • 分类和聚类的区别

    2020-11-24 19:50:24
    分类是事先定义好类别 ,类别数不变 。需要提前训练分类器。... 聚类不需要人工标注预先训练分类器,类别在聚类过程中自动生成 。 参考:https://www.cnblogs.com/zhangjij/p/9962506.html ...

    分类是事先定义好类别 ,类别数不变 。需要提前训练分类器。
    聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。聚类是无监督学习。


    参考:https://www.cnblogs.com/zhangjij/p/9962506.html
    展开全文
  • 机器学习技术近来得到普遍关注,其中人们谈论最多的两类机器学习算法就是分类和聚类。简单说,分类就是向事物分配标签,聚类就是将相似的事物放在一起。 先上一张对比图做以简单了解 举个例子 假设有一批人的年龄的...

     
    机器学习技术近来得到普遍关注,其中人们谈论最多的两类机器学习算法就是分类和聚类。简单说,分类就是向事物分配标签,聚类就是将相似的事物放在一起。

    先上一张对比图做以简单了解

    在这里插入图片描述

    举个例子

    假设有一批人的年龄的数据,大致知道其中有一堆少年儿童,一堆青年人,一堆老年人。

    聚类就是自动发现这三堆数据,并把相似的数据聚合到同一堆中。所以对于这个例子,如果要聚成3堆的话,那么输入就是一堆年龄数据,注意,此时的年龄数据并不带有类标号,也就是说我只知道里面大致有三堆人,至于谁是哪一堆,现在是不知道的,而输出就是每个数据所属的类标号,聚类完成之后,就知道谁和谁是一堆了。

    而分类就是,我事先告诉你,少年儿童、青年人及老年人的年龄是什么样的,现在新来了一个年龄,输出它的类标号,就是它是属于少年儿童、青年人、老年人的哪个类。一般来说,分类器是需要训练的,也就是要告诉你的算法,每个类的特征是什么样子,它才能识别新的数据。

    下面再举一个实际的例子。

    对于聚类,比如有些搜索引擎有“查看相似网页”的功能,这个就可以用聚类来做,把网页就行聚类,在聚类的结果中,每一个类中的网页看成是相似的。

    对于分类,比如手写识别就可以看到是分类问题,比如我写了10个“我”字,然后对这10个“我”字进行特征提取,就可以告诉算法,“我”字具有什么样的特征,于是来了一个新的“我”字,虽然笔画和之前的10个“我”字不完全一样,但是特征高度相似,于是就把这个手写的字分类到“我”这个类,就识别出来了。

    展开全文
  • 浅谈机器学习-分类和聚类的区别

    千次阅读 2019-08-01 17:14:49
    在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别分类 分类有如下几种说法,但表达的意思是相同...

    前言

            机器学习中有两类的大问题,一个是分类,一个是聚类。在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。

    一、分类

    分类有如下几种说法,但表达的意思是相同的。

    • 分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。
    • 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。
    • 分类:通过学习来得到样本属性与类标号之间的关系。
      用自己的话来说,就是我们根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包含属性的样本数据进行分类。

    分类算法的局限

            分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

    二、聚类

    聚类的相关的一些概念如下

    • 聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)
    • 通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
    • 聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

    三、分类与聚类的比较

    • 分类:有训练数据,且训练数据包含输入和输出(有监督学习),已知分类的类别(即训练数据的输出)。学习出一个模型,用该模型对未分好类(预测数据)的数据进行预测分类(已知的类别中)。
    • 聚类:训练数据只有输入(无监督学习)。训练过程即预测过程(聚类过程),且不知道类别,甚至不知道有多少个类别,类别的数量需要指定(K-means),也可以直接通过算法学习出来(DBSCAN)。只能通过特征的相似性对样本分类。该过程即聚类。
    • 聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
    • 在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。
    • 聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。
    • 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。
    展开全文
  • 聚类和分类区别

    千次阅读 2019-09-17 13:14:37
    分类算法与聚类算法的区别: 1.类别是否预先定义是最直观区别 算法书上往往这样解释二者的区别分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都...

    分类算法与聚类算法的区别:

    1. 类别是否预先定义是最直观区别

    算法书上往往这样解释二者的区别:分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。所以,对象所属类别是否为事先,是二者的最基本区别。而这个区别,仅仅是从算法实现流程来看的。

    2. 二者解决的具体问题不一样

    分类算法的基本功能是做预测。我们已知某个实体的具体特征,然后想判断这个实体具体属于哪一类,或者根据一些已知条件来估计感兴趣的参数。比如:我们已知某个人存款金额是10000元,这个人没有结婚,并且有一辆车,没有固定住房,然后我们估计判断这个人是否会涉嫌信用欺诈问题。这就是最典型的分类问题,预测的结果为离散值,当预测结果为连续值时,分类算法可以退化为计量经济学中常见的回归模型。分类算法的根本目标是发现新的模式、新的知识,与数据挖掘数据分析的根本目标是一致的。

    聚类算法的功能是降维。假如待分析的对象很多,我们需要归归类,划划简,从而提高数据分析的效率,这就用到了聚类的算法。很多智能的搜索引擎,会将返回的结果,根据文本的相似程度进行聚类,相似的结果聚在一起,用户就很容易找到他们需要的内容。聚类方法只能起到降低被分析问题的复杂程度的作用,即降维,一百个对象的分析问题可以转化为十个对象类的分析问题。聚类的目标不是发现知识,而是化简问题,聚类算法并不直接解决数据分析的问题,而最多算是数据预处理的过程。

    3. 有监督和无监督

    分类是有监督的算法,而聚类是无监督的算法。有监督的算法并不是实时的,需要给定一些数据对模型进行训练,有了模型就能预测。新的待估计的对象来了的时候,套进模型,就得到了分类结果。而聚类算法是实时的,换句话说是一次性的,给定统计指标,根据对象与对象之间的相关性,把对象分为若干类。分类算法中,对象所属的类别取决于训练出来的模型,间接地取决于训练集中的数据。而聚类算法中,对象所属的类别,则取决于待分析的其他数据对象。

    4. 数据处理的顺序不同

    分类算法中,待分析的数据是一个一个处理的,分类的过程,就像给数据贴标签的过程,来一个数据,我放到模型里,然后贴个标签。聚类算法中,待分析的数据同时处理,来一堆数据过来,同时给分成几小堆。因此,数据分类算法和数据聚类算法的最大区别是时效性问题。在已有数据模型的条件下,数据分类的效率往往比数据聚类的效率要高很多,因为一次只是一个对象被处理,而对于聚类结果来说,每当加入一个新的分析对象,类别结果都有可能发生改变,因此很有必要重新对所有的待分析对象进行计算处理。

    5. 典型的分类算法与聚类算法

    典型的分类算法有:决策树,神经网络,支持向量机模型,Logistic回归分析,以及核估计等等。聚类的方法有,基于链接关系的聚类算法,基于中心度的聚类算法,基于统计分布的聚类算法以及基于密度的聚类算法等等。

    展开全文
  • 分类问题(电影评论好坏倾向性判断)多分类问题(将新闻按照主题分类)回归问题(根据房地产数据估算房地产价格)实际的背景是这样的:路透社将新闻分为了 46 个互斥的大类,一篇文章可能归属于其中的一类或多类,我们...
  • 1.图像分类:一种用于对图像中特定的对象类别进行分类或预测的技术,该技术的主要目的是准确识别图像中的特征。主要是将图中的各个物体进行分类,如:这个图像的内容是属于猫,还是狗。 如:我们常使用的MNIST手写体...
  • 文本相似度与文本分类区别

    千次阅读 2020-02-24 16:14:15
    这时候我就在想,为什么不用文本分类任务做呢,如果用文本分类任务,也是最后得到一句话归属的类别。下面是我的一些想法。 文本分类呢需要先标注好一段文本是属于哪一个类别,类别需要预先定义好,再去训练模型,...
  • 聚类与分类区别

    千次阅读 2017-05-16 21:44:59
    然后他说,你给我分类(聚类)出来,然后拍拍屁股走人了,办公室里留下你孤独的身影。。。 那这种纯属于数据的,一点带标签的影子都没有的有什么用呢?这就要用到聚类了,简单说就是,物以类聚,大伙抱团行动,拿最...
  • 区分回归问题和分类问题

    千次阅读 2020-02-26 15:17:04
    回归问题和分类问题的区别 回归问题 用一个经典的问题来解释:假设你想买房子,手头上仅有的是之前出售的房子的占地面积大小房子的价格,你想凭借手头上的这些数据来买一套不错的房子,那么你仅有的关于房子的...
  • 机器学习中分类与聚类的本质区别

    千次阅读 2018-05-17 17:05:00
    机器学习中分类与聚类的本质区别机器学习中有两类的大问题,一个是分类,一个是聚类。 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类分类也差不多就是聚类,下面,我们就具体来研究下...
  • 决策树算法模型的归类与整理(ID3&C4.5&CART&线性二分类&非线性二分类) 一、 总结摘要  决策树模型在监督学习中非常常见,可用于分类(二分类、多分类回归。虽然将多棵弱决策树的Bagging、Random ...
  • 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 区别是...
  • 老生常谈的话题分类问题回归问题之间有一个重要的区别。 从根本上说,分类是关于预测标签,回归是关于预测数量。 我经常看到这样的问题: 如何计算回归问题的准确度? 像这样的问题表明没有真正理解分类和回归...
  • 回归 回归问题的输出是连续的。 回归问题是结合原有的多重信息,拿 “预测波士顿...分类问题的输出是离散的。 顾名思义,同样也是根据已有的信息进行整合,但最后输出的值是一大类一大类的,例如通过CNN网络后判断...
  • 聚类算法和分类算法

    千次阅读 2019-03-05 20:22:56
    常用的分类算法包括: 决策树分类法 朴素的贝叶斯分类算法(native Bayesian classifier) 基于支持向量机(SVM)的分类器 神经网络法 k-最近邻法(k-nearest neighbor,kNN) 模糊分类法 下文出处 常见的聚类算法...
  • 如何将excel多张数据汇总在一个表中分为以下几步:1、工作簿中有多张工作表,A列B列都有类似的数据,行数不同。2、选中“汇总”表A1单元格,点击【数据】-【合并计算】。3、左上角选择适当的运算方式,本例为...
  • 分类和聚类有什么区别

    千次阅读 2019-06-04 22:05:07
    简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。 聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 区别是,分类是...
  • 分类算法

    千次阅读 2020-12-09 18:53:16
    逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。 2. 应用场景 数据不均衡问题 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 3. 原理 线性...
  • 我们经常说软件开发中,没有银弹。的确,单看软件领域,很少有...而这里的“问题”不仅仅限于软件设计,从日常生活、产品设计到公司战略、生物分类。都有它的身影。 这是为什么呢?究其原因可能有两个: 一、归类分...
  • 一、聚类 (一)聚类概念 ...(三)聚类和分类区别 聚类技术通常又被称为无监督学习,因为与监督学习不同,在聚类中那些表示数据类别的分类或者分组信息是没有的(即分类前只给了分类标准并未给分类类别)。
  • 之前我发过一遍用fme调用谷歌的汉字识别库来实现扫描件分类的文章,虽然能减少大量的人力物力,但是缺点依旧有很多,比如很多扫描件资料文字不清晰,房屋照片图像资料无法识别,文字识别率低,环境配置复杂,同时...
  • OWL分类器 描述 OWL分类器是一个Java应用程序,它加载一个本体(由用户指定)并提供该本体中...OWL分类器是一个使用Maven构建管理的Java项目。 构建过程已封装在makefile中,以便于构建运行(有关使用makefile的
  • 参考: ... ...分类 ...即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识 ...进而也可以预测未来数据的归类 是一种无指导学习 是在预先不知道欲划分类的情
  • java中的异常种类和区别以及处理机制和区别 IO流以及他们的种类区别 序列化反序列化 如何实现 List Set Map的区别 LinkedList ArrayList Vector的区别 HashSet TreeSet的区别 Hashtable TreeMap HashMap LinkedHa...
  • 单例集合的顶层是collection,但是他是不能实现的,通常我们用的比较多的就是他的子类,listset,这两个集合又是根据是否能够存储重复元素来区别; 我们一般用的最多的就是list集合下面的arraylist,而list下面常用的l.....
  • 博客文章分类与标签的区别与联系

    千次阅读 2018-09-20 11:44:51
    博客文章分类与标签的区别与联系1.分类和标签是博客系统的两项功能2. 分类和标签的范围3....分类指用户定义类别并给博文归类。这是很自然地整理文章的方法,所以也成为博客系统的基本功能。 后来...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,713
精华内容 6,285
关键字:

归类和分类的区别