精华内容
下载资源
问答
  • 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因过程。区别是,分类是...

    简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
    聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。
     
    区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
          分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
          聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。

    转载于:https://www.cnblogs.com/end/archive/2013/06/06/3121271.html

    展开全文
  • 参考: http://www.cnblogs.com/batys/p/3274138.html... ...即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识 ...进而也可以预测未来数据的归类 ...是在预先不知道欲划分类的

    参考:

    http://www.cnblogs.com/batys/p/3274138.html



    分类 聚类
    是一种有指导的学习,
    即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识
    是根据样本数据形成的类知识并对源数据进行分类
    进而也可以预测未来数据的归类

    是一种无指导学习
    是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。
    进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空 间区分规则来定义组。
    目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。

    应用:
    例如医疗诊断、信用卡的信用分级、图像模式识别
    广泛应用于商业、生物、地理、网络服务等多种领域。
    方法:
    分类规则、决策树、数学公式和神经网络

    聚类技术主要是以统计方法、
    机器学习、神经网络等方法为基础。
    比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈坦距离、明考斯基距离等。
    常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等

    分类的目的
    是学会一个分类函数或分类模型(也常常称作分类器),
    该模型能把数据库中的数据项映射到给定类别中的某一个类中
    目的
    旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。

    分类和回归都可用于预测
    分类的输出是离散的类别值,而回归的输出是连续数值。
     

    构造分类器
    需要有一个训练样本数据集作为输入
    训练集由一组数据库记录或元组构成,
    每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,
    此 外,训练样本还有一个类别标记。一个具体样本的形式可表示为
    (v1,v2,...,vn; c)
    其中vi表示字段值,c表示类别。
     
    分类器的构造方法
    有统计方法、机器学习方法、神经网络方法

    聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。
    比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈坦距离、明考斯基距离等。
    常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等

    有三种分类器评价或比较尺度:
    1)预测准确度;2)计算复杂度;3)模型描述的简洁度。
     

    分类的效果一般和数据的特点有关
    有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。
    目前普遍认为不存在某种方法能适合于各种特点的数据
     




    展开全文
  • 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因过程。 区别是...

    搬运工


    参考:

    [1] 百度回答:点击打开链接

    [2] 博客:点击打开链接


    简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
    简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。

    区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
    分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
    聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。



         当把聚类(Clustering)和分类(Classification)放到一起时,很容易弄混淆两者的概念,下分别对两个概念进行解释。

          1 聚类(Clustering):

            将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

           聚类分析的一般做法是,先确定聚类统计量,然后利用统计量对样品或者变量进行聚类。对N个样品进行聚类的方法称为Q型聚类,常用的统计量称为“距离”;对于m个变量进行聚类的方法称为R型聚类,常用的统计量称为“相似系数”。              

    Method name Parameters Scalability Usecase Geometry (metric used)
    K-Means number of clusters Very large n_samples, medium n_clusterswith MiniBatch code General-purpose, even cluster size, flat geometry, not too many clusters Distances between points
    Affinity propagation damping, sample preference Not scalable with n_samples Many clusters, uneven cluster size, non-flat geometry Graph distance (e.g. nearest-neighbor graph)
    Mean-shift bandwidth Not scalable withn_samples Many clusters, uneven cluster size, non-flat geometry Distances between points
    Spectral clustering number of clusters Medium n_samples, small n_clusters Few clusters, even cluster size, non-flat geometry Graph distance (e.g. nearest-neighbor graph)
    Ward hierarchical clustering number of clusters Large n_samples andn_clusters Many clusters, possibly connectivity constraints Distances between points
    Agglomerative clustering number of clusters, linkage type, distance Large n_samples andn_clusters Many clusters, possibly connectivity constraints, non Euclidean distances Any pairwise distance
    DBSCAN neighborhood size Very large n_samples, medium n_clusters Non-flat geometry, uneven cluster sizes Distances between nearest points
    Gaussian mixtures many Not scalable Flat geometry, good for density estimation Mahalanobis distances to centers
    Birch branching factor, threshold, optional global clusterer. Large n_clusters andn_samples Large dataset, outlier removal, data reduction. Euclidean distance between points

     

         2 分类(Classification):

             在已有分类标准下,对新数据进行划分,分类。

            常用分类算法:

           朴素贝叶斯(Naive Bayes, NB)
           超级简单,就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型(如Logistic回归)收敛的更快,所以你只需要少量的训练数据。即使条件独立假设不成立,NB在实际中仍然表现出惊人的好。如果你想做类似半监督学习,或者是既要模型简单又要性能好,NB值得尝试。

            Logistic回归(Logistic Regression, LR)
    LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。与决策树与支持向量机(SVM)不同,NB有很好的概率解释,且很容易利用新的训练数据来更新模型(使用在线梯度下降法)。如果你想要一些概率信息(如,为了更容易的调整分类阈值,得到分类的不确定性,得到置信区间),或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的。

            决策树(Decision Tree, DT)
    DT容易理解与解释(对某些人而言——不确定我是否也在他们其中)。DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题(例如,DT可以轻松的处理这种情况:属于A类的样本的特征x取值往往非常小或者非常大,而属于B类的样本的特征x取值在中间范围)。DT的主要缺点是容易过拟合,这也正是随机森林(Random Forest, RF)(或者Boosted树)等集成学习算法被提出来的原因。此外,RF在很多分类问题中经常表现得最好(我个人相信一般比SVM稍好),且速度快可扩展,也不像SVM那样需要调整大量的参数,所以最近RF是一个非常流行的算法。

            支持向量机(Support Vector Machine, SVM)
    很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参,我认为RF已经开始威胁其地位了。

    回到LR与DT的问题(我更倾向是LR与RF的问题),做个简单的总结:两种方法都很快且可扩展。在正确率方面,RF比LR更优。但是LR可以在线更新且提供有用的概率信息。鉴于你在Square(不确定推断科学家是什么,应该不是有趣的化身),可能从事欺诈检测:如果你想快速的调整阈值来改变假阳性率与假阴性率,分类结果中包含概率信息将很有帮助。无论你选择什么算法,如果你的各类样本数量是不均衡的(在欺诈检测中经常发生),你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。

     
     

    3 举例

           假设有一批人的年龄的数据,大致知道其中有一堆少年儿童,一堆青年人,一堆老年人。

           聚类就是自动发现这三堆数据,并把相似的数据聚合到同一堆中。所以对于这个例子,如果要聚成3堆的话,那么输入就是一堆年龄数据,注意,此时的年龄数据并不带有类标号,也就是说我只知道里面大致有三堆人,至于谁是哪一堆,现在是不知道的,而输出就是每个数据所属的类标号,聚类完成之后,就知道谁和谁是一堆了。

           而分类就是,我事先告诉你,少年儿童、青年人及老年人的年龄是什么样的,现在新来了一个年龄,输出它的类标号,就是它是属于少年儿童、青年人、老年人的哪个类。一般来说,分类器是需要训练的,也就是要告诉你的算法,每个类的特征是什么样子,它才能识别新的数据。

           刚才举的是一个超级简单的例子,方便大家理解。下面再举一个实际的例子。

           对于聚类,比如有些搜索引擎有“查看相似网页”的功能,这个就可以用聚类来做,把网页就行聚类,在聚类的结果中,每一个类中的网页看成是相似的。

           对于分类,比如手写识别就可以看到是分类问题,比如我写了10个“我”字,然后对这10个“我”字进行特征提取,就可以告诉算法,“我”字具有什么样的特征,于是来了一个新的“我”字,虽然笔画和之前的10个“我”字不完全一样,但是特征高度相似,于是就把这个手写的字分类到“我”这个类,就识别出来了。

     

    参考:
    [1] 百度百科
    [2] http://www.zhihu.com/question/24169940/answer/26952728

    展开全文
  • 聚类与分类的区别

    千次阅读 2015-09-25 17:15:24
    分类:按照某种标准给对象贴标签,再根据标签区分归类 聚类:事先没有标签而通过某种成因找出事物之间存在聚集性原因过程 区别分类事先定义好类别,类别数...聚类不需要人工标注预先训练分类器,类别在聚类

    分类:按照某种标准给对象贴标签,再根据标签区分归类

    聚类:事先没有标签而通过某种成因找出事物之间存在聚集性原因的过程

    区别:分类事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于指导学习范畴。分类法适合类别或分类体系确定的场合,比如按照国图分类法分类图书。

               聚类则没有事先预定的类,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类的过程中自动生成。聚类法适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎和后聚类(元搜索)等。

              分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn;c),其中VI表示字段值,C表示类别。分类器构造方法具有统计方法,机器学习方法,神经网络方法等

               聚类根据‘物以类聚’,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。

               与分类规则不同,进行聚类前并不知道要划分几个组和什么样的组,也不知道哪些空间区分规则来定义组。其目的是旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类涉及范围:数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域。常见的聚类方法:K均值聚类方法,K中心点聚类、CLARANS、BIRCH、CLIQUE、DBSCAN等

    展开全文
  • 分类和聚类有什么区别

    千次阅读 2019-06-04 22:05:07
    简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。 聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因过程。 区别是,分类是...
  • 文本分类和聚类有什么区别

    千次阅读 2011-12-15 21:01:02
    分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定类别,类别数不确定。聚类不需要人工标注...
  • 博客文章分类与标签的区别与联系

    千次阅读 2018-09-20 11:44:51
    博客文章分类与标签的区别与联系1.分类和标签是博客系统的两项功能2. 分类和标签的范围3.从网站SEO的作用角度讲4.分类与标签的细微区别5.博主相关地址 1.分类和标签是博客系统的两项功能 标签最显著的作用: 一是...
  • 分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定类别,类别数不确定。聚类不需要人工标注...
  • 分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定类别,类别数不确定。聚类不需要人工标注...
  • 数据仓库理论介绍:❝数据仓库是一个面向主题,集成,非易失且随时间变化数据集合❞一:数据仓库四大特点:1):面向主题:「主题(Subject)」 是在较高层次上企业信息系统中数据进行综合,归类和分析利用...
  • 分类 聚类

    2011-01-24 18:42:46
    简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。 简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因过程。   ...
  • 分类和聚类

    2010-01-04 20:33:22
    简单地说,分类(Categorization or Classification) ...区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导 学习范畴。聚类则没有事先预定...
  • 开源代码:一、多标签(multi-label)分类任务 分类(multi-class)任务的区别多标签分类任务中一条数据可能有多个标签,每个标签可能有多个类别,比如一个算法工程师的简历,可能被归类为自然语言处理,推荐系统...
  • 原标题:逻辑回归分类技术分享,使用JavaSpark区分...但是他们的区别也是在变量类型,分类通常预测离散型的变量,比如区分骚扰电话非骚扰电话,而回归则是区别线性的变量,例如通过身高饭量预测一个人的体重...
  • 1.简述分类与聚类联系与区别分类是按照某种标准给对象贴标签,再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因过程。区别分类是事先定义好类别 ,类别数...
  • 朴素贝叶斯分类算法

    2018-11-18 21:07:00
    简述分类与聚类联系与区别。 (1)分类:给数据贴标签,通过分析已有数据特征,对数据分成几类,已知分类结果。然后引入新数据对其归类分类可以提高认知效率,较低认知成本。 (2)聚类:不知分类结果,通过...
  • 11.15分类与监督学习

    2018-11-18 19:51:00
    (1)简述分类与聚类联系与区别 分类就是按照某种标准给对象贴标签再根据标签来区分归类。 聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因过程。 区别分类是事先定义好类别 ,类别...
  • 分类和聚类的区别:聚类更多的是将一堆已知数据根据相似性分为未知的几类(有的时候需要指定几类,但是这个值很不好确定)而分类则是已知多少类,然后更偏重于形成一种形式后让新来的数据归类,所以很多时候分类算法...
  • 多元分类:一对多的分类...二分多分的区别 解决一对多问题的策略 将一个一对多问题转化为多个二分问题即可求解,如上图例,可以将它分为三个二元分类问题。 上图可简化为????: 此时使用逻辑回归计算即可。 ...
  • 首先要弄明白分类聚类的区别:  分类(判别):数据包含数据特征部分样本标签部分,分类的目的就是判别新的数据特征到其应有的样本标签(类别)中。  比方说,现在告诉大家一个教室里面其中一半人每个人的...
  • 简单地说 分类就是按照某种标准给对象贴标签,再根据标签来区分归类。 聚类是指事先没有标签而通过... 聚类不需要人工标注预先训练分类器,类别在聚类过程中自动生成 (类数量提前确定)。分类适合类别或分类体...

空空如也

空空如也

1 2 3 4
收藏数 74
精华内容 29
关键字:

归类和分类的区别