精华内容
下载资源
问答
  • 大数据常用分类方法有哪些?大量的数据是如何分类存储的,对于有可能重复和重叠的数据是怎样处理的?
  • 用于大数据分类的KNN算法研究

    千次阅读 2016-12-20 15:53:19
    随着信息技术的快速发展,大数据时代已经到来,人们迫切需要研究出更加方便...现有的分类算法有很多种,比较常用的有KNN,Native Bayes, Neural Net 、SVM,LLSF 等方法。  针对这些算法处理大规模数据时存在的问题,国

                随着信息技术的快速发展,大数据时代已经到来,人们迫切需要研究出更加方便有效的工具对收集到的海量信息进行J决速准确的分类,以便从中提取符合需要的、简洁的、精炼的、可理解的知识。口前关于这方而的研究已经取得了很大的进步。现有的分类算法有很多种,比较常用的有KNN,Native Bayes, Neural Net 、SVM,LLSF 等方法。

            针对这些算法处理大规模数据时存在的问题,国内外已经进行了很多相关方而的研究。文献【6】针对传统支持向量机方法处理大规模数据时时间复杂度和空间复杂度随数据量的增加直线上升的缺点,提出了核向量机(core vector machineCVM)方法,大大减小了算法的时间和空间复杂度;文献【Faster retrieval with a two-pass dynamic time warping lower bound】对向量机方法进行了进一步研究,提高了核向量机的分类速度和泛化能力,但是其分类精度依然没有得到改善;文献【time warp edit distance with stiffness adjustment for time series matching】提出了一种聚簇消减大规模数据的支持向量分类算法,提高了传统算法处理大规模数据时的速度,同时降低了算法的时间复杂度,但是精度也只有在阂值选择适当时才有可能达到既减少训练时间又提高精度的双赢目的。    KNN作为一种经典的统计模式识别方法,也是效果最好的分类方法之一,而且KNN方法主要靠周围有限的邻近样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的大数据来说,KNN方法较其他方法更为适合,但KNN在分类时主要的不足是该算法只计算最近的邻居样本,某一类的样本数量很大,容易出现误判。现在主要采用权值的方法(与该样本距离小的邻居权值大)来改进,但是权值的设置针对不同的领域又要有不同的要求,实用性不是很高。该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。口前常用的解决方法是事先对已知样本点进行剪辑,但样本的剪辑经常带来后续的判别误差。本文针对大数据和KNN算法的特点,提出了DM-KNN算法,有效地解决了KNN算法对大数据的分类问题。

           一:KNN算法及其存在问题
           1. 1   KNN文本分类算法:KNN法由Cover和Hart于1968年提出,是一个理论上比较成熟的方法。该算法的基本思想是:根据传统的向量空间模型,文本内容被形式化为特征空间中的加权特征向量。对于一个测试文本,计算它与训练样本集中每个文本的相似度,找出K个最相似的文本,根据加权距离和判断测试文本所属的类别,具体算法步骤如下:
            a)对于一个测试文本,根据特征词形成测试文本向量。
            b)计算该测试文本与训练集中每个文本的文本相似度,按照文本相似度,在训练文本集中选出与测试文本最相似的k个文本。
            c)在测试文本的k个近邻中,依次计算每类的权重。
            d)比较类的权重,将文本分到权重最大的那个类别中。

           1. 2  KNN算法处理大数据时存在的问题
           KNN算法稳定性好、准确率高、简单易用,针对大数据的分类问题,它存在着如下缺点:a)对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点,而大数据的典型特点就是数据信息海量、价值密度低,这就显然出现了很大的无效计算量,在决定测试样本的类别时,该算法只计算最近邻的样本【neighbor-weighted K-nearest neighbor for unbalanced text corpus】,而大数据的另一个显著特点是涉及领域繁多、类别界限不明显,对于此类文本容易使判决结果产生偏差;c)随着信息爆炸时代的到来,各种新的事物层出不穷,出现新的类别的概率极大,而KNN算法的邻居都是已知的类别样本,也就导致了对新样本的无知或者误判。

           二:改进的KNN算法
           2.1分层模型的应用
        分层模型的基本思想是根据所属类别的不同对已知样本进行分层,第一层包含的类别数最少,最后一层包含的类别数最多,然后依层对未知样本进行分类。图1以社区民情民意信息的分层为例,图中共分了三层。


                                           图1

        第一层只有a和b两个类别,如果判断出来未知样本属于a类,那么在第二层时只需在a1,a2,a3类中进行比较,不需要在b类的其他文本进行比较。在第二层判断时,如果判断出来属于a1类,那么在第三层进行比较时只需要在a11,a12类中进行比较,依此类推即可。图1中菱形部分为分层模型需要比较的类别数,而传统的方法是需要对所有的数据进行比较。从图1中可见分层模型可以大大减少无效计算量。

          2. 2差分模型的应用
        本文用图示的方法来解释差分模型的思想。图2中,x是未知样本,a,b,c,d为已知类别,其中x到a ,b,c,d的距离分别
    a,b,c,d,如图2所示。

                                                                                           

        如果a=max {a, b, c, d},△b=max { △b , △c , △d},那么按照传统KNN算法的思想,只需要把未知样本分配到a类中,根据分层思想,此时只需要在把未知样本x与a类中的子类a1,a2,a3,a4、再次利用KNN算法进行分类即可;但是如果利用差分模型,当且仅当|a|-|△b|>m时,才能将x判别到a类中,否则将x判别到a和b类中,然后对a和b类的子类再次进行KNN算法,如图3 (b)所示。

         2. 3改进的KNN算法—差分多层KNN (DM-KNN)算法
        针对大数据的自身特点以及KNN算法的缺点,算法主要在以下几个方而进行了改进:a)构建树状分层结构,针对KNN算法计算量比较大的缺点,本文改进后的算法采用构建树状分层结构首先对高层进行比较,然后依据高层比较结果的不同,再依次对下一层次进行比较,相比直接对所有文本进行距离计算,计算量明显减少,同时提高了运算速度;b)差分比较,由于大数据具有类域交叉性的特点,该算法不是在权重比较结束后直接进行判断,而是又针对大数据的类域交叉性进行了一次差分比较,可以有效地防止最近邻和次近邻误判的情况;c)动态增加类别,由于大数据中信息的不可预知性,该算法针对最终比较结果不能判断隶属于哪个类别的情况,在算法最后可以动态增加新类别。具体算法步骤如下:

    a)对于一个测试文本,根据特征词形成测试文本向量。

    b)对于训练文本集,利用专业领域知识,通过文本数据的分析定义出分层类别,将其构建成n层树状形式。

    c)依次计算该测试文本与第1一n层训练集中每个文本的文本相似度(以下以第1层为例):1.文本相似度计算式为


    上式中:di为测试文本的特征向量;d1j为第1层第J类的中心向量;M为特征向量的维数;wk为向量的第k维;K值的确定一般
    先采用一个初始值,然后根据实验测试的结果调整K值。按照文本相似度,在训练文本集中选出与测试文本最相似的K个文本。2.在测试文本的K个近邻中,依次计算每类的权重3.对计算的权重进行排序4.对排序后的权重进行差分比较:
        ①D12=P11-P12。如果D12D0,(D0为阂值,有待于优化选择),则测试文本属于第1类,在对第二层进行相似度比较的时候,只需要比较第二层中第1类的子类;如果D12D0,则继续进行判断。
        ②Dk(k+1)=P1k-P1(k+1) 如果Dk(k+1)D0,则测试文本属于第1一k类中的其中一类,在对第二层进行比较时,只需要
    比较第二层中第1类中第k类的子类;如果Dk(k+1)D0则继续进行判断。
        d)第n层,对于权重的差分比较结果,若比较结果不是单一的,采用动态增加类别的方法,在文本第,;层增加一个类;若比较结果单一,就将文本分到权重最大的那个类别中。
           2. 4时间复杂度分析

           由算法可知,KNN算法在时间上的代价主要在于测试样本与训练样本库中样本之间的相似度训计算。按照传统的KNN算法中直接计算测试样本与训练集中每个样本的相似度的方法,其时间复杂度为O(n2);而DM-KNN算法中构建树状分层结构,计算相似度时不需要对n个样本集都进行计算,只需要与分层之后相似层下的样本进行相似度计算,算法的复杂度降为O (nlogn)。也就是说改进后的算法时间复杂度远小于KNN算法或者类似于KNN算法的时间复杂度。

    展开全文
  • ⑴神经网络方法   神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、...

    ⑴神经网络方法
       神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。

    ⑵遗传算法

    遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

    Sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一[4]。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

    ⑶决策树方法

    决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如Schlimmer和Fisher设计了ID4递增式学习算法;钟鸣,陈文伟等提出了IBLE算法等。

    ⑷粗集方法

    粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大Regina大学开发的KDD-R;美国Kansas大学开发的LERS等。

    ⑸覆盖正例排斥反例方法

    它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法以及他的AE5方法。

    ⑹统计分析方法

    在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。

    ⑺模糊集方法

    即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型–云模型,并形成了云理论。
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    数据统计分析和数据挖掘有何区别?
    http://www.duozhishidai.com/article-11047-1.html
    数据挖掘的聚类算法和优势
    http://www.duozhishidai.com/article-12942-1.html
    如何通过自学,成为数据挖掘“高手”?
    http://www.duozhishidai.com/article-9796-1.html
    数据分析与数据挖掘的区别和联系?
    http://www.duozhishidai.com/article-9800-1.html
    构建一个数据挖掘模型,主要分为哪几步?
    http://www.duozhishidai.com/article-9719-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
      
    展开全文
  • 大数据常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘) 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中...

    大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)

    在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。

    数据准备的重要性:没有高质量的挖掘结果,数据准备工作占用的时间往往在60%以上。

    (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    分类的方法:决策树——是最流行的分类方法

    特点:

    a、它的每次划分都是基于最显著的特征的;

    b、所分析的数据样本被称作树根,算法从所有特征中选出一个最重要的,用这个特征把样本分割成若干子集;

    c、重复这个过程,直到所有的分支下面的实例都是“纯”的,即子集中各个实例都属于同一个类别,这样的分支即可确定为一个叶子节点。在所有子集变成“纯”的之后,树就停止生长了。

    决策树的剪枝:

    a、如果决策树建的过深,容易导致过度拟合问题(即所有的分类结果数量基本一样,没有代表性);

    b、剪枝通常采用自上而下的方式。每次找出训练数据中对预测精度贡献最小的那个分支,剪掉它;

    c、简言之,先让决策树疯狂生长,然后再慢慢往回收缩。整体上往回收缩多少,要根据在测试集上的表现来反复尝试。

    (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

    分类的方法:逻辑回归——是一种常用的分类方法,非常成熟,应用非常广泛    

    特点:

    a、回归不只可以用于分类,也能用于发现变量间的因果关系;

    b、最主要的回归模型有多元线性回归和逻辑回归;

    c、有些时候逻辑回归不被当作典型的数据挖掘算法。

    逻辑回归的步骤:

    a、先训练,目的是找到分类效果最佳的回归系数;

    b、然后使用训练得到的一组回归系数,对输入的数据进行计算,判定它们所属的类别

    逻辑回归模型的检验:

    由于希望模型中的输入变量与目标变量之间的关系足够强,为此需要做两个诊断:

    a、对模型整体的检验——R2,即全部输入变量能够解释目标变量变异性的百分之多少。R2越大,说明模型拟合得越好;如果R2太小,则模型不可用于预测。

    b、回归系数的显著性(p-value),如果某个输入变量对目标变量的作用p-value小于0.05,则可以认为该输入变量具有显著作用。对不显著的输入变量可以考虑从模型中去掉。

    决策树与逻辑回归的比较:

    1、决策树由于采用分割的方法,所以能够深入数据细部,但同时失去了对全局的把握。一个分支一旦形成,它和别的分支或节点的关系就被切断,以后的挖掘只能在局部中行;

    2、逻辑回归始终着眼于整数数据的拟合,所以对全局模式把握较好;

    3、决策树比较容易上手,需要的数据预处理较少;

    4、逻辑回归模型不能处理缺失值,而且对异常值敏感。因此回归之前应该处理缺失值,并尽量删除异常值

    分类和回归分析被称为有监督学习:

    1、有标识;

    2、通过模仿做出正确分类的已有数据,从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。

     

     

    (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。

    (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

    聚类和关联规则被称为无监督学习:

    1、无标识;

    2、聚类:针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式;

    3、关联规则:

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

    分析发现购买面包的顾客中有很大比例的人同时购买牛奶,由此我们可以将牛奶与面包放在同一个地方。

    (5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。

    (6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    当前越来越多的Web 数据都是以数据流的形式出现的,因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web 数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。在Web 技术高速发展的今天,这些问题仍旧值得研究并加以解决。

    展开全文
  • 大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,...

    在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。

    数据准备的重要性:没有高质量的挖掘结果,数据准备工作占用的时间往往在60%以上。

    (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    分类的方法:决策树——是最流行的分类方法

    特点:

    a、它的每次划分都是基于最显著的特征的;

    b、所分析的数据样本被称作树根,算法从所有特征中选出一个最重要的,用这个特征把样本分割成若干子集;

    c、重复这个过程,直到所有的分支下面的实例都是“纯”的,即子集中各个实例都属于同一个类别,这样的分支即可确定为一个叶子节点。在所有子集变成“纯”的之后,树就停止生长了。

    决策树的剪枝:

    a、如果决策树建的过深,容易导致过度拟合问题(即所有的分类结果数量基本一样,没有代表性);

    b、剪枝通常采用自上而下的方式。每次找出训练数据中对预测精度贡献最小的那个分支,剪掉它;

    c、简言之,先让决策树疯狂生长,然后再慢慢往回收缩。整体上往回收缩多少,要根据在测试集上的表现来反复尝试。

    (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

    分类的方法:逻辑回归——是一种常用的分类方法,非常成熟,应用非常广泛    

    特点:

    a、回归不只可以用于分类,也能用于发现变量间的因果关系;

    b、最主要的回归模型有多元线性回归和逻辑回归;

    c、有些时候逻辑回归不被当作典型的数据挖掘算法。

    逻辑回归的步骤:

    a、先训练,目的是找到分类效果最佳的回归系数;

    b、然后使用训练得到的一组回归系数,对输入的数据进行计算,判定它们所属的类别

    逻辑回归模型的检验:

    由于希望模型中的输入变量与目标变量之间的关系足够强,为此需要做两个诊断:

    a、对模型整体的检验——R2即全部输入变量能够解释目标变量变异性的百分之多少。R2越大,说明模型拟合得越好;如果R2太小,则模型不可用于预测。

    b、回归系数的显著性(p-value),如果某个输入变量对目标变量的作用p-value小于0.05,则可以认为该输入变量具有显著作用。对不显著的输入变量可以考虑从模型中去掉。

    决策树与逻辑回归的比较:

    1、决策树由于采用分割的方法,所以能够深入数据细部,但同时失去了对全局的把握。一个分支一旦形成,它和别的分支或节点的关系就被切断,以后的挖掘只能在局部中行;

    2、逻辑回归始终着眼于整数数据的拟合,所以对全局模式把握较好

    3、决策树比较容易上手,需要的数据预处理较少

    4、逻辑回归模型不能处理缺失值,而且对异常值敏感。因此回归之前应该处理缺失值,并尽量删除异常值

    分类和回归分析被称为有监督学习:
    1、有标识;
    2、通过模仿做出正确分类的已有数据,从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。

     

     

    (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。

    (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

    聚类和关联规则被称为无监督学习:
    1、无标识;
    2、聚类:针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式;
    3、关联规则:分析发现购买面包的顾客中有很大比例的人同时购买牛奶,由此我们可以将牛奶与面包放在同一个地方。

    (5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。

    (6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    当前越来越多的Web 数据都是以数据流的形式出现的,因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web 数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。在Web 技术高速发展的今天,这些问题仍旧值得研究并加以解决。

    转载于:https://www.cnblogs.com/wlovet/p/8037426.html

    展开全文
  • 常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。1、聚类分析(Cluster Analysis)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据...
  • 走进大数据之拓扑数据分析方法

    千次阅读 2017-08-01 16:09:00
    相比于主成分分析、聚类分析这些常用方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类。这种方法也因此曾在基因与癌症研究领域大显身手。 1.什么是拓扑数据分析 ...
  • 大数据概念与应用

    2020-03-18 15:01:39
    5.常用大数据获取的途径  6.大数据处理方法有哪些? 7.大数据预处理的方法有哪些? 8.大数据的挖掘方法有哪些? 9.大数据应用场景 1.新摩尔定律的含义是?  Jim Gray提著名的“新摩尔定律”,即人类有史以来...
  • 利用数据挖掘进行数据分析常用方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。1、分类分类是找出数据库中一组数据对象的共同特点并按照...
  • 我们知道做认识事情都有个流程顺序,正确的流程可以事半功倍,错误的流程往往会导致事情重新来做,越来越多的企业都实现了大数据营销推广。... 分类算法是极其常用的数据挖掘方法之一,其核心思...
  • 大数据爱好者福音:阿里云官方出品大数据培训认证课程普惠版来啦!以下几款精品大数据课程,一律仅售9.9元,每门课程还包含2次在线认证...本课程讲解了客户流失的分析方法、流程,同时详细介绍了机器学习中常用分类
  • 本文在分析大数据基本特征的基础上,对数据挖掘技能的分类及数据挖掘的常用方法进行了大略分析,以期可以在大数据时代背景下可以在数据挖掘方向取得些许成绩。1 大数据时代数据挖掘的重要性随着互联网、物...
  • 大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,...
  • Docker的姬长信API一个基于多种编程语言的开源免费不限制提供生活常用的,出行服务,开发工具,金融服务,通讯服务和公益大数据的平台。 食用方法 个人近十年完善整理的API大杂烩接口,需要什么加什么功能,个人习惯...
  • 文章目录系列文章目录本文主旨构建基于机器学习的检测引擎步骤收集样本提取特征训练模型模型测试常用的机器学习算法逻辑回归定义回归与分类的区别局限k-近邻算法算法原理参数选择算法步骤决策树算法算法步骤要点随机...
  • 而后,我们以海量数据计数问题为例,深入浅出的介绍了在实时计算算法中常用方法和技巧,以及它们适用的场景和可能带来的问题。这些方法和技巧具有普遍性和通用性,被广泛应用于个性化推荐引擎的各个模块,包括用户...
  • 大数据解决方案-(基础篇)

    千次阅读 2019-07-20 16:09:12
    学习大数据分析与应用课程的首要任务,是先了解统计与建模方法...常用概率分布和渐进性演示 置信区间和假设检验演示 线性回归模型演示 广义线性回归模型演示 数据挖掘方法演示 分类预测基本流程演示 数据预处理演示...
  • 《Python金融大数据风控建模实战》 第18章 模型融合本章引言Python代码实现及注释 本章引言 模型融合思想认为,在多个表现较好的模型中,每个模型的预测结果都有一定的参考价值,并且每个模型在建模时考虑的策略也各...
  • 基础统计与建模方法演示探索性数据分析演示常用概率分布和渐进性演示置信区间和假设检验演示线性回归模型演示广义线性回归模型演示数据挖掘方法演示分类预测基本流程演示数据预处理演示分类方法演示聚类分析演...
  • 第6-10章这部分介绍数据挖掘基础知识与算法多维向量空间回归聚类分类 这部分介绍数据挖掘基础知识与算法 ...除了用箭头表示外,还有一种在数据计算领域更常用方法,即用(a,b,c,d…)来表示。其中,a、b、c、...
  • 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这...
  • 文本聚类算法介绍分类和聚类都是文本挖掘中常使用的方法,他们的目的都是将相似度高的对象归类,不同点在于分类是采用监督学习,分类算法按照已经定义好的类别来识别一篇文本,而聚类是将若干文本进行相似度比较,...
  • 样本类别分布不平衡主要出现在分类相关的建模问题上。 样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数 据分布不均衡两种: 大数据分布不均衡——整体数据规模较大,某类别样本占比较 小。例如拥有...

空空如也

空空如也

1 2 3 4 5
收藏数 92
精华内容 36
关键字:

常用大数据分类方法