精华内容
下载资源
问答
  • 数据挖掘之数据仓库详述

    千次阅读 2018-07-19 22:06:44
    此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据分析,有利于有效的数据挖掘。进一步讲,许多其它数据挖掘功能,如分类、预测、关联、聚集,都可以与 OLAP 操作集成,以加强多个抽象层上的交互...

    数据仓库和数据挖掘的OLAP 技术

    构造数据仓库涉及数据清理和数据集成,可以看作数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据分析,有利于有效的数据挖掘。进一步讲,许多其它数据挖掘功能,如分类、预测、关联、聚集,都可以与 OLAP 操作集成,以加强多个抽象层上的交互知识挖掘。因此,数据仓库已经成为数据分析和联机数据分析处理日趋重要的平台,并将为数据挖掘提供有效的平台。在系统地介绍数据挖掘技术之前,我们概括地介绍数据仓库技术。对于理解数据挖掘技术,这种概述是必要的。

    本章,你将学习数据仓库和 OLAP 技术使用的基本概念、一般结构和主要实现技术,以及它们与数据挖掘的联系。

     

    什么是数据仓库?

    数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理决策制定。

    1     面向主题的:数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是构造组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

    2     集成的:通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量的一致性。

    3     时变的:数据存储从历史的角度(例如,过去 5-10 年)提供信息。数据仓库中的关键结构,隐式或显式地包含时间元素。

    4     非易失的:数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并行控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。

    概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查询、分析报告和决策制定。

     

    数据仓库的构造需要数据集成、数据清理、和数据统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人” (例如,经理、分析人员和主管)能够使用数据仓库,快捷、方便地得到数据的总体视图,根据数据仓库中的信息作出准确的决策。

    对于异种数据库的集成,传统的数据库做法是:在多个异种数据库上,建立一个包装程序和一个集成程序(或仲裁程序)。这方面的例子包括 IBM 的数据连接程序 (Data Joiner) Informix的数据刀(DataBlade)。当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站点上的查询。然后,将这些查询映射和发送到局部查询处理器。由不同站点返回的结果被集成为全局回答。这种查询驱动的方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源。这种方法是低效的,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。

    对于异种数据库集成的传统方法,数据仓库提供了一个有趣的替代方案。数据仓库使用更新驱动的方法,而不是查询驱动的方法。这种方法将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析。与联机事务处理数据库不同,数据仓库不包含最近的信息。然而,数据仓库为集成的异种数据库系统带来了高性能,因为数据被拷贝、预处理、集成、注释、汇总,并重新组织到一个语义一致的数据存储中。在数据仓库中进行的查询处理并不影响在局部源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。这样,建立数据仓库在工业界已非常流行。

     

    操作数据库系统与数据仓库的区别

    联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为联机分析处理(OLAP)系统。

    OLTP OLAP的主要区别概述如下。

    1     用户和系统的面向性:OLTP 是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP 是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。

    2     数据内容:OLTP 系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。

    3     数据库设计:通常,OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而 OLAP 系统通常采用星形或雪花模型(2.2.2小节讨论)和面向主题的数据库设计。

    4     视图:OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP 系统常常跨越数据库模式的多个版本。OLAP 系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。

    访问模式:OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对 OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。

    OLTP OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等。

     

    为什么需要一个分离的数据仓库

    “既然操作数据库存放了大量数据”,你注意到,“为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个分离的数据仓库?”分离的主要原因是提高两个系统的性能。操作数据库是为已知的任务和负载设计的,如使用主关键字索引和散列,检索特定的记录,和优化“罐装的”查询。另一方面,数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。在操作数据库上处理 OLAP查询,可能会大大降低操作任务的性能。

    此外,操作数据库支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保一致性和事务的强健性。通常,OLAP查询只需要对数据记录进行只读访问,以进行汇总和聚集。如果将并行控制和恢复机制用于这种 OLAP 操作,就会危害并行事务的运行,从而大大降低 OLTP 系统的吞吐量。

    最后,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。决策支持需要历史数据,而操作数据库一般不维护历史数据。在这种情况下,操作数据库中的数据尽管很丰富,但对于决策,常常还是远远不够的。决策支持需要将来自异种源的数据统一(如,聚集和汇总),产生高质量的、纯净的和集成的数据。相比之下,操作数据库只维护详细的原始数据(如事务),这些数据在进行分析之前需要统一。由于两个系统提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。然而,许多关系数据库管理系统卖主正开始优化这种系统,使之支持 OLAP查询。随着这一趋势的继续,OLTP OLAP 系统之间的分离可望消失。

     

    数据仓库的系统结构

    本节,我们讨论数据仓库的结构问题。2.3.1 小节介绍如何设计和构造数据仓库。2.3.2 小节介绍三层数据仓库结构。2.3.3 小节提供用于 OLAP 处理的各种不同类型的仓库服务器。

     

    数据仓库的设计步骤和结构

    本小节提供数据仓库设计的一个商务分析框架,同时介绍设计过程所涉及的基本步骤。

    数据仓库设计:一个商务分析框架

    “数据仓库为商务分析提供了什么?”首先,拥有数据仓库可以提供竞争优势。通过提供相关信息,据此测量性能并作出重要调整,以帮助战胜其它竞争对手。其次,数据仓库可以加强生产能力,因为它能够快速有效地搜集准确描述组织机构的信息。再次,数据仓库促进了与顾客的联系,因为它跨越所有商务、所有部门、所有市场,提供了顾客和商品的一致视图。最后,通过以一致、可靠的方式长期跟踪趋势、式样、例外,数据仓库可以降低费用。

    为建立有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析框架。构造一个大的、复杂的信息系统就象建一个大型、复杂的建筑,业主、设计师、建筑者都有不同的视图。这些观点结合在一起,形成一个复杂的框架,代表自顶向下、商务驱动,或业主的视图,也代表自底向上、建筑者驱动,或信息系统实现者的视图。

    关于数据仓库的设计,四种不同的视图必须考虑:自顶向下、数据源、数据仓库、商务查询。

    1     自顶向下视图使得我们可以选择数据仓库所需的相关信息。这些信息能够满足当前和未来商务的需求。

    2     数据源视图揭示被操作数据库系统捕获、存储、和管理的信息。这些信息可能以不同的详细程度和精度建档,存放在由个别数据源表到集成的数据源表中。通常,数据源用传统的数据建模技术,如实体-联系模型或 CASE(计算机辅助软件工程)工具建模。

    3     数据仓库视图包括事实表和维表。它们提供存放在数据仓库内部的信息,包括预先计算的和与计数,以及关于源、日期、原时间等。

    4     最后,商务查询视图是从最终用户的角度透视数据仓库中的数据。

    建立和使用数据仓库是一个复杂的任务,因为它需要商务技巧、技术技巧和程序管理技巧。关于商务技巧,建立数据仓库涉及理解这样一个系统如何存储和管理它的数据;如何构造一个提取程序,将数据由操作数据库转换到数据仓库;如何构造一个仓库刷新软件,合理地保持数据仓库中的数据相对于操作数据库中数据的当前性。使用数据仓库涉及理解数据的含义,以及理解商务需求并将它转换成数据仓库查询。关于技术技巧,数据分析需要理解如何由定量信息作出估价,以及如何根据数据仓库中的历史信息得到的结论推导事实。这些技巧包括发现模式和趋势,根据历史推断趋势和发现不规则的能力,并根据这种分析提出相应的管理建议。最后,程序管理技巧涉及需要与许多技术人员、经销商、最终用户交往,以便以及时、合算的方式提交结果。

     

    数据仓库的设计过程

    “如何设计数据仓库?”数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设计。自顶向下方法由总体设计和规划开始。当技术成熟并已掌握,对必须解决的商务问题清楚并已很好理解时,这种方法是有用的。自底向上方法以实验和原型开始。在商务建模和技术开发的早期阶段,这种方法是有用的。这样可以以相当低的代价前进,在作出重要承诺之前评估技术的利益。在混合方法下,一个组织既能利用自顶向下方法的规划的、战略的自然特点,又能保持象自底向上方法一样快速实现和立即应用。

    从软件工程的观点,数据仓库的设计和构造包含以下步骤:规划、需求研究、问题分析、仓库设计、数据集成和测试,最后,配置数据仓库。大的软件系统可以用两种方法开发:瀑布式方法和螺旋式方法。瀑布式方法在进行下一步之前,每一步都进行结构化和系统的分析,就象瀑布一样,从一级落到下一级。螺旋式方法涉及功能渐增的系统的快速产生,相继版本之间的间隔很短。对于数据仓库,特别是对于数据集市的开发,这是一个好的选择,因为其周转时间短,能够快速修改,并且新的设计和技术可以快速接受。

    一般地,数据仓库的设计过程包含如下步骤:

    1 选取待建模的商务处理,例如,订单、发票、出货、库存、记帐管理、销售、和一般分类帐。

    如果一个商务过程是有组织的,并涉及多个复杂的对象,应当选用数据仓库模型。然而,如果处理是部门的,并关注某一类商务处理,则应选择数据集市。

    2 选取商务处理的粒度。对于处理,该粒度是基本的、在事实表中是数据的原子级。例如,单个事务、一天的快照等。

    3 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态。

    4 选取将安放在事实表中的度量。典型的度量是可加的数值量,如dollars_sold units_sold

    由于数据仓库的构造是一个困难、长期的任务,它的实现范围应当清楚地定义。一个初始的数据仓库的实现目标应当是特定的、可实现、可测量的。这涉及时间和预算的分配,一个组织的哪些子集要建模,选择的数据源数量,提供服务的部门数量和类型。

    一旦设计和构造好数据仓库,数据仓库的最初使用包括初始化装入、首次展示规划、培训和定

    位。平台的升级和管理也要考虑。数据仓库管理包括数据刷新、数据源同步、规划故障恢复、管理存取控制和安全、管理数据增长、管理数据库性能、以及数据仓库的增强和扩充。范围管理包括控制查询、维、报告的数量和范围,限制数据仓库的大小,或限制进度、预算和资源。

    各种数据仓库设计工具都可以使用。数据仓库开发工具提供一些操作,定义和编辑元数据库(如模式、脚本或规则),回答查询,输出报告,向或由关系数据库目录传送元数据。规划与分析工具研究模式改变的影响,当刷新率或时间窗口改变时对刷新性能的影响。

     

    三层数据仓库结构

    “数据仓库的结构是什么样的?”通常,数据仓库采用三层结构。

    1.   底层是数据仓库服务器,它几乎总是一个关系数据库系统。“如何由该层提取数据,创建数据仓库?”使用称作网间连接程序的应用程序,由操作数据库和外部数据源(如,由外部咨询者提供的顾客侧面信息)提取数据。网间连接程序由下面的 DBMS 支持,允许客户程序产生 SQL 代码,在服务器上执行。网间连接程序的例子包括 ODBC(开放数据库连接)和微软的 OLE-DB(数据库开放链接和嵌入),JDBCJava 数据库连接)。

    2.   中间层是OLAP服务器,其典型的实现或者是(1)关系OLAPROLAP)模型,即扩充的关系 DBMS,它将多维数据上的操作映射为标准的关系操作;或者是(2)多维OLAPMOLAP)模型,即特殊的服务器,它直接实现多维数据和操作。OLAP服务器在 2.3.3 小节讨论。

    3.   顶层是客户,它包括查询和报告工具、分析工具、和/或数据挖掘工具(例如,趋势分析、预测等)。

    从结构的角度看,有三种数据仓库模型:企业仓库、数据集市、和虚拟仓库。

    企业仓库:企业仓库搜集了关于主题的所有信息,跨越整个组织。它提供企业范围内的数据集成,通常来自一个或多个操作的系统,或外部信息提供者,并且是跨功能的。通常,它包含详细数据和汇总数据,其大小由数千兆字节,到数百千兆字节,数兆兆字节,或更多。企业数据仓库可以在传统的大型机上实现,如 UNIX 超级服务器或并行结构平台。它需要广泛建模,可能需要多年设计和建造。

    数据集市:数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定的主题。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。

    通常,数据集市可以在低价格的部门服务器上实现,基于 UNIX Windows/NT。实现数据集市的周期一般是数以周计,而不是数以月计或数以年计。然而,如果它们的规划不是企业范围的,从长远讲,可能涉及很复杂的集成。根据数据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖的数据集市中的数据直接来自企业数据仓库。

    虚拟仓库:虚拟仓库是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力。

    自顶向下开发企业仓库是一种系统的解决方法,并能最大限度地减少集成问题。然而,它费用高,需要长时间开发,并且缺乏灵活性,因为整个组织的共同数据模型达到一致是困难的。自底向上设计、开发、配置独立的数据集市方法提供了灵活性、低花费,并能快速回报投资。然而,将分散的数据集市集成,形成一个一致的企业数据仓库时,可能导致问题。

    对于开发数据仓库系统,一个推荐的方法是以递增、进化的方式实现数据仓库,如图 2.13 所示。第一,在一个合理短的时间(如,一、两个月)内,定义一个高层次的企业数据模型,在不同的主题和可能的应用之间,提供企业范围的、一致的、集成的数据视图。这个高层模型将大大减少今后的集成问题,尽管在企业数据仓库和部门数据集市的开发中,它还需要进一步提炼。第二,基于上述相同的企业数据模型,可以并行地实现独立的数据集市和企业数据仓库。第三,可以构造分布数据集市,通过网络中心服务器集成不同的数据集市。最后,构造一个多层数据仓库,这里,企业仓库是所有仓库数据的唯一管理者,仓库数据分布在一些依赖的数据集市中。

     

    OLAP 服务器类型:ROLAPMOLAPHOLAP 的比较

    OLAP 服务器的种类有哪些?”逻辑上讲,OLAP 服务器为商务用户提供来自数据仓库或数据集市的多维数据,而不必关心数据如何存放和存放在何处。然而,OLAP 服务器的物理结构和实现必须考虑数据存放问题。OLAP 服务器实现包括:

    关系OLAPROLAP)服务器:这是一种中间服务器,介于关系后端服务器和用户前端工具之间。它们使用关系或扩充关系 DBMS 存放并管理数据仓库,而 OLAP 中间件支持其余部分。ROLAP服务器包括每个 DBMS 后端优化,聚集导航的逻辑实现,附加的工具和服务。看来,ROLAP 技术比 MOLAP 技术具有更大的可规模性。例如,Microstrategy DSS Informix Metacube 都采用ROLAP 方法5

    多维 OLAPMOLAP)服务器:这些服务器通过基于数组的多维存储引擎,支持数据的多维视图。它们将多维视图直接映射到数据方数组结构。例如,Arbor Essbase 是一个 MOLAP 服务器。使用数据方的优点是能够对预计算的汇总数据快速索引。注意,使用多维数据存储,如果数据集是

    稀疏的,存储利用率可能很低。在这种情况下,应当使用稀疏矩阵压缩技术(见 2.4 节)。

    许多 OLAP 服务器采用两级存储,以便处理稀疏和稠密数据集:稠密子方不变,并作为数组结构存储;而稀疏子方使用压缩技术,从而提高存储利用率。

    混合OLAPHOLAP)服务器:混合OLAP 方法结合ROLAP MOLAP 技术,得益于 ROLAP 较大的可规模性和 MOLAP 的快速计算。例如,HOLAP 服务器允许将大量详细数据存放在关系数据库中,而聚集保持在分离的 MOLAP存储中。微软的 SQL Server 7.0 OLAP 服务支持混合 OLAP 服务器。

    特殊的 SQL 服务器:为了满足在关系数据库中日益增长的 OLAP 处理的需要,一些关系数据库和数据仓库公司(例如 Redbrick)实现了特殊的 SQL 服务器,提供高级查询语言和查询处理,在只读环境下,在星形和雪花模式上支持 SQL 查询。

     “那么,数据怎样实际地存放在 ROLAP MOLAP结构中?”如名称所示,ROLAP 使用关系表存放联机分析处理数据。注意,与基本方体相关联的事实表称为基本事实表。基本事实表存放的数据所处的抽象级由给定的数据方的模式的连接键指出。聚集数据也能存放在事实表中,这种表称为汇总事实表。有些汇总事实表既存放基本事实表数据,又存放聚集数据,如例 2.10 所示。也可以对每一抽象级分别使用汇总事实表,只存放聚集数据。

    大部分数据仓库系统采用客户-服务器结构。关系数据存储总是驻留在数据仓库/数据集市服务器站点上。多维数据存储可以驻留在数据库服务器站点,或客户站点。
     

     

    展开全文
  • 数据挖掘案例

    万次阅读 2018-10-19 16:32:48
    图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这需要大数据科学家和行业...

     

    图中的左边是SPSS1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。

    1.理解商业问题。这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做,最后的项目一定是失败的。

    2.分析数据。当明确了业务问题之后,我们就需要去分析数据,看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在这个阶段,我们可能发现数据不足,或者数据质量太差,这个时候就可能要寻求第三方数据的帮助,或者规划如何去采集更多的数据了。

    3.数据挖掘。前两步都是在做数据挖掘前的准备,当业务明略,数据可用时,我们就正式开始数据挖掘了。

    3.1提取特征

    首先我们要对数据进行处理,从数据中提取特征。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。

    良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。举个例子,我们要辨别一个西瓜是好是坏,可能颜色是一个特征,条纹,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是绿色的,所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹,重量,瓜蒂是判别一个西瓜是好是坏非常重要的因素,因此他们是好特征。

    我们在解决不同问题时,所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此,我们必须紧密的联系业务,去选择合适的特征。

    在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的大数据处理技能。

    3.2建立模型。

    当特征提取完毕后,我们就需要去应用算法建立模型了。在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何加速算法计算速度,是一个非常突出的问题。

    此外,由于传统的数据挖掘算法都是针对小数据集的,当数据规模到了一台服务器无法处理的程度,传统的数据挖掘算法就不再使用。此时,我们需要有新的数据挖掘技术来支持大数据上的数据挖掘

    当模型建立完成之后,我们需要对模型进行评估,来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。

    3.3后期工作。

    当一个效果非常好的模型建立完毕了,我们的数据挖掘就结束了吗?传统的数据挖掘软件往往只做到模型建立这一步,但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来,如何去管理、运行、维护、扩展模型。

    我们先来看看DataInsight对业务的支持。

     

    用户需要针对不同的业务去建立不同的模型,这个建模过程可以由用户自己完成,也可以由明略的大数据科学家去完成。建立好的模型以插件的形式插入到DataInsight中去,方便模型的管理和扩展。

    用户的业务系统会通过APIDataInsight进行通信,来运行或者更新DataInsight中插入的模型。

    一个典型的DataInsight模型运行过程如下:用户通过API调用DataInsight,在请求中指定模型,模型的输入和模型的输出。DataInsight会将数据从数据源中取出,送入模型,并且将模型分成多个步骤,并行化的在分布式执行引擎中运行。当模型运行完毕后,结果将送入用户指定的目的数据库中。这样,用户的应用系统就可以直接从目的数据库中获得模型运行的最新结果了。

    DataInsight中将解决客户业务问题的模型成为业务模型,或者应用。DataInsight对业务模型也进行了一定层次的抽象。每个业务模型都是由若干步骤组成的。每个步骤被称作一个算子。

    上图是一个文本分类的业务模型,其解决的问题是将若干文本进行分类。例如我们有很多文章,我们要对每篇文章的情感进行分类,就可以使用这个模型。

    我们将文本分类模型抽象为很多算子的组合。每个算子都是对数据进行了某种转换,将一组输入转化为一组输出。这个转化过程可能是对数据进行的预处理,也可能是某种机器学习算法。

    每个算子都有输入和输出,且算子的输出可以作为另外一个算子的输入。这样,整个业务模型就抽象成了一个有向无环图(DAG)。DataInsight在执行模型时,会去调度模型中的每个算子,将适合分布式计算的算子送入不同的执行容器中去运行,加速了整个模型的计算速度。

    DataInsight总体的体系架构见下图:

    下面我们介绍一下明略在各个领域中的一些案例。由于时间关系,我这里只举两个案例。

    精准营销

    明略是从秒针系统拆分出来的,秒针系统是一家以互联网精准营销为主要业务的公司,因此明略在精准营销方面有着接近10年的积累。

    首先,明略的大数据平台MDP会将企业各种自由数据,包括CRM数据、交易行为数据以及官网数据等,和第三方数据一起收集起来,并对这些数据进行关联和打通,一起存储到大数据平台MDP中去。

    我们针对企业不同的业务,建立多个模型,例如智能推荐模型,用户画像模型,消费预测模型,商圈聚类模型等等,这些模型作为插件插入到我们的大数据挖掘平台DataInsight中去。

    我们可以将原始数据从MDP中取出,进过DataInsight中模型的计算之后,生成最终的结果数据,结果数据将送入用户画像系统和推荐系统的离线部分。

    用户的推荐系统分为在线和离线两个部分,离线推荐的结果就是DataInsight中计算出来的结果。在线推荐系统将会接收一个在线的推荐请求,通过客户画像系统和离线推荐结果,并结合当时的一些场景,共同计算出最终向用户推荐的物品。

    明略的精准营销系统已经应用到了个性化推荐、精准营销、用户洞察、广告投放等多个领域,并取得了良好的效果。

    智能推荐算法。

    和传统的协同过滤算法不一样,这个算法是采用了分类的思想,通过分类的方法来实现推荐的。

    首先,在进行推荐之前,我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品,也可以是广告,甚至是文章、电影、音乐等等。

    然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库,用户CRM数据库,以及用户行为数据。

    解决了目标和数据之后,我们就需要采集一批有标注的样本。因为是采用的分类算法,这是有监督的算法,所以标注样本是建模的第一步工作。标注就是通过人工来判定用户是否对某个物品感兴趣。

    标注问题解决后,我们就需要从数据中提取特征。我们的特征分为3类:物品自身属性,比如我们推荐的是手机,手机型号,手机价格,手机颜色都是物品的自身属性。其次,我们要提取人的属性,比如人的性别、年龄、收入、教育程度一类。最后,我们还需要知道人和物品的交互关系,他是浏览过商品还是加入过购物车,还是点击过商品,甚至购买过该商品。除了和推荐的商品之间的关系之外,我们还可以将用户和其他商品之间的关系也作为特征。

    这样,我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试,诸如GBDT,逻辑回归,SVM等等。

    当模型建立完毕之后,我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣,以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。

    有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序,最后选出TopK个结果作为最终结果返回。

    设备诊断

    我们的第二个案例是有关设备诊断方案的。 我们知道,工业4.0是目前比较火热的一个话题。而设备诊断正是工业4.0中非常重要的一个应用。

    设备诊断又分为故障诊断和故障预测两大类。故障诊断是当一个设备出现故障,我们需要辨别该故障的类型。故障预测是我们要预测出某个设备在未来会不会出现故障。这是两个截然不同的问题,但是处理的方法是类似的。故障诊断和故障预测已经在多个行业中得到应用,并且已经取得了非常突出的效果。

    明略的故障诊断方案如下图:

    首先,各种设备的数据通过ETL汇聚进大数据平台中去。这些数据包括传感器实时数据,设备历史数据,时间历史数据等等。

    然后,在DataInsight中建立故障诊断和故障预测模型,来对原始的数据进行分析,并得到诊断和预测结果。

    DataInsight中的模型会部署到生产系统中去,通过API和故障诊断和故障预测应用进行交互,提供最终的分析结果给到应用,在应用中根据分析结果进行各种统计和可视化的展现。

    进行故障诊断和故障预测建模有两种方式,其一是传统的方式,其二是通过深度学习的方式。

    这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。

    对于传统方法而言,最复杂的部分是特征选取。上文我们也讲到,只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。

    当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。

    深度学习

    在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:

    比起传统的方法,故障标注这一步是省不掉的,因为我们用的还是一个有监督的方法,这个方法必须要有一批标注好的样本。

    和传统方法不一样的是,我们直接将样本送入深度学习算法,常用的如卷积神经网络去进行训练,来得到最终的故障诊断和预测的结果。

    相比传统方法,深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习,省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道,或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型,其效果往往好于传统方法的模型。

    但是,深度学习算法对数据量的要求非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。

    Q&A

    Q1:数据互联行业主要是指哪些业务?

    A1:数据互联是明略将第三方数据引入到企业中和企业自有数据结合起来去做数据挖掘的业务,这个业务需要对第三方数据如何与企业数据融合,去进行数据挖掘有比较深的理解.

    简单的说,就是帮助用户分析需要什么样的数据,以及从何处去获得这些数据,外部数据和内部数据如何打通,如何去数据挖掘

    Q2:请问领域知识和数据专业知识哪个在实际工作中起的作用更大?

    A2:领域知识和数据专业知识应用的场景不一样。在进行数据挖掘之前,我们首先需要有领域知识。必须明白要解决的问题是什么。只有有了领域知识,并且有数据知识,才能把业务转化为数据挖掘的问题,在进行数据挖掘过程中,数据挖掘知识可能是更关键的,因为你要知道如何去解决这个问题。但是,进行数据挖掘时,还必须根据业务对模型进行调整。

    刚才我也说了,模型调优必须建立合理的评价指标。这个评价指标根据不同的业务可能是不一样的。所以必须有业务知识才能知道如何去调优,才能知道什么样的模型是符合业务需要的,所以,在实际的数据挖掘过程中,领域知识和数据挖掘专业知识都是非常重要的,如果缺乏了任何一种,可能都很难取得比较好的效果。另外大数据挖掘中大数据处理能力也很重要,如果不会处理大数据,或者没有良好的编程能力,也是很难做好的

    Q3:请问一下明略大数据在特征工程上有哪些比较好的经验呢?

    A3:其实特征工程是一个非常dirty的活,需要大量的尝试性工作,明略的经验就是,在做特征工程时,了解业务是第一位,然后需要深入的去调查客户的每一张表,搞明白每一张表的每一个字段,以及字段间的关联关系,我们在实际工作中,经常要调研几百张表去找到我们需要的数据,此外,作为一个合格的数据挖掘人员,或者数据科学家,敏锐力非常重要,能够结合业务知道可以从数据中提取哪些特征。特征提取出来之后,是否是一个好的特征其实是不知道的。我们可以大胆的尝试,多选取一些特征过来。然后在通过特征选择去进行筛选。特征工程是实际建模中最耗人力的过程。我们建模大概70-80%的时间都耗费在这个上面。

    Q4:请问在进行数据挖掘之前的怎么解决数据质量问题?

    A4:坦白的说,数据质量也是困扰我们的问题,目前我们遇到的客户,坦白的说数据很多都是碎片化的。可能是因为之前他们忽略了某些数据的收集,或者他们的数据只是总体样本的一小部分,对于第一种客户,我们会帮助他们制定如何去收集更多的数据,只有数据有了积累,数据质量问题才会解决。对于第二种客户,我们会帮助引入第三方数据,用第三方数据来补充客户现有的数据,大数据的数据质量差是有目共睹的,但是,正是由于数据量大,数据类型多,我们才能从大数据的沙子中挖到金子。如果传统数据是富矿石,大数据就是贫矿石,大数据数据只能以量去取代质。

    Q5:目前未回答问题中排名最高的是这个:二分类分类算法中,负面情况占比很小,训练集数据负面数据如何按比例分?训练集需要调高负面数据的比例吗?对算法有什么影响?

    A5:分类问题中对正负样本的平衡是必须的,这个也是影响最后分类结果的一个很重要的因素,如果样本不平衡,能做的事情是样本增益和样本抽样。比如正样本远远小于负样本,可以对正样本进行复制,或者加上随机扰动来扩充正样本,或者直接对负样本进行抽样。达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合,达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合。

     

    展开全文
  • 基于大数据挖掘----浅谈大数据与大数据挖掘

    万次阅读 多人点赞 2019-01-21 14:38:51
    基于大数据挖掘----浅谈大数据与大数据挖掘 一、大数据技术 1.1大数据的定义 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现...

    基于大数据挖掘----浅谈大数据与大数据挖掘

    一、大数据技术

    1.1大数据的定义

    大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种意义上来说,大数据是为了更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代构架和技术。
    简而言之,大数据就是数据分析的前沿技术,这种技术能从各种各样类型的数据中,快速获得有价值的信息。

    1.2大数据的特点

    可将大数据的特点总结为:规模性(volume)、多样性(variety)、高速型(velocity)和价值性(value)。
    1.规模性:大数据容量巨大,从TB级别,跃升至PB级别,数据容量越来越大已经成为不争的事实。现在一般家庭用的计算机硬盘容量都以TB为单位了,而在各电子商务、游戏、邮箱等,数据容量更是达到PB、EB级别。此外,在用户需求的刺激下,大数据的增长速度也十分惊人。据IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。
    2.多样性:数据类型极多,大数据根据终端显示的不同,可分为文档型、多媒体型、图片型等等。这些类型都与我们的网络活动息息相关,为我们的网上生活提供了丰富多彩的形式。数据多样性的增加主要是由于新型多结构数据,包括网络日志、社交媒体、互联网搜索、手机通话记录及各式传感器网络等数据类型造成的。
    3.高速性:高速指的是数据被创建和移动的速度,即处理海量数据的速度。因此大数据技术离不开云计算的发展,人们通过云计算可从各种类型的数据中快速获得高价值的信息。在高速网络时代,通过高速电脑处理器和服务器,创建实时数据流已成为流行趋势。根据相关调查预测,到2020年全球将拥有220亿部互联网连接设备,这对大数据的处理速度将有着极高的要求。
    4.价值性:人们利用大数据并对其进行正确、准确的分析,将会带来很高的价值回报,但是又因其具有价值密度低的特点,大数据存在不规则和模糊不清的特性,因此很难使用传统的分析软件进行分析。目前,企业面临的挑战是处理并从各种类型的复杂数据中挖掘出价值。

    1.3大数据的发展过程

    大数据的发展和企业信息化的发展密不可分。在上世纪80年代,企业的各类业务、财务数据都是通过账簿记录,查阅和统计都十分不方便,可靠性也不高。从90年代末开始,金融业、电信业、大型零售等行业企业率先将核心交易数据电子化,2000年以后随着IT技术的发展,越来越多的企业将信息化纳入议程,设计、制造、财务等管理逐步数据电子化,这些数据被企业视为最宝贵的资产,随之而起的数据库技术和网络安全技术也渐渐完善。2010年以后,各式各样的数据,包括客户的浏览数据、反馈数据等在一些企业中也都开始记录并逐步进行建模和分析,基于数据挖掘和分析的预测技术也逐步开始出现。
    从过去到现在,数据的价值都在一点一滴的显现,十年前的大数据在如今看来根本不算很大;而同样的,今天的大数据在若干年后也将不再被认为是大数据。数据的容量、处理速度、多样性、复杂度等在今天来看无法想象的事情,若干年之后都会被颠覆。但是唯一不变的,是对数据的思考和分析的方法,以及利用数据来产生附加价值的出发点。

    1.4大数据的意义和价值

    大数据技术具有很高的战略意义,但大数据技术不限于存储海量的数据信息,而在于对这些海量的数据信息进行专业化的处理,如果将大数据比作一种产业,那么大数据产业的关键在于对数据的加工,通过加工数据实现数据的增值。
    大数据不仅在于“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
    对大数据进行分析能揭示隐藏其中的信息。从企业角度来说,其价值大致体现在这些方面:
    1.对于那些为大量消费者提供产品或服务的企业来说,可以利用大数据进行精准营销,例如产品推荐等。许多企业都在收集用户社交媒体数据、浏览器日志、文本分析等数据,来全方位地了解他们的客户。
    2.优化业务流程,利用从社交媒体数据、网络搜索趋势以及天气预报挖掘出的预测信息,零售商可以优化其库存。其中应用最广的业务流程是供应链或配送路线优化。
    3.大数据可以改善每个人的生活,我们利用可穿戴设备(例如智能手表或智能手链)生成的数据,来调整生活作息、睡眠模式等。
    4.大数据可以提高医疗和研发效率,例如在几分钟内解码整个DNA,这让我们可以更加便捷地去寻找新的治疗方法,同时更好地理解和预测疾病模式。
    5.大数据也能大幅度优化机器和设备性能,大数据分析还可以让机器和设备变得更加智能和自主化。
    正如阿里巴巴创办人马云所提到,未来的时代将不是 IT 时代,而是 DT的时代,DT就是 Data Technology,即数据科技。这显示出大数据在未来的发展中具有极其重要的作用,未来将是大数据的时代。

    二、数据挖掘

    2.1数据挖掘的定义

    数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程并且从大量数据中寻找其规律的技术,它是统计学、数据库技术和人工智能技术的综合。
    数据挖掘作为信息获取的一门重要技术,得到了广泛的研究。数据挖掘从大量的数据中挖掘出有用的信息,提供给决策者做决策支持,有着广阔的应用前景。

    2.2数据挖掘的前提–数据采集

    大数据技术第一步就是采集数据。数据采集的多样性、完整性、准确性,决定了数据挖掘的成果以及后期预测的可靠性。
    在大数据时代,数据采集有以下三个特点:
    1.数据采集以自动化手段为主,要尽量摆脱人工录入的方式。
    2.采集内容以全量采集为主,要摆脱对数据进行采样的方式。
    3.采集方式多样化、内容丰富化,摆脱以往只采集基本数据的方式。
    从采集数据的类型上看,不仅要涵盖基础的结构化数据,还要逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈数据,网络爬虫获取的互联网数据,以及未来越来越多有潜在意义的各类数据。
    移动互联网的兴起让移动设备的数据采集技术有了迅速发展,目前使用最多的为Android或IOS的采集 SDK,这种技术能帮助统计 APP 的基础数据,包括用户数、活跃情况、流失比例、使用时长等;用户的位置、安装列表、通讯情况等通过授权也可以采集。

    2.3数据挖掘的步骤与方法

    数据挖掘的一般步骤为数据集选取、数据预处理、数据转换、数据建模、结果分析改进等。通常程序为:问题分析;提取、清洗与校验数据;创建与调试模型;数据挖掘模型维护。
    在数据挖掘的过程中,需要挖掘的数据类型种类繁多, 可能是有结构的数据,如组织成表结构的数据;也可能是无结构的数据, 如文本数据;还可能是半结构化的数据,如Web页面数据;甚至是图像或视频等多媒体数据。由于挖掘的数据类型多样,因此其涉及的技术方法很多。
    根据挖掘任务可分为五种:分类与回归、聚类分析、关联分析、时间序列分析和偏差检测。在数据库挖掘中,C4.5(决策树算法),遗传算法等,其中决策树方法与神经网络方法是其关键方法。
    而挖掘方法又可以分为:机器学习方法、统计方法、神经网络方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
    在现在信息爆炸的时代,数据挖掘的信息源中的数据都是海量的,并且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成为数据挖掘发展过程中一个必须解决的问题。

    2.4数据挖掘的功能

    在大数据时代下,基于大数据的数据挖掘有着无比重要的意义,人们通过对大量数据的专业分析,可以对现有的商业模式、企业决策提供数据支持。目前,几乎所有的知名企业中的管理建议都是以数据分析结论作为依据而提出的,在分析和解决问题时也开始倾向于用数据说话,不掌握大量数据时无法提出合理的、科学的、可行的建议的。此外,当大量的数据量积累到一定程度时,再对这些数据进行分析处理后,人们就可以从这些数据中找到感兴趣的有效的信息。
    因此数据挖掘可以预测未来趋势及行为,做出前瞻性、基于大数据发展趋势的决策。总的来讲主要有以下五类功能:自动预测趋势和行为;关联分析,找出数据库中隐藏的关联网;聚类,增强了人们对客观现实的认识;概念描述,对某类对象的内涵进行描述,并概括这类对象的有关特征;偏差检测,寻找观测结果与参照值之间有意义的差别。

    2.5数据挖掘的应用

    随着社会信息化程度的持续提高,数据挖掘技术也渐渐发展变成了一门独立的学科。数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据需要,经过分类技术对数据实施分类挖掘。在各行各业中,均存在着数据挖掘的身影。
    (1)金融。金融事务需要收集和处理大量的数据,通过对这些数据进行分析,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融市场的变化趋势。
    (2)医疗保健。例如在2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终Google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。这对医疗保健品的运输调度以及需求规划起了很重要的作用。
    (3)市场业。市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。例如农夫山泉利用大数据解决了怎样摆放水堆更能促进销售?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?物流运输调度等问题。
    (4)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
    在云计算平台Hadoop基础上,中国科学院计算技术研究所开发的并行分布式数据挖掘平台——PDMiner。PDMiner 实现了各种并行数据挖掘算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;实现的并行算法可以在商用机器构建的并行平台上稳定运行,可以有效地应用到实际海量数据挖掘中。

    三、基于大数据的数据挖掘

    概括地说,大数据挖掘包括基于内容的大数据挖掘与基于结构的大数据挖掘。大数据分析是指对规模巨大的数据进行分析。大数据作为时下火热的 IT 行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士谈论的焦点。

    3.1基于内容的大数据挖掘

    基于内容的大数据挖掘包括网络搜索技术与实体关联分析研究。
    社会媒体的出现使得网络搜索研究的热点转移到了排序学习算法,专注于提高检索质量。排序学习算法以损失函数为优化目标,将文档表示为特征向量,寻找在搜索领域中常用的评价标准下的最好的排序函数。目前现有的模型在处理用户需求的多样性、重要性和相关性等不同的目标,在排序方面仍有不足。
    命名实体是具体或者抽象但具有特定意义的实体。从大数据中挖掘其蕴含的内在知识,需要研究对命名实体以及命名实体关系的数据挖掘。

    3.2基于结构的大数据挖掘

    社会网络是以用户为节点,用户间的关系为连线而构建的网络,它既是用户间社会关系的反映,也是用户之间进行信息交互的载体。
    在社会网络中,个体因自身各种因素进而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,它的存在对于大数据的高效搜索、网络演化、信息扩散等具有重要意义。

    四、大数据挖掘的发展趋势

    未来的时代必然是大数据的时代,信息时代逐渐变为数据时代,一切将与数据密不可分。

    4.1未来大数据的发展趋势

    数据的资源化,大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。
    1.商业智能
    企业决策正在经历的转变将延续到未来。处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到未来及以后,处理大数据的成本将继续降低。
    2.数据分析将包含可视化模型
    数据可视化和数据发现将成为一股重要趋势。
    数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式。作为一种把数据变成可视化的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取信息的必要组成部分。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择。
    3.机器学习
    机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在大数据时代,机器学习将变得更聪明、更快速、更有效。

    4.2未来数据挖掘的发展趋势

    在许多领域,数据挖掘都是热点问题。用数据挖掘技术解决问题的类型、解决数据挖掘的数据准备工作及数据挖掘的理论基础都日趋成熟与完善。在大数据时代下,数据挖掘的发展趋势可以体现在以下5个层面。
    1、多媒体数据挖掘
    大数据时代下,视、音频、图像等都属于多媒体数据,随着时代的发展,海量的数据结构变得复杂化和动态化。无人机和无人车的实际应用、智慧医疗项目的全面发展都会要求对多媒体数据进行快速处理,为了得到更理想的效果,得到的效果变得最优化,需要开发和设计数据挖掘的新智能算法。
    2、网络与分布式环境下的KDD问题
    随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
    3、数据挖掘算法的改进和可视化
    可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。如今,学术研究主要集中在精度和效率之间设定适当的临界值和对数据挖掘的结果进行可视化两个方面。针对数据挖掘算法中的新贵——RNN、CNN、DNN、Capsule等一系列深度学习算法的研究,将成为引领大数据研究方法的风向标。
    4、数据挖掘和隐私保护
    在解决实际问题时,难免会涉及隐私的数据,例如在研究信用卡和用户之间的关系时,数据中难免会有用户的个人信息;在研究宫颈癌(危险因素)与人的年龄、怀孕次数、性伴侣数等关系时,会有部分隐私信息不便透漏外界。在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏处理,将成为人们研究数据挖掘的另一个重要方面。
    5、数据挖掘与数据库系统和Web数据库系统的集成
    数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合。

    五、结论

    本文主要介绍了大数据技术的定义、特点、发展过程、总结了其意义和价值;还介绍了数据挖掘技术定义、步骤与方法、以及数据挖掘技术的功能和应用,归纳总结了在大数据时代下大数据和数据挖掘技术未来的发展趋势。
    在这个大数据时代,大数据不仅让我们不再期待精确性,也让我们无法实现精确性。我们用数据驱动的大数据的相关关系分析法,取代了传统的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。
    在各个领域,时刻都会产生海量数据,由于社会存在过多的不确定性因素,导致处理的数据类型越来越繁杂,传统的处理方法已经不再使用,但是数据挖掘技术则为解决大数据问题开辟了一个新途径。未来的时代是DT时代,数据挖掘技术会面对更加严峻的挑战,利用数据挖掘的相关算法,处理实际问题和分析数据的能力将会更加显著。
    在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们将会发现以前不曾发现的联系。

    展开全文
  • 如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则...

    数据挖掘十大经典算法系列,点击链接直接跳转

    一 概念介绍

    定义: 数据挖掘(Data mining)又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。是计算机科学的一种。 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

    应用: 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

    数据挖掘利用了来自如下一些领域的思想:
    (1)统计学的抽样、估计和假设检验;
    (2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论;
    (3)最优化、进化计算、信息论、信号处理、可视化和信息检索;
    (4)数据库系统提供有效的存储、索引和查询处理支持;
    (5)高性能(并行)计算技术处理海量数据集;
    (6)分布式技术处理非集中分布海量数据。
    在这里插入图片描述
    图1 数据挖掘的系统模型

    二 方法简介

    1. 分类 (Classification)

    首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
    应用:
    a. 信用卡申请者,分类为低、中、高风险
    b. 故障诊断:中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。
    注意: 类的个数是确定的,预先定义好的

    2. 回归(regression )

    回归与分类类似,不同之处在于,分类描述的是离散型变量的输出,而回归处理连续值的输出;分类的类别是确定数目的,回归的量是不确定的。
    应用:
    a. 根据购买模式,估计一个家庭的孩子个数
    b. 根据购买模式,估计一个家庭的收入
    c. 估计real estate的价值
    一般来说,回归可以作为分类的前一步工作。给定一些输入数据,通过回归,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

    3. 聚类(Clustering)

    聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
    例子:
    a. 一些特定症状的聚集可能预示了一个特定的疾病
    b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
    聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

    4. 相关性分组或关联规则(Affinity grouping or association rules)

    决定哪些事情将一起发生。
    例子:
    a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
    b. 客户在购买A后,隔一段时间,会购买B (序列分析)

    5. 描述和可视化(Description and Visualization)

    是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)的统称。通过可视化工具进行数据的展现,分析,钻取,将数据挖掘的分析结果更形象,深刻的展现出来。

    三 应用领域

    从目前网络招聘的信息来看,大小公司对数据挖掘的需求有50多个方面:
    1、数据统计分析
    2、预测预警模型
    3、数据信息阐释
    4、数据采集评估
    5、数据加工仓库
    6、品类数据分析
    7、销售数据分析
    8、网络数据分析
    9、流量数据分析
    10、交易数据分析
    11、媒体数据分析
    12、情报数据分析
    13、金融产品设计
    14、日常数据分析
    15、总裁万事通
    16、数据变化趋势
    17、预测预警模型
    18、运营数据分析
    19、商业机遇挖掘
    20、风险数据分析
    21、缺陷信息挖掘
    22、决策数据支持
    23、运营优化与成本控制
    24、质量控制与预测预警
    25、系统工程数学技术
    26、用户行为分析/客户需求模型
    27、产品销售预测(热销特征)
    28、商场整体利润最大化系统设计
    29、市场数据分析
    30、综合数据关联系统设计
    31、行业/企业指标设计
    32、企业发展关键点分析
    33、资金链管理设计与风险控制
    34、用户需求挖掘
    35、产品数据分析
    36、销售数据分析
    37、异常数据分析
    38、数学规划与数学方案
    39、数据实验模拟
    40、数学建模与分析
    41、呼叫中心数据分析
    42、贸易/进出口数据分析
    43、海量数据分析系统设计、关键技术研究
    44、数据清洗、分析、建模、调试、优化
    45、数据挖掘算法的分析研究、建模、实验模拟
    46、组织机构运营监测、评估、预测预警
    47、经济数据分析、预测、预警
    48、金融数据分析、预测、预警
    49、科研数学建模与数据分析:社会科学,自然科学,医药,农学,计算机,工程,信息,军事,图书情报等
    50、数据指标开发、分析与管理
    51、产品数据挖掘与分析
    52、商业数学与数据技术
    53、故障预测预警技术
    54、数据自动分析技术
    55、泛工具分析
    56、互译
    57、指数化
    其中,互译与指数化是数据挖掘除计算机技术之外最核心的两大技术。

    四 应用依据

    第一,目标律:业务目标是所有数据解决方案的源头。
    第二,知识律:业务知识是数据挖掘过程每一步的核心。
    第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要。
    第四,试验律(NFL律:No Free Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才能被发现。
    第五,模式律(大卫律):数据中总含有模式。
    第六,洞察律:数据挖掘增大对业务的认知。
    第七,预测律:预测提高了信息泛化能力。
    第八,价值律:数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性。
    第九,变化律:所有的模式因业务变化而变化。 [2]

    五 十大经典算法

    在这里插入图片描述

    1. C4.5

    数据挖掘十大经典算法之——C4.5 算法

    2. K-means算法

    数据挖掘十大经典算法之——K-Means 算法

    3. SVM

    数据挖掘十大经典算法之——SVM 算法

    4. Apriori

    数据挖掘十大经典算法之——Apriori 算法

    5. EM

    数据挖掘十大经典算法之——EM 算法

    6. pagerank

    数据挖掘十大经典算法之——PageRank 算法

    7. Adaboost

    数据挖掘十大经典算法之——AdaBoost 算法

    8. KNN

    数据挖掘十大经典算法之——KNN 算法

    9. Naive Bayes

    数据挖掘十大经典算法之——Naive Bayes 算法

    10. CART

    数据挖掘十大经典算法之——CART 算法

    六 关联规则

      数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间存在有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

    1. 过程

      关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。

      关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。

      关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

      关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

    2. 分类

    按照不同情况,关联规则可以进行分类如下:

    1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
    布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类
    型,所以是一个数值型关联规则。

    2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
    在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

    3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
    在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。 [2]

    3. 算法

    1.Apriori算法:使用候选项集找频繁项集
      Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
    该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
    可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。

    2.基于划分的算法
      Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。

    3.FP-树频集算法
      针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

    4. 应用

      就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
    同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
      但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
    近年来,电信业从单纯的语音服务演变为提供多种服务的综合信息服务商。随着网络技术和电信业务的发展,电信市场竞争也日趋激烈,电信业务的发展提出了对数据挖掘技术的迫切需求,以便帮助理解商业行为,识别电信模式,捕捉盗用行为,更好地利用资源,提高服务质量并增强自身的竞争力。下面运用一些简单的实例说明如何在电信行业使用数据挖掘技术。可以使用上面提到的K 均值、EM 等聚类算法,针对运营商积累的大量用户消费数据建立客户分群模型,通过客户分群模型对客户进行细分,找出有相同特征的目标客户群,然后有针对性地进行营销。而且,聚类算法也可以实现离群点检测,即在对用户消费数据进行聚类的过程中,发现一些用户的异常消费行为,据此判断这些用户是否存在欺诈行为,决定是否采取防范措施。可以使用上面提到的C4.5、SVM 和贝叶斯等分类算法,针对用户的行为数据,对用户进行信用等级评定,对于信用等级好的客户可以给予某些优惠服务等,对于信用等级差的用户不能享受促销等优惠。可以使用预测相关的算法,对电信客户的网络使用和客户投诉数据进行建模,建立预测模型,预测大客户离网风险,采取激励和挽留措施防止客户流失。可以使用相关分析找出选择了多个套餐的客户在套餐组合中的潜在规律,哪些套餐容易被客户同时选取,例如,选择了流量套餐的客户中大部分选择了彩铃业务,然后基于相关性的法则,对选择流量但是没有选择彩铃的客户进行交叉营销,向他们推销彩铃业务。 [2]

    5. 研究

      由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。

    6. 相关性和区别

      一个经常问的问题是,数据挖掘和OLAP到底有何不同。下面将会解释,他们是完全不同的工具,基于的技术也大相径庭。
    OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。
    也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。
      数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。
    数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。
    而且在知识发现的早期阶段,OLAP工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。
    相关技术
      数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。
    数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。
    一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。
      数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
    相关影响
      使数据挖掘这件事情成为可能的关键一点是计算机性能价格比的巨大进步。在过去的几年里磁盘存储器的价格几乎降低了99%,这在很大程度上改变了企业界对数据收集和存储的态度。如果每兆的价格是¥10,那存放1TB的价格是¥10,000,000,但当每兆的价格降为1毛钱时,存储同样的数据只有¥100,000!
    计算机计算能力价格的降低同样非常显著。每一代芯片的诞生都会把CPU的计算能力提高一大步。内存RAM也同样降价迅速,几年之内每兆内存的价格由几百块钱降到现在只要几块钱。通常PC都有64M内存,工作站达到了256M,拥有上G内存的服务器已经不是什么新鲜事了。
      在单个CPU计算能力大幅提升的同时,基于多个CPU的并行系统也取得了很大的进步。目前几乎所有的服务器都支持多个CPU,这些SMP服务器簇甚至能让成百上千个CPU同时工作。
    基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的办法就是利用一个本地的并行数据库。
    所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。 [2]

    【参考资料】百度百科-数据挖掘

    展开全文
  • 数据挖掘思维导图

    千次阅读 2019-12-24 10:29:23
    以下是大学课程数据挖掘的思维导图,仅供参考学习。
  • 机器学习和数据挖掘

    千次阅读 2020-10-27 21:08:00
    数据分析,或者说数据挖掘,目的是从大数据中寻找到有趣模式和知识。 数据挖掘,使用到了多种技术,包括统计学,模式识别,可视化,机器学习等等。今天我们来探究一下在数据挖掘领域,有哪些算法可以使用。 女士...
  • 数据挖掘考试习题汇总

    千次阅读 2020-06-25 15:50:36
    2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理...
  • 人工智能之数据挖掘

    万次阅读 2019-02-21 23:31:06
    数据挖掘(Data Mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在大规模数据中发现隐含模式的计算过程。基于大数据时代的背景,本研究报告对数据挖掘这一课题进行了...
  • python 数据挖掘与分析实战

    千次阅读 2020-04-15 14:38:28
    某知名连锁餐饮企业的困惑 国内某餐饮连锁有限公司(以下简称T餐饮)成立于1998年,主要经营菜,兼顾湘菜、...其旗下各分店均坐落在繁华市区主干道,雅致的装潢,配之以精致的饰品、灯具、器物,出品精美,服务规范。...
  • 数据挖掘基础之数据库

    千次阅读 2018-07-19 21:11:37
    最近出现的一种数据库结构是数据仓库(1.3.2 小节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库 技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析...
  • 数据挖掘方案

    万次阅读 2018-01-31 09:22:48
    spark是实时大数据分析、挖掘的流行方案,hadoop是大数据存储和运行的流行方案,本demo主要表述用spark + hadoop如何做大数据挖掘的通用方案,包含了,包括了环境资源整合、spark和hadoop的整合,各部分模块的关系,...
  • 专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模、类型以及研究者的需求等特点,并作了优化;而通用型数据挖掘软件不区分具体数据的含义,能处理常见的数据类型...
  • 数据挖掘数据集汇总

    万次阅读 多人点赞 2017-06-30 11:52:49
    网友提供的大数据的素材集合,感谢网友的无私奉献 整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。欢迎数据达人加入QQ群 565136792 交流。 金融 美国劳工部统计局官方...
  • 数据挖掘:严格的科学定义上,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。 从技术角度分析,数据挖掘就是利用一...
  • 数据挖掘

    千次阅读 2021-03-07 15:49:14
    数据挖掘的定义:数据挖掘(Data Mining)DM,是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的,人们事先不知道的、具有潜在利用价值的信息和知识的过程。 这个定义包含几层含义: 数据源...
  • 大数据时代下数据挖掘技术的应用

    万次阅读 多人点赞 2018-11-09 15:49:28
    随着社会信息化的迅速发展,无论是数据的变化速率,还是数据的新增种类都在不断更新,数据研究变得越来越复杂,这意味着“大数据时代”到来。2011年,互联网数据中心(internet data center,IDC)将大数据重新定义...
  • 数据沉淀 用大白话说就是数据抓取。...比如我们自己就开发了一套完整的软硬件方案,优势是高ROI(投资回报比),且免费提供给物业管理者,帮助其实现靠网费赚钱以及推广费赚钱。在与其协商的基础上,...
  • Web抓取,Web采集,Web挖掘,数据分析,数据挖掘等。有些词在某些时候可以互换,这使得理解起来更加困难。在竞争激烈的营销行业,深刻全面理解这些术语将有益于业务提升。 什么是数据采集? 数据采集意味着从...
  • 数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。 免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见...
  • 数据挖掘——糖尿病预测

    万次阅读 2020-05-21 07:49:07
    糖尿病数据集是Sklearn 提供数据集。它从442例糖尿病患者的资料中取10个特征:年龄、性别、体重、血压和6个血清测试量值,以及患者在一年后疾病发展的量化值(标签)。 二、实验目的 根据上述10个特征,预测...
  • 第一章 可视化数据挖掘概述   可视化数据挖掘技术对于大多数人来说是一个陌生的事物,让读者在较短的时间内快速熟悉它就是本书第1章的任务。本书会从基础知识讲起,由浅至深,逐步介绍可视化数据挖掘的知识。 ...
  • 数据挖掘实战—电商产品评论数据情感分析

    千次阅读 多人点赞 2021-04-10 16:24:58
    文章目录引言一、评论预处理1.评论去重2.数据清洗二、评论分词1.分词、词性标注、去除停用词2.提取含名词的评论3.绘制词云查看分词效果三、构建模型1.评论数据情感倾向分析1.1 匹配情感词...定义如下挖掘目标: 对京东
  • 数据挖掘主要包含哪些功能?

    万次阅读 2019-02-27 11:10:49
    数据挖掘的功能主要包括,数据分类、数据估计、数据预测、数据关联分组、数据聚类,及数据循序样式采矿等六大功能。 数据分类 数据分类为数据挖掘中常见的功能之一,顾名思义即是将分析对象依不同的属性分类加以...
  • 关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等...
  • 一、什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息的过程...
  • 从数据中“淘金”,从大量数据(文本)中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。 它是利用...
  • 数据挖掘技术 知识点整理

    千次阅读 多人点赞 2019-12-31 16:35:01
    数据仓库存储的数据粒度越细,则占用的存储空间越大,但提供的更细节的查询 Q3. 知识发现概念 定义:知识发现(KDD)就是采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖...
  • 数据挖掘综述报告

    千次阅读 2019-07-25 00:28:17
    1.数据挖掘产生于发展: 在金融业方面, 数据挖掘的应用突出表现在信用评估和防止欺诈等方面。PaoloGiudici和OliviaParrRud对利用神经网络、logistic回归和决策树方法进行信用评估的相关问题进行了阐述。...
  • 就目前而言,数据的搜集方法已经相当成熟,而数据挖掘的技术正可以帮助分析这些数据。 利用各种技术与统计方法,对大量的历史数据进行分析、归纳与整合,找出感兴趣的特征且有意义的数据,数据挖掘不属于某一个单一...
  • (一)数据挖掘概念与技术——韩家炜

    万次阅读 多人点赞 2017-09-04 11:49:08
    第三版 25页 数据挖掘又称知识发现(KDD:Knowledge Discovery in Database),即“从数据中挖掘知识”。  丰富的数据以及对强有力的数据分析工具的需求,这种情况被描述为“数据丰富,但信息匮乏”。数据挖掘...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 153,300
精华内容 61,320
关键字:

数据挖掘提供数据服务