精华内容
下载资源
问答
  • 数据挖掘工具

    千次阅读 2018-09-06 19:18:14
    一、产品简介: 顶尖数据挖掘平台(TipDM)是广州泰迪智能科技有限公司自主研发的一个数据挖掘工具,使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型(目前已集成数十种预测算法和分析技术,...

    转载:http://class4715.iteye.com/category/337125

    TipDM数据挖掘建模工具 
    一、产品简介: 顶尖数据挖掘平台(TipDM)是广州泰迪智能科技有限公司自主研发的一个数据挖掘工具,使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型(目前已集成数十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算法)。工具支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测建模(参数设置、交叉验证、模型训练、模型验证、模型预测);聚类分析、关联规则挖掘等一系列功能。 
    二、适用对象: 在线数据挖掘平台(www.tipdm.cn),适合有数据挖掘研究需要的单位及个人,用户不用安装系统,而是通过浏览器直接在线使用。利用系统提供的方案管理、数据管理、数据预处理、数据探索、预测建模、模型评价等功能,同时借助平台提供的《数据挖掘:实用案例分析》,可帮助用户快速形成科研成果的解决方案。必要时提供一对一咨询指导服务,是辅助用户进行科研项目建模的最佳选择工具。 
    三、相关资料详见:http://www.tipdm.com/html/p/catid1.html 
    用户也可通过百度网盘下载(抵制盗版,尊重版权),提取密码: 8m7b 
    RapidMiner数据挖掘建模工具 
    RapidMiner也叫YALE (Yet Another Learning Environment, https://rapidminer.com) ,提供了图形化界面,采用了类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构建,也就是说它可以调用Weka中的各种分析组件。 
       为了将RapidMiner和Hadoop集成起来,创建扩展接口Radoop,它为RapidMiner提供其他的操作接口,可以在hadoop集群上运行任务;并且可以重用hive和mahout中的某些数据分析功能。 
       功能和特点 
         > 免费提供数据挖掘技术和库 
         > 100%用Java代码(可运行在操作系统) 
         >  数据挖掘过程简单,强大和直观 
         >  内部XML保证了标准化的格式来表示交换数据挖掘过程 
         >  可以用简单脚本语言自动进行大规模进程 
         >  多层次的数据视图,确保有效和透明的数据 
         >  图形用户界面的互动原型 
         >  命令行(批处理模式)自动大规模应用 
         >  Java API(应用编程接口) 
         >  简单的插件和推广机制 
         >  强大的可视化引擎,许多尖端的高维数据的可视化建模 
         > 已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘 
    有关介绍详见:http://www.tudou.com/plcover/jjUp0rz9Bns/ 
    KNIME数据挖掘建模工具 
    KNIME (Konstanz InformationMiner,http://www.knime.org)是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程,挖掘流程由一系列功能节点组成,每个节点有输入/输出端口,用于接收数据或模型、导出结果。 
    KNIME(Konstanz InformationMiner, http://www.knime.org)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装,方便使用。和YALE一样,KNIME也是用Java开发的,可以扩展使用Weka中的挖掘算法。和YALE不同点的是,KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程(和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似)。挖掘流程由一系列功能节点(node)组成,每个节点有输入/输出端口(port),用于接收数据或模型、导出结果。(IDMer:感觉KNIME比Weka的KnowledgeFlow更好用,连接节点时很方便,直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键,再选择后续节点,比较麻烦,刚开始使用时找了半天才知道怎么连) 
    KNIME中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。在KNIME中有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。 
    WEKA数据挖掘建模工具 
    WEKA (Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,WEKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。 
    和R相比,Weka在统计分析方面较弱,但在机器学习方面要强得多。在Weka论坛 (http://weka.sourceforge.net/wiki/index.php/Related_Projects) 可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。 
    MATLAB 数据分析工具箱 
    MATLAB(矩阵实验室)是MATrix LABoratory的缩写,是一款由美国MathWorks公司出品的工程与科学计算软件。它是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。它具有下列优势:1)MATLAB程序语言易学,其代码编辑、调试交互式环境比较人性化,易于初学者上手;2)MATLAB软件较其他软件具有较高的灵活性,用户可以自己编写自定义函数来满足自己的需求,同时MATLAB自身提供较多的函数,用户可以进行直接调用;3)MATLAB具有较多的网络资源,一些用户根据自己的需要定义一些较新的算法或函数工具箱放在网络上共享。 
        MATLAB是一个庞大的应用软件,主要包括核心的MATLAB基础工具箱和各专业领域的其他工具箱。在数据分析、数据挖掘领域MATLAB更是具有莫大优势,本书针对数据分析和挖掘相关的内容采用原理加实战的方式来对MATLAB相关函数进行介绍。在本章节中会对MATLAB软件的安装、一些数据分析和挖掘相关的工具箱以及简单函数的示例进行简单介绍,在接下来的原理章节介绍中,首先介绍数据挖掘分析的相关原理,然后针对每个原理选取MATLAB相关函数进行实战演示,使读者不仅对数据挖掘相关原理比较清晰,同时可以使用本书提供的MATLAB相关实例来切实的感受的相关数据挖掘原理的精髓。 
    对于初学者,可以在MATLAB的官方网站:https://cn.mathworks.com/programs/trials/trial_request.html?prodcode=ML&s_iid=main_trial_ML_cta1 下载试用版进行安装学习。 
    Microsoft SQL Server数据挖掘建模工具 
    Microsoft SQL Server 数据挖掘让用户能够通过直观的数据挖掘的预测性分析来做出明智合理的决策,无缝地整合 Microsoft 商业智能平台并可扩展至商业应用程序。 
    用户会因为许多丰富且创新的数据挖掘算法而获益良多,这些算法大多是由 Microsoft 研究人员所开发,其目的是为了更快速并且准确地支持常见的商业问题。 
    产品功能: 
        > 购物篮分析 - 探究使用者经常会一起购买哪些项目,以便产生实时的采购建议及判断产品的位置如何直接影响用户的购买决策 
        > 客户流失分析 - 预先处理可能会考虑取消其服务的客户,并指出可让这些客户留下来的好处 
        > 市场分析 - 自动将类似的客户分组在一起来定义市场分割。使用这些细分市场可寻找有获利机会的客户 
        > 预测 - 预测销售和存货数量并了解两者之间的相互关联性,以便预测瓶颈及提高性能 
        > 数据浏览 - 分析不同客户之间的获利机会,或是将偏爱同一产品但品牌不同的客户进行比较,以便找出新的机会 
        > 无人监督的学习方式 - 指出企业内不同元素之间的先前未知关系,让您根据多方情报做出更好的决策 
        > 网站分析 - 了解人们如何使用您的网站并将类似的使用模式分组在一起,以便提供更好的使用经验给用户 
        > 营销活动分析 - 针对最有可能响应促销活动的客户进行促销,以更有效的方式使用营销经费 
        > 信息质量 - 指出数据输入或数据加载期间的异常情况并加以处理,以提高信息的质量 
        > 文字分析 - 分析多方意见,以找出有关客户或员工所关心的常见话题和趋势,使用未经过组织的输入数据来做出决策 
    开发环境: 
        > 具备可执行的深入洞察力,利用 Business Intelligence Development Studio (BIDS) 来快速且精确地做出决策。 
        > 使用数据挖掘向导和数据挖掘设计工具来建立复杂的模型和交互式视觉效果 
        > 使用增益图和收益图及交叉验证,以视觉和统计方式比较及对照模型的质量,看看是否正确,然后再加以部署
        > 用户因为弹性的增加而获益,让他们能够针对筛选过的数据建立多个不同的数据挖掘模型 
    对于初学者,可以在MICROSOFT的官方网站:http://www.microsoft.com/china/sql/2008/overview.aspx 下载试用版进行安装学习。 
    SAS Enterprise Miner数据挖掘建模工具
     
    SAS Enterprise Miner(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。 
        SAS Enterprise Miner是在数据挖掘市场上令人敬畏的竞争者。 SAS Entelprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外,此界面允许把处理结点直接插入到数据流中。由于支持多种模型,所以Enterprise Miner允许用户比较(评估)不同模型并利用评估结点选择最适合的。另外,Enterprise Miner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。 
        SAS Enterprise Miner能运行在客户/服务器上或(计算机的外围设备)能独立运行的配置上。此外,在客户/服务器模式下,Enterprise Miner允许把服务器配置成一个数据服务器、计算服务器或两者的综合。EntepnseMiner被设计成能在所有SAS支持的平台上运行。该结构支持胖客户机配置(要求客户机上的完全SAS许可证)以及瘦客户机(浏览器)版本。 
        数据访问、操纵和预处理:直接数据界面贯穿于SAS数据集。然而,数据也能通过标准SAS数据程序(例如:访问RDBMS和PC格式数据的ACCESS被访问。对Oracle、Informix、Sybase和DB2RDBMS的支持是通过ACCESS来实现。 
        数据操纵能力包括通过基本SA3引擎可用的所有特征。此外,各种各样的数据取样和数据划分技术也通过合适的EntelprjseMiner结点被支持。 
    IBM SPSS Modeler数据挖掘建模工具 
    IBM SPSS Modeler原名Clementine,2009年被IBM收购后对产品的性能和功能进行了大幅度改进和提升。它封装了最先进的统计学和数据挖掘技术,来获得预测知识并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,SPSS Modeler具有功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终。 
        拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测性模型。使用SPSS Modeler,可以有效挖掘和维系客户;提高客户的生命周期价值;识别并最小化风险和欺诈;给不同的客户提供个性化服务。 

    展开全文
  • 电子商务网站的网上业务量巨大,在每天的大量业务中蕴涵了许多用户的隐藏信息。...而通过把数据挖掘在 123 上的应用,即123 .&4&45; 技术,公司可以利用有效的顾客信息,发掘潜在的市场,提高竞争力。
  •  在完成数据挖掘技术教程之后,我们将讨论最佳的数据挖掘工具。此外,我们将尝试介绍顶级和最佳的数据挖掘工具和技术。此外,我们将为每种工具提及该工具是否为开源。  因此,让我们启动数据挖掘工具。   ...

      一、目的

      在完成数据挖掘技术教程之后,我们将讨论最佳的数据挖掘工具。此外,我们将尝试介绍顶级和最佳的数据挖掘工具和技术。此外,我们将为每种工具提及该工具是否为开源。

      因此,让我们启动数据挖掘工具。

      

    AAA教育

     

      什么是数据挖掘工具

      二、数据挖掘工具

      1、快速矿工

      

    大数据分析挖掘工具

     

      可用性:开源

      数据挖掘工具– Rapid Miner

      它是最好的预测分析系统之一。此外,它是由公司开发的,名称与Rapid Miner相同。这是写在JAVA编程语言。它提供了用于深度学习的集成环境。

      该工具可用于广泛的应用程序。因为它包括用于商业应用程序,商业应用程序,培训,教育等。

      Rapid Miner提供服务器作为本地和公共/私有云基础架构。它以客户端/服务器模型为基础。Rapid Miner带有基于模板的框架。而且,它可以减少错误数量,实现快速交付。

      快速矿工构成的三个模块,即

      RM Studio-此模块用于工作流设计,原型制作,验证等。

      Rapid Miner Server-操作在Studio中创建的预测数据模型

      RM Radoop- 直接在Hadoop集群中执行流程以简化预测分析。

      2、橙子

      

    大数据分析挖掘工具

     

      可用性:开源

      数据挖掘工具–橙色

      Orange是用于机器学习和数据挖掘的完美软件套件。它是最有助于数据可视化的软件,它是基于组件的软件。

      由于橙色软件是一种软件,因此称为 “小部件”。

      小部件提供主要功能,例如

      1)显示数据表并允许选择功能

      2)读取数据

      3)训练预测变量并比较学习算法

      4)可视化数据元素等

      此外,它为沉闷的分析工具带来了更具交互性和乐趣的氛围,操作非常有趣。

      3、威卡

      

    大数据分析挖掘工具

     

      可用性:免费软件

      数据挖掘工具– Weka

      该软件由新西兰怀卡托大学开发。它最适合数据分析和预测建模。它包含支持机器学习的算法和可视化工具。

      Weka具有一个GUI,可轻松访问其所有功能。这是写在JAVA编程语言。

      4、尼米

      

    大数据分析挖掘工具

     

      可用性:开源

      数据挖掘工具– KNIME

      KNIME是用于数据分析的最佳集成平台。也由KNIME.com AG开发。它基于模块化数据管道的概念进行操作。KNIME 由嵌入在一起的各种机器学习 和数据挖掘组件组成。

      它已用于药物研究。另外,它还执行客户数据分析,财务数据分析。

      KNIME具有一些出色的功能,例如快速部署和扩展效率。用户用更少的时间熟悉KNIME。而且,它使甚至天真的用户也可以使用预测分析。

      5、西森

      

    大数据分析挖掘工具

     

      可用性:许可

      数据挖掘工具– Sisense

      Sisense 非常有用,最适合BI软件。它涉及组织内的报告目的。它是由同名“ Sisense”的公司开发的。它具有出色的处理能力。同样,为小型/大型组织处理数据。

      它允许组合来自各种来源的数据以构建公共存储库。此外,优化数据以生成丰富的报告。跨部门共享以进行报告。

      Sisense荣获2016年最佳BI软件奖,至今仍处于良好位置。

      Sisense生成高度可视化的报告。它是专门为非技术用户设计的。它允许拖放功能以及小部件。

      6、SSDT(SQL Server数据工具)

      

    大数据分析挖掘工具

     

      可用性:许可

      SSDT是一种通用的声明性模型。我们使用此模型来扩展Visual Studio IDE中数据库开发的所有阶段。并开发来做数据分析和提供商业智能解决方案。开发人员使用SSDT事务处理-SQL和重构数据库的设计功能。

      用户可以直接使用数据库。它可以与连接的数据库一起使用,从而提供内部部署或非内部部署功能。

      用户可以使用Visual Studio工具开发数据库。像IntelliSense,视觉基础。SSDT提供了表设计器来创建新表。另外,在直接数据库和连接的数据库中编辑表。

      从BIDS派生其基础,而BIDS与Visual Studio2010不兼容。而且,SSDT BI诞生了,它取代了BIDS。

      7、阿帕奇·马豪(Apache Mahout)

      

    大数据分析挖掘工具

     

      可用性:开源

      数据挖掘工具– Apache Mahout

      Apache Mahout是由Apache Foundation开发的项目。而且,它还用于创建机器学习算法的主要目的。它主要关注数据聚类,分类和协作过滤。

      Mahout 用 JAVA 编写,并包含执行数学运算的JAVA库。如线性代数和统计。Mahout的增长不断例如Apache Mahout的内部实现的算法。Mahout的算法已实现了高于Hadoop的级别。也。这是通过映射/减少模板。

      1)关键是,Mahout具有以下主要功能

      2)可扩展的编程环境

      3)预制算法

      4)数学实验环境

      5)GPU计算可提高性能

      8、Oracle数据挖掘

      

    大数据分析挖掘工具

     

      可用性:专有许可证

      数据挖掘工具– Oracle

      它是Oracle Advanced Analytics的组件,提供了出色的数据挖掘算法。

      ODM内部设计的算法利用了Oracle数据库的潜在优势。SQL的数据挖掘功能可以从数据库表,视图和模式中挖掘数据。

      Oracle数据挖掘器的GUI是Oracle SQL Developer的版本。它提供了直接“拖放”数据的功能。用户可以将其存储在数据库中,从而可以更好地了解情况。

      9、摇铃

      

    大数据分析挖掘工具

     

      可用性:开源

      拨浪鼓是使用R stats编程语言的GUI工具。Rattle通过提供大量的数据挖掘功能来展现R的统计能力。尽管Rattle具有广泛且完善的UI。此外,它具有内置的日志代码选项卡,可为GUI上发生的任何活动生成重复代码。

      Rattle生成的数据集可以查看和编辑。Rattle提供了额外的工具来检查代码。另外,可将其用于多种目的,并不受限制地扩展代码。

      10、数据融合

      

    大数据分析挖掘工具

     

      可用性:开源

      数据挖掘工具– DataMelt

      DataMelt,也称为DMelt,是一种计算和可视化环境。此外,还提供了进行数据分析和可视化的交互式框架。它的设计主要为工程师,科学家和学生。

      DMelt 是一个多平台实用程序。它可以在与JVM(Java虚拟机)兼容的任何操作系统上运行。

      它包含科学和数学库。

      科学图书馆:绘制2D / 3D图。

      数学库:生成随机数,曲线拟合,算法等。

      我们使用DataMelt进行大数据量分析,数据挖掘和统计分析。它广泛用于分析金融市场,自然科学和工程学。

      11、IBM Cognos

      

    大数据分析挖掘工具

     

      可用性:专有许可证

      数据挖掘工具– IBM Cognos

      IBM Cognos BI是一个智能套件。它由满足特定组织要求的子组件组成。

      Cognos Connection:Web门户网站,用于收集和汇总计分板/报告中的数据。

      Query Studio:包含用于格式化数据和创建图表的查询。

      Report Studio:生成管理报告。

      Analysis Studio:要处理大量数据,请了解并确定趋势。

      Event Studio:用于与事件保持同步的通知模块。

      Workspace Advanced:用户友好的界面,用于创建个性化和用户友好的文档。

      12、IBM SPSS Modeler

      

    大数据分析挖掘工具

     

      可用性:专有许可证

      数据挖掘工具– IBM SPSS

      IBM SPSS是IBM拥有的软件套件。此外,我们将其用于数据挖掘和文本分析以建立预测模型。它最初由SPSS Inc.生产,后来被IBM收购。

      SPSS Modeler具有可视界面。此外,它还允许用户使用数据挖掘算法。虽然,无需编程。它消除了数据转换过程中面临的不必要的复杂性。并使其易于使用的预测模型。

      根据功能,IBM SPSS有两个版本

      这是Modeler Professional

      IBM SPSS Modeler Premium-包含文本分析,实体分析等附加功能。

      13、SAS数据挖掘

      

    大数据分析挖掘工具

     

      可用性:专有许可证

      数据挖掘工具– SAS

      统计分析系统(SAS)是SAS Institute的产品。它是为分析和数据管理而开发的。SAS可以挖掘,更改数据,管理来自不同来源的数据。另外,进行统​​计分析。它为非技术用户提供了图形用户界面。

      SAS数据挖掘器使用户能够分析大数据。并获得准确的洞察力,以便及时做出决策。SAS具有高度可扩展的分布式内存处理体系结构。非常适合数据挖掘,文本挖掘和优化。

      14、Teradata

      

    大数据分析挖掘工具

     

      可用性:许可

      数据挖掘工具– TeraData

      Teradata通常称为Teradata数据库。它是一个企业数据仓库。此外,它包含数据管理工具以及数据挖掘软件。我们可以将其用于业务分析。

      我们使用Teradata作为公司数据的洞察力。例如销售,产品放置,客户喜好。它还可以区分“热”和“冷”数据。因此,这意味着它将不常使用的数据放入慢速存储区。

      Teradata使用“不共享”架构。由于它具有服务器节点,因此具有自己的内存和处理能力。

      15、bosri

      

    大数据分析挖掘工具

     

      可用性:专有许可证

      数据挖掘工具–板

      董事会通常被称为董事会工具包。它是用于商业智能,分析和公司绩效管理的软件。对于希望改进决策的公司来说,这是最佳工具。董事会从所有来源收集数据。同样,简化数据以生成首选格式的报告。

      董事会拥有最有吸引力且最全面的界面。它是该行业中所有BI软件之一。董事会提供执行多维分析,控制工作流和跟踪绩效计划的功能。

      16、邓达斯

      

    大数据分析挖掘工具

     

      可用性:许可

      数据挖掘工具– Dundas

      Dundas是另一个出色的仪表板,报告和数据分析工具。Dundas的快速集成和快速见解非常可靠。它提供了具有吸引力的表格,图表和图形的无限数据转换模式。

      Dundas BI提供了出色的数据可访问性功能。这是来自许多设备的无间隙文档保护。

      Dundas BI将数据放入定义明确的结构中。而且,以特定的方式为用户简化了处理。它构成了有助于多维分析的关系方法。并专注于关键业务事务。

      17、蟒蛇

      

    大数据分析挖掘工具

     

      数据挖掘工具– Python

      作为一种免费的开源语言,Python经常与R进行比较,以易于使用。许多用户发现他们可以开始构建数据集。并在几分钟内完成复杂的亲和力分析。最常见的业务用例数据可视化非常简单。虽然,直到您熟悉基本的编程概念。例如变量,数据类型,函数,条件和循环。

      18、火花

      数据挖掘工具– Spark

      Spark的吸引力正轻松地席卷整个数据中心流量。停放Python运行的作业。如果您要迁移到大数据中,则需要了解Spark。因为它是处理大量数据的最佳开源数据挖掘工具之一。

      19、H20

      数据挖掘工具– H2O

      如果您想走在最前沿,请开始学习H2O。此外,它已经安装了 数千次,并且安装了用于欺诈检测的应用程序。像R一样,它有一个非常活跃和热情的用户社区,在推动其发展。

      三、结论

      数据挖掘工具和技术,包括Rapid Miner,Orange,Weka,KNIME,Sisense,SSDT,Apache Mahout,Oracle Data Mining,Rattle,DataMelt,IBM Cognos,IBM SPSS Modeler,SAS Data Mining,Teradata,董事会,Dundas BI,Python,Spark和H20。另外,它是可用性和详细信息。我希望这将帮助您以最好的方式学习。此外,如果您有任何疑问,请随时在评论部分提问。

     

    摘自:https://www.aaa-cg.com.cn/data/2111.html

    展开全文
  • 关联规则是一种简单但非常有用的数据挖掘形式,用于描述数据库中某些事件的概率共现。 它们最初旨在分析市场一篮子数据,其中分析在同一交易中一起购买项目的可能性。 在 ARMADA 工具(关联规则挖掘和推导分析)中...
  • 数据挖掘工具的选择

    千次阅读 2006-02-06 23:37:00
    一、数据挖掘工具分类 数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。...
     

            一、数据挖掘工具分类

      数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。

    专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。
    通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

     

    二、数据挖掘工具选择需要考虑的问题

      数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:
    (1) 可产生的模式种类的数量:分类,聚类,关联等
    (2) 解决复杂问题的能力
    (3) 操作性能
    (4) 数据存取能力
    (5) 和其他产品的接口


    三、数据挖掘工具介绍:

    1.QUEST

      QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:
      提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
      各种开采算法具有近似线性计算复杂度,可适用于任意大小的数据库。
      算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。
    为各种发现功能设计了相应的并行算法。

    2.MineSet

      MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet有如下特点:
      MineSet以先进的可视化显示方法闻名于世。
      支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。
      多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。
      操作简单、支持国际字符、可以直接发布到Web。

    3.DBMiner

      DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:
      能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
      综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
      提出了一种交互式的类SQL语言——数据开采查询语言DMQL。
      能与关系数据库平滑集成。
      实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。

    4.Intelligent Miner

      由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。

    5.SAS Enterprise Miner

      这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具,按照"抽样--探索--转换--建模--评估"的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的"端到端"知识发现。

    6.SPSS Clementine

    SPSS Clementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。


    7.数据库厂商集成的挖掘工具

    SQL Server 2000包含由Microsoft研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集。此外,SQL Server 2000中的数据挖掘支持由第三方开发的算法。 Microsoft决策树算法:该算法基于分类。算法建立一个决策树,用于按照事实数据表中的一些列来预测其他列的值。该算法可以用于判断最倾向于单击特定标题(banner)或从某电子商务网站购买特定商品的个人。 Microsoft聚集算法:该算法将记录组合到可以表示类似的、可预测的特征的聚集中。通常这些特征可能是隐含或非直观的。例如,聚集算法可以用于将潜在汽车买主分组,并创建对应于每个汽车购买群体的营销活动。,SQL Server 2005在数据挖掘方面提供了更为丰富的模型、工具以及扩展空间。包括:可视化的数据挖掘工具与导航、8种数据挖掘算法集成、DMX 、XML/A、第三方算法嵌入支持等等。
    Oracle Data Mining (ODM) 是 Oracle 数据库 10g 企业版的一个选件,它使公司能够从最大的数据库中高效地提取信息并创建集成的商务智能应用程序。数据分析人员能够发现那些隐藏在数据中的模式和内涵。应用程序开发人员能够在整个机构范围内快速自动提取和分发新的商务智能 — 预测、模式和发现。ODM 针对以下数据挖掘问题为 Oracle 数据库 10g 提供支持:分类、预测、回归、聚类、关联、属性重要性、特性提取以及序列相似性搜索与分析 (BLAST)。所有的建模、评分和元数据管理操作都是通过 Oracle Data Mining 客户端以及 PL/SQL 或基于 Java 的 API 来访问的,并且完全在关系数据库内部进行。
        IBM Intelligent Miner 通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。现在,IBM的 Intelligent Miner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具 ----Intelligent Miner for Data和IBM Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识---- 如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。

    展开全文
  • 人们急切的需要一种去粗存精、去伪存真的技术,能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中
  • 常用数据挖掘工具简介

    千次阅读 2013-12-16 18:48:22
    Dataminning指一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。...市场上的数据挖掘工具一般分为三个组成部分: a、通用型工具;  b、综合

    转自: http://www.itongji.cn/article/062522R2013.html


    Dataminning指一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。前面介绍了报表软件选购指南,本篇介绍数据挖掘常用工具。

    市场上的数据挖掘工具一般分为三个组成部分:

    a、通用型工具;
           b、综合/DSS/OLAP数据挖掘工具;
           c、快速发展的面向特定应用的工具。

    通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

    综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。

    面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。

    下面简单介绍几种常用的数据挖掘工具:

    1. QUEST

    QUEST 是IBM 公司Almaden 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:

    (1)提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
      (2)各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。
      (3)算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。
      (4)为各种发现功能设计了相应的并行算法。

    2. MineSet

    MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:

    (1)MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。
      (2)提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。
      (3)支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。
      (4)多种数据转换功能。在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。
      (5)操作简单。
      (6)支持国际字符。
      (7)可以直接发布到Web。

    3. DBMiner

    DBMiner 是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色:

    (1)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
      (2)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
      (3)提出了一种交互式的类SQL 语言——数据开采查询语言DMQL。
      (4)能与关系数据库平滑集成。
      (5)实现了基于客户/ 服务器体系结构的Unix 和PC(Windows/NT)版本的系统。

    4、IBM Intelligent Miner

    IBM公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。IBM的Intelligent Miner在资料探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处: 包含了最广泛的资料探勘技术及算法 ,可容纳相当大的资料量的能力且有强大的计算能力;事实上,这套产品在IBM SP的大量平行硬件系统上执行效率最好,这套产品也可以在IBM或非IBM平台上执行 丰富的APIs可用来发展自定的资料探勘应用软件; 所有资料探勘引擎和资料操作函式可以透过C 函式库来存取 Intelligent Miner支持classification、prediction、association rules generation、clustering、sequential pattern detection和time series analysis算法,Intelligent Miner藉由利用精密的资料可视化技术及强大的Java-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),Intelligent Miner支持DB2关系型数据库管理系统,并整合大量精密的资料操作函式结论整体而言,Intelligent Miner(for Data)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM将它定位在企业资料探勘解决方案的先锋。 
      5、SAS Enterprise Miner

    SAS Enterprise Miner在资料探勘工具市场是非常杰出的工具,它运用了SAS统计模块的力量和影响力,且它增加了一系列的资料探勘算法,SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归 SASEnterpriseMiner适用于初学者及专业使用者,它的GUI接口是以资料流为导向,且它容易了解及使用,它允计分析师藉由使用连结连接资料节点及程序节点的方式建构一视觉数据流程图,除此之外,接口还允许程序码直接嵌入资料流因为支持多重模式。
    Enterprise Miner允许使用者比较models和利用评估节点所选择之最适模式,除此之外,Enterprise Miner提供产生评定模式之评定节点能够存取任何SAS应用软件结论SAS利用它在统计分析软件上的专业来发展全功能、易于使用、可靠且可管理的系统,有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的资料储存能力,和在统计分析上相当大的市场占有率(允许公司取得SAS新增的组件比增加一套新的工作来得好多了),对SAS来说,它在资料探勘市场上终究还是领导者整体而言,这个工具适用于企业在资料探勘的发展及整个CRM的决策支持应用.
      6、Oracle Darwin

    Darwin常被认为是最早资料探勘工具之一,可见它的知名度,最近,Oracle从Thinking Machines公司取得Darwin来加强它的产品系列?S别是CRM方面,资料探勘可以扮演一个重要的角色,以下将讨论由Thinking Machines公司发展和行销的Darwin之特色(Oracle也许决定改变任何组件及工具架构) Darwin资料探勘工具组是一个复杂的产品,包含了三个资料探勘工具:neural networks、decision tree、和K-nearest neighbor,Darwin neural network tool (Darwin-Net)提供广泛的model建立工具组,它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题决策树工具(DarwinTree)使用CART算法,且可以用于以明确和连续变量来分类问题解决,K-nearest neighbor工具(DarwinMatch)可用于以明确相依变量,和明确且连续预测变量来分类问题解决虽然每个组件工具有一些缺点,Darwin包含了模式评价的完全功能组,它可对所有模式型态产生summary statistics、confusion matrices、lift tablesDarwin提供初学者及专家相当好的使用者接口,虽然接口显得较适合专业使用者从一个大量并行计算机的第一制造者可知,Darwin在处理效能及范围有强大的优势,它的算法对并行计算是最适合的,且有足够的弹性执行平行及循序架构,Oracle当然不会忽视这种能力,且它定位在帮助Oracle成为可以包含到一个大型的全球企业的数据库及应用产品的首要厂商主要使用的算法为neural network、decision tree、和K-nearest neighborneural network-training algorithms包含back propagation,steepest descent,modified Newton等方法decision tree使用CART algorithms可选择所需的子树数目自动的修改决策树K-nearest neighbor algorithm是memory-based reasoning(MBR)技术,它可依训练组中K最接近的匹配记录来预测相依变量值结论Darwin的优点是支持多重算法(计画加入基因算法及人工智能逻辑)它可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,在多处理器服务器上,Darwin可以取得硬件及大范围能力的优势,Darwin证明了强大的效能及大范围的能力,整体而言,Darwin定位在中、大范围的执行.

    7、Clementine(SPSS)

    Clementine是SPSS所发行的一种资料探勘工具,此工具结合了多种图形使用者接口的分析技术,包含neural networks、association rules、及rule-induction techniques,这些工具提供容易使用的可视化程序环境来执行这些分析功能。Clementine使用图形象征的方法,就是透过托拉鼠标和连接屏幕上的功能节点,这些节点提供了data access、data manipulation、data visualization、machine learning以及model analysis,模式的组成是从一个pallet中选取合适之节点,并放置在屏幕上再连接各节点Clementine有强大的资料存取能力包含flat file及关系型数据库(经由ODBC),Clementine也可让modeling的结果持续的写回一ODBC的DBMS输入资料的操作包含配对合并及衍生新字段的能力,Clementine的资料可视化能力包含散布图、平面图及Web分析. 
      8、Thought and Scenario(Cognos)

    Cognos介绍两个资料探勘工具的组合:4Thought和Scenario来巩固它在OLAP市场的位置,这些工具藉由利用neural networks和CHAID技术提供资料探勘能力,一般而言,Cognos所有平台和特殊用途的窗口环境都支持这些工具,这两个工具都需要电子表格、数据库和ASCII文字文件作为资料来源 4Thought可以处理在寻求价格最佳化、需求预测及效能预测及衡量等各种商业问题,4Thought使用multilayer perceptron OLAP、neural network技术,适用于分析问题,处理non-linear forms、noisy datal及small data sets,4Thought提供了两个主要的分析:time series analysis及customer profiling,time series analysis寻找周期性的行为趋势,而customer profiling处理人口统计资料,例如,预测一顾客是否会购买一特定的产品Scenario是设计用来分类及结合问题;它可以找出一资料组中变量间的关系,Scenario使用Chi-squared Automatic Interaction Detection(CHAID),且可以产生多种对预测变量划分的方法,Scenario提供不同的分析策略、自动取样及决策树的产生,然而,Scenario并不是用来处理分类的目标变量,Scenario在资料探测及可视化是十分强大的Scenario及4Thought的共同优点是他们广泛且直觉的使用者接口,他们的目标锁定在初学者,它使用绘图表示univariable analysis或decision tree metaphor,且提供一良好的视觉表达方式来表现在区域间的资料变量,趋势分析及相关因素,Scenario有一template可分析从竞争及每季获利信息Cognos表示它将以它的PowerPlay(OLAP)及Impromptu(reporting)应用软件整合4Thought及Scenario.

    9、Database Mining Workstation(HNC)

    HNC是最成功的资料探勘公司之一,它的Database Mining Workstation(DMW)是一种广为接受的信用卡诈骗分析应用的neural network tool,DMW由Windows-based software applications和custom processing board所组成,其它HNC产品包含Falcon和ProfitMax在财务服务及HNC打算要在通讯业中扩张的Advanced Telecommunications Abuse Control System (ATACS)诈骗侦测解决方案之应用 DMW neural network支持back propagation neural network且可以自动及手动的模式来作业,它的模式可以使用广泛的统计和计算预测变量和对一相依变量的敏感度之相关性的功能来解释DMW提供大量的使用者定义选项允许在算法修改、资料准备、和操作函式上有很大的弹性,DMW有效的处理明确且连续的变量,并且可以用于预测、分类、及预测问题,DMW提供初学者及有经验使用者包含进阶调整选项及描述能力之接口,DMW也提供可用于直销活动的商业templateDMW在产生精确及有效预测模式上是十分优异的,它的处理效能及范围足以支持主要的信用卡处理需求结论DMW是强大、成熟的产品,且市场接受度非常好,它的诈骗侦测/分类应用可用于实时分析信用卡交易,这是它在范围及效能上最好的证明.

    10、Decision Series(NeoVista)

    NeoVista解决方案的Decision Series是广泛使用的资料探勘工作,这间公司是由大量平行硬件厂商MasPar公司所发展出来的,类似于Darwin,这就具有了强大的理解及可调整范围之执行方式,高效能资料探勘解决方案 Decision Series是一提供整合可描述及预测分析算法的data mining及knowledge environment,算法在执行由使用者自定的各种控件是非常有效率的,分析能力包含clustering、association rules,neural networks、及decision tree,Decision Series以资料存取及资料转换引擎完全的整合这些算法,因为公司的背景,它可以在公司所宣称达到近线性范围能力的SMP系统中高度的调整并行操作,工具的范围能力可在零售业的存货管理中的调度得到证明,Decision Series可用于每周零售商分析销售点资料,资料可表示大约70GB从使用能力的观点来看,Decision Series定位在有经验的老手所使用的工具,NeoVista发展易于使用的GUI接口,且提供专家顾问服务(称之为Knowledge Discovery Engineers,或KDE),它们常working on-site部分的prototype或pilot project工具的软件架构是由几个组件和以对象导向设计所组成的,资料探勘引擎建立在资料存取及资料转换层的顶端,也提供了另一引擎称为DecisionAccess,资料探勘引擎继承DecisionAccess特性且因此可以容易的连结在一起结论Decision Series是一强大的产品,它在架构及资料探勘算法上是十分优异的,且可以调整范围和采取平行硬件架构的优点,在使用者评估上,它在确定的问题类别时,在范围能力、预测精确及处理时间上执行得非常好,整体而言,Decision Series定位于大范围分析的执行.

    11、KnowledgeSEEKER and Knowledge Studio(Angoss)

    Angoss Software所开发的KnowledgeSEEKER(KS)是一套决策树资料探勘工具,它使用CART及CHAID为决策树的算法用以找出资料组中预测因素和相依变量间的关系,就其本身而论,KS可以明确且连续的相依变量用来分类问题这套工具的主要定位在于资料探测能力,它的使用者接口提供决策树模式的图形表示,使用者可以选择每一个分枝及指定预测变量群,在自动方式下,所有产生的分枝也是可用的,KS提供专业使用者大量的调整能力,包含修改算法或限制树的成长,KS包含它的统计推论引擎的AIP可以用C产生模式和汇入它们的结果到外部应用程序结论KnowledgeSEEKER是在目标行销上可调整顾客范围大小之一套成熟的软件,在顾客的评比中,它的效能和精确度都是适当的为了维持产品的气势,Angoss在1998年5月扩充KnowledgeSEEKER成大型分析架构,称为Knowledge Studio,它整合了各厂商的资料探勘组件成为共同的环境,藉由提供决策树、类神精网络、网页接口及Java的可移植性,Angoss计画将Knowledge Studio定位成资料仓储发展的关键组件,Knowledge Studio也利用Windows的兴起,推出了SDK,SDK使用ActiveX技术帮助其将产品嵌入垂直应用软件,Angoss已经和数家厂商发展高度的合作,包含Cognos、MCI/SHL、AT&T及Tandem.

    12、Model 1 and Pattern Recognition Workbench(Unica)

    最近在资料探勘市场的调查,Unica估计在IBM及Information Discovery之后有大约9%的市场占有率,这显示出Unica已整合了Model 1(原来是Group 1)和它自己的Pattern Recognition Workbench(PRW) · PRW是一般的资料探勘工具,因此Model 1对Unica而言是垂直应用软件,而且它在公司中似乎是成长的产品线,Model 1是高度自动化的资料探勘工具,它支持大量的目标行销分析能力 · Model 1工具包含Response Modeler module、customer Segmenter module、Cross-Seller module、及Customer Valuator module: · Response Modeler识别最可能对广告活动响应的顾客 · Customer Segmenter module将顾客区隔为相似地理及购买行为的族群 · Cross-Seller module将最可能购买产品之顾客配对 · Customer Valuator module识别潜在高价值的顾客 虽然PRW及Model 1提供了大量精密的资料探勘技术,包含K nearest neighbor、K means、nearest cluster、radial-basis function(RBF)、供pattern recognition用的Gaussian 算法、neural networks、genetic algorithms、regression及Recency Frequency Monetary algorithms(RFM),这些工具被设计让非技术型的使用者也可以使用,从使用者的观点来看,PRW和Model 1提供了很多的辅助精灵引导使用者完成最后的模式,Unica的工具可以自动的搜寻各种算法及参数设定以选出最佳的模式,当模式被建立及评价之后,会自动的建立一Visual lift chart让使用者可容易的识别可精确预测及良好效能模式的分类这两样工具都提供了可允许使用者可以回顾模式在各阶段细节的丰富报表能力,报表将模式分类且提供模式和输入资料摘要统计,大量的使用精灵、行销样板、使得Model 1特别适合初学者,然而,专业使用者有足够的能力处理许多工具算法的参数整体而言,这两项工具定位在可大量的增加行销应用的自动资料探勘工具为了增加市场应用及占有率,Unica已经建立一资料探勘顾问组织,它希望能为它的收益带来显著的增加结论Unica的Model 1和Pattern Recognition Workbench(PRW)代表特别适用于行销应用的产品,这两项工具都提供了优异的使用方式及精确的预测.。


    展开全文
  • 数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。例如,利用数据挖掘可以对...
  • 数据肯定是无价的。但分析数据并非易事,因为结果越准确,成本就越高。鉴于数据急剧增长,需要一个过程来提供有意义的信息,最终变成实用...本文介绍了广泛用于大数据行业的10种综合数据挖掘工具。 01、Rapid Miner...
  • 数据挖掘工具初探之SPSS Clementine篇

    千次阅读 2009-10-21 13:33:00
    数据挖掘工具初探之SPSS Clementine篇摘要: 近年来,数据挖掘技术越来越多的投入工程统计和商业运筹,国外各大数据开发公司陆续推出了一些先进的挖掘工具,其中spss公司的Clementine软件以其简单的操作,强大的算法库和...
  • 一、产品简介: 顶尖数据挖掘平台(TipDM)是广州泰迪智能科技有限公司自主研发的一个数据挖掘工具,使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型(目前已集成数十种预测算法和分析技术,...
  • 数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此...免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见...
  • 转:数据挖掘流程及主流工具

    千次阅读 2012-09-19 17:50:30
    转:数据挖掘流程及主流工具 ...挖掘工具   利基   商都   杂谈 分类: 用户分析定位 数据挖掘流程及主流工具 限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅
  • 数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要...免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常...
  • 数据挖掘

    千次阅读 2011-12-08 15:54:01
    什么是数据挖掘数据挖掘的起源数据挖掘能做什么数据挖掘中的关联规则数据挖掘和在线分析处理(OLAP)数据挖掘,机器学习和统计软硬件发展对数据挖掘的影响数据挖掘相关的10个问题 展开     数据挖掘 ...
  • RapidMiner Studio包含了1500多个专业数据分析流程:从数据划分到以市场为基础的分析,再到属性生成,它包含了所有您需要的数据挖掘工具。同时也包含了文本挖掘,网页挖掘,对来自网络论坛的信息的自动情感分析...
  • SPSSClementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高abilitytoexecute评分,代表着SAS在市场执行、推广、认知方面有最佳...
  • 数据挖掘的分析软件和展示工具

    万次阅读 2012-04-27 16:54:22
    [原文在http://blog.sina.com.cn/s/blog_4b700c4c0100rw2p.html,入门...数据分析也好,统计分析也好,数据挖掘也好、商业智能也好都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过
  • 一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。...
  • 数据科学融合了多门学科并且建立在这些学科的理论和技术之上...数据科学家有其独特的基本思路与常用工具,本文全面梳理数据分析师和数据科学家使用的工具包,包括开源的技术平台相关工具挖掘分析处理工具、其它常...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 38,780
精华内容 15,512
关键字:

市场数据挖掘工具