2012-11-11 15:45:47 swkiller 阅读数 1872
  • Hadoop入门和大数据应用

    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统,是国内该领域早的一批人之一,负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。新出版书籍 《Hadoop核心技术》 。

    12988 人正在学习 去看看 CSDN讲师

1、大数据:互联网大规模数据挖掘与分布式处理,Mining of Massive Datasets

2、数据挖掘:概念与技术
3、数据仓库应用指南:数据仓库与商务智能最佳实践
2013-12-18 23:46:37 Adolph_Chou 阅读数 859
  • Hadoop入门和大数据应用

    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统,是国内该领域早的一批人之一,负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。新出版书籍 《Hadoop核心技术》 。

    12988 人正在学习 去看看 CSDN讲师
记得2008年初,当我刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
  本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
  本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
  本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
    这几年实际做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:
(4)Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
 http://book.douban.com/subject/1465939/)。
    国内目前有翻译版(http://book.douban.com/subject/1786120/),这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。
    若要从以上三本书再推荐另一本入门书,我会推荐I.H. Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
    其次推荐的是David Hand的《数据挖掘原理》(http://book.douban.com/subject/1103515/),本书作者是一名统计学家,所以里面会涉及到数据挖掘相对于统计的独特之处的内容,非常有价值;另外,本书以约化主义的观点来看待数据挖掘算法,认为有了数据集与明确的数据挖掘任务,数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组,然后逐一来讲解每一数据挖掘算法组件,让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的,因为我们虽然通过数据来做推断,但是数据是通过测量理论与事实(Reality)相联系的。
      最不怎么推荐的是《数据挖掘:概念与技术》,虽然我是从这本书的第一版最初得知数据挖掘这一概念。2005年10月份,我在海淀图书城逛,想看看有什么好书可以带到南极去看,当时发觉了这本书的第一版。看了看前言,就买了下来,因为原来只接触过数据库的我,数据挖掘这一概念太吸引自己了。虽然在南极期间自己只是将这本书盖了两个南极的纪念章,而没有真正看,但毕竟它在自己心中播种下了“数据挖掘”的种子。07年底转行做计算机的时候,虽然最初不是申请的数据挖掘的职位,当公司让我当“数据挖掘工程师”时,我还是很高兴地接受了。这五年来,我见证了数据挖掘这一行业的如火如荼的发展,也很庆幸自己入对了行,也要很感激这本书的作者与翻译者吧。从书的内容看,这本书将数据挖掘看成是数据库技术的自然演化,所以第2章讲的是数据仓库与OLAP,但是这部分内容对于怎样建数据仓库其实没有太大的帮助。数据挖掘作为一门交叉学科,一般认为其最重要的三门学科基础是机器学习、统计学与数据库技术。但是个人认为随着大数据时代的来临,传统数据库技术所起的作用在减弱,因为很多进行的数据挖掘的数据根本不会先被放到数据库中,而是直接通过文件来存储。本书的第二版中虽然增加了时间序列挖掘、图挖掘、社交网络分析、多媒体挖掘等新的内容,但这只是增加了广度,而没有让我们对数据挖掘的核心部分有更深的理解。
2014-07-20 16:37:33 u013289188 阅读数 1361
  • Hadoop入门和大数据应用

    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统,是国内该领域早的一批人之一,负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。新出版书籍 《Hadoop核心技术》 。

    12988 人正在学习 去看看 CSDN讲师
数据挖掘导论读书笔记之绪论

数据挖掘的前提:数据收集和数据存储技术的快速进步。
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。

数据挖掘与知识发现
数据挖掘是数据库中知识发现不可缺少的一部分(knowledge deiscovery in database)KDD,KDD是将未加工的数据转换为有用信息的整个过程。

输入数据:输入各种形式存储,并且可以驻留在几种的数据存储库中,活分布在多个站点上。

数据预处理:将未加工的输入数据转换成适合分析的形式。包括:融合来自多个数据源的数据,清洗数据,以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。是整个知识发现过程中最费力,耗时的步骤。

后处理:将数据挖掘的结果所揭示的规律结合商业活动管理工具,从而开展或者测试有效的商业活动。使那些有效,有用的结果集成到决策支持系统中。

数据挖掘需要解决的问题
可伸缩
由于数据产生和收集技术的进步,大数据越来越普遍。如果数据挖掘算法要处理这些海量数据集,算法必须是可伸缩的(scalabe)。使用抽样技术或者开发并行和分布算法来提高可伸缩性。

高维性
现在数据通常是具有成千上百属性的数据集。具有时间或者空间分量的数据集也经常具有很高的维度。为底维数据开发的传统的数据分析技术通常不能很好处理高维度数据,此外,对于某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加

异种数据和复杂数据
传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务,科学以及其他领域的作用越来越大,越来越需要处理异种属性的技术。如:具有序列和三维结构的DNA数据等。为了挖掘这种复杂对象而开发的技术应当考虑数据间的联系。如:时间和空间的自相关性,图的连通性等

数据的所有权与分布
有时,需要分析的数据并非存放在一个站点或者归属一个机构,二十地理上分布属于多个机构。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:如何降低执行分布式计算所需要的通信量,如何有效的统一从多个资源得到的数据挖掘结果,如何处理数据安全性等

非传统的分析
传统的统计方法基于一种假设—检验的模式,即提出一种假设,然后设计实验来收集数据,然后针对假设分析数据。但这一方法效率不高。因此需要自动的产生和评估假设。此外数据挖掘所分析的数据通常不是精心涉及的实验结果,而是数据的时机行样本(opportunistic sample),不是随机样本(random sample)。


数据挖掘的起源
为了迎战上述的挑战,数据挖掘利用了如下领域的思想:
  • 统计学的抽样,估计,假设检验
  • 人工智能,模式识别,机器学习的搜索算法,建模技术和学习理论
  • 最优化
  • 进化计算
  • 信息论
  • 信号处理
  • 可视化
  • 信息检索
  • 数据库系统
  • 高性能并行计算技术
  • 分布式技术


数据挖掘任务
通常分为两大类:
预测任务:根据其他属性的值,预测特定属性的值。被预测的属性称目标变量(target variable)活因变量(dependent variable)。用来做预测的属性称为说明变量(explanatory variable)或者自变量(independent variable)

描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),本质上,描述性数据挖掘任务通常是探查性的。需要做后处理技术验证和解释结果

预测建模(predictive modeling)涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification)用于预测离散的目标变量;回归(regression)用于预测连续的目标变量。
如:预测web用户是否网购是分类,因为该目标变量是二值的。预测某股票的未来价格是回归的,因为价格具有连续值属性。两项任务都是训练一个模型,是目标变量预测值与实际值之间的误差达到最小。


关联分析(association analysis)用来发现描述数据中强关联特征的模型。所发现的模式通常用蕴含跪着或者特征子集的形式表示。由于搜索通奸是指数规模,关联分析的目标是以有效的方式提取最有趣的模式。

聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组,找出显著影响地球气候的海洋区域等。


异常检测(anomaly detection)的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)异常检测算法的目标是发现真正的异常点。而避免错误地将正常的对象标注为异常点。换言之,好的异常检测器必须具有高的检测率和底的误报率。应用包括:检测网络攻击,欺诈等









2019-05-13 11:07:41 qq_18566745 阅读数 41
  • Hadoop入门和大数据应用

    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统,是国内该领域早的一批人之一,负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。新出版书籍 《Hadoop核心技术》 。

    12988 人正在学习 去看看 CSDN讲师

Python数据分析与数据挖掘

1.什么是Python

百度百科:Python是一种计算机程序设计语言。是一种面向对象的动态类型语言

:计算机程序设计语言 面向对象 动态

2.什么是数据分析

百度百科: 用适当的统计分析方法对收集来的大量数据进行分析,为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程

:用统计分析方法研究数据并概括总结的过程

3.什么是数据挖掘

书: 从海量数据中利用相关算法挖掘出隐含的,先前未知的,对决策者有潜在价值的关系,模式和趋势,这些也称为知识,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法,工具和过程

百度百科: 一般是指从大量的数据中通过算法搜索隐藏于其中信息过程

:挖掘数据隐藏的知识建立模型,提供支持带有预测性质决定的策略的方法和工具的过程

==============================================================

数据分析

数据分析能力分级?(8级数据分析能力最高)

  1. 标准报表(报告:发生了什么事 ……着火)
  2. 即席查询(当场就问:随机的自定义的问题 ……着火地点)
  3. 多维分析(多维思考:此事发生原因……本次着火原因多种角度分析)
  4. 警报(行动:采取什么办法?……拉响警报召集救火/用灭火器处理)
  5. 统计分析(统计原因:此事发生原因……着火原因根据数据进行分析)
  6. 预报(趋势预报:持续此趋势未来怎么?……着火的火势会变大还是小)
  7. 预测型建模(建设模型:接下来会发生什么?……利用模型预测火势)
  8. 优化(优化结果:最好的结果如何达到?……到底使用召集还是灭火器)

结论:信息增速>>分析能力>执行能力

==============================================================

数据挖掘

数据挖掘做什么?

基本: 利用方法帮助提取数据中蕴含的商业价值、提高企业竞争力。
方法{
分类与预测(有目标的进行分类预测,根据要得到的目标内容,通过该属性分类即可)
聚类分析(数据本身结构特点分类,使一类中的差异值最小)
关联规则(相互的关联关系,有这个的前提下大概率出现那个)
时序模式(事物的延续性和随机性预测事物发展)
偏差检测
智能推荐…
}

数据挖掘建模过程

0定义挖掘目标
1-2数据取样
2-3数据探索
3-4数据预处理
4-5挖掘建模
5-1模型评价

1目标定义(任务理解 目标确定)
2数据采集(建模抽样 质量把控 实时采集)
3数据整理(探索、清洗、变换)
4构建模型(模式发现 构建模型 验证模型)
5模型评价(设定评价标准 多模型对比 模型优化)
6模型发布(模型部署、模型重构)

定义挖掘目标

弄清用户需求,定好挖掘目标

数据取样

与目标相关的样本数据子集
1.抽取标准:相关性 可靠性 有效性 ※质量关:完整性 有效性
1.抽样方法

  • 随机:在采用随机抽样方式时,数据集中的每一组观测值都有相同被抽样的概率
  • 等距:如按 5%的比例对一个有100 组观测值的数据集进行等距抽样,则有:100 / 5 = 20,等距抽样方式是取第20、40、60、80 和第100 五组观测值。即:分成x组,总/x=y 抽 取第y个数据 取第2y个数据 3y …x 组数据 ??忘了待修改处#####
  • 分层:在这种抽样操作时,首先将样本总体分成若干个子集。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
  • 顺序:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。
  • 分类:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

数据探索

探索数据是否达到了要求 有没有规律 可否分类 等 (需要进行哪些预处理)

数据挖掘的质量不会超过抽取样本的

  • 探索分类:
    异常值分析
    缺失值分析
    相关性分析
    周期性分析

数据预处理

噪声不完整不一致数据进行处理

  • 如何预处理?
    • 筛选
    • 变量转换
    • 缺失值处理
    • 坏数据处理
    • 数据标准化
    • 主成分分析
    • 属性选择
    • 数据规约

挖掘建模

考虑本次建模属于哪类问题
选用哪种算法进行建模

  • 概念
    • 模型的具体化:预测公式
    • 预测值:与观察值有相似结构的输出
    • 模型构建:对各种数据轨迹的概括

模型评价

  • 目的
    • 找出最好模型
    • 对模型进行解释和应用
  • 提示
    • 分类与预测算法模型 和聚类分析模型 评价方法不同

数据挖掘: 目标 取 分析 处理 选择建模 评价

2018-01-05 22:44:20 horses 阅读数 316
  • Hadoop入门和大数据应用

    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统,是国内该领域早的一批人之一,负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。新出版书籍 《Hadoop核心技术》 。

    12988 人正在学习 去看看 CSDN讲师

推荐这本《面向程序员的数据挖掘指南》,英文原名为《A Programmer’s Guide to Data Mining》

墨子

这是一本用于学习基本数据挖掘知识的书籍。大部分关于数据挖掘的书籍都着重于讲解理论知识,难以理解,让人望而却步。不要误会,这些理论知识还是非常重要的。但如果你是一名程序员,想对数据挖掘做一些了解,一定会需要一本面向初学者的入门书籍。这就是撰写本书的初衷。
这本指南采用“边学边做”的方式编写,因此在阅读本书时,我强烈建议您动手实践每一章结束提供的练习题和实验题,使用书中的Python脚本将其运行起来。书中有一系列展示数据挖掘技术的实例,因此在阅读完本书后,你就能掌握这些技术了。这本书以Creative Commons协议发布,可以免费下载。你可以任意分发这本书的副本,或者重新组织它的内容。也许将来我会提供一本纸质的书籍,不过这里的在线版本永远是免费的。

点击上面的书名链接即可查看在线文档和源代码。

数据挖掘牛人

阅读数 533

数据挖掘

阅读数 23

数据挖掘学习路径

阅读数 331

没有更多推荐了,返回首页