精华内容
下载资源
问答
  • 自学数据挖掘

    2015-09-16 23:11:02
    先记下,后面整理此文。 参考了北大-msra联合互联网的数据挖掘课程 http://www.docin.com/p-714705030.html 1,下面是实际的课程安排 2,下面是参考书目

    先记下,后面整理此文。


    参考了北大-msra联合互联网的数据挖掘课程 http://www.docin.com/p-714705030.html

    1,下面是实际的课程安排



    2,下面是参考书目


    展开全文
  • Adaboost简介: ...其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。 该算法其实是一个简单的弱分类算法提升过程

    Adaboost简介:

    Adaboostadaptive boosting)是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。

    该算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示:

    1. 先通过对N个训练样本的学习得到第一个弱分类器

    2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 

    3. 12都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器

    4. 最终经过提升的强分类器 。即某个数据被分为哪一类要通过分类器的多数表决权重。


    存在的问题及改进方法

    对于boosting算法,存在两个问题:

    1. 如何调整训练集,使得在训练集上训练的弱分类器得以进行;

    2. 如何将训练得到的各个弱分类器联合起来形成强分类器。

    针对以上两个问题,adaBoost算法进行了调整:

    1. 使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点集中在比较难分的训练数据样本上; 

    2. 将弱分类器联合起来,使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。

                              

           

    上图是整个分类器的构建过程:从Y1一直到Ym,最终我们形成的强分类器如下:

    AdaBoost提供的是一种分类模型,根据具体问题需要我们可以向里面加载不同的学习方案。

    计算模型的错误率,求Mi误分类数据集Di中每个元组的加权和:


    是Xj的误分类误差,如果Xj被误分类则其值等于1,否则等于0.如果某分类器的错误率超过0.5则认为该分类器性能太差,可以丢弃重新产生训练集Di生成新的分类器Mi 

    分类器Mi 的表决权重公式(可自定义):


    AdaBoost的算法过程:



    一个具体的例子:

    我们在这里初始化每个元组的权重为Mi = 1/ d, d代表整个数据集的数据个数。

                            

    最终我们得到了一个强分类器: 

    参考:

    韩家炜《数据挖掘概念与技术》

    http://baike.baidu.com/view/2395336.htm

    http://blog.csdn.net/haidao2009/article/details/7514787

    http://blog.csdn.net/dark_scope/article/details/14103983

    展开全文
  • 零基础入门数据挖掘学习路径

    千次阅读 2020-03-21 15:18:12
    零基础入门数据挖掘系列是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识,提升在实际场景中的数据分析、数据清洗,特征工程、建模调参和模型...

    1. 写在前面

    零基础入门数据挖掘系列是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识,提升在实际场景中的数据分析、数据清洗,特征工程、建模调参和模型融合等技能。所以这个系列笔记共五篇重点内容,也分别从上面五方面进行整理学习,既是希望能对知识从实战的角度串联回忆,加强动手能力的锻炼,也希望这五篇笔记能够帮助到更多喜欢数据挖掘的小伙伴,我们一起学习,一起交流吧。

    既然是理论结合实践的方式,那么我们是从天池的一个二手车交易价格预测比赛出发进行学习,既可以学习到知识,又可以学习如何入门一个数据竞赛, 下面我们开始吧。

    今天是零基础入门数据挖掘的第一天,今天只是先放一个学习路径的思维导图,可以帮助梳理数据挖掘步骤和用到的技术, 类似于一个思维的大框架吧(该图来自Datawhale团队):
    在这里插入图片描述
    接下来的14天时间,我们从一个二手车价格预测的比赛出发,围绕这个大框架进行展开,分为六篇文章学习上面的细节部分。

    PS:本次数据挖掘路径学习,专题知识将在天池分享,详情可关注公众号Datawhale.

    展开全文
  • AI时代,在招聘网站公布的招聘数据中,“算法”、“机器学习”、“数据挖掘”相关岗位平均招聘薪资高于其余同等学历、工龄要求的技术岗位30%以上甚至更高,吸引了一大波人开始学习数据挖掘。 今天本篇就来说说,...

    AI时代,在招聘网站公布的招聘数据中,“算法”、“机器学习”、“数据挖掘”相关岗位平均招聘薪资高于其余同等学历、工龄要求的技术岗位30%以上甚至更高,吸引了一大波人开始学习数据挖掘。

    今天本篇就来说说,对于零基础小白,应该如何入门数据挖掘,并且在文中附上我之前用过的学习资料及书籍。

    数据挖掘的基本概念

    先来理解一下什么是数据挖掘。

    数据挖掘是从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。但是不是所有的信息发现都能叫数据挖掘,比如通过数据库查找个别记录,通过搜索引擎查找特定的网页等,这些都属于信息检索,数据挖掘是数据库中的知识发现,把没加工的数据转换为有用信息的过程。

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

    机器学习和数据挖掘有什么区别?

    机器学习和数据挖掘很类似,很多人以为两个说的是一样的东西,虽然两者本质上的区别不大,但是还是有一些细小的区别:

    机器学习更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,等等各种模式识别,核心就是各种精妙的算法。

    数据挖掘更偏向于“数据”而不是算法,它包括了很多数据的前期处理,数据的爬取、清洗、整合,数据的有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

    所以,数据挖掘的范畴要更广泛一些

    数据挖掘需要哪些技能?

    我是前几年入坑数据挖掘的,纯粹是个人爱好,由于有好几年的数据分析基础,我上手起来不是特别困难,类比数据分析,我也给大家梳理一下数据挖掘的一些必备技能

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

     

    编程语言

    数据挖掘和数据分析不一样,数据分析可以利用一些现成的分析工具完成,但是数据挖掘绝大部分要依赖于编程,在数据挖掘领域常用的编程语言有R、Python、C++、java等,R和python是最受欢迎的两种,可能有一部分人之前在接触数据分析的时候学过python,如果做数据挖掘的话,我也推荐python

    推荐学习书籍:《Python核心编程(第二版)》,《利用Python进行数据分析》

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

    大数据处理框架

    做数据挖掘不可避免的要接触大数据,目前常用的大数据框架就两个,Hadoop和Spark,Hadoop的原生开发语言是Java,资料多,Spark的原生开发语言是Scala,不过也有Python的API。

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

    数据库知识

    这个不用多说,既然是和数据打交道,数据库知识自然少不了,常见关系数据库和非关系数据库知识都要掌握,如果要处理大数量数据集,就得掌握关系型数据库知识,比如sql、oracle。详细设计的知识点,看下图:

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

    推荐学习书籍:《SQL必知必会》、《数据库系统概念》、《Redis设计与实现》、《高性能MySQL(第3版)》(顺序由入门到进阶)

    数据结构与算法

    精通数据结构和算法对数据挖掘来说相当重要,在数据挖掘岗位面试中也是问的比较多的,数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等

    关于数据结构和算法的学习,很多人推荐《算法导论》和《数据结构与算法分析(C语言描述)》这两本书,这两本我都看过,个人觉得《算法导论》太难看完了,里面虽然讲的很细致,但是晦涩难懂,所以我推荐《算法(第4版)》,虽然这本书使用Java讲解常见的算法,但是基本上没有特别难懂的语法,没有Java基础也能轻松看懂

    应付面试的话,光看《算法(第4版)》还不够,建议再刷两本应试书籍,比如《程序员代码面试指南》或者《直通BAT面试算法精讲课》

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

     

    机器学习/深度学习

    机器学习是数据挖掘的最重要部分之一。 机器学习算法可建立样本数据的数学模型,来进行预测或决策, 深度学习是更广泛的机器学习方法系列中的一部分。这部分的学习主要分两块,一是掌握常见机器学习算法原理,二是应用这些算法并解决问题。

     

    机器学习入门,强烈推荐吴恩达老师的《机器学习》的视频,地址:https://www.coursera.org/learn/machine-learning基本上80%的人入门机器学习都是靠这个视频。具体提纲我就不列了,大家自己看,我的建议是直接按顺序学,可以反复多看两遍。

    推荐书籍:周志华的《机器学习》,这本书的结构很清晰,理论和实践都有设计,是一本不错的学习书

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

     

    统计学知识

    数据挖掘是一个交叉学科,不仅涉及编程和计算机科学,还涉及到多个科学领域,统计学就是不可获取的一部分,它可以帮我们更快的识别问题,区分因果关系和相关性。

    推荐学习书籍:李航的《统计学习方法》、《统计学》(原书第5版)

    零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)

     

    沟通表达能力

    和数据分析一样,做数据挖掘不光要处理数据,而且还要向其他人解释我们数据挖掘的结果和见解,而且在大部分的企业中,汇报的对象往往都是一些没有技术基础的业务人员,所以这个岗位也相当考验沟通和表达能力

    学习资源

    最后,干货奉上!数据挖掘的学习网站和课程资源:

    学习网站:

    • W3Cschool https://www.w3cschool.cn/r/
    • 菜鸟教程 http://www.runoob.com/
    • 中国大学MOOC https://www.icourse163.org/category/computer
    • 慕课网 https://www.imooc.com/
    • 网易云课堂 https://study.163.com/category/excel?utm_source=baidu&utm_medium=cpc&utm_campaign=affiliate&utm_term=zyexcel_023&utm_content=SEM

    更多干货资料分享,关注下方

     

    展开全文
  • Apriori算法是关联规则分析,于1994年由Rakesh提出,其目的是在一个数据集中找出项与项之间的关系,也称购物篮分析。此算法有一个经典的案例:啤酒和尿布,美国的超市经过大量数据分析发现美国的老爷们儿在给自己...
  • 自学数据挖掘十大算法之PageRank

    千次阅读 2015-03-05 22:11:02
    PageRank是Google用来衡量一个网站好坏的唯一标准,Google将其分为0—10级,一般PR值达到4,该网站已经很不错了,Google将自己的网站等级定为10。对于某个互联网网页A来说,该网页的PageRank值的计算基于两个假设: ...
  • 自学数据挖掘十大算法之C4.5

    千次阅读 2015-01-12 13:25:00
    对于每一个分割点划分数据集的方式,C4.5算法计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。 (3 )采用了一种后剪枝方法 决策树为什么要剪枝?原因就是避免决策树“过拟合”...
  • 本文总结了要成为数据挖掘高手需要做的知识储备,包括要看的数据、论文、算法、要掌握的工具等。分析了数据挖掘的一些方向,给出了个人的一些看法和理解,对于初学者是一篇不错的参考文章。
  • 《Python与数据挖掘》是一本适合教学和零基础自学的Python与数据挖掘的教程,即便你完全没有Python编程基础和数据挖掘基础,根据《Python与数据挖掘》中的理论知识和上机实践,也能迅速掌握如何使用Python进行数据...
  • 自学数据挖掘十大算法之CART

    千次阅读 2015-02-06 10:42:51
    分类与回归树(Classification andRegression Trees, CART)算法由Breiman等人于1984年提出,是分类数据挖掘算法的其中一种。CART采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的决策树的...
  • 求教各位对数据挖掘有一定了解的达人,如何从“零”开始学习数据挖掘?需要掌握哪些基本的技能?(比如是不是一定要会用R进行简单编程、掌握哪些基本的数学知识等) 喜欢数学,本科有最基本的数学基础(数学分析...
  • 03.《大数据》配套PPT之三:第3章 数据挖掘算法(上) 03.《大数据》配套PPT之四:第3章 数据挖掘算法(下) 04.《大数据》配套PPT之五:第4章 大数据挖掘工具 05.《大数据》配套PPT之六:第5章 R语言 06.《大数据》...
  • 大数据分析师 负责数据挖掘工作,运用Hive、Hbase等技术,专门对从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。以及通过使用新型数据可视化工具如Spotifre,Qlikview和Tableau,对...
  • 本书系统地介绍了数据仓库和数据挖掘技术,全本由两部分组成,第1章到第3章介绍数据仓库的基本概念和相关技术,第4章到第11章介绍数据挖掘的基本概念和各种算法,包括数据仓库构建、OLAP技术、分类方法、聚类方法、...
  • 本文提供了SPSS Modeler数据挖掘方法及应用(第2版)一书的电子课件,便于组织授课及自学
  • 数据挖掘和机器学习中的一些数学方法归纳,不错的参考资料,留着自学
  • 数据仓库与数据挖掘 第一版 - 陈志泊,数据仓库与数据挖掘工程实例-张兴会 2014年9月第一版,附完整书签,和md笔记文件的目录框架。 两份资料都以SQL Server平台讲述。 本文档仅供自学方便考虑,如有质疑或不便,请...
  • 这个过程会训练你如何在一个短的时间内解决一个实际的问题,并熟悉整个数据挖掘项目的全过程。 6.参与一个开源项目,如上面提到的Shogun或scikit-learn还有Apache的Mahout,或为一些流行算法提供更加有效快速的...
  • 读书《Introduction to Data Mining》,这本书很浅显易懂,...第二本比较厚,也多了一些数据仓库方面的知识。如果对算法比较喜欢,可以再阅读《Introduction to Machine Learning》。 实现经典算法。有几个部分: a.
  • 简单数据挖掘流程)机器学习简介及数据集介绍数据挖掘一般步骤1. 数据提取2.问题定义3.数据预处理4.特征工程5.建模预测6.评估调整 机器学习简介及数据集介绍 由于自己是数据分析与大数据技术专业的,并且最近刚入门...
  • 非常详细的数据挖掘&机器学习课件,参考教材为数据挖掘导论。讲的非常详细,可用于老师讲解的课件,也可用于自学的参考材料!
  • 作者介绍Toby,持牌照金融公司担任模型验证专家,国内最大医药数据中心数据挖掘部门负责人!和重庆儿科医院,中科院教授,赛柏蓝保持慢病数据挖掘项目合作!管理过欧美日中印巴西等国外药典数据库,马丁代尔数据库,...
  • 数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库...
  • 数据挖掘需要掌握高深的分析技能,高深的算法,需要掌握程序开发,这样,就能把数据挖掘工作做好,实际上不是这样的。着魔于高深的算法和程序开发,只能让你走火入魔。在工作中,最好的数据挖掘工程师是一定是最熟悉...
  • 03.《大数据》配套PPT之三:第3章 数据挖掘算法(上) 03.《大数据》配套PPT之四:第3章 数据挖掘算法(下) 04.《大数据》配套PPT之五:第4章 大数据挖掘工具 05.《大数据》配套PPT之六:第5章 R语言 06.《大数据》...
  • 数据挖掘简介及学习路径介绍

    千次阅读 2018-07-26 20:12:03
    1.数据挖掘经典案例 1、预测未来一段时间用户是否会流失 2、某个促销活动用户是否会响应参加 3、评估用户信用度是好还是差 4、细分现有的目标市场 5、对现有客户群进行群体细分 6、提升商品销售及交叉销售 7...
  • 网站数据挖掘与分析 系统方法与商业实践,目前网站数据挖掘与分析领域最具系统性、深度和商业实践指导价值的著作,由来自在线数据分析领域巨擘Webtrekk的官方资深数据分析专家撰写,全书从5个维度对网站数据分析进行...
  • 自学GEO数据挖掘的历程和想法

    千次阅读 2021-11-20 16:48:34
    自学GEO数据挖掘的历程和想法

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,926
精华内容 3,570
关键字:

如何自学数据挖掘