• 对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议。很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,...
        

    想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议。

    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

    很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,才能把数据挖掘分析做好,实际上并非这样。如果钻入复杂算法和技术开发,只能让你走火入魔,越走越费劲,并且效果不大。在公司实际工作中,最好的大数据挖掘工程师一定是最熟悉和理解业务的人。


    对于大数据挖掘的学习心得,作者认为学习数据挖掘一定要结合实际业务背景、案例背景来学习,这样才是以解决问题为导向的学习方法。那么,大体上,大数据挖掘分析经典案例有以下几种:

    ①预测产品未来一段时间用户是否会流失,流失情况怎么样;

    ②公司做了某个促销活动,预估活动效果怎么样,用户接受度如何;

    ③评估用户信用度好坏;

    ④对现有客户市场进行细分,到底哪些客户才是目标客群;

    ⑤产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效;

    ⑥运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比;

    ⑦一些用户购买了很多商品后,哪些商品同时被购买的几率高;

    ⑧预测产品未来一年的销量及收益……

    大数据挖掘要做的就是把上述类似的商业运营问题转化为数据挖掘问题。


    一、如何将商业运营问题转化为大数据挖掘问题

    那么,问题来了,我们该如何把上述的商业运营问题转化为数据挖掘问题?可以对数据挖掘问题进行细分,分为四类问题:分类问题、聚类问题、关联问题、预测问题。


    1、分类问题

    用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题,我们需要掌握分类的特点,知道什么是有监督学习,掌握常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等。


    2、聚类问题

    细分市场、细分客户群体都属于数据挖掘的聚类问题,我们要掌握聚类特点,知道无监督学习,了解常见的聚类算法,例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。


    3、关联问题

    交叉销售问题等属于关联问题,关联分析也叫购物篮分析,我们要掌握常见的关联分析算法:Aprior算法、Carma算法,序列算法等。


    4、预测问题

    我们要掌握简单线性回归分析、多重线性回归分析、时间序列等。


    二、用何种工具实操大数据挖掘

    能实现数据挖掘的工具和途径实在太多,SPSS、SAS、Python、R等等都可以,但是我们需要掌握哪个或者说要掌握哪几个,才算学会了数据挖掘?这需要看你所处的层次和想要进阶的路径是怎样的。


    第一层级:达到理解入门层次

    了解统计学和数据库即可。


    第二层级:达到初级职场应用层次

    数据库+统计学+SPSS(也可以是SPSS代替软件)


    第三层级:达到中级职场应用层次

    SAS或R


    第四层级:达到数据挖掘师层次

    SAS或R+Python(或其他编程语言)


    三、如何利用Python学习大数据挖掘

    只要能解决实际问题,用什么工具来学习数据挖掘都是无所谓,这里首推Python。那该如何利用Python来学习数据挖掘?需要掌握Python中的哪些知识?


    1、Pandas库的操作

    Panda是数据分析特别重要的一个库,我们要掌握以下三点:

    pandas 分组计算;

    pandas 索引与多重索引;

    索引比较难,但是却是非常重要的

    pandas 多表操作与数据透视表


    2、numpy数值计算

    numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

    Numpy array理解;

    数组索引操作;

    数组计算;

    Broadcasting(线性代数里面的知识)


    3、数据可视化-matplotlib与seaborn

    Matplotib语法

    python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

    seaborn的使用

    seaborn是一个非常漂亮的可视化工具。

    pandas绘图功能

    前面说过pandas是做数据分析的,但它也提供了一些绘图的API。


    4、数据挖掘入门

    这部分是最难也是最有意思的一部分,要掌握以下几个部分:

    机器学习的定义

    在这里跟数据挖掘先不做区别

    代价函数的定义

    Train/Test/Validate

    Overfitting的定义与避免方法


    5、数据挖掘算法

    数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

    最小二乘算法;

    梯度下降;

    向量化;

    极大似然估计;

    Logistic Regression;

    Decision Tree;

    RandomForesr;

    XGBoost;


    6、数据挖掘实战

    通过机器学习里面最著名的库scikit-learn来进行模型的理解。

    以上,就是为大家理清的大数据挖掘学习思路逻辑。可是,这还仅仅是开始,在通往数据挖掘师与数据科学家路上,还要学习文本处理与自然语言知识、Linux与Spark的知识、深度学习知识等等,我们要保持持续的兴趣来学习数据挖掘。


    来源:中国统计网


    640

    大数据周刊

    邮箱:tougao@bigdatamag.cn

    电话:010-57524293


    640

    众论大数据 引领大时代

    长按二维码关注


    展开全文
  • 本文梳理了学习大数据挖掘分析的思路和步骤,为大家提供了一些参考,希望能对大家有所帮助。最近,很多人都咨询过,想学大数据,但知道怎么开始,在哪里开始学习,需要学什么东西?对于初学者来说,学习大数据挖掘...
  • New Internet:大数据挖掘 2013-04-01 14:00:20
    NewInternet:大数据挖掘(来自一线大数据挖掘企业的一手实战剖析) 谭磊 著 ISBN978-7-121-19670-6 2013年3月出版 定价:69.00元 376页 16开 编辑推荐 “这可能是最通俗易懂的一本数据挖掘书籍”  ——互动...
  • 在本篇文章中我们给大家整理了关于python数据挖掘需要学什么的知识点指南,有兴趣的朋友们跟着参考下。 1、Pandas库的操作 Panda是数据分析特别重要的一个库,我们要掌握以下三点: · pandas 分组计算; · pandas ...
  • 数据挖掘的三趋势 2014-07-09 11:02:04
    数据挖掘是从数据中找规律 数据挖掘的英文是Data Mining,直译就是数据挖掘。韩家炜教授在《数据挖掘:概念与技术》一书中介绍过数据挖掘一词的来源。在科研界,最初一直沿用“数据库中的知识发现”,即KDD,...
  • 数据挖掘:What?Why?How? 磨刀误砍柴工。在学习数据挖掘之前应该明白几点: 数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 数据挖掘本身融合了...
  • 不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。   数据挖掘的技术过程: 数据清理(消除噪音或一致数据) 数据集成(多种数据源可以组合在一起) 数据选择(从...
  • 最近有很多人参加学习大数据培训的课程,但知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习数据分析与挖掘的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路...
  • 数据挖掘技术的由来 2007-12-24 14:58:00
    第一课 数据挖掘技术的由来1.1 网络之后的下一个技术热点1.2 数据爆炸但知识贫乏1.3 支持数据挖掘技术的基础1.4 从商业数据到商业信息的进化1.5 数据挖掘逐渐演变的过程1.1网络之后的下一个技术热点我们现在已经生活...
  • 淘宝运营中数据挖掘和数据分析  首先,我们要清楚,究竟数据能带给我们什么,如何能更好的利用数据为自己带来更多的利益。 通过数据分析,可以把一大批看起来杂乱无章的信息集中、萃取和提炼出来,找出所研究事物...
  • 1、数据挖掘软件之ANGOSS软件公司 KnowledgeSTUDIO 平台:NT , Windows 9X 功能:CHAID算法,支持PMML,留有与SAS、S-Plus的接口,能够灵活地导入外部模型和产生规则,包含神经网络建模的能力 优点:响应快,...
  • 数据挖掘作为现在比较有用的支持决策系统的一种手段有着广泛的应用。其有很多种方法,本文主要基于关联规则类等相关问题进行论述。按照挖掘过程进行组织。首先,有数据仓库的建立和数据挖掘的概述。其次是关联规则的...
  • 数据挖掘趋势 2012-10-17 11:00:10
    数据挖掘的三趋势——专访SAS首席技术顾问张磊   原文链接:http://www.emarketing.net.cn/magazine/adetail.jsp?aid=2031 数据挖掘是从数据中找规律 数据挖掘的英文是Data Mining,直译就是数据挖掘。韩...
  • 数据挖掘 2011-06-15 21:28:00
    1. 数据挖掘技术的由来1.1 网络之后的下一个技术热点1.2 数据爆炸但知识贫乏1.3 支持数据挖掘技术的基础1.4 从商业数据到商业信息的进化1.5 数据挖掘逐渐演变的过程2 数据挖掘的定义2.1 技术上的定义及含义...
  • 著名统计学者谢邦昌数据挖掘访谈 1.记者:Data Mining包含哪些主要功能? 谢邦昌:Data Mining实际应用功能可分为三类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于...
  • 1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力。数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =。   2.怎么入门 请...
  • 数据科学融合了多门学科并且建立在这些学科的理论和技术之上...数据科学家有其独特的基本思路与常用工具,本文全面梳理数据分析师和数据科学家使用的工具包,包括开源的技术平台相关工具、挖掘分析处理工具、其它常...
  • 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三...
1 2 3 4 5 ... 20
收藏数 8,648
精华内容 3,459