• 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 二、大数据工程师的技能要求 必须技能10条: 01.Java高级(虚拟机、并发) 02.Linux 基本操作 03.Hadoop(此处为侠义概念...

    一、我们先要了解大数据的工作方向

    01.大数据工程师

    02.数据分析师

    03.大数据科学家

    04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)

    二、大数据工程师的技能要求

    必须技能10条:

    01.Java高级(虚拟机、并发)

    02.Linux 基本操作

    03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )

    04.HBase(JavaAPI操作+Phoenix )

    05.Hive(Hql基本操作和原理理解)

    06.Kafka 

    07.Storm

    08.Scala需要

    09.Python

    10.Spark (Core+sparksql+Spark streaming )

    高阶技能6条:

    1.机器学习算法以及mahout库加MLlib

    2.R语言

    3.Lambda 架构

    4.Kappa架构

    5.Kylin

    6.Aluxio

    三、大数据的学习技术点

    Hadoop核心

    (1) 分布式存储基石:HDFS

    HDFS简介 入门演示 构成及工作原理解析:数据块,NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示

    (2) 分布式计算基础:MapReduce

    MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优

    (3) Hadoop集群资源管家:YARN

    YARN基本架构 资源调度过程 调度算法 YARN上的计算框架

    资料领取方式:加入大数据技术学习交流群522189307,点击加入群聊,私信管理员即可免费领取

    离线计算

    (1) 离线日志收集利器:Flume

    Flume简介 核心组件介绍 Flume实例:日志收集、适宜场景、常见问题

    (2) 离线批处理必备工具:Hive

    Hive在大数据平台里的定位、总体架构、使用场景之Access Log分析 Hive DDL&DML介绍 视图 函数(内置,窗口,自定义函数) 表的分区、分桶和抽样 优化

    (3) 速度更快的Hive:Impala

    Impala在大数据架构中的角色 架构 数据处理过程 一般使用步骤:创建表,分区表,查询等 常用查询演示:统计,连接等、Impala与Hive的比较 常用配置与最佳使用建议(查错,调优等)

    (4) 更快更强更好用的MR:Spark

    Scala&Spark简介 基础 Spark编程(计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引)Spark SQL和DataFrame 实例:使用Spark SQL统计页面PV和UV

    实时计算

    (1) 流数据集成神器:Kafka

    Kafka简介 构成及工作原理解析 4组核心API 生态圈 代码演示:生产并消费行为日志

    (2) 实时计算引擎:Spark Streaming

    Spark Streaming简介 工作原理解剖 编写Streaming程序的一般过程 如何部署Streaming程序? 如何监控Streaming程序? 性能调优

    (3) 海量数据高速存取数据库:HBase

    HBase简介 架构及基本组件 HBase Table设计 HBase基本操作 访问HBase的几种方式

    大数据ETL

    (1) ETL神器:Sqoop,Kettle

    数据同步ETL介绍 Kettle常用组件介绍 、抽取Mysql数据到Hive实战 Sqoop介绍、抽取Hive数据到Mysql实战

    (2) 任务调度双星:Oozie,Azkaban

    ETL与计算任务的统一管理和调度简介 Crontab调度的方案 自研调度系统的方案 开源系统Oozie和Azkaban 方案总结与经验分享

    大数据应用与数据挖掘

    (1) 大数据全文检索引擎:Elasticsearch

    全文检索基础知识,ES安装及初级介绍,ES深入理解,使用经验介绍

    (2) 数据仓库搭建

    为什么要构建大数据平台大数据平台的的经典架构深入剖析“五横一纵”的架构实践 知名互联网公司大数据平台架构简介

    (3) 数据可视化

    什么是数据可视化,数据可视化常用工具与必备技能介,Tableau和ECharts实操讲解 ECharts介绍,知名互金公司可视化经验介绍

    (4) 算法介绍

    介绍数据挖掘,机器学习,深度学习的区别,R语言和python的介绍,逻辑回归算法的介绍与应用,以及主要的推荐算法介绍

    展开全文
  • 随着教育部公布2017年度普通高等学校本科专业备案和审批结果的通知,目前申请获批数据科学与大数据技术专业(专业代码:080910T)的高校已增至278所。在获批高校越来越多的同时,如何在专业建设过程中选择适用教材,...

    随着教育部公布2017年度普通高等学校本科专业备案和审批结果的通知,目前申请获批数据科学与大数据技术专业(专业代码:080910T)的高校已增至278所。在获批高校越来越多的同时,如何在专业建设过程中选择适用教材,却逐渐成为了各大高校面临的一大难题。

    而早在2016年,清华大学博士、南京大数据研究院院长刘鹏教授就联合国内多所高校从事一线教学科研任务的专业师资,开始编写大数据系列教材。目前,《云计算》、《大数据》、《大数据库》、《数据挖掘》、《深度学习》、《大数据可视化》、《虚拟化与容器》、《大数据实验手册》等本科系列教材陆续出版,可为大数据教学提供系统的教材支撑。

    今天为大家重点推荐介绍《云计算》,以后还会陆续推荐其他教材,欢迎持续关注(与《云计算》配套的40个教学PPT可通过http://www.chinacloud.cn/list.aspx?page=4&cid=20免费下载):

    高校获批数据科学与大数据技术专业,《云计算》教材怎么选?

    《云计算》概述

    本书是被国内众多高校采用的教材《云计算》(名列中国计算机类图书被引用量第一名)的第三版。通过本书可掌握云计算的概念和原理,学习主要的云计算平台和技术以及云计算核心算法和发展趋势,适合作为相关专业本科和研究生教材,也可作为云计算研发人员和爱好者的学习和参考资料。

    《云计算》主要内容

    本书追踪前沿的云计算技术,相比第二版更新了60%以上的内容,包括大数据与云计算、Google云计算、Amazon云计算、微软云计算、Hadoop 2.0及其生态圈、虚拟化技术、OpenStack开源云计算、云计算数据中心、云计算核心算法和中国云计算技术等。

    《云计算》大纲

    第一章——大数据与云计算

    本章主要介绍了大数据时代的到来,云计算作为大数据的计算的兴起,大数据的发展现状、实现机制以及压制性的成本优势等。

    第二章—— Google云计算原理与应用

    本章主要介绍了Google文件系统GFS、分布式数据处理MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable 、分布式存储系统Megastore 、大规模分布式系统的监控基础架构Dapper、海量数据的交互式分析工具Dremel 、内存大数据分析系统PowerDrill以及Google应用程序引擎等系统架构与技术。

    第三章——Amazon云计算AWS

    本章主要介绍了基础存储架构Dynamo、弹性计算云EC2、简单存储服务S3、非关系型数据库服务SimpleDB和DynamoDB、关系数据库服务RDS 、简单队列服务SQS、内容推送服务CloudFront、其他Amazon云计算服务以及 AWS应用实例等内容。

    第四章——微软云计算Windows Azure

    本章主要介绍了微软云计算平台、微软云操作系统Windows Azure、微软云关系数据库SQL Azure、Windows Azure AppFabric、Windows Azure Marketplace、 Windows Azure服务平台等内容。

    第五章—— Hadoop 2.0:主流开源云架构

    本章主要介绍了Hadoop 2.0的引例、概述、部署、体系架构以及Hadoop 2.0访问接口、Hadoop 2.0编程接口等,并重点介绍了Hadoop 2.0的HDFS、Yarn和MapReduce以及Hadoop 2.0的具体使用。

    第六章——Hadoop 2.0大家族

    本章主要介绍了 Hadoop 2.0大家族概述以及ZooKeeper、Hbase、Pig、Hive、Oozie、Flume、Mahout 等组件。

    第七章——虚拟化技术

    本章主要从服务器虚拟化、存储虚拟化、网络虚拟化和桌面虚拟化四个方面介绍虚拟化技术在云计算中的地位和应用,并以VMware公司的部分产品作为例子,介绍虚拟化的一些实现方法。

    第八章——OpenStack开源虚拟化平台

    本章主要介绍了OpenStack背景、计算服务Nova、对象存储服务Swift、镜像服务Glance等。

    第九章——云计算数据中心

    本章主要介绍了云计算数据中心的特征、网络部署以及绿色节能技术、自动化管理、容灾备份等技术与应用。

    第十章——云计算核心算法

    本章主要对Paxos算法、DHT算法、Gossip协议等三种云计算核心算法的背景、特点、具体实现方式等进行详细介绍。

    第十一章——中国云计算技术

    本章通过梳理和分析国内云计算技术的发展概况,总结我国云计算发展形势,重点介绍国产云存储技术、大数据库技术、云视频监控技术以及云服务等关键技术、产品与平台,以便读者能够更加直观地了解国内云计算发展态势。

    第十二章——总结与展望

    本章横向比较Google、Amazon、微软和VMware的商业云计算解决方案,以及Hadoop、Spark、Docker、OpenStack等开源云计算方案,方便读者更好地掌握本书的主体内容。

    展开全文
  • 数据挖掘原理算法(第3版)
  • 数据挖掘也有些年头了,写这篇文一方面是让我写篇文,朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。  Q&A:  Q:学习,最近在看集体智慧...

    做数据挖掘也有些年头了,写这篇文一方面是让我写篇文,朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。

      Q&A:

      Q:学习,最近在看集体智慧编程,楼主可否推荐下数学基础的书?

      A:我数学本身也不好 自己也在偷偷补 因为看的不多也不能给出个提纲式的建议 只能给您列下我近期看过和在看的觉得不错的书 您看做参考吧

      矩阵方面 Kaare Brandt Petersen的《The Matrix Cookbook》 网易公开课中的《麻省理工公开课:线性代数》

      2.概率论与数理统计方面 JohnA.Rice 的《数理统计与数据分析》《统计建模与R软件》

      3.微积分方面 网易公开课中的《麻省理工学院公开课:单变量微积分》

      其实您只要有了

      1、概率论与数理统计以及其他统计学基础

      2、扎实的线性代数功底

      3、微积分(如果能学习下实变函数和泛函分析就更好了)

      这几方面的基础 基本上机器学习的大部分算法您都具有了其数学基础

      如果您觉得我说的太泛 可以先看看《模式分类》这本书的附录中的数学基础 这样您就大体有个印象了

      入门:

      数据挖掘入门的书籍,中文的大体有这些:

      Jiawei Han的《数据挖掘概念与技术》

      Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》

      Tom Mitchell的《机器学习》

      TOBY SEGARAN的《集体智慧编程》

      Anand Rajaraman的《大数据》

      Pang-Ning Tan的《数据挖掘导论》

      Matthew A. Russell的《社交网站的数据挖掘与分析》

      很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》,这本书也是我们组老板推荐的入门书(我个人觉得他之所以推荐是因为Han是他的老师)。其实我个人来说并不是很推荐把这本书。这本书什么都讲了,甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的,给人一种教科书的感觉,如果你有大毅力读完这本书,也只能获得一些零碎的概念的认识,很难上手实际的项目。

        我个人推荐的入门书是这两本:TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》

      《集体智慧编程》很适合希望了解数据挖掘技术的程序员,这本书讲述了数据挖掘里面的很多实用的算法,而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法,而是从实际的例子入手,辅以python的代码,让你很快的就能理解到这种算法能够应用在哪个实际问题上,并且还能自己上手写写代码。唯一的缺点是不够深入,基本没有数学推导,而且不够全面,内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

      推荐的另一本《数据挖掘 实用机器学习技术》则相对上一本书要稍微难一点,不过在容易理解的程度上依然甩Han老师的书几条街,其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难,从简单的模型入手扩展到现实生活中实际的算法问题,最难能可贵的是书的最后还稍微讲了下如何使用weka,这样大家就能在学习算法之余能够用weka做做小的实验,有直观的认识。

      看完上述两本书后,我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门,就看个人需求了。

      如果是只是想要稍微了解下相关的技术,或者作为业余爱好,则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的”Web挖掘”这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的,不够系统,但讲的挺好,所以适合有个初步的了解后再看。后者则亦是如此,要注意的是里面很多api因为GFS的缘故不能直接实验,也是个遗憾

      如果是继续相关的研究学习,我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述,作者简单明了的讲述了很多流行的算法(十年前的),并且对于各个算法的适用点和特点都有详细的解说,轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

      进阶:

      进阶这个话题就难说了,毕竟大家对于进阶的理解各有不同,是个仁者见仁的问题。就我个人来说,则建议如下展开:

      视频学习方面:

      可以看看斯坦福的《机器学习》这门课程的视频,最近听说网易公开课已经全部翻译了,而且给出了双语字幕,更加容易学习了^_^

      书籍学习方面:

      我个人推荐的是这样:可以先看看李航的《统计学习方法》,这本书着重于数学推导,能让我们很快的对于一些算法的理解更加深入。有了上面这本书的基础,就可以开始啃一些经典名著了。

      这些名著看的顺序可以不分先后,也可以同时学习:

      Richard O. Duda的《模式分类》这本书是力荐,很多高校的数据挖掘导论课程的教科书便是这本(也是我的数据挖掘入门书,很有感情的)。如果你不通读这本书,你会发现在你研究很多问题的时候,甚至一些相对简单的问题(比如贝叶斯在高斯假设下为什么退化成线性分类器)都要再重新回头读这本书。

      Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著,整本书写的非常清爽。

      The Elements of Statistical Learning》这本书豆友有句很好的吐槽“机器学习 — 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版,但是翻译之烂也甚是有名,听说是学体育的翻译的。

      Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名,但是写的甚好,是knime官网上推荐的,标榜的是解决实际生活中的数据挖掘问题,讲述了CRISP-DM标准化流程,每章后面给出了R和knime的应用例子。

      项目方面:

      事实上,我觉得从进阶起就应该上手一些简单的项目了。如果不实践只是看书和研究算法,我觉得是无法真正理解数据挖掘的精髓所在的。打个简单的比方,就算你看完了C Primer、effective C 等等书籍,如果自己不写C ,那么自己也就会停留在hello world的级别。实践出真知非常切合数据挖掘这门学科,实际上手项目后才会发现什么叫”80%的准备,20%的建模”,real world的问题我认为并不是仅仅靠modeling就能很好的解决的。详细的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推荐或者一些简单的项目,也可以考虑用用mahout,推荐的入门手册是《mahout in action》。项目问题说来话长,有时间会以CRISP流程为引单独作文,这里也就不详谈了。

      软件方面:

      我常用而且推荐的软件有如下,这里只是简单的列出,以后有时间再详细分析和写出入门:

      Weka Java的软件,可以集成到自己的项目中

      Orange 一个用python写的数据挖掘开源软件,界面做的很漂亮,可以做图形化实验,也可以用python调用编程。

      Knime 和Orange类似,特点是可以集成weka和R等开源软件

      SAS的EM模块以及R 还有最最经典的matlab大大

      这里有篇文有简要的介绍http://www.oschina.net/question/12_14026

      再往后:

      再往后的其实就是我就是觉得是学数学了,然后就是深入读一些你感兴趣的topic的书籍和paper,接项目,做项目了。发展有数据分析师或者去专门的企业做数据研究员,当然混学术界的我就不清楚了。

      初略写完发现成一篇长文了,最近也是在做一个用眼底照片预测stroke的项目,比较忙,等闲下来以后也会写些算法或者软件或者实际项目的心得的文。当然也只是我个人粗浅的想法,也希望能和大家有所交流,相互促进,我个人的邮箱是flclain@gmail.com,有什么问题可以再帖子里讨论,也可邮件交流^_^

      作者:懒惰啊我

     

    网站原址:http://www.chinakdd.com/article-1v440874t32MBld.html

    展开全文
  • 随着教育部公布2017年度普通高等学校本科专业备案和审批结果的通知,目前申请获批数据科学与大数据技术专业(专业代码:080910T)的高校已增至278所。在获批高校越来越多的同时,如何在专业建设过程中选择适用教材,...

    随着教育部公布2017年度普通高等学校本科专业备案和审批结果的通知,目前申请获批数据科学与大数据技术专业(专业代码:080910T)的高校已增至278所。在获批高校越来越多的同时,如何在专业建设过程中选择适用教材,却逐渐成为了各大高校面临的一大难题。

    《大数据实验手册》:大数据从入门到实战其实没有那么难!

    而早在2016年,清华大学博士、南京大数据研究院院长刘鹏教授就联合国内多所高校从事一线教学科研任务的专业师资,开始编写大数据系列教材。目前,《云计算》、《大数据》、《大数据库》、《数据挖掘》、《深度学习》、《大数据可视化》、《虚拟化与容器》、《大数据实验手册》等本科系列教材陆续出版,可为大数据教学提供系统的教材支撑。

    今天为大家重点推荐介绍《大数据实验手册》,欢迎了解和关注:

    《大数据实验手册》:大数据从入门到实战其实没有那么难!

    《大数据实验手册》概述

    本书是国内众多高校采用的知名教材《云计算》(1~3版)的姊妹篇(《云计算》名列中国计算机类图书被引用量第一名),与《大数据》在内容上实现互补,适合作为大数据实验指导用书,也可作为大数据开发人员和爱好者的学习和实训资料。

    《大数据实验手册》主要内容

    本书针对高校大数据相关专业实践教学以及个人提升大数据动手能力的需求,由刘鹏教授带领大数据研发团队,经过反复实践、提炼和验证而成。本书主要内容包括HDFS实验、YARN实验、MapReduce实验、Hive实验、Spark实验、ZooKeeper实验、HBase实验、Storm实验、MongoDB实验、LevelDB实验、Mahout实验和综合实战等。每个实验呈现详细的实验目的、实验内容、实验原理和实验流程。本书实验均在大数据实验平台(https://bd.cstor.cn)和BDRack大数据实验一体机上验证通过。

    《大数据实验手册》实验大纲

    实验一:大数据实验一体机基础操作

    实验二:HDFS实验:部署HDFS

    实验三:HDFS实验:读写HDFS文件

    实验四:YARN实验:部署YARN集群

    实验五:MapReduce实验:单词计数

    实验六:MapReduce实验:二次排序

    实验七:MapReduce实验:计数器

    实验八:MapReduce实验:Join操作

    实验九:MapReduce实验:分布式缓存

    实验十Hive实验:部署Hive

    实验十一:Hive实验:新建Hive表

    实验十二:Hive实验:Hive分区

    实验十三:Spark实验:部署Spark集群

    实验十四:Spark实验:SparkWordCount

    实验十五:Spark实验:RDD综合实验

    实验十六:Spark实验:Spark综例

    实验十七:Spark实验:Spark SQL

    实验十八:Spark实验:Spark Streaming

    实验十九:Spark实验:Graphx

    实验二十:部署ZooKeeper

    实验二十一:ZooKeeper进程协作

    实验二十二:部署HBase

    实验二十三:新建HBase表

    实验二十四:部署Storm

    实验二十五:实时WordCountTopology

    实验二十六:文件数据Flume至HDFS

    实验二十七:Kafka订阅推送示例

    实验二十八:Pig版WordCount

    实验二十九:Redis部署与简单使用

    实验三十:MapReduce与Spark读写Redis

    实验三十一:MongoDB实验:读写MongoDB

    实验三十二:LevelDB实验:读写LevelDB

    实验三十三:Mahout实验:K-Means

    实验三十四:使用Spark实现K-Means

    实验三十五:使用Spark实现SVM

    实验三十六:使用Spark实现FP-Growth

    实验三十七:综合实战:车牌识别

    实验三十八:综合实战:搜索引擎

    实验三十九:综合实战:推荐系统

    实验四十:综合实战:环境大数据

    实验四十一:综合实战:智能硬件大数据托管

    实验四十二:综合实战:贷款风险评估

    ✤以上实验均附有实验目的、实验要求、实验原理、实验步骤、实验结果等详细介绍,参考实验内容即可完成相应实验。

    通过以下链接了解更多《大数据实验手册》详情。

    https://weidian.com/?userid=256743988&wfr=wxp_wxh5&ifr=itemdetail&spider_token=5edd&spider=seller.itemdetail.head.1

    展开全文
  • 寻路大数据:海量数据与大规模分析(Google大数据专家力作超豪华译者|作序者真正梳理趋势生态|方案工具选型|应用场景价值挖掘的独家内参) 【美】Michael Manoochehri(迈克尔.马诺切里)著  戴志伟等 译 ...

    寻路大数据:海量数据与大规模分析(Google大数据专家力作超豪华译者|作序者真正梳理趋势与生态|方案与工具选型|应用场景与价值挖掘的独家内参

    【美】Michael Manoochehri(迈克尔.马诺切里)著  

    戴志伟等 译

    ISBN 978-7-121-24472-8

    2014年11月出版

    定价:59.00元

    244

    16

    编辑推荐

    微博副总|高德技术副总裁|百度主任架构师|百度技术委员会主席|UCloud创始人&CEO联合作序推荐

    大数据包罗万象,谷歌大数据平台技术权威独具匠心,站在全局高度析缕分条,让你不再迷失,能快速得其门而入

    本书是大数据实战用书,包含大量真实案例、实际代码、详细解决方案。

    ? 掌握大数据成功及避开常见陷阱的4个指导原则

    ? 强调协作,避免数据孤岛带来的问题

    ? 高效且经济地托管和共享数TB的数据集

    ? “为未来而构建”以支持快速增长

    ? 使用Redis开发NoSQL Web应用来收集众包数据

    ? 使用Hadoop、Hive和Shark在大数据集上运行分布式查询

    ? 使用Google BigQuery构建数据信息面板

    ? 使用高级可视化技术探索大数据集

    ? 实现高效流水线以转换海量数据

    ? 使用Apache Pig和Cascading库将复杂处理过程自动化

    ? 运用机器学习方法进行分类、推荐及预测

    ? 使用R语言统计分析大数据集

    ? 建立合理的采购策略:何时选择自制、购买或外包

    ? 使用Python和Pandas构建高效分析工作流

    ? 展望可伸缩数据技术的新趋势及数据科学家的角色演变

    内容提要

    这是一个数据爆发的时代,更是一个数据技术爆发的时代,各行各业都在因此进行深刻的变革。如何从众多的数据技术中选择正确的工具、如何使用这些工具从海量数据中挖掘出有价值的东西,无疑是非常具有挑战性的问题。

    《寻路大数据:海量数据与大规模分析》作者结合自己在Google 大数据平台工作的丰富经验,阐述了数据技术的方方面面。从数据收集、共享到数据存储,从分布式数据平台、分析型数据库到数据可视化,从数据工作流构建到大规模数据分析,作者不仅进行了全面而深入的介绍,更覆盖了目前流行的各种数据技术与工具,同时对技术选型提出了指导性的建议。最后,作者对数据挑战的非技术因素进行了深刻的分析,并对数据技术的发展趋势进行了展望,引人深思。

    《寻路大数据:海量数据与大规模分析》对企业管理者、技术经理、数据分析师、数据应用开发人员和相关从业者都有很好的参考价值。决策者可以从中看到技术趋势,把握时代发展脉搏;数据分析人员可以看到经验的总结和工具的应用;其他从业者可以从中了解数据技术所涉及的各个方面。

    目录

    第1 部分 大数据时代指引 1

    第1 章 数据成功四原则 3

    1.1 当数据成为一件“大”事 3

    1.2 数据和单台服务器 4

    1.3 大数据的权衡 5

    1.3.1 构建可(无限)扩展的解决方案 6

    1.3.2 构建可(在互联网上)共享数据的系统 7

    1.3.3 构建解决方案,而非基础设施 8

    1.3.4 关注从数据中解放价值 8

    1.4 大数据流水线剖析 9

    1.5 终极数据库 10

    1.6 总结 10

    第2 部分 收集和共享海量数据 13

    第2 章 托管和共享TB 级原始数据 15

    2.1 文件之殇 16

    2.1.1 共享大量文件的挑战 16

    2.2 存储:基础设施即服务 17

    2.2.1 网络很慢 18

    2.3 选择合适的数据格式 18

    2.3.1 XML :数据,描述你自己 20

    2.3.2 JSON :程序员的选择 21

    2.4 字符编码 22

    2.4.1 文件转换 24

    2.5 移动中的数据:数据序列化格式 25

    2.5.1 Apache Thrift 和Protocol Buffers 26

    2.6 总结 27

    第3 章 构建基于NoSQL 的Web 应用采集众包数据 29

    3.1 关系型数据库:命令及控制 30

    3.1.1 关系数据库的ACID 测试 32

    3.2 当关系型数据库遇上互联网 33

    3.2.1 CAP 原理与BASE 34

    3.3 非关系型数据库的模式 36

    3.3.1 键- 值数据库 36

    3.3.2 文档存储 38

    3.4 为写入性能优化:Redis 40

    3.5 在多个Redis 实例上分片 43

    3.5.1 使用Twemproxy 自动分区 44

    3.5.2 Redis 的替代选项 46

    3.6 NewSQL :Codd 归来 46

    3.7 总结 47

    第4 章 解决数据孤岛问题的策略 49

    4.1 堆满术语的仓库 49

    4.1.1 实践中的问题 51

    4.1.2 数据合规与安全规划 52

    4.1.3 走进数据仓库 53

    4.1.4 数据仓库的口诀:抽取、转换和加载 54

    4.2 Hadoop :数据仓库中的大象 55

    4.3 数据孤岛也可能是个优点 55

    4.3.1 专注于数据问题,而不是技术 56

    4.3.2 鼓励员工提出他们自己的问题 57

    4.3.3 投资沟通数据孤岛的技术 57

    4.4 融合:数据孤岛的终结 58

    4.4.1 Luhn 的商业智能系统是否能成为现实 59

    4.5 总结 59

    第3 部分 数据探究 61

    第5 章 使用Hadoop、Hive 和Shark 探索大规模数据集 63

    5.1 什么是数据仓库 64

    5.2 Apache Hive :在Hadoop 上进行交互式查询 66

    5.2.1 Hive 用例 66

    5.2.2 Hive 实战 67

    5.2.3 在Hive 中使用其他数据源 71

    5.3 Shark :以内存的速度进行查询 72

    5.4 云中的数据仓库 73

    5.5 总结 74

    第6 章 使用Google BigQuery 构建数据信息中心 77

    6.1 分析型数据库 78

    6.2 Dremel :均贫富 79

    6.2.1 Dremel 与MapReduce 的不同之处 80

    6.3 BigQuery :数据分析即服务 81

    6.3.1 BigQuery 的查询语言 82

    6.4 建造自己的大数据信息面板 83

    6.4.1 授权访问BigQuery API 84

    6.4.2 运行查询并获取结果 87

    6.4.3 缓存查询结果 88

    6.4.4 添加可视化图形 89

    6.5 分析型查询引擎的未来 91

    6.6 总结 91

    第7 章 探索大数据的可视化策略 93

    7.1 警世良言:将数据翻译成故事 94

    7.2 人类尺度 VS 机器尺度 97

    7.2.1 交互性 97

    7.3 开发交互式数据应用 98

    7.3.1 使用R 和ggplot2 实现交互式可视化 98

    7.3.2 matplotlib: Python 的2D 图形库 100

    7.3.3 D3.js :用于Web 的交互式可视化库 100

    7.4 总结 104

    第4 部分 构建数据流水线 107

    第8 章 整合:MapReduce 数据流水线 109

    8.1 数据流水线是什么 109

    8.1.1 正确的工具 110

    8.2 使用Hadoop Streaming 搭建数据流水线 111

    8.2.1 MapReduce 和数据转换 111

    8.2.2 最简单的流水线:stdin 到stdout 113

    8.3 单步MapReduce 变换 115

    8.3.1 从原始NVSS 数据中抽取相关信息:map 阶段 116

    8.3.2 合计每月出生数:reducer 阶段 117

    8.3.3 在本地测试MapReduce 流水线 118

    8.3.4 在Hadoop 集群上运行我们的MapReduce 作业 119

    8.4 降低复杂性:Hadoop 上Python 的MapReduce 框架 120

    8.4.1 使用mrjob 重写Hadoop Streaming 示例 121

    8.4.2 建造一个多步流水线 122

    8.4.3 在Elastic MapReduce 上运行mrjob 脚本 124

    8.4.4 其他基于Python 的MapReduce 框架 125

    8.5 总结 125

    第9 章 使用Pig 和Cascading 构建数据转换工作流 127

    9.1 大规模数据工作流实战 128

    9.2 多步MapReduce 转换真复杂 128

    9.2.1 Apache Pig :拒绝复杂 129

    9.2.2 使用交互式Grunt shell 运行Pig 130

    9.2.3 过滤和优化数据工作流 132

    9.2.4 以批处理模式运行Pig 脚本 132

    9.3 Cascading :构建健壮的数据工作流应用 133

    9.3.1 以source 和sink 的方式思考 134

    9.3.2 构建Cascading 应用 135

    9.3.3 创建一个Cascade :一个简单的JOIN 例子 136

    9.3.4 在Hadoop 集群上部署Cascading 应用 138

    9.4 何时选择Pig 或Cascading 139

    9.5 总结 140

    第5 部分 基于大规模数据集的机器学习 141

    第10 章 使用Mahout 构建数据分类系统 143

    10.1 机器能否预测未来 144

    10.2 机器学习的挑战 144

    10.2.1 贝叶斯分类 146

    10.2.2 聚类 146

    10.2.3 推荐引擎 148

    10.3 Apache Mahout :可伸缩的机器学习工具 148

    10.3.1 使用Mahout 进行文本分类 149

    10.4 MLbase :分布式机器学习框架 152

    10.5 总结 152

    第6 部分 基于大规模数据集的统计分析 155

    第11 章 使用R 语言处理大数据集 157

    11.1 统计学为什么性感 158

    11.1.1 R 处理大型数据集的局限性 159

    11.1.2 R 的数据帧和矩阵 161

    11.2 处理大数据集的策略 162

    11.2.1 大矩阵处理:bigmemory 和biganalytics 162

    11.2.2 ff: 使用大于内存的数据帧 164

    11.2.3 biglm :大规模数据集的线性回归 165

    11.2.4 RHadoop: 使用R 访问Apache Hadoop 166

    11.3 总结 168

    第12 章 使用Python 和Pandas 构建分析工作流 171

    12.1 数据乐园中自在的蟒蛇——Python 172

    12.1.1 为统计性计算选择一门语言 172

    12.1.2 扩展现有代码 173

    12.1.3 工具和测试 174

    12.2 用于数据处理的Python 库 174

    12.2.1 NumPy 175

    12.2.2 SciPy :Python 的科学计算库 176

    12.2.3 数据分析库Pandas 178

    12.3 构建更复杂的工作流 182

    12.3.1 处理损坏或丢失的记录 184

    12.4 iPython :科学计算工具链的最后一环 185

    12.4.1 在集群上并行执行iPython 186

    12.5 总结 190

    第7 部分 展望未来 191

    第13 章 何时选择自制、购买或外包 193

    13.1 功能重合的解决方案 193

    13.2 理解你的数据问题 195

    13.3 自制还是购买问题的参考手册 197

    13.3.1 你已经对哪些技术有所投入 197

    13.3.2 从小处着手 198

    13.3.3 规划时考虑可扩展性 198

    13.4 私人数据中心 199

    13.5 了解开源的成本 201

    13.6 一切皆服务 202

    13.7 总结 202

    第14 章 未来:数据科技的几个趋势 205

    14.1 Hadoop :搅局者与被搅局者 206

    14.2 一切皆在云中 208

    14.3 数据科学家的兴衰 209

    14.4 融合:终极数据库 212

    14.5 文化融合 213

    14.6 总结 214

    作者简介

    Michael Manoochehri 是个企业家、作家和乐观主义者。凭借自己与企业、研究机构和非营利性机构多年的合作经验,他力图让可扩展数据分析变得更加廉价和易获取。Michael 是Google 云平台开发者关系组的成员之一,关注云计算和数据开发者产品,例如Google BigQuery。此外,Michael 是技术博客ProgrammableWeb.com的作者之一,曾在乌干达农村地区研究移动电话的使用,拥有UC Berkeley 信息学院的信息管理与系统文学硕士学位。

    媒体评论

    大规模数据分析几乎对所有行业都极其重要。移动和社交技术产生了海量的数据集,分布式云计算提供了存储和分析这些数据所需的资源,专家们掌握着全新的技术,其中包括NoSQL数据库。但是迄今为止,关于“大数据”的大部分书籍只不过是业务争论或者产品目录。本书则不同:它是每个大数据决策者、实施者和战略制定者必不可少的实战指南。

    Michael Manoochehri是一个前Google工程师和数据骇客,他为那些需要低资源消耗和时间开销的实用方案的专业人员写作了本书。借助其广博的知识,作者帮助您专注于构建应用而不是基础设施管理,因为这样您才能从中获得最大的价值。

    作者展示了如何结合使用不同的技术经济、有效地解决关键的大数据用例。您将看到进行海量数据集管理、数据可视化、数据流水线和信息面板构建、统计分析工具选择等的专业方法。纵观本书,作者演示了目前最先进的数据分析工具的使用技巧,其中包括Hadoop、Hive、Shark、R、Apache Pig、Mahout和Google BigQuery。

    对数据进行采集、存储和分析的工具种类非常繁多,而且新的工具还在不断涌现。对于刚进入这个领域的新人来说,这往往意味着需要浏览众多网站和相关书籍才能对大数据处理的基础知识有个基本的了解。正因如此,这本书成为 Addison Wesley 数据分析(Data & Analytics)丛书的一个有力补充 :本书对构建大数据分析系统的工具、技术和实用技巧进行了全面的介绍。

    Michael 是介绍大数据分析的绝佳人选,他曾在 Google 的云平台开发者关系组工作,帮助开发者使用 BigQuery(Google 的 TB 级数据分析平台)进行大规模数据分析。他将自己在大数据领域广阔的知识面带到了这本书中,为刚接触大数据的人和寻求建议、技巧和工具的人提供了非常实用的实战指南。

    本书从大数据系统的成功应用开始介绍,之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后,又覆盖了使用 BigQuery 进行实时分析的相关内容。之后还包括了 MapReduce 流水线、Pig 和Cascading、使用 Mahout 进行机器学习等高级课题。在书的最后,读者会看到将Python 和 R 整合到大数据工具链中的实际案例。本书大部分章节都包含了很多例子以帮助读者学习和使用相关的大数据工具。如果你想要一本对大数据分析有一个全面了解的书籍,本书绝对是不二之选。

    ——Paul Dix

    前言

    注意到了吗?移动技术和社会化媒体产生的数据已经超过了人类能够理解的范围,大规模数据分析突然变得魅力四射。

    分布式和云计算领域正在快速发展以分析和处理这些数据。技术变革那令人难以置信的速度已经彻底颠覆了人们应对数据挑战的旧有观念,强迫他们跟上时代的步伐去评估一系列技术,而这些技术有时甚至是互相有冲突的。

    很久以来,关系型数据库一直是商业智能应用的推进器,如今一些激进的开源NoSQL 新贵也加入了进来。二者的结合构成了一种全新的混合数据库解决方案。基于Web 的计算所存在的优点驱使着大规模数据存储从定制数据中心转向可伸缩的“基础设施即服务”上来。另一方面,基于开源的Hadoop 生态系统的项目使得普通开发者也能够接触到数据处理技术,这在以前只有一些做云计算的大公司,如Amazon 和Google 才能做到。

    这些技术创新的结果通常被称为大数据(Big Data)。关于这个词汇的含义有很多争论。大数据是一个新产生的趋势,抑或只是老调重弹?大数据是如其字面意思那样意味着很多的数据,还是指使用新的方式去挖掘数据价值的过程呢?科学历史学家George Dyson 总结得很好:“当扔掉数据的代价大于所需机器代价时,大数据才有了存在的价值。”换句话说,当数据本身的价值超过了收集和处理这些数据所需的计算能力时,就有了大数据。

    尽管一些支持大数据运动的公司和开源项目的令人惊奇的成功的确是事实,但同时很多人也已经发现,去了解大量新的数据解决方案和服务提供商非常具有挑战性。而我发现设计解决方案去面对数据挑战的过程往往可以归纳为一系列共同的用例,这些用例在这些解决方案中一再出现。

    寻找高效的数据解决方案就意味着权衡。一些技术是为某类特殊的数据用例专门优化的,因此对于其他类型的数据来说并不是最好的选择。一些数据库软件为了达到更高的分析速度而牺牲了灵活性,而另一些数据库软件可能为了更高的性能会牺牲一致性。本书会通过介绍实际用例和真实的成功案例帮助你学习如何去做选择。

    本书的适用范围

    在这个世界上没有使用无限的金钱和资源解决不了的问题。不管怎样,拥有大量资源的组织总是可以建造他们自己的系统去收集和分析任何规模的数据。本书并不是写给这些拥有无限的时间、一大群努力的工程师和无穷预算的人们的。

    本书写给除此以外的其他人。这些人在寻找数据解决方案,但同时拥有的资源有限。大数据时代的一个主题是任何人都能够获取到合适的工具,而这些工具在几年前还只有少数几个大公司拥有。然而另一个摆在面前的事实是,很多工具非常新颖,并在快速演变,并不总是能够无缝地互相衔接。本书的目标就是向读者演示如何高效地将这些部件组装在一起建造成一个个完整的系统。我们会讨论解决数据问题的策略,如何使它们变得经济、可行,当然还必须具有实用性。

    开源软件已经在无数的方面降低了人们获取技术的难度,在大数据领域也是如此。但是,本书中涉及的技术和解决方案并不全部是开源的,有时候涉及商业公司提供的计算资源服务。

    尽管如此,很多基于云的服务是使用开源工具建造的,事实上,若没有这些开源工具,很多云服务根本就不会存在。因为规模经济效应,公用计算平台越来越多,用户可以按需付费购买超级计算资源,就像人们购买自来水和电一样。我们会讨论在保证系统可伸缩性的同时尽量降低开销的策略。

    为什么现在写这本书

    有一件事仍然让我感到非常神奇,那就是如果不考虑经济发展程度不一和语言障碍,写一个能够被整个星球的人使用的软件并非不可能。像Facebook、Google 搜索、Yahoo !邮箱和中国的QQ 空间这样的Web 应用拥有几亿甚至几十亿的活跃用户并非不可能。Web 和相关开发工具的规模仅仅是大数据领域发展速度如此令人瞩目的原因之一。让我们来看看对此也有贡献的其他趋势吧。

    开源大数据的成熟

    2004 年,Google 发布了一篇著名的论文,文中详细介绍了一个叫作MapReduce的分布式计算框架。MapReduce 框架是Google 用以将海量数据处理问题分割成多个更小问题的关键技术。不久之后,Google 发布了另一篇论文,介绍了Google 内部使用的分布式数据库技术:BigTable。

    从此,很多开源技术出现了,它们要么是这些Google 论文中技术的实现,要么受到了其启发。同时,由于关系型数据库在分布式系统中使用所暴露出来的先天不足,新的数据库范式越来越为人们所接受。某些范式彻底避开了关系型数据库的核心属性,抛弃了标准化的模式、确保的一致性,甚至SQL 本身。

    Web 应用的崛起

    随着喜欢使用Web 的人越来越多,数据产生的速度也越来越快。Web 用户的增加也带来了Web 应用的增加。

    基于Web 的软件通常基于应用程序接口(API)构建。应用程序接口能够将网络中独立的服务连接起来。例如,很多应用允许用户使用其Twitter 账户信息来做认证,或者通过Google 地图来可视化地分享自己的地理位置。每一个接口都有可能会提供某种类型的日志信息用于做数据驱动的决策。

    另一个对现在的“数据洪流”有所贡献的是持续增长的用户产生内容和社会化网络的普及。互联网使得人们能够以极小的代价发布内容。尽管会有大量的噪声数据,但是从营销和广告方面看,懂得如何收集和分析雪崩式的社会化网络数据仍然是非常有用的。

    根据从这些Web 服务中收集的信息来辅助进行商业决策是可行的。例如,想象一下如何根据地理信息洞察销售规律:是否购买了某种产品的独立用户有30% 来自于法国并且在Facebook 上分享了他们的购物信息?像这样的数据很可能会帮助你决定动用资源瞄准社会化网络上的法国客户。

    移动设备

    可伸缩的数据技术比过去任何时候都热门的另一个原因是,全球移动通信设备数量的爆炸。与其说这种趋势是由于个人对功能手机和智能手机的使用造成的,不如把这种趋势看作是以用户身份为中心而与设备无关的。假如你同时在使用一台计算机和一部智能手机,那么或许你就能够通过其中任何一个设备来存取自己的个人数据。而这份数据或许是存储在某个基础设施即服务的提供商的数据中心中。类似地,我的智能电视能够在空闲的时候把我关注的Twitter 用户的推文作为屏幕保护显示出来。这些都是普适计算——基于你的身份从联网的任何设备存取资源的例子。

    随着移动设备使用的加速增长,消费性移动设备越来越多地被用于商业目的。我们正处于普适计算的早期阶段,人们使用的设备仅仅是作为通过网络存取个人数据的工具。业界和政府正开始认识到使用100% 基于云的商业生产力软件的关键优点,即能够改进雇员的机动性和提高工作效率。

    总之,每天有数百万的用户开始通过持续增长的设备使用基于网络的应用程序。只要能够收集、处理和分析这些数据,就能够从中发现可用于进行商业决策的巨大价值。

    物联网

    未来,任何使用电的设备都可能会连接到互联网,因此会有很多数据在用户、设备和服务器之间来回传输。这通常被叫作物联网(Internet of Things)。如果你认为现在的数十亿互联网用户产生的数据很多的话,想想等到我们所有的汽车、手表、灯泡和面包机都上网了之后会怎么样吧。

    尽管还不清楚能连接Wi-Fi 的面包机有没有市场,但是越来越多的商业公司和个人爱好者开始使用廉价硬件进行物联网方面的探索。我们可以想象一下这种联网设备:用户能够完全通过智能机或平板电脑来操控。这种技术已经出现在了电视机上,应该很快就能取代微波炉上那些令人无法容忍的控制面板了。

    就像前面描述的移动应用和网络应用趋势,物联网对个人隐私和政策的影响需要进行详细的评估:谁可以获知你在哪里如何使用你新买的支持Wi-Fi 的电动牙刷?另一方面,从这些设备中收集的信息也可以使市场更加高效、自动检测设备中的潜在故障,或者向用户发出警告信息,这些警告信息可能会节省他们的时间和金钱。

    通向普适计算之路

    前面提到的信息太多,可能反而转移了大家的注意力,但是有一点是非常重要的:随着互联网背后的分布式计算技术使得人与人之间的交流越来越容易,大数据技术趋势也让寻找问题答案的过程从过去的不可能变得可能。

    更重要的是,用户体验的进步意味着我们正在进入这样一个世界——探究我们产生的令人无法想象的海量数据的技术正在变得越来越透明、经济和唾手可得。

    本书组织结构

    处理海量的数据需要使用一系列专业技术,而每种技术本身都有取舍和挑战。本书分成几个部分,分别描述在一些常见用例下的数据挑战和成功的解决方案。第1 部分“大数据时代指引”包含了第1 章:“数据成功四原则”,本章描述了为什么大数据如此重要,以及为什么新技术的前景不仅意味着机遇也意味着挑战。本章介绍了贯穿全书的共同主题,如构建可伸缩的应用;构建解决数据孤岛问题的协同工具;在考虑使用什么技术之前先考虑应用场景;除非绝对必要,否则避免建造基础设施。

    第2 部分“收集和共享海量数据”描述了关于收集和共享大规模数据的应用场景。第2 章“托管和共享TB 级原始数据”描述了如何应对托管和共享大量文件中存在的看起来很简单的挑战。选择合适的数据格式是非常重要的,本章覆盖了共享数据时必须要考虑的问题,以及经济地托管大量数据时所需的基础设施。本章通过讨论传输数据时使用的序列化格式给出了相应的结论。

    第3 章“构建基于NoSQL 的Web 应用采集众包数据”介绍了可伸缩数据库技术领域。本章讨论了关系型数据库和非关系型数据库的历史,以及如何在二者之间进行选择。我们还会介绍流行的Redis 数据库,以及将Redis 实例在多台机器上进行分片的策略。

    可伸缩数据分析需要多种技术知识和应用经验,这常常导致数据被分割为一个个互不兼容的数据孤岛。第4 章“解决数据孤岛问题的策略”详细分析了数据孤岛存在的原因和解决相关问题的策略。本章还讨论了为何数据孤岛也有利好的一面。

    收集、存储和共享数据之后,我们会想要探索数据。第3 部分“数据探究”包括了在探索大数据集的时候涉及的用例和技术。在大规模数据上执行查询通常需要分布式解决方案。第5 章“使用Hadoop、Hive 和Shark 探索大规模数据集”介绍了流行的用于在持续增长的数据集上执行查询的可伸缩工具。本章重点关注Apache Hive,它能够将类SQL 查询语句翻译为在Hadoop 上运行的MapReduce 作业。

    有时数据查询是迭代式的。分析型数据库是一种为查询数据集并迅速返回结果而专门进行了优化的软件。第6 章“使用Google BigQuery 构建数据信息中心”描述了分析型数据库应用案例和如何将它们作为Hadoop 这样的批处理工具的补充。本章介绍了Google BigQuery—— 一种完全托管的使用类SQL语法的分析型数据库。本章还会演示如何将BigQuery 的API 作为基于Web 技术的数据信息中心背后的引擎。

    数据可视化是一个历史悠久而丰富多彩的研究领域。第7 章“探索大数据的可视化策略”介绍了在大数据集上使用可视化工具的益处和潜在陷阱。本章介绍了当数据量增长得很大时的可视化策略,还介绍了数据可视化过程中需要用到的数据分析工具。

    使用可伸缩数据技术的时候,遇到的一个共同问题是不同的软件工具是为了不同的用例做优化的。鉴于此,一个共同的用例是将大规模数据从一种格式或形态转换成另一种格式或形态。第4 部分“构建数据流水线”介绍了实现用于改进数据转换的流水线和工作流的方法。第8 章“整合:MapReduce 数据流水线”介绍了使用Hadoop MapReduce 框架处理大规模数据的思想。本章描述了使用Hadoop Streaming API 和像Python 这样的脚本语言创建实用且易行的MapReduce 应用。

    当数据处理任务变得非常复杂之后,我们需要使用工作流工具来进一步使数据转换任务变得更加自动化。第9 章“使用Pig 和Cascading 构建数据转换工作流”介绍了表达复杂MapReduce 任务的两种技术。Apache Pig 是一种工作流描述语言,它能够使定义复杂的多步的MapReduce 作业变得容易。本章还介绍了Cascading——一个优雅的可用于使用Hadoop 构建复杂数据工作流应用的Java 库。

    当数据量增长到非常大之后,我们需要使用计算机来寻找对人类有用的信息。如果能够使用机器基于现有的数据模型对收到的信息进行分类、推荐和预测,那将是非常有用的。第5 部分“基于大规模数据集的机器学习”包括第10 章“使用Mahout 构建数据分类系统”,本章介绍了机器学习领域,还会使用流行的Apache Mahout 机器学习库来演示具有普遍性的机器学习任务——文本分类。

    数据统计的目标之一是解释数据的质量和意义。第6 部分“基于大规模数据集的统计分析”介绍了统计分析大规模数据的常用工具和用例。R 语言是最流行的一种用于表达统计分析任务的开源语言。第11 章“使用R 语言处理大数据集”讲述了一种正在变得更加普遍的用例:使用R 语言高效地处理大数据集。本章介绍了当数据量增长到比系统可用内存更大的时候可以使用的R 语言库,还介绍了如何将R作为Hadoop 集群的界面使用。

    虽然R 语言非常流行,但是使用通用语言来解决数据分析挑战仍然有其优点。第12 章“使用Python 和Pandas 构建分析工作流”介绍了越来越流行的Python 分析工具栈。本章包括了用于处理时间序列数据的Pandas 库的使用,以及iPython 笔记本—— 一种支持共享和协同的增强脚本环境。

    并不是所有的数据挑战都是纯技术相关的。第7 部分“展望未来”介绍了在面对数据分析创新时处理组织不确定性所使用的实用策略。第13 章“何时选择自制、购买或外包”介绍了在面对数据分析这个高度创新的领域时制定采购决策的策略。本章还谈到了使用开源技术构建数据解决方案的利弊。

    最后,第14 章“未来:数据科技的几个趋势”介绍了可伸缩数据技术(包括推动创新的激励因素)的当前趋势。本章也将深入讨论所谓数据科学家不断演变的作用和各种数据技术的融合。

    展开全文
  • 电商大数据——用数据驱动电商和商业案例解析(国内第1本将大数据与电商完美结合的权威之作!) 雪鹰传奇 著  ISBN 978-7-121-22556-7 2014年3月出版 定价:98.00元 360页 16开 编辑推荐 (1)《电商...
  • 它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。 决策树的算法原理: (1)通过把实例从根...
  • 电商大数据——用数据驱动电商和商业案例解析(国内第1本将大数据与电商完美结合的权威之作!) 雪鹰传奇 著  ISBN 978-7-121-22556-7 2014年3月出版 定价:98.00元 360页 16开 编辑推荐 (1)《电商...
  • 刚开始大数据是看书,一页页的看书,因为身边有一个好的资源,有问题可以问我朋友,后来发现看大数据的零基础书籍很难看下去,很多专业的东西对于一个新手根本就看不懂,没有什么效率。(在这里我个人建议,初学不要...
  • 王家林大咖清华大学新书Spark第二版已上市:致 Spark + AI 初学者前言新书介绍编辑推荐内容简介作者简介精彩章节新书目录第二版前言第一版前言Spark+AI学习路径献给Spark+AI的“后浪”新书案例讲解第二版网购链接...
  • 给大家推荐一本比较系统的Hadoop大数据书籍,方便大家快速入门 图书简介: 本书以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章,第1章讲解了VMware中CentOS 7操作...
  • 真正的数据爱好者有很多需要阅读的内容:大数据,机器学习,数据科学,数据挖掘等。除了这些技术领域,还有一些特定的技术和语言需要你继续研究:Hadoop,Spark,Python,和R等等,还有无数实现自动化的工具等等,...
1 2 3 4 5 ... 7
收藏数 126
精华内容 50