2018-12-28 00:29:01 xiaohuanglv 阅读数 84

驾驭大数据-Bill Franks

            在线阅读                   百度网盘下载(ciwe)


image.png

书名:驾驭大数据

作者:Bill Franks

格式:EPUB, HTMLZ, PDF

路径:点击打开

排序作者:Franks, Bill

排序书名:驾驭大数据

日期:08 12月 2018

uuid:39bd02ff-d98c-4a04-b751-98464c60366d

id:477

出版日期:12月 2013

修改日期:08 12月 2018

大小:2.04MB

语言:中文


你终于看完了这本书!现在,你了解了大数据是什么,知道驾奴大数据所需的工具、流程和方法。你了解了如何做一个优质分析,明白了执行一个优质分析所需的人员和团队。你还了解了如何通过分析创新中心和创新探索的企业文化来激发分析创新能力。

在我们阐述驾驭大数据浪潮的过程中,我们介绍了许多理论,以及如何应用这些理论来改进企业的分析和业务。不管你拥有何种背景,我们都希望你通过阅读本书学习到了许多有用的知识,并能将所学知识应用到你的企业中。

最后,再强调一些关键内容,以及你可以采取的措施。

■ 大数据是真实的,它就在你身边。既不要忽视大数据,也不要害怕它。将大数据整合到你的企业数据中,并制定包含大数据的企业分析战略。通过使用大数据来获得企业的竞争优势。

■ 分析的可扩展性比从前更加重要。确保你的企业升级了这些最常用的技术,包括库内分析、MapReduce以及云计算。

■ 你需要新的分析流程。使用分析沙箱、企业分析数据集以及嵌入式评分等工具来获得具有更快、更好扩展性的高级分析流程。

■ 实施新的分析技术,如文本分析、组合模型分析以及简易模型分析等。对于新的大数据源,不能再使用传统的分析技术。

■ 驾奴大数据需要拥有合适技能的分析专家。一个伟大的分析专家,不管他们是叫做分析专家还是数据科学家,都必须拥有以下技能:承诺、创造力、商业头脑、演讲能力以及直觉。你需要招聘拥有这些特质的人。

■ 分析团队有多种组织形式,关键在于确保做决策的人能够获得他所需要的信息。

■ 创建一个分析创新中心将帮助你驾奴大数据,并创造出一种创新发现的企业文化。这些会使驾驭大数据的过程变得更加得心应手。

让数据说话,让数据驱动决策,这些观点已经被人们普遍接受了。可以驱动决策的数据源和高级分析方法越来越多,大数据就是这样一种新数据源,其实它一点儿也不可怕。企业需要立刻行动起来,没有任何理由可以拖延开始使用大数据的时间。驾奴大数据确实有一些困难,有些人或许会抗拒变革,但从现在开始驾奴大数据是完全可行的。不管是文本数据、网络日志还是传感器数据,已经有不少企业开始捕获这些数据来进行分析,并以此来提升决策能力。

那些下决心成为大数据应用领导者的企业将发现新的商业机会,并实施新的业务流程,而那些跟随领导者步伐的企业还没意识到发生了什么事情。你可以作为开拓者进入某个数据分析领域,这种机会其实并不常见。大数据给了企业这种机会,不要让你面前的这个机会跑掉!现在就开始尝试使用大数据进行分析,这将改变企业的业务运营方式。你一定会获得丰厚的回报!你还在等什么?

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1155

'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();
2017-08-31 15:44:54 wyswlp 阅读数 220

前几天读了本《驾驭大数据》,完全科普类的书籍。用了一天的时间翻完了。书开头一小部分讲了讲大数据的一些现状,后面部分都在讲数据分析,涉及到理论、工具、方法,团队建设经验等方面。如果你是在一个互联网企业的老鸟,对书中的一些方法和经验应该不会陌生,如果你是菜鸟可以当科普图书读一读。
下载地址:http://www.5ibook.net/5253.html

2013-05-28 12:28:32 viewcode 阅读数 2013

刚刚翻了翻《驾驭大数据》这本书,里面讲解的东西通俗易懂,里面技术性比较强的部分是关于 大数据的技术,流程及方法。浏览过后,对大数据分析的技术、流程及方法会有一个概念性的整体认知,虽然不设计技术细节,但读读,很多东西能串联起来。


数据分析性能的提升历程:

1. 数据分析技术的演进历程,从扩展的角度

database 磁带库数据 --> 关系型数据库 --> Relation Databases Management System, RDBMS关系型数据库管理系统 --> Data Mart 数据集市 --> EDW (Enterprise Data Warehouse) 企业级数据仓库

2. 分析环境与数据管理环境的关系是什么?

过去:相互分离,离线处理模式

现在:相互融合,库内处理模式,取代离线分析处理模式,以支持各种高级分析。

库内处理模式


3. 数据分析通用的工具有哪些?

不限于下面的工具:

1). MPP海量并行处理Massive Parallel Process 数据库系统,关系型数据库,处理结构化数据

2). 云计算架构,可以很方便地在硬件、平台方面进行扩展

3). MapReduce的处理方式,程序并发执行,处理半结构化、非结构化数据


4. MPP海量并行处理数据库,对数据进行准备和评分的方法有哪些?

1)SQL,sql能力的发展

2)用户自定义函数UDF

3)嵌入式过程

4)预测模型标记语言PMML Predictive Modeling Markup Language.


5. MPP, 云计算,mapreduce的作用有哪些? 并且有哪些整合方式?

1)数据库在云中运行。

2)数据库内置mapreduce

3)mapreduce与数据库的数据相互传递,同时使用

4)mapreduce对数据库内的数据之间进行处理



分析流程的演进:

1. 什么是分析沙箱?有什么必要性?

一个资源组,是一个直接驻留在数据库内部的工作空间,即库内分析,支持各种高级分析。与DB相分离。有时间限制。

充分利用库内分析的可扩展性的技术优势,直接驻留在数据库系统内部的工作空间,而不是先前的专门的服务器用来支持分析。

优点:独立、灵活性、效率、自由、速度。

适合数据探索、分析开发及原型创建。

但不适用于生产性、或重复性的系统。


2. 沙箱有哪些类型?各有什么特点?

1) 内部分析沙箱

从企业数据仓库或数据集市中划分一块区域,用于分析测试样本数据,现在再加上一个 mapreduce环境,增强分析能力

搭建沙箱,与创建数据库容器类似,只不过可以赋予某些用户权限,并规定如何使用它

优点: 生成环境的数据和沙箱的数据可以直接进行关联分析

无需额外的成本,但数据迁移麻烦,或受生产环境资源限制

2)外部分析沙箱?

独立的物理分析环境,用于测试和开发各类分析流程。一般包括关系型数据库和mapreduce组件两项。

优点:减少负载管理、架构简单

缺点:增加成本、数据迁移

3)混合分析沙箱

内部沙箱:利用生产系统技术能力的灵活性

外部沙箱:可以完成某些高级探索任务

但增加的复杂性,数据一致性检查。需建立一定的分析原则。


4. 系统负载管理与沙箱的关系是什么?

不增加投资,充分利用现有资源,合理安排负载



5. 什么是分析数据集

可以直接用于分析的数据集合,如客户、区域、产品、供应商等

为支持某个分析或模型而收集的数据,且格式满足一定的需要。能缓解高效存储和方便使用 之间的矛盾。

关系数据、第三范式:便于存储或恢复,但不便于复杂的分析。

开发分析数据集: 抽样数据,变量丰富,用于开发测试

生产分析数据集:真实模型部署,数据深(数据量大)、但只包含特定的特征数据。


传统数据集引入的问题有哪些?

冗余、不一致、重复性工作


6. 如何升级传统基于ADS的分析项目?

可以升级为更加规范的EADS企业分析数据集,而不是简单地迁移到库内分析的架构中。


7. EADS是什么?有什么优点?

EADS是一个预定义好的汇总表和概要视图,可以方便地访问成千上百个分析所需的指标。

优点:提升了系统性能,减少了数据冗余,增加透明度,并确保数据的一致性。

其使用范围:不仅适用于各种分析,还可以给其他用户和应用。


汇总表:计算一次,多次使用;大量使用历史数据,实时性不是很高;需要占用大量的系统资源;可以直接使用,无需关联等操作。适用于非实时性数据。

视图:实时;视图内永远是最新的数据;更新能快速完成。但系统负载加重。适用于实时性高的数据。


7.  什么是嵌入式评分过程?有哪些实现方式?

评分过程就是将分析的结果进行广泛应用,并为用户屏蔽复杂的模型。其可以部署在沙箱环境或EADS环境中。

实现方式包括:SQL,UDF,嵌入式过程,或PMML


8. 模型与评分管理系统的组件有哪些?

输入分析数据集、模型定义、模型验证与报表制作、模型评分输出。


分析工具与方法的演进

1. 组合模型、简单模型、最优模型,哪种更适用?

三者各有特点。

能满足需求即可。


2. 用户界面,对分析专家的作用有哪些? 

能提高生产力,但是前提是知道自己在做什么,并确保工具“最适当地工作”。


3. 什么是单点解决方案?

专注于一个具体领域的分析,如欺诈或定价。通常基于一些分析工具套件,如SAS,并调用其一些基本功能。针对某一明确的问题集合。收费昂贵。


4. 开源分析工具有哪些?

R项目,开源分析工具集。依赖编程、可扩展性差,缺乏企业级的分析可扩展性。

Apache项目


5. 可视化工具有哪些?

Tableau、JMP、Advizor、Spotfire


PS:

1. ETL: Extract, Transform, Load

2. EDW : enterprise data warehouse

2017-08-31 01:13:00 weixin_30802273 阅读数 9
下载地址:网盘下载

 

 

内容简介

编辑
《驾驭大数据》为读者提供了处理大数据和在你的企业中培养一种创新和发现的文化所需的工具、过程和方法,描绘了一个易于实施的行动计划,以帮助你的企业发现新的商业机会,实现新的业务流程,并做出更明智的决策。《驾驭大数据》主要介绍了如何驾驭大数据浪潮,并详细地介绍了什么是大数据,大数据为什么重要,以及如何应用大数据。《驾驭大数据》还从具体实用的角度,介绍了用于分析和操作大数据的工具、技术和方法;以及人才和企业文化的角度,介绍了如何使分析专家、分析团队以及所需的分析原则更加高效,如何通过分析创新中心使得分析更加有创造力,以及如何改变分析文化。
[1] 

作者简介

编辑
Bill Franks是Teradata公司全球合作伙伴计划的首席分析专家,他负责跟踪研究分析领域的前段趋势,帮助客户理解Teradata和其分析合作伙伴如何为客户创造价值。Bill还负责管理Teradata与SAS合作成立的业务分析创新中心,并专注于帮助客户获得创新分 析能力。此外,Bill负责制定Teradata公司在高级分析领域的战略与定位。
Bill是国际数据分析研究所的一名讲师,国际数据分析研究所 ( International Institute for Analytics ) 是由分析领域专家Tom Davenport成立的研究机构。Bill同时还是一名活跃的演讲人和博客作者。
Bill一直专注于如何将复杂的分析转化为业务人员可以理解的语言,并帮助企业更有效地使用这些分析成果。他曾服务于很多不同行业和公司规模的客户,其中有财富前100强的大型企业,也有小型的非盈利组织。
Bill拥有弗吉尼亚科技大学应用统计专业的学士学位,以及北卡罗来纳州立大学应用统计专业的硕士学位。

目录

编辑
第一部分 大数据的兴起
第1章 什么是大数据,大数据为什么重要
第2章 网络数据:原始的大数据
第3章 典型大数据源及其价值
第二部分 驾驭大数据:技术、流程以及方法
第4章 分析可扩展性的演进
第5章 分析流程的演进
第6章 分析工具与方法的演进
第三部分 驾驭大数据:人和方法
第7章 如何提供优质分析
第8章 如何成为优秀的分析专家
第9章 如何打造优秀的分析团队
第四部分 整合:分析文化
第10章 促进分析创新
第11章 营造创新和探索的文化氛围
结论:再敢想一些

内容摘录

编辑
你收到一封邮件,邮件中提供了一套个人电脑的报价。而你几个小时前 刚刚在这家零售商的网站上搜索过电脑的信息,似乎它们已经读出了 你的想法……当你驱车前往这家商店购买这套个人电脑时,你路过了一家咖啡店,你看到了这家咖啡店的一条折扣信息。你获知由于你刚来到这片区域,你可以在未来20 分钟内享受10%的折扣…… 在你享用咖啡的时候,你收到了一家制造商关于某产品的道歉...

 

 

下载地址:网盘下载

 

转载于:https://www.cnblogs.com/long12365/p/9731341.html

驾驭大数据

阅读数 722

阅读体会

阅读数 15

没有更多推荐了,返回首页