• 大数据平台使用手册

    2020-07-08 09:36:56
    很详细的目前火爆的大数据行业平台如数加类似的使用手册。
  • 2017大数据领域十大必读书籍 chenjj 2017-07-12 大数据, 热门新闻 2,759 views 0 历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,...

    2017大数据领域十大必读书籍

    qlik桌面版免费试用

    历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,而各行各业谁也无法离开数据存活。尤其近几年来,全球范围内掀起了一股“大数据”热,各地政府、大小企业都在布局大数据,抢占先机。这个局到底怎么设,很少有人能说出清晰的脉络。一个新事物的出现,除了带给人们惊喜之外,还有毫无思绪的迷茫。

    据可靠数据显示,截止到2016年,全国的大数据人才只有46万,未来3-5年人才缺口高达150万之多。市面招聘网站上都在争抢大数据人才,有3-5年工作经验的数据分析师年薪直接高达50万元,但是能找到的确是寥寥。高校培养大数据人才仍是初步阶段,短期内无法快速输出人才。

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼。

    老司机教你:看书、写代码、多交流。  

    2016年马上就过完,你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老司机谈大数据!不过,像《大数据时代》、《数据之巅》等这些经典到“烂大街”的书我就不一一推荐了,很多人都看过,没看过的也都听说过。

    一、《Presto技术内幕》

    大数据

    Presto是Facebook开发的数据查询引擎,基于Java语言开发的,专门为大数据实时查询计算而设计和开发的产品,更是大数据实时查询计算产品的佼佼者,比Spark、Impala更加简单、高效。

    《Presto技术内幕》由浅入深地详细介绍了Presto的安装过程、内部运行原理机制、功能特性、性能优化方法,以及在应用过程中常见的问题及解决方案等,可用于多种数据源混合进行实时大数据分析计算,使一些使用其他大数据技术不能解决的业务场景有了一个全新有效的解决方案。

    在最后的附录部分不仅对 Presto 使用过程中出现的各种问题给出了明确的解决方案,还对 Presto中的各个配置参数的含义和作用进行了详细的说明并给出了推荐配置值

    作者: JD-Presto 研发团队 ,是京东众多研发团队中的一员,在开源软件领域获得多项大奖

    适读人群: Presto技术狂热者&攻城狮、对京东技术内幕好奇的小伙伴

    亮点:

    市面上第一本详细介绍Presto技术的书籍,可单点突破。

    浓缩了京东在开源领域深耕多年的实战经验

    京东CTO张晨、京东首席技术顾问翁志等技术大牛重磅推荐

    Presto 使用过程中的各种问题都给出明确的解决方案

    对Presto中各个配置参数的含义和作用进行详细的说明并给推荐配置值

    二、《为数据而生》

    大数据

    读完《为数据而生》,你会清楚的看到中国在大数据道路上所留下的轨迹,主要包括在智慧城市、科技、医疗、教育、商业、金融等领域的实践。书中分别阐述在大数据1.0、大数据2.0和大数据3.0时代下,相对应的数据分析需要做到分析、外化、集成:

    分析,这里作者提供了一套基本的大数据分析框架:确定问题和指标, 清洗数据, 特征提取和选择, 模型训练, 模型融合。

    外化,借助外部数据,将两个看起来毫不相干的事物通过数据挖掘建立联系。

    集成,主要讲企业、政府如何收集数据、标准化数据,以及最后如何商业化。

    未来中国的大数据发展提供一条清晰且可行性的路径指南!

    简言之,看了这本书,不管是企业或者政府,都可以看到大数据比较清晰且可实现的一条路径。

    作者:周涛,天才少年,电子科技大学最年轻教授,中国大数据领域的传奇人物,创办数之联、数联铭品、国信优易、DataCastle等20多家公司,公司总市值高达百亿。

    适读人群:大数据爱好者、政府人员及苦于转型中的企业管理者

    亮点:

    手把手教企业如何蜕变成一个真正的大数据企业

    大数据3.0时代究竟要如何应对

    为数不多的把实操、理论都讲明白的书

    三、《智能时代》

    大数据

    《智能时代》回顾了科学研究发展的四个范式,用实例证明了数据在科学发现中的位置。这本书作者分七章从不同角度对大数据进行介绍,分别以技术和思维方式的改变为主线,从工业革命这个角度嵌入,顺理成章的延伸出大数据与智能化,但是没有将过多笔墨放在技术的深究上,而是选择从应用层面体现大数据的理念。大数据应用则会渗透到各行各业,这正是作者的用心之处。

    作者:吴军,原腾讯副总裁。吴军博士是当前Google中日韩文搜索算法的主要设计者。除了《智能时代》,还著有《数学之美》、《浪潮之巅》和《文明之光》。

    适读人群:研究大数据应用的一线实践者、人工智能爱好者

    亮点:

    深入浅出,用吃瓜群众都能看懂的语言讲生涩难懂的大数据和人工智能

    逻辑性强,你能想到问题,作者都备好了答案

    雷军、罗振宇、涂子沛、李善友、邬贺铨院士联袂推荐

    四、《R语言预测实战》

    大数据

    R语言横跨了金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。由于上手快、效率高,备受技术人员青睐。预测是大数据挖掘的主要作用之一,借助R语言来做大数据预测,可以兼具效率与价值于一身。

    《R语言预测实战》主要分为预测基础、预测算法、预测案例三大部分。从入门级的阐述逐渐过度到深入分析,抽丝剥茧般的讲明白了用R语言预测的诸多问题。

    作者:游皓麟,知名高级数据分析师

    适读人群:R语言数据分析师、R语言研究大数据预测的入门者

    亮点:

    市面上为数不多的系统讲解R语言预测专题的书籍

    可以get到做R语言预测时的基本步骤和方法思路,还有更多技术细节

    五、《医疗革命》

    大数据

    在医学大数据时代,数据技术带来了临床医学科研的革命性进步。《医疗革命》通过对医疗数据挖掘的基本理论的阐述,将现代统计学与数据挖掘技术有机结合,讲述了大量的医学数据挖掘的案例,提供了大量的医学数据挖掘的实操方法。本书以数据挖掘与模式识别的七大原理在临床医学中的运用案例为切入点,系统而全面地介绍了医学数据挖掘的基本方法与原理,对数据分析的常用算法进行了通俗易懂的讲解。

    作者:邵学杰,中国医学大数据概念提出的实践者与先行者,医学数据挖掘的先行者

    适读人群:医疗数据挖掘爱好者、临床研究者、 医疗大数据初学者

    亮点:

    将统计学与医学深度结合,首次提出医学数据模式识别的七大原理

    实操技术与案例分析相结合,起到很好的技术示范作用

    六、《大数据处理之道》

    大数据

    市面上流行的大数据处理技术已经有数十种了,从最初的Hadoop到Spark,再到Storm,到底哪个战斗力更强?《大数据处理之道》分析比较了当下流行的大数据处理技术的优劣及适用场景,包括Hadoop、Spark、Storm、Dremel、Drill等,详细分析了各种技术的应用场景和优缺点;同时阐述了大数据下的日志分析系统,重点讲解了ELK日志处理方案;最后分析了大数据处理技术的发展趋势,重点从各种技术的起源、设计思想、架构等方面阐述大数据处理之道。

    在日志分析方案遍地开花的大数据时代,这本书能够帮助你更理性的做出决策。

    作者:何金池, IBM高级软件工程师,熟悉大数据领域内的各项热门技术,具有多年的一线软件研发测试经验

    适读人群:软件开发、大数据测试人员

    亮点:

    全。几乎涵盖所有的大数据处理热门技术

    易懂。语言诙谐,大数据处理技术与应用场景并在,初学者好上手,专业人士可系统的扩展知识

    预测。对未来新的大数据处理技术发展趋势进行了预测

    七、《大数据基础与应用》

    大数据

    数据本身没有丝毫意义,通过统计、分类、萃取、特征抽取等一系列技术手段才能实现其价值。大数据技术是实践性比较强的技术,需要重视工具和应用方法的选择与研究。《大数据基础与应用》作为大数据技术入门的参考书,为小白读者提供了一次系统学习大数据理论知识的机会。

    作者:陈明,中国计算机学会理事、中国人工智能学会理事。

    适读人群:大数据技术小白

    亮点:

    基础≠不重要,大数据初级必须要掌握的理论知识都在这里

    各章独立阐述,读者可根据自己的需求,有侧重的加强学习

    八、《超越大数据》

    大数据

    把社交数据、移动数据、位置数据与主数据结合起来, 可以实现与现有客户建立更加密切的关系、采用合适的产品, 改进寻找的定位新客户的方法、更加深入地了解客户的想法以及对产品的看法等,而《超越大数据》将教你如何通过社交主数据管理深入了解客户。

    作者:马丁·奥博欧佛,企业信息架构领域,面向全球大客户的执行架构师

    适读人群:企业决策者、大数据架构师

    亮点:颠覆了传统的业务数据处理

    九、《爆发》

    大数据

    《爆发:大数据时代预见未来的新思维》揭开了人类行为背后隐藏的模式“爆发”,大胆的提出人类有93%的行为都是可预测的,是一本超越《黑天鹅》惊世之作。爆发模式的揭示,其影响力将与20世纪初期的物理学或者基因革命的影响力不相上下。你可以把它当成一本历史小说来看,也可以当成科技读物,社会是一个巨大的数据库,这里所有的数据、科学以及技术都联合起来共同对抗那个很大的谜题——我们的未来。

    作者:巴拉巴西,全球复杂网络研究,无尺度网络的创立者。世界著名科技杂志《popularscience》杂志称,“他可以控制世界”。

    适读人群:大数据爱好者、乐于探索历史与未来的人

    亮点:

    神秘色彩十足

    观点极具颠覆性

    十、《大数据技术概论》

    大数据

    《大数据技术概论》全书共分成11章分别介绍了大数据概论、大数据采集及预处理、大数据分析、大数据数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据解决方案相关案例等内容。每一章中均附有相关术语的注释,方便读者查阅和自学。

    作者:娄岩,海归三年,中国医科大学教授,IT专家,作家。

    适读人群:大数据小白、培训机构、企划管理人员

    亮点:适合自学

    其实,上面的书整体都是偏入门的,希望大家认真读完,但这对于大数据来说仅仅是杯水车薪。大数据需要的是复合型的人才,只有不断学习新技术,不断拓展自己,方能跟上技术的脚步,不被时代变革所淘汰!别放弃,小编为大家整理了一部分的学习资源,根据需要可自行索取哟~

    更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

    详情请咨询在线客服

    展开全文
  • 维克托·迈尔·舍恩伯格在其《大数据时代》中的前言开宗明义:一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型,正如显微镜让我们得以认识到微观中的世界,重新定义我们的认知一般,大数据正在改变...

    未来已来

    ——《大数据时代》读书报告

    课程:商务数据分析 学号: 姓名:

    引言

    维克托·迈尔·舍恩伯格在其《大数据时代》中的前言开宗明义:一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型,正如显微镜让我们得以认识到微观中的世界,重新定义我们的认知一般,大数据正在改变我们生活以及理解世界的方式。
    “每当一个时代来临之际,总有一部分人摩拳擦掌、一部分人随波逐流,还有一部分人茫然无措”,从互联网的大规模流行以来,智能社会、数字社会、信息社会都是我们老生常谈的话题,大数据作为其运转的根本动力和核心燃料,则是我们避免对这些事情茫然无措所难以避开的话题,而维克托·迈尔·舍恩伯格的《大数据时代》则是一本能让我们对这个时代初窥门径的书籍。

    内容概述

    《大数据时代》于2013年出版,那时正处于大数据所方兴未艾、众说纷纭的时候,为很多人仅仅认为大数据只是“数据大”的人阐述和厘清了关于大数据的基本概念和特点。舍恩伯格认为大数据是人们在大规模数据的基础上可以做到的事情——大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府和公民关系的方法。或许是在舍恩伯格成书的阶段人们对于大数据的概念认知还比较少,因而书中更多的是偏向大数据的应用性的内容,每一章都使用了大量的例子进行例证。作者首先先阐述大数据时代的三个思维变革,“更多,不是随机样本而是全体数据”“更杂 不是精确性,而是混杂性”“更好,不是因果关系,而是相关关系”,为我们平时在面对大数据所容易产生的误解方面厘清的概念;紧接着作者把聚光灯打向“数据”本身,在“一切都可量化”所带来的大数据的基础上对商业上已经或可能产生的“取之不尽,用之不竭”的数据创新加以阐述;同时作者也并不一味乐观地看向大数据的应用方面,而是对大数据所可能带来的“数据主宰一切”的隐患也加以说明,并在此基础上进一步提出了在迈向大数据时代时,社会也应对信息自我管理方面加以变革,对相关法律加以改进,提出了“个人隐私保护,从个人许可到让数据使用者承担责任”“个人动因VS预测分析”和“击碎黑盒子”这三大管理变革。
    值得一提的是,虽然作者认为大数据时代的核心在于预测,也提出了许多预测有利于经济、管理等方面的案例,但作者并没有盲目地相信预测的威力,“没有说明是上天注定的,因为我们总嗯那个就手中的信息制定出相应的对策。大数据预测结果也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结局可以改写”,作者强调要给人的自由意志给与空间,允许我们按照自己的愿望做出选择,而不是单单靠预测对一切做出解释;作者的这一观点则是使得我在敬佩作者的专业性也对作者,维克托·迈尔·舍恩伯格先生的人格也肃然起敬。
    回顾本书,不得不佩服作者所拥有的超凡的预见能力,如今大数据给全球社会和经济都产生着巨大的影响,而其中如无人驾驶以及智能医疗等许多变化则是舍恩伯格在创作此书时就已预见的,不愧为“大数据时代的预言家“

    作者简介

    维克托·迈尔·舍恩伯格,被誉为“大数据时代的预言家”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究,代表作由《大数据时代》《删除:大数据取舍之道》。

    读书笔记

    一、信息爆炸——万物皆数

    舍恩伯格先生把天文学称作信息爆炸的起源,从天文学的信息爆炸引申到现实生活的其他领域,从科学研究到医疗保险,从银行业到互联网,各种领域都在讲述这个类似的故事,我们周围的数据为何如此之多,如此之快,在给与我们无穷可利用信息的同时,也使得我们需要通过各种筛选工具来获得我们实际想要的信息,舍恩伯格先生更多的是从各种角度来向我们阐述大数据之“大”,但为何数据会如此之大,却缺乏进一步的解释,大数据之大在于其具有“多维度”“时间性”和“重复性”。
    1.多维度
    多维度代表着大数据对一个事物的多方位的描述,进而更准确,而这也在很大程度上决定了大数据之大。
    以蚂蚁金服的芝麻信用分为例,从用户的身份特质、行为偏好,到其信用历史、人脉关系,其对信用评分有着大量而全面的评估体系,从多个维度对用户的信息反馈汇总到一起,做出准确的信用评估。
    (表1:芝麻信用评分维度)

    2.时间性
    大数据是生生不息的“流”,具有时间性。这个概念很有哲理,大数据过去就不再回来,就像人无法两次踏入一条河流一样。“百度大数据实验室中有一个概念叫做“时空大数据”,原因是大数据太过巨大,无法全部存储,另一方面是大数据和人类生生不息的行动相关,瞬息万变。”
    3.重复性
    大数据的“大”表现为无尽的重复,以语音识别为例,人们每一天都会说出很多话语,而这一些话语中很大一部分和前天是相同的,明天也是如此。而语音识别技术正是基于这无穷无尽的海量重复数据中,仔细辨别,逐步完善进化的

    二、何谓大数据

    正如前面所说舍恩伯格先生认为大数据是人们在大规模数据的基础上可以做到的事情——大数据是人们获得新的认知、创造新的价值的源泉,他更多的是在应用的角度上解释的,而在这里我想多分享一些其他老师在其他角度关于大数据的阐述。
    从方法论层面看,“在方法论的层面,大数据是一种全兴的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变”,吴军老师如是说。从这个角度上看,他大数据在思维方式上的变革:强关联关系——从大量的数据中直接找到答案,更多的关注在思维方式上变革导致问题解决方法上的改变,其实也是和舍恩伯格先生的角度很相近的。
    而从大数据的来源看,根据马丁·希尔伯特的总结,今天我们常说的大数据其实是在2000年后,因为信息交换、信息存储、信息处理三个方面额能力的大幅增长而产生的数据。
    图2:大数据的三大支柱

    三、大数据变革

    《大数据时代》的内容主要是讲述一场生活、工作和思维的大变革,舍恩伯格先生从思维、商业和管理三方面对这个变革进行了阐述。
    (一)大数据时代的思维变革
    1.更多 不是随机样本,而是全体数据
    全体数据指的是利用所有的数据,而不再仅仅依靠一小部分数据。从很长的一段时间以来,受限于数据量和数据分析方法,我们更多的是希望通过最少的数据活的最多的信息。我们会听到某个组织通过很科学有效的方法仅仅采集了很小的抽样样本就准确地预测了美国总统的选举效果,因此和抽样样本的大小相比,我们认识到了随机取样是更重要的。
    但进入大数据时代,在数据收集和分析技术有了很大改进的现在,我们有足够的可能收集分析出我们所想要的信息,因而样本分析的方式重要性就逐渐下降了,正如以前网络上一句很流行的话语,“可以但没必要”。
    2.更杂 不是精确性,而是混杂性
    在小数据时代,我们在问卷调查样本分析的过程中经常强调要对数据进行预处理,将明显不合格的数据删去或修改。但进入大数据时代,我们在扩大数据规模的时候学会了去拥抱数据的混杂性。其中一个原因是做不到:在数据规模已经有了千万倍扩大的时候,去做到让每一份数据都是精确的是不可能的,总会又一部分数据会存在错误;另一个原因是没必要,在通过牺牲一部分精确性之后可以获得足够多数据的情况下,这个代价对我们来说是可以接受的。就如立法中质量和效率都很重要,但如果当我们牺牲一点质量能够使得效率大幅增加,我们是能够接受不精确的存在的。
    3.更好 不是因果关系,而是相关关系
    明白“是什么”,而不去深究“为什么”是这一思维变革所重视的一点。我们总认为有因必有果,当我们在生活中碰见的很多不一般的现象我们总会很自然地给他们加上一个原因,当我们拉肚子的时候,我们会很快地想“肯定是中午吃的那家饭店有问题,下次不去了”,这种很直接的联系方式会节省我们很多的思考时间,尽管很多时候两者并没有相关关系。
    在大数据时代则不能这样子,很多时候对于寻找因果关系找到答案的难度相当之大,因而我们会选择一种新的思维方式——从大量的数据中直接找答案,而不去探寻背后的因果关系,这为我们提供了一种有效而便捷的思维方式。
    (二)大数据时代的商业变革
    1.数据化 一切都可量化
    计量和记录一起促进了数据的诞生,奠定了数据化最早的根基,而计算机的出现带来了数字测量和存储设备,大大提高了数据化的效率,使得通过书挖掘分析挖掘出数据更大的数据变成了可能。
    舍恩伯格先生在此部分辨析了数据化和数字化的概念,数字化是指把模拟数据转换成用0和1表示的二进制码,而数据化则是一种把现象转变为可制表分析的量化形式的过程。数字化带来数据化,而数据化也使得我们意识到本质上世界上是由信息构成的,这为我们提供了一个从未有过的视角,为我们通过量化一切创造价值提供了一种新的世界观。
    2.价值 取之不尽用之不竭
    数据的价值取之不尽用之不竭的其中一个原因是数据具有“非经济性”。数据不同于物质性的东西,其价值不会随着它的使用而减少,而是可以不断的被处理,这也是经济学家所说的“非经济性”的好处:个人的使用不会妨碍其他人的使用,而且信息不hi像其他物质产品一样随着而是用而有所损耗。因此对于用户而言,不论是生成这些数据的用户或是其他用户,过去的交易数据都有着很大的借鉴意义。
    另一个原因则是数据的价值具有“冰山效应”。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。数据的价值是其所有用途的总和,当通过“数据再利用”“数据重组”以及“数据可拓展”等方式处理数据时,就可以发现数据在海面之下的真正价值。值得一提的是数据折旧值和数据废气的概念,数据折旧值指的是数据用于基本用途的价值会随着世家而减少,数据废气是指用户在先交互的副产品,包括浏览了哪些页面、停留了多久等等数据;数据的折旧值使我们认识到即使数据用于基本用途的价值会减少,但其的潜在价值仍然是无法估量的。而数据废气则使我们认识到即使是不起眼甚至是“噪音数据”仍然有着的价值。
    3.角色定位 数据、技术与思维的三足鼎立
    舍恩伯格先生依据数据提供价值的不同来源,将大数据公司划分为三种,第一种是基于数据本身的公司——拥有大量的数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的潜能;第二种是基于技能的公司——掌握专业技能却并不一定拥有数据湖提出数据创新性用途的才能;第三种是基于思维的公司——具有挖掘数据的新价值的创新思维。
    时至今日,许多数据拥有者已经逐步开始发展技术和专业技能,但创新思维则是很难通过发展技术而获得的,这也是许多像百度一样 的公司会定期邀请一些科幻作家到美国进行研讨的原因,正因为他们是外行人,因此思维能够不受限制,思考的只有可能,而不考虑的可行性。
    (三)大数据时代的管理变革
    1.大数据忧思
    大数据的核心思想是通过规模剧增来改变现状,其固然是我们在合理决策过程中的有力武器,但它也有可能成为权贵用来做镇压民众的工具。当大数据管理不当或者出现数据分析错误,对我们的损害导致的不良后果将比层出不穷的定制广告带给我们的不适感要严重的多。
    舍恩伯格先生提到隐私被二次利用以及大数据预测的滥用导致的人们不是因为所做而导致惩罚,而是因为将做的大数据隐患,但这仅是其中的一部分,但在我们的日常生活中,只要对数据泄露有一定敏感度,就可以发现数据泄露的案例层出不穷,相比于数据滥用,数据保管的不严密可能对我们的伤害直接的多。
    今年三月份的时候,有用户爆料5.38亿条微博用户信息在暗网出售,其中,1.72亿条有账户基本信息,售价0.177比特币,工商局约谈微博。2019年也有华住酒店1.23亿数据在暗网出售。如此之多的数据泄露案例,甚至让我已经感觉见怪不怪了。可能这一些用户信息、住房信息数据泄露的后果的对我们来说的影响可能没有那么大,但如果更进一步,是我们的身份证信息泄露呢,这就不得不使我们感到恐慌。虽然我们大多是普通人,但即使是这一些不大值钱的信息,也是我们的一生,是我们努力、勤劳、辛苦而又无可替代的一生。
    2.责任与自由并举的信息管理
    我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革,同时,这些变革也会带来社会需要维护的核心价值观的转变。舍恩伯格先生在这一部分提出了一个全新的制度,或者一些创新性的归责思想更合适些。
    (1)个人隐私保护,从个人许可到让数据使用者承担责任
    设立让数据使用者承担风险的原因主要有两个,其一是因为我们大多数人对我们的隐私保护的敏感度不强。在生活中,我们会经常碰到很多的APP同意条款,而包括我在内的大多数人基本上是没有耐心去看完的,而这种行为很可能导致我们在不知情的情况下就同意了一些不合理的隐私条款。另一个原因则可以说是直击要害,很少有用户能够认识到数据的二次利用所带来的 数据泄露,而当我们将数据使用的责任归责于数据使用者时,就能很好地规避隐私被二次利用的问题。
    (2)个人动因VS预测分析
    在大数据时代,当我们所获得的数据足够多时我们甚至可以对犯罪等行为进行预测,那么我们是否应该为我们所可能发生但还未发生的行为倾向负责呢?为我们的未发生的行为负责显然是不合理的,但一旦发生则确实可能造成极大的损害,这似乎陷入了矛盾,作者对于这一问题的解决措施是:将个人动因的保护纳入公正的理解中来,确保政府对行为的评判是是基于真实行为而非单纯依靠大数据分析,即政府可以通过大数据分析做出一定的 措施避免情况发生,但不能只因为大数据分析检测就判定其有罪。
    (3)击碎黑盒子,大数据算法师的崛起
    (4)反数据垄断大亨

    四、大数据取舍之道

    舍恩伯格先生在《大数据时代》中所关注的更多是大数据的应用、数据的潜在价值以及数据被滥用可能带来的后果,但对于数据是否应该“遗忘”却关注较少,舍恩伯格先生的另一本书《删除:大数据的取舍之道》和《大数据时代》互为补充,后者说的是在大数据时代我们应该保留什么,而前者则是讲述在大数据时代选择性遗忘的重要性。
    对于人类而言,遗忘是我们的常态,记忆是例外。但在如今的时代,由于数字技术与全球网络的发展,以往我们在互联网中留下的每一个足迹都可能被记住,记忆成了常态,而遗忘则成了例外。
    在高度数字化的现代社会,我们的私人信息不仅在今天可能被滥用,在几年甚至几十年后仍然可能被滥用,无论我们自身对自己行为的认知是怎样的,我们都不会希望有一颗定时炸弹在我们身边,因为我们不能确定是否某一天我们的私人信息是否会被滥用,舍恩伯格先生在《删除:大数据的取舍之道》中则提出了我们应该通过塑造互联网及其服务,以使得数字信息能够在一段时间后被渐渐遗忘。
    在具体对策方面,舍恩伯格提出了 数字化节制、保护隐私权、建立数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态和完全语境化六大对策。其中数字化节制和调整人类的现有认知是通过改变我们人类的自身的数字行为来消除和降低潜在风险;保护隐私权和建立数字隐私权基础设施则是从法律上保护公民的隐私权以及在维权法律的必要程序上做出变革从而支持隐私权的保护。
    五、新世纪 新未来
    每当一个新时代来临,总有一部分人摩拳擦掌,一部分人随波逐流,还有一部分人茫然无措。对于大数据的忧思不等于悲观,也只有在忧思基础上的乐观才是真正的乐观。大数据时代的到来无可避免,面对大数据时代,我们有振奋、有期待、也有惶恐,社会的变化如此之快,我们能做的只能是学习、不断地学习,方能使我们不会在新时代来领之时茫然无措,而是能够摩拳擦掌地面对未来。

    参考书籍及视频:
    《删除:大数据取舍之道》维克托·迈尔舍恩伯格
    《智能革命:迎接人工智能时代的社会、经济与文化变革》李彦宏
    《人工智能》李开复 王咏刚
    https://b23.tv/BV1K64y1u7fy【半佛】你的身份隐私是如何被卖的

    总结与感想

    首先要先感谢老师提供了这一份有史以来关于读书报告的最长字数作业,为了完成这一份作业着实令我头疼不已,但完成这一份作业确实收获很多,不仅仅是关于大数据的一些思维变革或是对大数据时代的认识,更多的可能是使我对于数据泄露的敏感度有一定提升。
    一直以来我对于数据泄露这一类的新闻是很不敏感的,或者说对于新闻是非常不敏感的,但写这一份作业的过程中会有意识地去了解有关这一方面的新闻,使我能够看到一直以来被我忽视的信息,同时也对相关的领域产生了一些些兴趣,这个可能是我之前所没有预料自己能够收获到的,非常感谢!
    大数据时代思维导图
    2020年4月6日星期一

    展开全文
  • 相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼。 老司机教你:看书、写代码、多交流。 2019你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的,先干掉这几本书,再和老...

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼。   

    老司机教你:看书、写代码、多交流。   

    2019你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老司机谈大数据!不过,像《大数据时代》、《数据之巅》等这些经典到“烂大街”的书我就不一一推荐了,很多人都看过,没看过的也都听说过。   

    一、《Presto技术内幕》

    大数据

    Presto是Facebook开发的数据查询引擎,基于Java语言开发的,专门为大数据实时查询计算而设计和开发的产品,更是大数据实时查询计算产品的佼佼者,比Spark、Impala更加简单、高效。   

    《Presto技术内幕》由浅入深地详细介绍了Presto的安装过程、内部运行原理机制、功能特性、性能优化方法,以及在应用过程中常见的问题及解决方案等,可用于多种数据源混合进行实时大数据分析计算,使一些使用其他大数据技术不能解决的业务场景有了一个全新有效的解决方案。   

    在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

     

    在最后的附录部分不仅对 Presto 使用过程中出现的各种问题给出了明确的解决方案,还对 Presto中的各个配置参数的含义和作用进行了详细的说明并给出了推荐配置值   

    作者: JD-Presto 研发团队 ,是京东众多研发团队中的一员,在开源软件领域获得多项大奖   

    适读人群: Presto技术狂热者&攻城狮、对京东技术内幕好奇的小伙伴   

    亮点:   

    市面上第一本详细介绍Presto技术的书籍,可单点突破。   

    浓缩了京东在开源领域深耕多年的实战经验   

    京东CTO张晨、京东首席技术顾问翁志等技术大牛重磅推荐   

    Presto 使用过程中的各种问题都给出明确的解决方案   

    对Presto中各个配置参数的含义和作用进行详细的说明并给推荐配置值   

    二、《为数据而生》

    大数据

    读完《为数据而生》,你会清楚的看到中国在大数据道路上所留下的轨迹,主要包括在智慧城市、科技、医疗、教育、商业、金融等领域的实践。书中分别阐述在大数据1.0、大数据2.0和大数据3.0时代下,相对应的数据分析需要做到分析、外化、集成:   

    分析,这里作者提供了一套基本的大数据分析框架:确定问题和指标, 清洗数据, 特征提取和选择, 模型训练, 模型融合。   

    外化,借助外部数据,将两个看起来毫不相干的事物通过数据挖掘建立联系。   

    集成,主要讲企业、政府如何收集数据、标准化数据,以及最后如何商业化。   

    未来中国的大数据发展提供一条清晰且可行性的路径指南!   

    简言之,看了这本书,不管是企业或者政府,都可以看到大数据比较清晰且可实现的一条路径。   

    作者:周涛,天才少年,电子科技大学最年轻教授,中国大数据领域的传奇人物,创办数之联、数联铭品、国信优易、DataCastle等20多家公司,公司总市值高达百亿。   

    适读人群:大数据爱好者、政府人员及苦于转型中的企业管理者   

    亮点:   

    手把手教企业如何蜕变成一个真正的大数据企业   

    大数据3.0时代究竟要如何应对   

    为数不多的把实操、理论都讲明白的书   

    三、《智能时代》

    大数据

    《智能时代》回顾了科学研究发展的四个范式,用实例证明了数据在科学发现中的位置。这本书作者分七章从不同角度对大数据进行介绍,分别以技术和思维方式的改变为主线,从工业革命这个角度嵌入,顺理成章的延伸出大数据与智能化,但是没有将过多笔墨放在技术的深究上,而是选择从应用层面体现大数据的理念。大数据应用则会渗透到各行各业,这正是作者的用心之处。   

    作者:吴军,原腾讯副总裁。吴军博士是当前Google中日韩文搜索算法的主要设计者。除了《智能时代》,还著有《数学之美》、《浪潮之巅》和《文明之光》。   

    适读人群:研究大数据应用的一线实践者、人工智能爱好者   

    亮点:   

    深入浅出,用吃瓜群众都能看懂的语言讲生涩难懂的大数据和人工智能   

    逻辑性强,你能想到问题,作者都备好了答案   

    雷军、罗振宇、涂子沛、李善友、邬贺铨院士联袂推荐   

    四、《R语言预测实战》

    大数据

    R语言横跨了金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。由于上手快、效率高,备受技术人员青睐。预测是大数据挖掘的主要作用之一,借助R语言来做大数据预测,可以兼具效率与价值于一身。   

    《R语言预测实战》主要分为预测基础、预测算法、预测案例三大部分。从入门级的阐述逐渐过度到深入分析,抽丝剥茧般的讲明白了用R语言预测的诸多问题。   

    作者:游皓麟,知名高级数据分析师   

    适读人群:R语言数据分析师、R语言研究大数据预测的入门者   

    亮点:   

    市面上为数不多的系统讲解R语言预测专题的书籍   

    可以get到做R语言预测时的基本步骤和方法思路,还有更多技术细节   

    五、《医疗革命》

    大数据

    在医学大数据时代,数据技术带来了临床医学科研的革命性进步。《医疗革命》通过对医疗数据挖掘的基本理论的阐述,将现代统计学与数据挖掘技术有机结合,讲述了大量的医学数据挖掘的案例,提供了大量的医学数据挖掘的实操方法。本书以数据挖掘与模式识别的七大原理在临床医学中的运用案例为切入点,系统而全面地介绍了医学数据挖掘的基本方法与原理,对数据分析的常用算法进行了通俗易懂的讲解。   

    作者:邵学杰,中国医学大数据概念提出的实践者与先行者,医学数据挖掘的先行者   

    适读人群:医疗数据挖掘爱好者、临床研究者、 医疗大数据初学者   

    亮点:   

    将统计学与医学深度结合,首次提出医学数据模式识别的七大原理   

    实操技术与案例分析相结合,起到很好的技术示范作用   

    六、《大数据处理之道》

    大数据

    市面上流行的大数据处理技术已经有数十种了,从最初的Hadoop到Spark,再到Storm,到底哪个战斗力更强?《大数据处理之道》分析比较了当下流行的大数据处理技术的优劣及适用场景,包括Hadoop、Spark、Storm、Dremel、Drill等,详细分析了各种技术的应用场景和优缺点;同时阐述了大数据下的日志分析系统,重点讲解了ELK日志处理方案;最后分析了大数据处理技术的发展趋势,重点从各种技术的起源、设计思想、架构等方面阐述大数据处理之道。   

    在日志分析方案遍地开花的大数据时代,这本书能够帮助你更理性的做出决策。   

    作者:何金池, IBM高级软件工程师,熟悉大数据领域内的各项热门技术,具有多年的一线软件研发测试经验   

    适读人群:软件开发、大数据测试人员   

    亮点:   

    全。几乎涵盖所有的大数据处理热门技术   

    易懂。语言诙谐,大数据处理技术与应用场景并在,初学者好上手,专业人士可系统的扩展知识   

    预测。对未来新的大数据处理技术发展趋势进行了预测   

    七、《大数据基础与应用》

    大数据

    数据本身没有丝毫意义,通过统计、分类、萃取、特征抽取等一系列技术手段才能实现其价值。大数据技术是实践性比较强的技术,需要重视工具和应用方法的选择与研究。《大数据基础与应用》作为大数据技术入门的参考书,为小白读者提供了一次系统学习大数据理论知识的机会。   

    作者:陈明,中国计算机学会理事、中国人工智能学会理事。   

    适读人群:大数据技术小白   

    亮点:   

    基础≠不重要,大数据初级必须要掌握的理论知识都在这里   

    各章独立阐述,读者可根据自己的需求,有侧重的加强学习   

    八、《超越大数据》

    大数据

    把社交数据、移动数据、位置数据与主数据结合起来, 可以实现与现有客户建立更加密切的关系、采用合适的产品, 改进寻找的定位新客户的方法、更加深入地了解客户的想法以及对产品的看法等,而《超越大数据》将教你如何通过社交主数据管理深入了解客户。   

    作者:马丁·奥博欧佛,企业信息架构领域,面向全球大客户的执行架构师   

    适读人群:企业决策者、大数据架构师   

    亮点:颠覆了传统的业务数据处理

    九、《爆发》

    大数据

    《爆发:大数据时代预见未来的新思维》揭开了人类行为背后隐藏的模式“爆发”,大胆的提出人类有93%的行为都是可预测的,是一本超越《黑天鹅》惊世之作。爆发模式的揭示,其影响力将与20世纪初期的物理学或者基因革命的影响力不相上下。你可以把它当成一本历史小说来看,也可以当成科技读物,社会是一个巨大的数据库,这里所有的数据、科学以及技术都联合起来共同对抗那个很大的谜题——我们的未来。   

    作者:巴拉巴西,全球复杂网络研究,无尺度网络的创立者。世界著名科技杂志《popularscience》杂志称,“他可以控制世界”。   

    适读人群:大数据爱好者、乐于探索历史与未来的人   

    亮点:   

    神秘色彩十足   

    观点极具颠覆性   

    十、《大数据技术概论》

    大数据

    《大数据技术概论》全书共分成11章分别介绍了大数据概论、大数据采集及预处理、大数据分析、大数据数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据解决方案相关案例等内容。每一章中均附有相关术语的注释,方便读者查阅和自学。   

    作者:娄岩,海归三年,中国医科大学教授,IT专家,作家。   

    适读人群:大数据小白、培训机构、企划管理人员   

    亮点:适合自学

    其实,上面的书整体都是偏入门的,希望大家认真读完,但这对于大数据来说仅仅是杯水车薪。大数据需要的是复合型的人才,只有不断学习新技术,不断拓展自己,方能跟上技术的脚步,不被时代变革所淘汰!别放弃,小编为大家整理了一部分的学习资源,根据需要可自行索取哟~

    展开全文
  • 大数据入门书籍推荐

    2018-08-05 20:53:32
    大数据入门书籍推荐 1. 《大数据分析:点“数”成金》 你现在正坐在一座金矿之上,这些金子或被深埋于备份、存档数据之中,或正藏在你眼前的数据集里,它们是提升公司效益、拓展新的商业关系、制订更直观决策的...

    大数据入门书籍推荐

    1. 《大数据分析:点“数”成金》

    你现在正坐在一座金矿之上,这些金子或被深埋于备份、存档数据之中,或正藏在你眼前的数据集里,它们是提升公司效益、拓展新的商业关系、制订更直观决策的秘诀所在,足以使你的企业更上一层楼。你将明白如何利用、分析和驾驭数据来获得丰厚回报。作者Frank Ohlhorst“厚积”数十年的技术经验而“薄发”于此书,他将向读者介绍怎样将大数据分析应用于各行各业。在中,你将了解到如何对数据进行挖掘,怎样从数据中揭示趋势并转化为竞争策略及攫取价值的方法。这些更有意思也更有效的方法能够提升企业的智能化水平,将有助于企业解决实际问题,提升利润空间,提高生产率并发现更多的商业机会。

    2、《大数据时代》

    《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托。迈尔。舍恩伯格被誉为“大数据商业应用一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。维克托。尔耶。舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。《大数据时代》认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、IBM、苹果、facebook、twitter、VISA等大数据先锋们具价值的应用案例。

    3、《云端时代杀手级应用:大数据分析》

    《云端时代杀手级应用:大数据分析》分什么是大数据、大数据大商机、技术与前瞻3个部分。第一部分介绍大数据分析的概念,以及企业、政府部门可应用的范畴。什么是大数据分析?与个人与企业有什么关系?将对全球产业造成怎样的冲击?第二部分完整介绍大数据在各产业的应用实况,为企业及政府部门提供应用的方向。提供了全球各地的实际应用案例,涵盖零售、金融、政府部门、能源、制造、娱乐、医疗、电信等各个行业,充分展现大数据分析产生的效益。第三部分则简单介绍了大数据分析所需技术及未来发展趋势,为读者提供了应用与研究的方向。

    4、《大数据》

    本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、Facebook和推特等社交媒体、Web3.0与下一代互联网的未来图景等等,为您一一细解,数据创新给公民、政府、社会带来的种种挑战和变革。

    5、《大数据互联网大规模数据挖掘与分布式处理》

    《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:分布式文件系统以及Map-Reduce工具;相似性搜索;数据流处理以及针对易丢失数据等特殊情况的专用处理算法;搜索引擎技术,如谷歌的PageRank;频繁项集挖掘;大规模高维数据集的聚类算法;Web应用中的关键问题:广告管理和推荐系统。

    6、《爆发》

    《爆发:大数据时代预见未来的新思维》是一本越过《黑天鹅》的惊世之作。如果说塔勒布认为人类行为是随机的,都是小概率事件,是不可以预测的;那么全球复杂网络着名巴拉巴西则认为,人类行为93%是可以预测的。巴拉巴西的研究是在人类生活数字化的大数据时代基础上进行的,移动电话、网络以及电子邮件使人类行为变得更加容易量化,将我们的社会变成了一个巨大的数据库。他认为,人类正处在一个聚合点上,在这里数据、科学以及技术都联合起来共同对抗那个很大的谜题–我们的未来。在本书中,巴拉巴西揭开人类行为背后隐藏的模式“爆发”,提出人类日常行为模式不是随机的,而是具有“爆发性”的。爆发揭开了人类行为中令人惊讶的深层次的秩序,使得人类变得比预期中更容易预测得多。

    7、《Presto技术内幕》

    大数据
    Presto是Facebook开发的数据查询引擎,基于Java语言开发的,专门为大数据实时查询计算而设计和开发的产品,更是大数据实时查询计算产品的佼佼者,比Spark、Impala更加简单、高效。
    《Presto技术内幕》由浅入深地详细介绍了Presto的安装过程、内部运行原理机制、功能特性、性能优化方法,以及在应用过程中常见的问题及解决方案等,可用于多种数据源混合进行实时大数据分析计算,使一些使用其他大数据技术不能解决的业务场景有了一个全新有效的解决方案。在最后的附录部分不仅对 Presto 使用过程中出现的各种问题给出了明确的解决方案,还对Presto中的各个配置参数的含义和作用进行了详细的说明并给出了推荐配置值

    作者: JD-Presto 研发团队 ,是京东众多研发团队中的一员,在开源软件领域获得多项大奖

    适读人群: Presto技术狂热者&攻城狮、对京东技术内幕好奇的小伙伴

    亮点:
    市面上第一本详细介绍Presto技术的书籍,可单点突破。
    浓缩了京东在开源领域深耕多年的实战经验
    京东CTO张晨、京东首席技术顾问翁志等技术大牛重磅推荐
    Presto 使用过程中的各种问题都给出明确的解决方案
    对Presto中各个配置参数的含义和作用进行详细的说明并给推荐配置值

    8、《为数据而生》

    大数据读完《为数据而生》,你会清楚的看到中国在大数据道路上所留下的轨迹,主要包括在智慧城市、科技、医疗、教育、商业、金融等领域的实践。书中分别阐述在大数据1.0、大数据2.0和大数据3.0时代下,相对应的数据分析需要做到分析、外化、集成:
    分析,这里作者提供了一套基本的大数据分析框架:确定问题和指标, 清洗数据, 特征提取和选择, 模型训练, 模型融合。外化,借助外部数据,将两个看起来毫不相干的事物通过数据挖掘建立联系、集成,主要讲企业、政府如何收集数据、标准化数据,以及最后如何商业化。
    未来中国的大数据发展提供一条清晰且可行性的路径指南!
    简言之,看了这本书,不管是企业或者政府,都可以看到大数据比较清晰且可实现的一条路径。

    作者:周涛,天才少年,电子科技大学最年轻教授,中国大数据领域的传奇人物,创办数之联、数联铭品、国信优易、DataCastle等20多家公司,公司总市值高达百亿。
    适读人群:大数据爱好者、政府人员及苦于转型中的企业管理者

    亮点:
    手把手教企业如何蜕变成一个真正的大数据企业大数据3.0时代究竟要如何应对为数不多的把实操、理论都讲明白的书

    9、《智能时代》

    大数据
    《智能时代》回顾了科学研究发展的四个范式,用实例证明了数据在科学发现中的位置。这本书作者分七章从不同角度对大数据进行介绍,分别以技术和思维方式的改变为主线,从工业革命这个角度嵌入,顺理成章的延伸出大数据与智能化,但是没有将过多笔墨放在技术的深究上,而是选择从应用层面体现大数据的理念。大数据应用则会渗透到各行各业,这正是作者的用心之处。

    作者:吴军,原腾讯副总裁。吴军博士是当前Google中日韩文搜索算法的主要设计者。除了《智能时代》,还著有《数学之美》、《浪潮之巅》和《文明之光》。

    适读人群:研究大数据应用的一线实践者、人工智能爱好者

    亮点:

    深入浅出,用吃瓜群众都能看懂的语言讲生涩难懂的大数据和人工智能

    逻辑性强,你能想到问题,作者都备好了答案

    雷军、罗振宇、涂子沛、李善友、邬贺铨院士联袂推荐

    10、《大数据技术概论》

    大数据《大数据技术概论》全书共分成11章分别介绍了大数据概论、大数据采集及预处理、大数据分析、大数据数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据解决方案相关案例等内容。每一章中均附有相关术语的注释,方便读者查阅和自学。

    作者:娄岩,海归三年,中国医科大学教授,IT专家,作家。

    适读人群:大数据小白、培训机构、企划管理人员

    亮点:适合自学

    展开全文
  • 大数据书籍推荐

    2017-08-23 19:33:45
    历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,而各行各业谁也无法离开数据存活。尤其近几年来,全球范围内掀起了一股“大数据”热,各地政府、大小企业都在...

    注:本篇博客摘自OURJS网站,主要作为笔记

    历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,而各行各业谁也无法离开数据存活。尤其近几年来,全球范围内掀起了一股“大数据”热,各地政府、大小企业都在布局大数据,抢占先机。这个局到底怎么设,很少有人能说出清晰的脉络。一个新事物的出现,除了带给人们惊喜之外,还有毫无思绪的迷茫。   

    据可靠数据显示,截止到2016年,全国的大数据人才只有46万,未来3-5年人才缺口高达150万之多。市面招聘网站上都在争抢大数据人才,有3-5年工作经验的数据分析师年薪直接高达50万元,但是能找到的确是寥寥。高校培养大数据人才仍是初步阶段,短期内无法快速输出人才。   

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼。   

    老司机教你:看书、写代码、多交流。   

    2016年马上就过完,你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老司机谈大数据!不过,像《大数据时代》、《数据之巅》等这些经典到“烂大街”的书我就不一一推荐了,很多人都看过,没看过的也都听说过。   

    一、《Presto技术内幕》
    这里写图片描述
    Presto是Facebook开发的数据查询引擎,基于Java语言开发的,专门为大数据实时查询计算而设计和开发的产品,更是大数据实时查询计算产品的佼佼者,比Spark、Impala更加简单、高效。   

    《Presto技术内幕》由浅入深地详细介绍了Presto的安装过程、内部运行原理机制、功能特性、性能优化方法,以及在应用过程中常见的问题及解决方案等,可用于多种数据源混合进行实时大数据分析计算,使一些使用其他大数据技术不能解决的业务场景有了一个全新有效的解决方案。   

    在最后的附录部分不仅对 Presto 使用过程中出现的各种问题给出了明确的解决方案,还对 Presto中的各个配置参数的含义和作用进行了详细的说明并给出了推荐配置值   

    作者: JD-Presto 研发团队 ,是京东众多研发团队中的一员,在开源软件领域获得多项大奖   

    适读人群: Presto技术狂热者&攻城狮、对京东技术内幕好奇的小伙伴   

    亮点:   

    市面上第一本详细介绍Presto技术的书籍,可单点突破。   

    浓缩了京东在开源领域深耕多年的实战经验   

    京东CTO张晨、京东首席技术顾问翁志等技术大牛重磅推荐   

    Presto 使用过程中的各种问题都给出明确的解决方案   

    对Presto中各个配置参数的含义和作用进行详细的说明并给推荐配置值

    二、 《为数据而生》

    这里写图片描述

    读完《为数据而生》,你会清楚的看到中国在大数据道路上所留下的轨迹,主要包括在智慧城市、科技、医疗、教育、商业、金融等领域的实践。书中分别阐述在大数据1.0、大数据2.0和大数据3.0时代下,相对应的数据分析需要做到分析、外化、集成:   

    分析,这里作者提供了一套基本的大数据分析框架:确定问题和指标, 清洗数据, 特征提取和选择, 模型训练, 模型融合。   

    外化,借助外部数据,将两个看起来毫不相干的事物通过数据挖掘建立联系。   

    集成,主要讲企业、政府如何收集数据、标准化数据,以及最后如何商业化。   

    未来中国的大数据发展提供一条清晰且可行性的路径指南!   

    简言之,看了这本书,不管是企业或者政府,都可以看到大数据比较清晰且可实现的一条路径。   

    作者:周涛,天才少年,电子科技大学最年轻教授,中国大数据领域的传奇人物,创办数之联、数联铭品、国信优易、DataCastle等20多家公司,公司总市值高达百亿。   

    适读人群:大数据爱好者、政府人员及苦于转型中的企业管理者   

    亮点:   

    手把手教企业如何蜕变成一个真正的大数据企业   

    大数据3.0时代究竟要如何应对   

    为数不多的把实操、理论都讲明白的书   

    三、《智能时代》
    这里写图片描述
    《智能时代》回顾了科学研究发展的四个范式,用实例证明了数据在科学发现中的位置。这本书作者分七章从不同角度对大数据进行介绍,分别以技术和思维方式的改变为主线,从工业革命这个角度嵌入,顺理成章的延伸出大数据与智能化,但是没有将过多笔墨放在技术的深究上,而是选择从应用层面体现大数据的理念。大数据应用则会渗透到各行各业,这正是作者的用心之处。   

    作者:吴军,原腾讯副总裁。吴军博士是当前Google中日韩文搜索算法的主要设计者。除了《智能时代》,还著有《数学之美》、《浪潮之巅》和《文明之光》。   

    适读人群:研究大数据应用的一线实践者、人工智能爱好者   

    亮点:   

    深入浅出,用吃瓜群众都能看懂的语言讲生涩难懂的大数据和人工智能   

    逻辑性强,你能想到问题,作者都备好了答案   

    雷军、罗振宇、涂子沛、李善友、邬贺铨院士联袂推荐

    四、《R语言预测实战》
    这里写图片描述

    R语言横跨了金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。由于上手快、效率高,备受技术人员青睐。预测是大数据挖掘的主要作用之一,借助R语言来做大数据预测,可以兼具效率与价值于一身。   

    《R语言预测实战》主要分为预测基础、预测算法、预测案例三大部分。从入门级的阐述逐渐过度到深入分析,抽丝剥茧般的讲明白了用R语言预测的诸多问题。   

    作者:游皓麟,知名高级数据分析师   

    适读人群:R语言数据分析师、R语言研究大数据预测的入门者   

    亮点:   

    市面上为数不多的系统讲解R语言预测专题的书籍   

    可以get到做R语言预测时的基本步骤和方法思路,还有更多技术细节   

    五、《医疗革命》
    这里写图片描述

    在医学大数据时代,数据技术带来了临床医学科研的革命性进步。《医疗革命》通过对医疗数据挖掘的基本理论的阐述,将现代统计学与数据挖掘技术有机结合,讲述了大量的医学数据挖掘的案例,提供了大量的医学数据挖掘的实操方法。本书以数据挖掘与模式识别的七大原理在临床医学中的运用案例为切入点,系统而全面地介绍了医学数据挖掘的基本方法与原理,对数据分析的常用算法进行了通俗易懂的讲解。   

    作者:邵学杰,中国医学大数据概念提出的实践者与先行者,医学数据挖掘的先行者   

    适读人群:医疗数据挖掘爱好者、临床研究者、 医疗大数据初学者   

    亮点:   

    将统计学与医学深度结合,首次提出医学数据模式识别的七大原理   

    实操技术与案例分析相结合,起到很好的技术示范作用   

    六、《大数据处理之道》
    这里写图片描述

    市面上流行的大数据处理技术已经有数十种了,从最初的Hadoop到Spark,再到Storm,到底哪个战斗力更强?《大数据处理之道》分析比较了当下流行的大数据处理技术的优劣及适用场景,包括Hadoop、Spark、Storm、Dremel、Drill等,详细分析了各种技术的应用场景和优缺点;同时阐述了大数据下的日志分析系统,重点讲解了ELK日志处理方案;最后分析了大数据处理技术的发展趋势,重点从各种技术的起源、设计思想、架构等方面阐述大数据处理之道。   

    在日志分析方案遍地开花的大数据时代,这本书能够帮助你更理性的做出决策。   

    作者:何金池, IBM高级软件工程师,熟悉大数据领域内的各项热门技术,具有多年的一线软件研发测试经验   

    适读人群:软件开发、大数据测试人员   

    亮点:   

    全。几乎涵盖所有的大数据处理热门技术   

    易懂。语言诙谐,大数据处理技术与应用场景并在,初学者好上手,专业人士可系统的扩展知识   

    预测。对未来新的大数据处理技术发展趋势进行了预测   

    七、《大数据基础与应用》
    这里写图片描述

    数据本身没有丝毫意义,通过统计、分类、萃取、特征抽取等一系列技术手段才能实现其价值。大数据技术是实践性比较强的技术,需要重视工具和应用方法的选择与研究。《大数据基础与应用》作为大数据技术入门的参考书,为小白读者提供了一次系统学习大数据理论知识的机会。   

    作者:陈明,中国计算机学会理事、中国人工智能学会理事。   

    适读人群:大数据技术小白   

    亮点:   

    基础≠不重要,大数据初级必须要掌握的理论知识都在这里   

    各章独立阐述,读者可根据自己的需求,有侧重的加强学习   

    八、《超越大数据》
    这里写图片描述

    把社交数据、移动数据、位置数据与主数据结合起来, 可以实现与现有客户建立更加密切的关系、采用合适的产品, 改进寻找的定位新客户的方法、更加深入地了解客户的想法以及对产品的看法等,而《超越大数据》将教你如何通过社交主数据管理深入了解客户。   

    作者:马丁·奥博欧佛,企业信息架构领域,面向全球大客户的执行架构师   

    适读人群:企业决策者、大数据架构师   

    亮点:颠覆了传统的业务数据处理

    九、《爆发》
    这里写图片描述

    《爆发:大数据时代预见未来的新思维》揭开了人类行为背后隐藏的模式“爆发”,大胆的提出人类有93%的行为都是可预测的,是一本超越《黑天鹅》惊世之作。爆发模式的揭示,其影响力将与20世纪初期的物理学或者基因革命的影响力不相上下。你可以把它当成一本历史小说来看,也可以当成科技读物,社会是一个巨大的数据库,这里所有的数据、科学以及技术都联合起来共同对抗那个很大的谜题——我们的未来。   

    作者:巴拉巴西,全球复杂网络研究,无尺度网络的创立者。世界著名科技杂志《popularscience》杂志称,“他可以控制世界”。   

    适读人群:大数据爱好者、乐于探索历史与未来的人   

    亮点:   

    神秘色彩十足   

    观点极具颠覆性   

    十、《大数据技术概论》
    这里写图片描述

    《大数据技术概论》全书共分成11章分别介绍了大数据概论、大数据采集及预处理、大数据分析、大数据数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据解决方案相关案例等内容。每一章中均附有相关术语的注释,方便读者查阅和自学。   

    作者:娄岩,海归三年,中国医科大学教授,IT专家,作家。   

    适读人群:大数据小白、培训机构、企划管理人员   

    亮点:适合自学

    其实,上面的书整体都是偏入门的,希望大家认真读完,但这对于大数据来说仅仅是杯水车薪。大数据需要的是复合型的人才,只有不断学习新技术,不断拓展自己,方能跟上技术的脚步,不被时代变革所淘汰!别放弃,小编为大家整理了一部分的学习资源,根据需要可自行索取哟

    展开全文
  • 相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼。 老司机教你:看书、写代码、多交流。 2020你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的,先干掉这几本书,再和老司机谈...
  • 历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,而各行各业谁也无法离开数据存活。尤其近几年来,全球范围内掀起了一股“大数据”热,各地政府、大小企业都在...
  • 本白皮书阐述了微构科技VigorData一站式企业大数据平台的定位与应用场景、系统架构、产品特性。VigorData满足企业从数据采集、存储、计算、分析挖掘到可视化展示的一站式数据处理需求,并融合前沿AI科技机器深度学习...
  • 小编为大家精心挑选了大数据领域里十本有价值的,先干掉这几本书,再和老司机谈大数据!不过,像《大数据时代》、《数据之巅》等这些经典到“烂大街”的我就不一一推荐了,很多人都看过,没看过的也都听说过。
  • 我国的大数据发展不仅是时代的需要,更有着得天独厚的基础优势。我国庞大的人口和经济规模为大数据发展提供了...我国大数据企业不断涌现,但企业良莠不济,又因大数据产业链较为复杂,使得用户大数据服务商选择上...
  • 时间过的真快,马上大半年都要过去了,今天推荐最近读的大数据专业,当然也读了几本心灵鸡汤,特别分享于你。 1、阿里巴巴数据技术及产品部的《大数据之路:阿里巴巴大数据实践》 它山之石,可以攻玉,大公司实践...
  • 一本读懂大数据(每个人都看得懂的大数据入门)-黄颖在线阅读百度网盘下载(635f)书名:一本读懂大数据(每个人都看得懂的大数据入门)作者:黄颖格式:EPUB, HTMLZ, PDF路径:点击打开出版:吉林出版集团有限责任...
  • 文章目录前言 前言 如果你从本文中学习到丝毫知识,那么请您点点...专栏:大数据案例实战——大三春招大数据开发 专栏:Spark官方文档解读【Spark2.4.5中英双语】 博客地址:子浩的博客https://blog.csdn.net/weixi
  • 1、大数据定义  对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力 的海量、高增长率和多样化的信息资产。 大数据...
  • 大数据人才荒!缺口1400万在数据驱动的未来,大数据人才市场势必会越来越大,而现在仅仅是大数据起步的进阶阶段,现在入行正是恰逢其时。中国互联网行业正处于一个新的飞速发展时期,对人才的需求也在同步急剧增长。...
  • 声明:本文转至Big大鸟的博客下,转载的名为《什么叫大数据 大数据的概念》一文,链接地址http://blog.csdn.net/qq_36738482/article/details/728235091、大数据定义 对于“大数据”(Big data)研究机构Gartner给...
1 2 3 4 5 ... 20
收藏数 22,473
精华内容 8,989