大数据_大数据项目 - CSDN
大数据 订阅
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2] 展开全文
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]
信息
外文名
big data,mega data
提出时间
2008年8月中旬
提出者
维克托·迈尔-舍恩伯格及肯尼斯·库克耶
应用学科
计算机,信息科学,统计学
中文名
大数据
适用领域范围
人工智能
5V特点
大量、高速、多样、价值、真实性
大数据定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB全称:1 Bit(比特) =Binary Digit8 Bits = 1 Byte(字节)1,000 Bytes = 1 Kilobyte1,000 Kilobytes = 1 Megabyte1,000 Megabytes = 1 Gigabyte1,000 Gigabytes = 1Terabyte1,000 Terabytes = 1 Petabyte1,000 Petabytes = 1 Exabyte1,000Exabytes = 1 Zettabyte1,000 Zettabytes = 1 Yottabyte1,000 Yottabytes = 1Brontobyte1,000 Brontobytes = 1 Geopbyte
收起全文
精华内容
参与话题
  • 大数据专题(一)- 简介

    万次阅读 多人点赞 2020-02-28 11:22:44
    一、什么是大数据 在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量...

    一、什么是大数据
    在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。

    梳理海量数据的核心技术:

    • 海量数据的储存(分布式)
    • 海量数据的运算(分布式)

    这些核心技术的实现是不需要用户从零开始造轮子的储存和运算的都已经有大量的承受的框架来用。

    储存框架:

    • HDFS–分布式文件储存系统
    • HBase–分布式数据库系统
    • Kafka – 分布式消息缓存系统(实时流式数据处理场景中应用广泛)

    运算框架:(要解决的核心问题就是帮用户将处理逻辑在许多机器上并行执行)

    • Hive – 数据仓库工具:可以接收SQL,翻译成mapreduce或者spark程序运行
    • Flume – 数据采集
    • Sqoop – 数据迁移
    • Elisticsearch – 分布式的搜索引擎

      换个角度说,大数据是:
    1. 有海量的数据
    2. 有海量的数据进行挖掘的需求,有对海量数据进行挖掘的工具(Hadoop、spark等)

    大数据在现实生活中的具体应用

    数据处理测最典型应用:公司的产品运营情况分析
    电商推荐系统:基于海量的浏览行为,购物行为数据,进行大量的模型的运算,得出各种推荐结论,一共电商网站页面来为用户进行商品推荐,(猜你喜欢)

    精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的进准的广告投放。

    展开全文
  • Hadoop入门和大数据应用

    万人学习 2019-07-01 10:39:42
    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用...
  • 什么叫大数据 大数据的概念

    万次阅读 多人点赞 2017-05-31 20:24:10
    1、大数据定义  对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力 的海量、高增长率和多样化的信息资产。 大数据...

    1、大数据定义

     对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力

    的海量、高增长率和多样化的信息资产。

    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

    从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算分布式处理分布式数据库云存储虚拟化技术

    随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

    大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库云计算平台、互联网和可扩展的存储系统。

    最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算:

    8bit= 1Byte

    1KB= 1,024 Bytes

    1MB= 1,024 KB = 1,048,576 Bytes

    1GB= 1,024 MB = 1,048,576 KB

    1TB= 1,024 GB = 1,048,576 MB

    1PB= 1,024 TB = 1,048,576 GB

    1EB= 1,024 PB = 1,048,576 TB

    1ZB= 1,024 EB = 1,048,576 PB

    1YB= 1,024 ZB = 1,048,576 EB

    1BB= 1,024 YB = 1,048,576 ZB

    1NB= 1,024 BB = 1,048,576 YB

    1 DB = 1,024 NB = 1,048,576 BB

    1887–1890年

    赫尔曼·霍尔瑞斯美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。

    1935–1937年

    美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说,“要整理如此繁多的职工档案,还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”

    1943年

    一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后,帮助盟军成功登陆了诺曼底。

    1997年

    美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

    2002年

    在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

    2004年

    9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

    2007–2008年

    随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”

    2009年1月

    印度政府建立印度唯一的身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用,但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

    2009年5月

    大数据或成反恐分析利器美国总统巴拉克·奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

    2009年7月

    应对全球金融危机,联合国秘书长潘基文承诺创建警报系统,抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

    2011年2月

    扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”

    2012年3月

    美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时,不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。

    2012年7月

    美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。

    HadoopMapReduce

    思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。根据权威报告显示,许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。

    大数据NoSQL数据库

    我们生活的时代,相对稳定的数据库市场中还在出现一些新的技术,而且在未来几年,它们会发挥作用。事实上,NoSQL数据库在一个广义上派系基础上,其本身就包含了几种技术。总体而言,他们关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。

    内存分析

    在Gartner公司评选的2012年十大战略技术中,内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中,如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力,也许内存分析就是答案。大数据背景下,用户以及IT提供商应该将其视为长远发展的技术趋势。

    集成设备

    随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来,许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起,提升查询性能、扩充存储空间并获得更多的分析功能,并能够提供同传统数据仓库系统一样的优势。在大数据时代,集成设备将成为企业应对数据挑战的一个重要利器。

    结构

    大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

    其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

    第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

    第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

    第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

    特点

    大数据大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。

    大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。

    从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

    大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

    当前用于分析大数据的工具主要有开源与商用两个生态圈

    开源大数据生态圈:

    1、Hadoop HDFS、HadoopMapReduce, HbaseHive 渐次诞生,早期Hadoop生态圈逐步形成。

    2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

    3、NoSQL,membase、MongoDB

    商用大数据生态圈:

    1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

    2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

    3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。

    数据采集

    定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

    特点和挑战:并发系数高。

    使用的产品:MySQLOracleHbaseRedis和 MongoDB等,并且这些产品的特点各不相同。

    统计分析

    大数据定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据 进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。

    特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多。

    使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做离线分析为主之外,其他产品可做实时分析。

    挖掘数据

    定义:基于前面的查询数据进行数据挖掘,来满足高级别 的数据分析需求。

    特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大。

    使用的产品:R,Hadoop Mahout

    SOA模型

    我们需要的是以数据为中心的SOA还是以SOA为中心的数据?答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中,将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。

    SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。

    SOA和数据企业的例子

    也许以极限情况为开始是理解SOA数据问题的最好方式:一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件(查询即服务,或QaaS)上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上;而是通过一个单一的架构——RDBMS(关系型数据库管理系统)。数据去重和完整性便于管理单一的架构。

    通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事,由于数据有多个来源和形式因此很少按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时,关键是要定义三种模型中的最后一种模型,SOA数据关系中的架构模型。有两种选择:水平方向和垂直方向。

    大数据:“人工特征工程+线性模型”的尽头SOA和各类数据模型

    在水平集成数据模型中,数据收集隐蔽于一套抽象的数据服务器,该服务器有一个或多个接口连接到应用程序上,也提供所有的完整性和数据管理功能。组件虽不能直接访问数据,但作为一种即服务形式,就像他们在简单情况下的企业,其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型,但是它至少复制了我们上面提到的简单的RDBMS模型。

    垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上,该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离,这种分离直接涉及到数据基础设施。在某些情况下,这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理,管理服务器可以作为SOA组件来操作各种数据库系统,以数据库特定的方式执行常见的任务,如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则,也可能产生数据管理的一致性问题。

    SOA和水平数据模型

    毫无疑问水平模型更符合SOA原则,因为它更彻底地从SOA组件中抽象出了数据服务。不过,为了使其有效,有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

    水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce,可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据,然后集中查询这一分布式信息的相关结果。实际上,SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

    效率问题

    效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的,一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销,但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件,很容易被忽略与延迟和数据传输量相关的问题,特别地,如果数据库是云分布的,那么使用他们就会产生可变的网络延迟

    上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘,而是一组相互连接的高速缓存点,其存储于本地内存中,也可能转向固态硬盘,然后到本地磁盘,最后到云存储。缓存算法处理这些缓存点之间的活动,从而来平衡存储成本(同时也是平衡同步地更新成本)和性能。

    大数据应用领域对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这种方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

    SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。

    Hadoop

    Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。

    Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外,您还能够以其他语言编写map和reduce函数,并使用称为Hadoop Streaming(简写为Streaming)的API调用它们。

    流定义

    从技术角度而言,流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”,均能够在某种程度上处理流内的数据。节点可以不包含输入和输出,也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起,表示在运算符之间移动的数据流。

    右图一个简单的流图,它可以从文件中读取数据,将数据发送到名为Functor的运算符(此运算符能够以某种编程方式转换所传入的数据),然后将这些数据传入另一个运算符。在此图片中,流数据被传送至Split运算符,而后又将数据传入文件接收器或数据库(具体情况视Split运算符的内部状况而定)。

    利用Apache Hadoop等开源项目,通过传感器、RFID、社交媒体、呼叫中心记录和其他来源提供的新型数据创造价值。

    Streams

    大数据应用领域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(简称Streams)中,数据将会流过有能力操控数据流(每秒钟可能包含数百万个事件)的运算符,然后对这些数据执行动态分析。这项分析可触发大量事件,使企业利用即时的智能实时采取行动,最终改善业务成果。

    当数据流过这些分析组件后,Streams将提供运算符将数据存储至各个位置,或者如果经过动态分析某些数据被视为毫无价值,则会丢弃这些数据。你可能会认为Streams与复杂事件处理(CEP) 系统非相似,不过Streams的设计可扩展性更高,并且支持的数据流量也比其他系统多得多。此外,Streams还具备更高的企业级特性,包括高可用性、丰富的应用程序开发工具包和高级调度。

    出于这样的目的,许多组织开始启动自己的大数据治理计划。所谓大数据治理,指的是制定策略来协调多个职能部门的目标,从而优化、保护和利用大数据,将其作为一项企业资产。

    容量问题

    这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB的持续吞吐能力,非常适用于大数据分析

    延迟问题

    “大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

    安全问题

    某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。

    大数据应用领域成本问题

    对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场,而且还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

    数据的积累

    许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

    灵活性

    大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

    应用感知

    最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。

    针对小用户

    依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。

    大数据大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题:

    ■元数据

    大数据治理需要创建可靠的元数据,避免出现窘境,例如,一家企业重复购买了相同的数据集两次,而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。

    ■隐私

    企业需要严格关注遵守隐私方面的问题,例如利用社交媒体进行数据分析。

    ■数据质量

    考虑到大数据的庞大数量和超快速度,组织需要确定哪种级别的数据质量属于“足够好”的质量。

    信息生命周期管理。大数据治理计划需要制定存档策略,确保存储成本不会超出控制。除此之外,组织需要设定保留计划,以便按照法规要求合理处置数据。

    ■管理人员

    最终,企业需要招募大数据管理员。例如,石油与天然气公司内的勘探开采部门的管理员负责管理地震数据,包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外,社交媒体管理员需要与法律顾问和高级管理人员配合工作,制定有关可接受的信息使用方法的策略。

    数据价值

    众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

    显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。

    但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。

    毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。

    大数据应用所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。

    企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。

    但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。

    有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。

    数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。

    数据机遇

    自从有了IT部门,董事会就一直在要求信息管理专家提供洞察力。实际上,早在1951年,对预测小吃店蛋糕需求的诉求就催生了计算机的首次商业应用。自那以后,我们利用技术来识别趋势和制定战略战术的能力不断呈指数级日臻完善。

    今天,商业智能 (使用数据模式看清曲线周围的一切) 稳居 CXO 们的重中之重。在理想的世界中,IT 是巨大的杠杆,改变了公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

    大数据分析是商业智能的演进。当今,传感器、GPS 系统、QR 码、社交网络等正在创建新的数据流。所有这些都可以得到发掘,正是这种真正广度和深度的信息在创造不胜枚举的机会。要使大数据言之有物,以便让大中小企业都能通过更加贴近客户的方式取得竞争优势,数据集成和数据管理是核心所在。

    面临从全球化到衰退威胁的风暴, IT部门领导需要在掘金大数据中打头阵,新经济环境中的赢家将会是最好地理解哪些指标影响其大步前进的人。

    大数据应用当然,企业仍将需要聪明的人员做出睿智的决策,了解他们面临着什么,在充分利用的情况下,大数据可以赋予人们近乎超感官知觉的能力。Charles Duigg是《习惯的力量》一书的作者,他找出的一个黄金案例分析的例子是美国零售商 Target,其发现妇女在怀孕的中间三个月会经常购买没有气味的护肤液和某些维生素。通过锁定这些购物者,商店可提供将这些妇女变成忠诚客户的优惠券。实际上,Target 知道一位妇女怀孕时,那位妇女甚至还没有告诉最亲近的亲朋好友 -- 更不要说商店自己了。

    很明显,在可以预见的将来,隐私将仍是重要的考量,但是归根结底,用于了解行为的技术会为方方面面带来双赢,让卖家了解买家,让买家喜欢买到的东西。

    再看一下作家兼科学家 Stephen Wolfram的例子,他收集有关自身习惯的数据,以分析他的个人行为,预测事件在未来的可能性。

    大数据将会放大我们的能力,了解看起来难以理解和随机的事物。对其前途的了解提供了获取崭新知识和能力的机会,将改变您的企业运作的方式。

    发展前景

    大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据 。

    2013年5月10日,阿里巴巴集团董事局主席马云淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。

    大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正在改变着我们习以为常的经营之道,一场关系到企业生死存亡的技术革命已经到来。

    借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

    随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机智能电表等设备产生的数据爆增,使数字宇宙的规模在2012到2013两年间翻了一番,达到惊人的2.8ZB。 IDC预计,到2020年,数字宇宙规模将超出预期,达到40ZB。

    大数据应用40ZB究竟是个什么样的概念呢?地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年,数字宇宙将每两年翻一番;到2020年,人均数据量将达5,247GB。

    该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨胀,但仅有0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的处女地。

    价值

    谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

    大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,已进入大数据时代,但硬件明显已跟不上数据发展的脚步。

    以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而提及“大数据”,通常是指解决问题的一种方法,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

    虽然大数据在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

    未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

    存储

    随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

    针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce 、 云创存储、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等。

    “大数据”的商业价值简而言之,企业可以通过思考数据战略的总体回报,来应对大数据的挑战,抓住大数据的机会。Informatica所指的‘数据回报率’,是为帮助高级IT和业务部门领导者进行大数据基本的战术和战略含义的讨论而设计的一个简单概念。等式非常简单:如果您提高数据对于业务部门的价值,同时降低管理数据的成本,从数据得到的回报就会增加 -- 无论是用金钱衡量,还是更好的决策

    数据回报率=数据价值/数据成本

    在技术层面,数据回报率为数据集成、数据管理、商业智能和分析方面的投入提供了业务背景和案例。它还与解决业务的基础有关:挣钱、省钱、创造机会和管理风险。它涉及对效率的考虑,同时推动了改变游戏规则的洞察力。

    实现回报

    Informatica深知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点,同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力,为企业提供全程帮助。

    在大数据的世界中,最灵活和成功的企业将会是那些善用大机遇的公司。

    意义

    1.变革价值的力量

    未来十年,决定中国是不是有大智慧的核心意义标准(那个”思想者”),就是国民幸福。一体现到民生上,通过大数据让事情变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

    2.变革经济的力量

    生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

    3.变革组织的力量

    随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化WEB2.0应用,如RSS、维基、博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

    用途

    大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

    大数据与云计算的关系物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

    有些例子包括网络日志,RFID,传感器网络社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。

    弊端

    虽然大数据的拥护者看到了使用大数据的巨大潜力,但也有隐私倡导者担心,因为越来越多的人开始收集相关数据,无论是他们是否会故意透露这些数据或通过社交媒体张贴,甚至他们在不知不觉中通过分享自己的生活而公布了一些具体的数字细节。

    分析这些巨大的数据集会使我们的预测能力产生虚假的信息,将导致作出许多重大和有害的错误决定。此外,数据被强大的人或机构滥用,自私的操纵议程达到他们想要的结果。

    洛杉矶警察局加利福尼亚大学合作利用大数据预测犯罪的发生。

    google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

    统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

    麻省理工学院利用手机定位数据和交通数据建立城市规划。

    梅西百货的实时定价机制,根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。

    Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。

    PredPol Inc. 公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪暴力犯罪分布下降了33%和21%。

    American Express(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。

    大数据实践 基础架构先行Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此,他们开发了一个新产品:会响铃的药品盖和自动的电话呼叫,以此提醒患者按时服药。

    Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是,那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。在特定情况下,这些数据可以用作其他用途。该公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。

    利用起互联网大数据,对消费者的喜好进行判定。商户可以为消费者定制相应的独特的个性服务,甚至可以在一些商品或者服务上匹配用户心情等等。商家还可以根据大数据为消费者提供其可能会喜好的特色产品,活动,小而美的小众商品等等 。

    地产业的升级改造,具有令人兴奋的商业前景。一个Shopping Mall的投资往往高达数十亿元,设想一下,如果智能化升级能够让一个Shopping Mall的顾客数量和人均消费提升30%-50%,为此投入几百万元甚至上千万元对于投资方来说非常划算,那么仅仅针对国内Shopping Mall的智能化升级就是一个千亿元级别的市场。

    经典大数据案例-沃尔玛经典营销:啤酒与尿布

    “啤酒与尿布”的故事产生于20世纪90年代美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

    在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

    当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

    IBM战略

    IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”,指的是在“掌握信息”(Align)的基础上“获取洞察”(Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地“学习”(Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现“转型”(Transform)。

    大数据基于“3A5步”动态路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。

    在大数据处理领域,IBM于2012年10月推出了IBMPureSystems专家集成系统的新成员——IBM PureData系统。这是IBM在数据处理领域发布的首个集成系统产品系列。PureData系统具体包含三款产品,分别为PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。与此前发布的IBMPureSystems系列产品一样,IBM PureData系统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。

    斯隆数字巡天收集在其最初的几个星期,就比在天文学的历史上之前的2000年的收集了更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上将获得数据公布,沃尔玛每隔一小时处理超过100万客户的交易,录入量数据库估计超过2.5 PB相当于美国国会图书馆的书籍的167倍 。FACEBOOK从它的用户群获得并处理400亿张照片。解码最原始的人类基因组花费10年时间处理,如今可以在一个星期内实现。

    “大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。

    大数据已经出现,因为我们生活在一个有更多信息的社会中。有46亿全球移动电话用户有20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人收益的这笔钱将反过来导致更多的信息增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

    大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

    大数据实践国内网络广告投放正从传统的面向群体的营销转向个性化营销,从流量购买转向人群购买。虽然市场大环境不好,但是具备数据挖掘能力的公司却倍受资本青睐。

    163大数据是一个很好的视角和工具。从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。

    移动互联网与社交网络兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用“大数据”告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切中了广告商的需求。

    社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。

    实际上,将用户群精准细分,直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易,正是张文浩为自己的社交数据挖掘公司设计的盈利模式。这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心,主动迎合用户需求,前提就是要找到这部分人群。

    在移动互联网领域,公司从开发者角度找到数据挖掘的方向,通过提供免费的技术服务,帮助开发者了解应用状况。

    国内的企业跟美国比较,有一个很重要的特性就是人口基数的区别,中国消费群体所产生的这种数据量,与国外相比不可同日而语。

    伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。数据大爆炸下,怎样挖掘这些数据,也面临着技术与商业的双重挑战。

    首先,如何将数据信息与产品和人相结合,达到产品或服务优化是大数据商业模式延展上的挑战之一。

    其次,巧妇难为无米之炊,大数据的关键还是在于谁先拥有数据。

    从市场角度来看,大数据还面临其他因素的挑战。

    产业界对于大数据的热情持续升温的同时,资本也敏锐地发现了这一趋势,并开始关注数据挖掘和服务类公司。

    最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

    大数据时代:如何节省存储成本“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”

    事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。

    “大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2011年12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术信息安全技术,也都与“大数据”密切相关。

    大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

    大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落不是管理能扭转的。

    大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测,到2020年全球将总共拥有35ZB的数据量,而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。

    当前还处在大数据时代的前夜,预计今明两年将是大数据市场的培育期,2014年以后大数据产品将会形成业绩。

    大数据给城市带来的重大变革宋清辉:大数据正改变我们的未来

    大数据时代,与其让对你感兴趣的人去搜寻你的隐私,就不如自曝隐私。当我在全球不同城市演讲结束交换名片的时候,基本从来不发载有自己名字、电话、地址等基本信息的名片,因为那根本用不着,也不符合大数据时代的精髓。所以我的名片简单到只有一个名字和几个二维码,只要百度一下或者扫一扫二维码,关于个人的信息别人就会一览无余,包括在写什么文章、在哪里演讲等信息……

    不想说一个人若拒绝大数据就去失去生命这样沉重的话题,但大数据确实在深刻改变着你和我的未来。

    2015年5月26日,中共贵州省委副书记、省政府省长陈敏尔在峰会上透露,国家在制定大数据国家战略及行动计划。贵州省将抓住和用好战略机遇,深入挖掘大数据的商业价值、管理价值和社会价值。[2]

    工信部信息服务处处长李琰在论坛期间则表示,工信部将抓紧研究制定大数据发展的指导性文件。下一步,工信部将和有关部门加强协同,积极营造良好的环境,推动应用和产业相互促进、良性发展,为我国大数据产业和大数据创新发展探索积累经验。

    大数据时代来了!不得不承认如今数据量的激增越来越明显,各种各样的数据铺天盖地的砸下来,企业选择相应工具来存储、分析与处理它们。从Excel、BI工具,到现在最新的可视化数据分析工具大数据魔镜,数据分析软件进步越来越快,免费的大数据魔镜已经可以达到500多种可视化效果和实现数据共享。那么在大数据时代中,都新出现了哪些数据类型呢?

    1)过于一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。举个例子,Facebook每天有18亿张照片上传或被传播,形成了海量的数据。[3]

    2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知IPHONE有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。

    3)电子地图如高德、百度、Google地图出现后,其产生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型,在过去是不存在的。

    4)进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。

    5)电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,其是信息流和资金流数据。

    6)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能。

    上面我们所指的大数据不同与过去传统的数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。这些新类型数据相信大家都很熟悉,它们已经比传统数据类型更深入地走进了我们生活。

    展开全文
  • 几分钟看懂什么是大数据

    万次阅读 多人点赞 2018-12-21 10:41:51
    在2012年互联网络数据中心(IDC)发布的《数字宇宙2020》中写到,2011年全球数据总量已达到1.87ZB(1ZB=十万亿亿字节),并且...在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据...

    在2012年互联网络数据中心(IDC)发布的《数字宇宙2020》中写到,2011年全球数据总量已达到1.87ZB(1ZB=十万亿亿字节),并且以每两年翻一番的速度飞快增长。预计到2020年,全球数据总量将达到35-40ZB,10年间将增长20倍以上。

    大数据,它将改变人类的生活以及理解世界的方式。

    在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴
     

    那么,究竟什么是大数据呢?

    随着科技的进步,人们逐渐告别了日出而作、日落而息的单调生活,在信息化的社会里,每时每刻都在创造着大量的数据。

    数据可能包括财务电子表格、新产品的设计蓝图、客户信息、产品目录和商业机密等,更有甚者,我们日常每行走的一步都有手机软件自动记录行程,网络上的交流通过QQ、微信跨越了时空的界限,这些都是数据,但还不是大数据。

    大数据,是数据的集合。

    “ 

    大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。

    大量化,IDC预计到2020年,全球将总共拥有35ZB的数据量。

    多样化,不再是单一的文本形式,订单、日志、音频,多种多样。

    快速化,在海量的数据面前,处理数据的效率有着本质的区别。

    价值密度低,需要通过强大的算法迅速完成数据的价值提纯。

     

     

    关于大数据的思考

     

    大数据究竟有多大

    掌握更多的数据对于人类科学来说是一种进步, 那有助于我们认识客观世界。研究人员只是从收集到的数据中提取了1%的数据进行分析。这1%被分析的数据支配了目前的大数据创新,被称为“大数据”。“大数据”其实并不大,与反映客观事物的真实数据还有很大的差距。“人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。

     

    大数据能让企业盈利吗

    来源于互联网、传感器、流数据库、社会网络等方面的数据具有多样性和差异性,非常复杂,许多数据形式、结构都不同,有些数据甚至互相矛盾。数据从采集、存储到分析都是要花钱的,收集、存储数据的成本很高,分析数据的成本更高。数据挖掘项目不是一劳永逸的。模型出现偏差就不能再按原来的方案使用这个模型了,必须对模型进行调整。企业必须了解业务人员的需要,再请数据分析师帮助解决问题。

     

    大数据的分析真的很准吗

    科学研究实际需要的数据有可能被人们收集的海量数据所淹没。人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西,大数据无法解决大问题。在日常生活中,有很多收集不到的数据,但它们非常重要,起着决定性的作用。

     

    大数据能绕过“隐私权”吗

    在大数据时代,你透明的程度已经不取决于你了,你已经被大数据监控和记录了。在大数据时代,无处不在的数据采集系统使每个人都是赤裸裸的,没有隐私,无处可藏,甚至掌握大量数据的分析系统比你更了解你自己。75%的人不希望企业储存他们的个人信息,几乎90%的人反对企业跟踪他们的网络浏览记录。

     

     

    大数据应用案例

    01

    奥巴马成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在得相同数额捐款的情况下,这一比例仅为31%。奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!

    02

    亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

    03

    谷歌在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。

    通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。 

     

    关于大数据的思考

    在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

    大数据究竟有多大

    掌握更多的数据对于人类科学来说是一种进步, 那有助于我们认识客观世界。研究人员只是从收集到的数据中提取了1%的数据进行分析。这1%被分析的数据支配了目前的大数据创新,被称为“大数据”。“大数据”其实并不大,与反映客观事物的真实数据还有很大的差距。“人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。

     

    大数据的分析真的很准吗

    科学研究实际需要的数据有可能被人们收集的海量数据所淹没。人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西,大数据无法解决大问题。在日常生活中,有很多收集不到的数据,但它们非常重要,起着决定性的作用。

     

    大数据能绕过“隐私权”吗

    在大数据时代,你透明的程度已经不取决于你了,你已经被大数据监控和记录了。在大数据时代,无处不在的数据采集系统使每个人都是赤裸裸的,没有隐私,无处可藏,甚至掌握大量数据的分析系统比你更了解你自己。75%的人不希望企业储存他们的个人信息,几乎90%的人反对企业跟踪他们的网络浏览记录。

     

    在国内政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。

     

    如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

     

     

    “ 

     

    ◆ 城市规划通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。

     

    ◆ 交通管理通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。

     

     舆情监控通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。

     

    ◆ 安防与防灾通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

    展开全文
  • Hadoop大数据实战开发

    万人学习 2019-05-27 10:51:32
    介绍大数据技术生态圈主流技术框架的应用与发展,介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS 、大数据分布式并行计算框架MapReduce。 本课程介绍大数据的学习基础。 本课程介绍...
  • 什么是大数据(转自知乎)

    千次阅读 2019-05-27 09:46:29
    什么是大数据 大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。 A. 对于投资人和创业者而言,大数据是个热门的融资标签。就和前几...

    声明:纯属个人收藏用!

    什么是大数据

    大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。

    A.

    对于投资人和创业者而言,大数据是个热门的融资标签。就和前几年流行的 SoLoMo,这几年火爆的 P2P 一样,大数据是资本泡沫的催化剂。如今任何一家(移动)互联网公司都忙着把自己标榜为大数据公司,或者干脆说自己是一家数据公司。遗憾的是,大多数中国的互联网公司都是流量驱动的企业。与其说这些公司是大数据公司,不如说它们是数据采集公司。是的,每一家互联网公司都是数据公司,因为数据(Data)是比信息(Information)要狭隘得多的词汇。换句话说,任何一家 IT 行业的公司天然地都是数据公司。但是非 IT 公司同样可以是数据公司,例如房地产企业和汽车销售公司——毕竟他们优质低价地将顾客的信息转卖给任何感兴趣的个人或实体。遗憾的是,中国并没有几家 Pure-Play 的数据公司,因此中国不太可能出现 Palantir 这样伟大的企业。我不幸见过一两家国产独角兽企业的技术/数据负责人,他们似乎并不了解这家 CIA 投资的创业公司,但这并不妨碍他们把自己的公司定位为世界级的大数据公司。我可以臆测,国内这些独角兽企业的道德底线远远低于(为美帝情报机构服务的) Palantir,只是它们还没有足够的人才和技术来充分挖掘数据中的有效信息。
    对于大多数互联网公司或者工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据扔到 HDFS 上面然后进行计算。计算的工具有很多,最常见的是 Map-Reduce,但是技术一直在演进,现在还流行 Impala、Spark、Presto 什么的。对于这些搞大数据的工程师而言,这是一个非常好的事情,因为要把这么多异构的数据和系统跑起来,需要很多人写很多代码,还需要有人来做运维。这么一个部门总得需要几十台机器否则还不如单机计算能力强,工程师也得有十来人。然后可能还需要数据分析师,否则这部门跟摆设也没什么区别。如果系统做得不错数据量也有了,总得配个数据科学家搞点数据挖掘或者机器学习什么的吧。所以大数据这件事情可以解决很多就业问题,毕竟很多上了规模的互联网公司都想搞大数据。
    但是对于消费者或者互联网所谓的“用户”来说,大数据却是另外一个意思。大数据的意思就是尽可能地搜集跟终端消费者相关的隐私,然后进行营销。从理论上说,大数据公司通过搜集用户行为,可以更好地了解消费者的需求,增强用户体验。但是在实践上,这些所谓的智能推荐还停留在很初级的阶段,因此会有人在淘宝上搜索棺材结果在微博上不停地看到跟丧葬相关的广告。对于微博这样的公司,还意味着它会倾向于通过直接或者间接地暴露你的隐私来获得商业利益。据说,评价一家国内公司的大数据能力是跟被查水表的频繁程度正相关的。就目前而言,大数据对于终端消费者更多的是“被实名”。举一个例子,如果你在 Android 手机上使用 Facebook 账号访问某个 App,那么对不起,你在这个手机上的所有行为都有可能被 Facebook 关联到你真实的身份上。在这种能力上,国内的三巨头排序大概是 T > A >> B。所以最后这家公司的 App 特别流氓甚至超越了数字公司,如果你想帮帮这家公司就多用用他家的地图或者订点外卖。

    B.

    关于大数据和隐私,最核心的问题在于标识(Identity),尤其是所谓的 PII (Personal Identifiable Information)。但是要对用户进行追踪并不一定需要 PII,任何一个强度足够高的随机数都可以用来追踪单个用户。在 Web 时代,由于 Cookie 的生命周期问题,对用户进行长期追踪并不是很容易。但是最近几年,越来越多的公司使用 Flash 来进行追踪,最终演进成一种叫做数字指纹的技术。要解释这些技术需要一些应用数学背景,知乎上应该可以找到相关的问答,我就不赘述了。我很想系统地讲述在使用桌面浏览器上如何保护自己的隐私,但是似乎离题太远了。但是我还是想提醒一句,在桌面浏览器上最有效的安全习惯就是禁用 Flash(当然,如果你出于安全装了数字公司的软件,那么你可以假装我说的都是废话——毕竟数字公司连你开机时间这种信息都不放过,更何况这家公司可是以所谓的“厚数据”而闻名的)。
    身份到底有多重要呢?我可以说说我自己的一些非理性的习惯。大多数地铁一卡通都是不记名的,但是我以前会定期地破坏一卡通,从而避免在一卡通里积累过多的数据。但是由于我并不能很频繁地换卡,所以我这样的非理性行为是毫无用处的——你只需要读读我的卡就知道我住在哪里又在哪里上班,误差不会超过两公里。从技术上说,任何一张非接触卡都可以可能用于追踪我的身份,以及我所在的时空坐标。虽然我知道目前的技术并不能在超过一米的距离上读出我随身携带的卡片,但是我仍然把我身上所有的非接触卡放在一个金属的名片盒中。作为一个足够偏执的人,我更相信物理隔离。遗憾的是,这些非理性的习惯在移动时代都是徒劳的。
    在移动时代,身份问题变成了最严重的问题,因为智能手机在很大程度上是私人设备。大多数人都随身携带这些设备,这就意味着设备的标识和个人几乎是一一对应的。在这个问题上,就连苹果公司都没能意识到其严重性,以至于在早期的苹果设备上有一个接近完美的唯一硬件标识(UDID)。这就意味着所有的 App 开发者都可以使用这个标识来追踪设备和交换数据。换句话说,只要你在一个 App 中使用了 Facebook 账号或者提交了电话号码,那么你在这个设备中的所有行为都有可能被关联到你的 PII。苹果直到两年以前才堵上这个漏洞,并通过所谓的 IDFA 来替代 UDID。我并不喜欢苹果公司,但是我在这里提这个案例并不是为了贬低苹果公司。事实上,苹果公司是所有的智能手机制造商中最尊重用户隐私的那一家,没有之一。原因很简单,苹果公司并不是一家互联网公司,它是通过向消费者出售手机来获利的。苹果公司的硬件利润非常高,它不需要通过 App Store 和广告来获利,因此 Tim Cook 才会有底气地讨论消费者的隐私问题。而 Google 则不同,它是一家广告公司,它甚至会通过分析用户的邮件来进行精准广告投放。我并不想把 Google 妖魔化成一个侵犯消费者隐私的寡头,但是 Google 的不作为让 Android 成为了地球上最伟大的监控平台。Android 上的确没有 UDID 这么高质量的标识,但是它允许开发者直接获取 IMEI——利用 IMEI 理论上可以通过运营商获取手机号码,并且进行实时的监控。此外 Android 还允许开发者获取 MAC 地址和 Android ID 这些标识,而前者可以用于基于 Wi-Fi 的地理位置定位。这些看起来很糟糕,但还不是最糟糕的,因为 Android 还允许开发者获取安装应用列表、正在运行应用列表。换句话说,Android 不仅允许开发者监控自己的 App 使用情况,还可以监控其他的 App 的使用情况,这可是字面上的情报工作。这些在技术层面上都是 Android 允许的,对于已 Root 设备或者能够利用漏洞提权的 App 而言,Android 提供的想象空间几乎是无限的。

    有些读者评论扯 Google 的 IDFA 对应物,那我举个 Google 平台上的栗子吧:
    近日,多个与TalkingData合作的厂商表示在Google Play发布的产品于2016年5月25日凌晨陆续被下架。且下架的说明邮件里称:“违反了开发者条款”并指出是TalkingData的SDK的问题所导致。
    TalkingData回应SDK导致下架:GooglePlay审核调整
    这家公司更是毫不掩饰地展示自己侵犯隐私的能力:
    在这里插入图片描述
    TalkingData-行为地图
    那么问题来了,大家觉得他们的数据是哪里来的呢,是苹果用户还是安卓用户呢?
    为了避免引起恐慌,这家公司的客户主要是某些银行和游戏,市场覆盖率并不是特别高。BAT 任何一家拥有的隐私数据都能秒杀这家公司,所以大家请保持内心的平静,睡觉前多玩玩手机。

    C.

    想象有这么一家智能手机厂商,它以极低的价格出售 Android 智能手机,它还声称自己是一家互联网公司,并且标榜自己是一家大数据公司。那么,这样的公司为什么会销售无线路由器呢?其实我说的不是国内的公司,而是 Google。当然这并不是什么秘密,有一段时间所有的互联网公司都想为用户提供所谓的智能路由器。
    理由很充分,Wi-Fi 技术是以兼容以太网为目的局域网组网方案,它从来没有考虑过隐私和所谓的大数据带来的问题。以太网提供了一个高强度的网卡标识(即所谓的 MAC),理论上能提供 48 位的地址空间,从实际来说也足够所有的网卡制造商唯一地标识每一张网卡。最初这个网卡标识的设计目的是为了区分不同的设备,将冲突降到最低,因此对于给定的网卡,这个标识应该是永久不变的。这个标识在有线网络时代从来都不是一个真正的问题,因为 MAC 仅用于局域网通讯,任何设备在互联网上只会暴露 IP。为了无缝地兼容以太网,Wi-Fi 设备继承了这个标识,并且在扫描无线接入点的时候广播这个标识。换句话说,你随身携带的智能手机有一个几乎独一无二的永久标识,并且倾向于广播这个标识。因此对于很多大数据公司而言,这比你在脸上写着自己的姓名还要好得多。所以,苹果在最近的一次升级中改变了策略,所有的苹果手机在扫描热点的时候都会使用一个临时的 MAC。苹果这样做对于保护消费者的隐私很有帮助,但是离解决这个问题还很远。当苹果设备连接一个热点(例如咖啡厅里的免费热点)的时候,它依然会使用一个固定的网卡标识。
    一个平庸的无线网卡标识为什么会跟大数据扯上关系呢?出乎标准设计者的意料,Wi-Fi 已经成为了一种主流的互联网接入方式,并且成了一种重要的辅助定位技术。不同于智能设备,大多数无线热点都是固定不动的,并且覆盖了都市的大多数区域。利用无线热点的 SSID 和 MAC,加上从智能手机采集的 GPS 信息,地理信息服务商可以利用这些信息完成误差在百米以内的定位。在 GPS 不能覆盖的室内,Wi-Fi 定位几乎是首选的解决方案。从这个角度来看,Wi-Fi 定位是一个方便消费者的福音。但是 Wi-Fi 的技术设计决定了它不是一个匿名的定位技术,在定位的过程中 Wi-Fi 热点同样可以获得智能手机的无线标识。因此从另一个角度来看,Wi-Fi 热点的运营商可以获得智能手机的一个时空坐标。这样第三方就有可能追踪智能手机在城市中的轨迹,其效果甚至可以超越运营商的监控手段。但是这并不是最糟糕的,出于统计的需求,很多 Android App 还会采集手机的 Wi-Fi 网卡标识。这些数据有可能将用户的行为和时空轨迹联系在一起,从而造成严重的隐私风险。正如 Facebook 一样,智能手机的普及是 CIA/NSA 做梦也想不到的好事。现代人进入了一个自愿监控自己的伟大时代,A Brave New World。
    Snowden 在讨论 XKeyscore 的时候,其实提到过 NSA 非常喜欢这一点:
    EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.
    Two New Snowden Stories
    当然,得益于 Palantir 的支持,NSA 的 SIGINT 能力已经不再是 Snowden 能够想象的了。

    D.

    让我用一个思维实验来展示一个 Android 用户在这个大数据生态链中的位置吧(当然任何一个读者都可以亲自尝试,用 iPhone 手机效果会大打折扣)。某个周末,你来到了某个商场,在一个咖啡厅里面点了一杯咖啡,然后开始用智能手机上网。咖啡厅提供了免费 Wi-Fi 网络,由于法规要求需要你提供手机号进行实名认证,你毫不犹豫地输入了手机号。于是免费 Wi-Fi 的服务商知道了你的信息:你的手机号和智能手机的 MAC。然后你开始刷微博,由于微博的 API 通常不使用加密信道,于是 Wi-Fi 热点通过偷窥 HTTP 请求获得了你的微博账号。通过你的微博,Wi-Fi 服务商有可能了解你的性别年龄工作等信息。此外通过该热点请求的很多元信息都会被服务商保留,虽然它们未必知道怎么挖掘这些元信息,但是它们会尽量将你的身份和这些信息关联在一起并长期保留。喝完咖啡,你开始逛街,这时候你的手机会开始扫描热点,商场可以通过 Wi-Fi 探针追踪你的位置。如果商场使用的 Wi-Fi 服务商和咖啡厅是同一家,或者与服务商建立了数据交换的协议,那么商场有可能实名地追踪你的轨迹。商场的 Wi-Fi 服务商同样会非常有耐心地存储你的信息,以备不时之需。在逛街的过程中,你打开了一些购物 App 用于比价,顺便拍了一些照片发给好友。其中一些 App 会把你的 MAC 地址和通过 Wi-Fi 完成的定位信息也发送出去。如果存在一个完备的数据交易网络,任何对你感兴趣的人都有可能获得以下信息:你的电话号码、手机的 MAC、微博账号,何时出现在这个商场,在商场停留了多久,其间使用了哪些 App,在咖啡厅访问了哪些网站。而这一切都离不开 Wi-Fi 和 MAC。如果更极端一点,你使用了专车软件来这个商场,并且你经常来这家商场,那么你很可能已经在商场的常客数据库里了,你的家庭住址也不再是个秘密。
    这个思维实验当然是虚构的,因为利益冲突无关公司之间很难达成信任,它们很少进行实质性的数据交换。但是寡头们可以通过收购和战略投资将第三方变成第二方,甚至亲自介入 Wi-Fi 热点的服务。利用这些数据和技术,大数据公司事实上可以将营销做到无孔不入。例如,利用上述信息,商场中的餐厅可以针对最近到过商场的用户推送折扣信息,并且根据情况选择短信或微博作为送达渠道。当然现实社会中的餐厅并不会走得这么远,它们更倾向于使用微信服务号一类的技术来建立会员机制。各种 P2P 金融公司、讨债公司对数据更加饥渴,它们会愿意为你的信息(尤其是位置信息)付大价钱。所以从某种意义上说,数据寡头更可能看重你的隐私的长期价值。
    正因为如此,中国的三大寡头都参与了商业 Wi-Fi 的布局。除了微信 Wi-Fi,相信大多数人都没有注意过相关的报道。事实上新闻报道披露的仅仅是冰山一角。
    本报讯公共交通领域最大的WIFI建设运营商16WIFI日前宣布,已完成由百度领投、荣之联等跟投的A轮融资,融资金额超过1亿元。这也标志着在商业WIFI领域,BAT(即百度、阿里、腾讯)再次到齐。

    E.

    还是来点轻松的吧,看看 Google 是怎么利用大数据投放精准广告的:
    在这里插入图片描述
    莫非喜欢 Fallout 的死宅更容易接受某教?我并不是想讽刺 Google 的算法或者宗教布道者的 SEM 策略,只是觉得这对于下面讨论的计算神学而言,是一个绝佳的隐喻。
    计算神学是一种对计算的绝对信仰,其基本教义派别甚至认为整个宇宙都是一台量子计算机,可以用 Universal Wave Function 来完备地描述。在大数据流行起来之前,计算神学属于边缘学科(或者说伪科学),几乎无人问津。但是在大数据时代,计算能力和数据量都不再是问题,计算神学一下就成了主流的意识形态。经过大数据修正过的计算神学摒弃了科学的实证主义传统,试图将一切问题简化成数据处理。吊诡的是,很多计算神学的信徒获得了数据科学家的称号,这无异于将占星师当作天文学家,或者将炼金术士称为化学家(sadly, it was true before we had hard science)。

    这些年我还真见过不少计算神学的布道者,他们开始张口就是大数据和机器学习,后来开始扯深度学习和人工智能。然而有一次我问某个信徒,他用的模型对性别的预测精度有多高,他居然诚实地回答接近 60%。如果需要考虑 Facebook 那么多种非常规的性别,这 60% 还是相当不错的,比扔硬币强不少呢。我之前的公司不幸跟某寡头有非平凡的合作,有幸跟对方的祭司阶级聊了几句,我发现这帮人对数据的理解连频率主义者都不如,连什么是信号什么是噪声都分不清楚。当然这圈子里面也有聪明人,并不是真诚地相信这些鬼话——据说某公司做了两三位数样本的问卷攒了份报告就卖了很多钱。
    大数据是个系统工程,从采集数据到计算到应用到决策有很长的流水线。在这个流水线上的每一个环节,都存在严重的人才空缺。当然,更稀缺的是搞清楚整个流水线的综合性人才。计算神学的信徒们根本没有意识到这一点,或者他们也不关心。幸运的是,官僚们欣赏这些人的盲目乐观。所以这是个让人宽慰的好消息,这些个大数据公司里面还是以蠢货和官僚为主。
    短期来说上述判断应该是靠谱的,至于更长期的我就不杞人忧天了。毕竟某位大师说过,in the long run, we are all dead.
    所以,天朝把 Google 挡在外面是多么的英明神武啊。如果国内的公司都有了 AlphaGo 这样的暴力计算系统来搞大数据,我也该洗洗睡了改行做水管工算了。总体来说我还是一个悲观的存在主义者,要不了多久所有的 CCTV 都会成为面部识别算法的数据源。我感觉,计算神学训练出来的 AI 都是些反社会的自闭症患者,而不再是充满浪漫主义气息的面盲症患者。
    我毫无痕迹地插入了一条原生公益广告:什么是自闭症?(请不要被我的修辞手法误导,自闭症患者几乎不可能反社会,而任何互联网广告系统都是天然反社会的。)。

    Z.

    评论里面有人问大数据有什么不侵犯隐私的用途,我觉得有必要澄清一下,我并不是在写一篇讨伐大数据的檄文。数据和分析能解决很多实际的问题,而且并不总是需要以隐私作为代价。但是技术几乎总是双刃剑,风险与机遇并存。说个相对远一点的,如果新的基因测序技术能将全基因组测学成本降到足够低,利用大数据技术将有可能定量地测量很多遗传疾病的基因风险,这可是造福人类的善举。但是,这也意味着保险公司可以更加精确地估计投保人的健康状况,换句话说可以利用这些信息来进行歧视(美国已经有相关的立法,禁止保险公司利用基因相关的隐私)。再说一个相对近一点的,某公司垄断了天朝的搜索市场,几乎是躺着在挣钱,但是为了追求利润什么骗子广告都愿意打,还会往用户的电脑上装几乎无法卸载的全家桶。几乎所有的人都在说大数据是一座金矿,但是很少有人意识到提炼金子是个技术活,而且现在很多矿山的黄金生产成本已经高于期货价格了(写于黄金价格低点 $1000 左右)。利用数据变现还是颇有技术含量的,用常理就可以推断守着金矿不能赚钱是个什么样的感觉。至少在天朝,真正的问题在于有很多没有技术的公司守着大量的数据干着急——它们其实也很想卖点假药什么的,但是它们能卖的也仅仅是用户的隐私。
    据说,某些输入法会把你所有的输入都送回服务器,这样你也为大数据事业做出了贡献。现在大家应该很清楚,这些大数据都是从哪里来的了吧。
    搜狗和百度输入法被爆泄露用户隐私

    大数据 Big Data

    据说,词源出自Alvin Toffler,上世纪70年代的作品《第三次浪潮》。
    逝者 | 阿尔文•托夫勒:如何化解未来的冲击
    虽然大数据是一个泛泛的概念词,但是关于大数据,关于大数据处理分析的话题近来持续升温,现在基本成了新一轮工业革命级别的话题。
    大数据是什么,作为数据采集团队 ,我们很长的时间里一直也在思考,什么是大数据,大数据的前景和价值在哪里。
    这篇文章里,我会跟大家一起分享我的看法以及各种有趣的内容和资源,它们关于:

    1. 什么是大数据
    2. 大数据的实践
    3. 大数据的应用场景
      在这里插入图片描述
      硬广:我们团队的帮助你零门槛采集数据:
      造数 - 最好用的云爬虫工具 进击的爬虫工具!
      最近都在说裁员,如果想知道互联网裁员潮对就业薪资是不是真的产生了持久的负面影响,可以用我们的工具,帮你定时每天采集几次生成列表看一看。
      (一)什么是大数据
      先听听行家的说法:
      大数据就是多,就是多。原来的设备存不下、算不动。
      ————啪菠萝•毕加索
      大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。_______Schönberger
      移步ted:Kenneth Cukier: Big data is better data
      America’s favorite pie is?
      Audience: Apple. Kenneth
      Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone’s second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn’t see when you only had smaller amounts of it.

    曾经人们以为最爱吃的派都是苹果派,不过当你有了更细致的数据,你会发现,苹果派受欢迎其实是一种妥协的结果:苹果派是每个人第二喜欢的口味。
    拿到小尺寸派的数据以后你更发现,其实苹果派只能排到第四,第五位的样子了。
    你有了更多数据,你就能看到之前你看不到的信息。

    大数据最核心的价值是什么? - 商业 - 知乎 推荐@Han Hsiao这篇内容的结构十分清晰,对大数据的正面意义提出了非常清晰地探讨。
    大数据听着很牛,实际上也很牛吗? - 人工智能 - 知乎 这里 @陈萌萌说的也特别好,怀疑她是不是真的是一个ai。
    大数据最核心的价值是什么? - 商业 - 知乎,依然是这个问题, @刘飞的文章。

    大数据是大数据的采集
    大数据行业,本身是依托于数据源存在的服务性行业。
    大数据最根本之处在于信息收集方式出现了重大变化与革新。大数据的出现与大量信息直接在网络呈现关系非常紧密。
    在这里插入图片描述
    微博、天猫、淘宝、微信等等都直接产生了大量包括定位、消息记录、消费记录、评价、阅读等等殊为庞大的信息,可以说互联网企业都自然的带有数据企业的标签。不过如果我们从数据的源头看的更仔细一些,还是会发现,其实很多数据依然是有巨大的采集与归类的需求。
    在这里插入图片描述
    Joel Selanikio:Transcript of "The big-data revolution in healthcare"
    There’s a concept that people talk about nowadays called “big data.” And what they’re talking about is all of the information that we’re generating through our interaction with and over the Internet, everything from Facebook and Twitter to music downloads, movies, streaming, all this kind of stuff, the live streaming of TED. And the folks who work with big data, for them, they talk about that their biggest problem is we have so much information. The biggest problem is: how do we organize all that information?

    现在人人都说大数据,但其实大家说的是 facebook,twitter,streaming 等等站点上每天产生的信息,做大数据的人呢,会觉得我们有的数据量实在太大了。

    (组织信息仍然是最难的问题)
    I can tell you that, working in global health, that is not our biggest problem. Because for us, even though the light is better on the Internet, the data that would help us solve the problems we’re trying to solve is not actually present on the Internet. So we don’t know, for example, how many people right now are being affected by disasters or by conflict situations. We don’t know for, really, basically, any of the clinicsin the developing world, which ones have medicines and which ones don’t. We have no idea of what the supply chain is for those clinics. We don’t know – and this is really amazing to me – we don’t know how many children were born – or how many children there are – in Bolivia or Botswana or Bhutan. We don’t know how many kids died last week in any of those countries. We don’t know the needs of the elderly, the mentally ill. For all of these different critically important problems or critically important areas that we want to solve problems in, we basically know nothing at all.

    许多有效的数据还完全不在网络上,要依靠原始的方法来收集。数据方面还有很多基本层面的问题在非常多的领域非常明显。

    有哪些「神奇」的数据获取方式? - Liu Cao 的回答 - 知乎 看到这里推荐一个 @Liu Cao
    的回答。
    严澜(lanceyan)的博客 - 技术分享 框架交流 大数据处理 架构搭建 机器人
    强烈推荐:如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?其中 @Xiaoyu Ma
    (二)大数据的实践
    工具看这里:大数据分析一般用什么工具分析? - JavaScript - 知乎
    最近看到个例子,说pokemon go 带给玩家运动量上的变化:
    1、应用中的数据分析示例:•
    在这里插入图片描述
    在这里插入图片描述
    六个月以后,大部分pokemon go 的玩家的运动量逐渐和 non-player基本一致了。
    看来确实是一个能用相当效果的游戏。
    2、交通状况大数据分析示例:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Susan Etlinger: What do we do with all this big data?
    Now, there’s a group of data scientists out of the University of Illinois-Chicago, and they’re called the Health Media Collaboratory, and they’ve been working with the Centers for Disease Control to better understand how people talk about quitting smoking, how they talk about electronic cigarettes, and what they can do collectively to help them quit. The interesting thing is, if you want to understand how people talk about smoking, first you have to understand what they mean when they say “smoking.” And on Twitter, there are four main categories: number one, smoking cigarettes; number two, smoking marijuana;number three, smoking ribs; and number four, smoking hot women.
    这里非常有趣

    (三)大数据的应用场景
    先贴两个新闻观察:
    京津冀大数据产业发展现状 | 报告 | 数据观 | 中国大数据产业观察_大数据门户 数据观 | 中国大数据产业观察_大数据门户
    如今,在政策上,国家战略层面上,大数据受到的重视程度都越来越高。
    应用场景上,现在分布在:

    1. 供应链和渠道分析&优化
    2. 定价分析与优化
    3. 欺诈行为分析&检测
    4. 设备管理
    5. 社交媒体分析&客户分析
      在这里插入图片描述
      《大数据时代》一书作者维克托认为大数据时代有三大转变:
      “第一,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。
      第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力和更大的商业利益。
      第三,不再热衷于寻找因果关系,而是事物之间的相关关系。例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。”大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据
      据野史记载,中亚古国花剌子模有一古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。从前的人喜欢批评这位君王的天真品性,以为奖励带来好消息的人,就能鼓励好消息的到来,处死带来坏消息的人,就能根绝坏消息。
      在今天这个信息爆炸的时代,我们不一定能让信使一定送来好消息,但你可以让我们的爬虫定时给你送来最有用最合你需求的信息。

    大数据

    大数据这个概念,是在12年火起来的。概念火了这么久,但是直到现在,不仅很多外行人不清楚大数据究竟是什么,甚至我接触过的很多内行人,对这个概念的本质也是一窍不通。
    舍恩伯格在《大数据时代》这本书里总结的大数据的三个特征,业内人早已耳熟能详,但也争议颇多。但实际上,我觉得这三个看似不起眼的特征的背后,蕴含着对大数据深刻的理解和洞察。
    那些贬低、或否定这三个特征的人,我想其眼界还是有待提高。
    我们如果站在人类科学史和思维方法论的宏观视角来看待大数据,那么你会发现这三条简洁而优美的特征总结背后的深刻智慧。
    所以今天我主要想从大数据的这三个特征入手,做一个大数据的科普,并阐述一些我个人的理解和看法。
    一、不是随机样本,而是全体数据。
    在过去,一方面由于技术、经济、人力等多个层面的限制,我们探索客观规律的时候,主要是依靠抽样数据、片面数据、或片面数据。所以就会导致有很多小概率事件覆盖不到,容易出现黑天鹅事件。
    甚至有些时候我们都不是基于实证检验,而只是凭借经验,假设,和价值观,就对客观规律做出了总结。
    这就导致过去很多时候,人类对于客观世界的认知,是肤浅的、表面的、错误的。
    另一方面,过去我们对于客观规律的探究,出发点和探究的维度都是较为“狭隘”的。
    比如我们想分析某商业机构的发展前景,可能过去我们的分析素材只集中在和商业、宏观政策等这些与我们的分析对象有着潜在的、或较为明显的因果关系的相关事物上。
    但是大数据的分析对象会更广、更杂、更全面。可能对于这一商业机构的分析素材还会包括天气变化、90后消费倾向、某市人们点外卖的习惯等等这些“看上去”可能和我们的分析目的没有什么联系的“无关因素”。
    但是通过大数据的分析,我们会发现很多我们无法马上理解和接受的、两种事物之间的相关关系。比如:男性顾客买尿布的时候喜欢顺带买啤酒,通过分析词汇检索可以预测到流感传播,咖啡和信用卡或房贷有强相关关系等。
    随着信息技术的发展,我们获取数据变得更便捷、渠道更多、也更迅速、更具时效性,来自互联网的海量数据可以为我们所用。
    因此我们的某个对象的分析不再是抽样调查,而是能覆盖这个对象全体,可以全方位、多维度的对其进行分析。
    由此既消除了小概率事件的不确定性,又能够在对事物的分析中发现更多的可能性和相关性。
    总体而言,这条特征反映出来的是:大数据的『量变』引发了人类进行分析和思考的核心层面上的『质变』。
    在更专业的层面上,大数据的简单算法比小数据的复杂算法更有效,随着数据量的提升,我们获得的结论和答案的精准度也会逐渐提升。

    二、不是精确性,而是混杂性。
    以最通俗的语言来说,就是在庞大的数据体量面前,每一个小的数据的精确性可以变得不是那么的重要,因为庞大的数量可以消除或极大地稀释那些不准确的部分。
    比如我们发100份调查问卷,里面如果有5个人是胡乱回答的,那可能就会极大地影响我们的调查结果;
    但如果我们发了10万份调查问卷,那么即便是有50个人可以捣乱,那也不会对最终结果有太大的影响。
    同时,如我们在前面所提到的,看上去混杂无章的数据,可以将原来看似无关的维度联系起来。
    我们对这些不同维度的信息进行挖掘、加 工和整理,就能够获得有价值的统计规律。
    因此,在这个时候,数据的混杂性反而成为了大数据的优势,通过对不同维度的数据的分析,使这些维度开始出现相互交叉,数据之间的关联性获得了极大地增强,我们也因此能够获得更多的新的规律。
    三、不是因果关系,而是相关关系。
    这个特征应该是最为人所诟病的了。甚至《大数据时代》这本书的译者周涛在这本书的“序”中就直接表明了对这一点的不认可。
    我个人也认为,作者在书中对“因果关系”的否定态度确实太过狂妄了。但事实上,因果关系和相关关系其实本质上并没有什么区别。
    “相关关系只是还没有被理解的、复杂的因果关系。”
    因果律是最基本、最底层的逻辑规律。但只是过去人们习惯了对因果律的“简化”理解——人们绝大多数时候提到因果关系其实都只是在说“单因果关系”。
    问题是世界上万事万物之间的联系是很复杂的,现实情况下的因果关系通常都是“多因果关系”,也就是事物之间的相互作用是多因多果的。
    我们无法分析清楚复杂的、非线性的因果关系,故而将这些多因果关系称之为是“相关关系”。
    大数据提倡关注“相关关系”,关注“是什么”而不是“为什么”,这并非是对『因果关系』的否定,反而是对客观世界真相的承认与接纳——承认世界是复杂的,联系紧密的。
    同时也是站在一个更实用的立场上,专注于具体问题的解决或做出更优的决策。
    如果我们发现在门口种一颗柳树,让一只狗绕着这棵树跑三圈,我们再狠狠地羞辱这只狗,就能够增加这家公司的利润,那么对这家公司来说,放在第一位的是赶紧这样去做、并开更多的店复制这种做法,第二位的才是要探究这种做法之所以起效的原因。
    大数据并不是说因果关系不重要,而是说实用性才是最重要的,因果关系可以以后、或者交给别人去探究。
    最后如果总结来说的话,其实大数据无非就是体量很大的数据集。但关键在于在这背后的:人类数据处理能力的提升、数据量的累积,分析方法的发展、思维的转变等等,这些才是『大数据』这个词的真正含义。
    现在大数据这个词已经不“火”了。但我觉得大数据的发展和应用一定会越来越好、越来越广的。人工智能,金融交易,医疗研发等这些前沿领域无不需要大数据作为助力和支撑。
    过去大数据作为一个很火的“概念”,反而令很多人忽略了它真正的价值。
    大数据的发展和应用是未来的一个『趋势』。『趋势』都是由人类的思维方式、社会结构、科技发展这三者交互作用而催生的。
    而大数据正是科技发展量变累积、和人类思维方法论革新交汇作用下的产物。
    期待看到大数据为世界产生更多的价值。

    什么是大数据?

    这问题看似简单,实际不简单,也许一千个人会有一千个答案。是的,每个人对大数据都有自己的理解,就像小智问朋友,“重庆什么菜最好吃?”分分钟都能收获上百个答案。
    今天,小智尝试从吃货的角度,给大家举栗说明一下,什么是大数据?

    *举个栗子
    1.大数据是什么?怎么理解大数据?
    如果把数据比作地球上的水,个人的数据(电脑里的各种文档、歌曲、电影、程序等等),就好像一颗小水珠,最多能在累的时候解解渴;企业级的数据略有些不同,根据规模的大小,有些可以算作水坑、有些是池塘,已经可以养些小鱼小虾打打牙祭了;还有一些企业的数据(比如Facebook,2012年每天需要处理的数据量就达到了500TB)已经算得上是一个大的湖泊了,可以实现大型的捕捞、规模化的养殖。但是,在湖泊之外,还有更广阔的世界,也就是说还有更多的数据值得我们去发现。
    比如,外国人常常埋怨中国菜不够“精确”,很多配料都用“少许”“适当”“足量”粗略地进行描述,实际操作起来很难学到精髓。有了大数据以后,主材、配料的数量、比例,油盐酱醋的多少,都可以进行精准地记录,甚至哪里产的猪肉,配上哪里的青椒、豆瓣做出来的回锅肉最好吃,都可以形成数据被记录下来。这些以前不被重视、不被采集的数据,就是我们大数据领域隐藏的“水滴”“池塘”“湖泊”。已有的大量数据,以及尚未被发现、记录的数据,共同构成了大数据时代的发展基础。
    水滴、池塘、湖泊发现得多了,就能够汇聚成海洋。大数据海洋里面的水(数据),多到数不清楚,里面的物产、资源(大数据产生的价值)也丰富到无以复加。原来我们在湖泊里面养养“青草鲢鳙”四大家鱼,有了数据海洋,想吃生蚝、鳕鱼、金枪鱼等等都可以轻松搞定。
    这么说,你明白大数据了吗?就是把超级多数据信息汇集到一起,然后在里面“钓大鱼”。

    *数据海洋里面“钓大鱼”
    在这里插入图片描述
    2.都说大数据有4V的特征,是什么意思?
    大数据的4V,就是“容量大Volume”“多样性Variety”“价值高Value”“速度快Velocity”,同样以海洋和里面的美食进行类比:
    A.容量大:地球表面有70%左右都是海洋,想想里面都有多少水滴,有多少好吃的?大数据时代,每一个人、每一种食材、甚至每一秒风味与口感的变化关系,都能够形成一系列随时更新的数据,数据规模空前庞大,其中隐藏的价值也远远超出大部分人的预期。
    B.多样性:海洋里面的物质非常多样化,有资源、也有杂物;有海胆、生蚝、象鼻蚌等小而鲜嫩的海产,也有黄鱼、鳕鱼、金枪鱼等大型鱼类……大数据的结构也和海洋一样复杂,仅仅以文件类型为例,就有图片、文字、声音、视频等等,还有各种非结构化数据,所以在利用这些资源之前,需要把他们“排排站”进行分类、处理,才能“吃果果”。
    C.价值高:这个就不用说了,鳗鱼、龙虾、三文鱼……动辄每100克3~4万元的黄唇鱼,还有危急时刻能救人命的秋刀鱼。(前几年就出过一个日本青年因吃到炭烤秋刀鱼而放弃轻生的新闻,小智会乱说?)在实际应用中,大数据可以用于提升优化企业的管理效率,发现新的商业机会,也能够对事物的发展做出准确的分析、预测等等,各种商业价值就看你怎么用;
    在这里插入图片描述
    *传说中的炭烤秋刀鱼

    D.速度快:先来吃肉、后来喝汤,这个道理想必大家都懂。数据海洋很大,想要比别人抢先一步找到美味,速度一定要快,这就要求我们要能对整个数据海洋进行快速的扫描、筛选、处理。如果只有两条小渔船,就算给你整个太平洋,也不见得能奔上小康。
    PS:第4个V的比喻有点牵强,但不影响小智的发挥哈,他们说“想要吃肉,脸皮要厚”……

    3.对大数据的处理,还是以在大海里面抓鱼为例:
    通过技术手段,发现隐藏在海水中的丰富物产的过程,就是数据挖掘;(从大量的数据中通过算法搜索隐藏于其中信息)
    找到的东西里面,哪些是有用的,哪些是杂草、沙石先大概做一个分析,顺手把错误的、不合适的、没价值东西排除掉,这是数据清洗;(发现并纠正数据文件中可识别的错误)
    在进行过初步筛选的“海域”里,进一步扫描出哪些是矿产、哪些是渔产,渔产里面有哪些鱼类,分别的种类划分、经济价值如何、数量多少……这是数据分析;(对收集来的大量数据进行分析,提取有用信息和形成结论)
    把一眼看起来有些面目狰狞的海鲜(各种数字、表格)进行加工、处理,做成精美的大餐送上餐桌,色香味俱全地呈现在用户面前(精美、直观的图表),就是我们说的数据可视化。
    在这里插入图片描述
    *客官,您要的“数据可视化”已经上齐了

    4.IaaS,PaaS,SaaS?
    IaaS是基础设施服务。IaaS是所有计算基础设施的利用,包括处理CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。就好像给你一个码头,配备好了各种硬件设备。机会和能力给了你,还需要靠自己的平台、工具,到海洋里面获取资源。
    PaaS是平台服务。提供给消费者的服务是把客户采用提供的开发语言和工具(例如Java,python,.Net等)开发的或收购的应用程序部署到供应商的云计算基础设施上去。除了码头,又给了一艘船,还给你配齐船长、大副、水手,有了一个系统可以直接面对海洋的各种资源了。不过怎么抓鱼,用什么工具抓鱼,还是你自己的事情。
    SaaS是软件服务,提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。这次就落实到具体的工具上面来,捕捞方案、抓鱼的网、开船路线都配齐了,只需要安排下去:去哪片海域抓什么鱼就行。
    在这里插入图片描述
    *你想在数据海洋里面捞什么鱼?

    5.这几年说大数据,必定说Hadoop,后来又多了个Spark,是什么意思呢?
    假如我的家族世代以打鱼为生,以前都是聚集在一个岛上,驾驶一艘大船出海打鱼,整个家族能打到多少鱼就和这艘船的航行速度(计算能力)、装载数量(存储能力)有关。它的速度再快、捞得再多,由于只有一艘船,能够搜寻的海域就相当有限。
    现在我们改变了策略,一艘船的能力不行,就找N多艘船一起。整个家族的人分散到世界海洋各地,和其他家族一起共同分享各自的船只。必要的时候,我们可以联合几百艘船一起出动捕捞,由于覆盖的海域足够广,能够装载的收获足够多,对应的捕捞能力也可以实现指数式的增长。
    hadoop就是这样一个分布式系统的基础构架,通过将文件进行分布式(切块、分散)管理,充分利用集体的威力进行高速运算和存储。
    在这里插入图片描述
    *Hadoop生态系统 2.0时代
    至于spark嘛,就是船上以前有艘快艇,本来是用来逃生的,如今也被利用当成抓鱼的主要工具。(Spark是一种与hadoop类似的开源计算集群环境,启用了内存分布数据集,直接从内存读数据,运算速度最快能比从硬盘读取数据提升10倍水平)。
    6.大数据用来做什么?
    大数据有很多应用场景,比如精准营销,就是打鱼的人通过多年海上经验,知道哪片海域的海鲜多又能卖好价钱;比如舆情分析,就像海啸预警,通过对海量信息的分析、比对,找出可能产生海啸灾害的区域……当然,最大的用处还是“预测”,比如通过分析多年的洋流运动,能够分析出你今天在好望角错过的鱼群下个月会出现在哪里。什么?你说鱼对你没有吸引力?那如果预测的是未来股票的涨跌呢?如果预测的是未来行业的风口呢?
    在这里插入图片描述
    *谷歌尝试通过大数据进行流感爆发趋势预测

    7.大数据企业都提供哪些服务?
    第一类,云平台服务商,像亚马逊、阿里云这些,就好比世界上一个个国家,管理各自的海域,你可以去他的海域里面捕鱼,可以将你的海域交给他们管理,也可以直接买他们捕捞到的成品;
    第二类,数据交易中介,他们自身提供一些数据,更主要的是搭建一个交易平台,撮合数据提供者与数据使用者实现数据交换,促成数据价值的实现,这有点像买卖各种湖泊、海洋的商人,买家拿到这些数据后,可以融合到自己的“海洋”里面去,让自己的海洋变得更大,物产更丰富;
    第三类,大数据解决方案提供商,就是在数据海洋的各个角落派遣捕鱼船队,提供海洋开拓、资源扫描、采矿捕捞、加工销售的一系列服务,你想在数据大航海时代做的所有事情,他们都能帮你处理。
    在这里插入图片描述

    展开全文
  • 从2018年开始,整个互联网行业进入了寒冬,企业老板们不再像以前那样大胆的招聘,而是纷纷勒紧腰带过日子。但是却有一个行业的岗位确实一枝独秀,...各行各业,大数据技术应用也越来越广泛,对于大数据人才的需求...
  • 短短五年间,大数据从浮在空中的概念成为落在实地的案例,在金融、电信、公安、工业等领域,大数据都在发挥价值。企业效率的改变,生活的便捷的迅速突破,也预示着这一块“数据金矿”将迎来越来越多的野心和变革。 ...
  • 大数据特征与发展历程

    千次阅读 2019-06-11 21:59:49
    大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。 作者认为具有以下五大特征(4V+1O)的数据才称之为大数据,即: 数据量大...
  • 13个大数据应用案例,告诉你最真实的大数据故事

    万次阅读 多人点赞 2018-03-15 10:27:48
    大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的。大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际上很多人都对大数据的应用模糊不清。现在就...
  • 大数据平台的软件有哪些?

    万次阅读 2018-02-13 23:55:48
    查询引擎 一、Phoenix 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询...
  • 大数据学习路线(完整详细版)

    万次阅读 2019-01-22 11:46:07
    java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) ...Spark(scala,spark,spark ...
  • 大数据可以考哪些证书?

    万次阅读 2019-09-06 21:59:38
    随着国家政策的支持,大数据产业不断发展,落地应用于各行各业,大数据人才需求与日俱增,大数据认证的数量也在不断增加,这些资格来自供应商、教育机构、独立或行业机构。大数据领域包括:大数据系统管理、Hadoop、...
  • 大数据到底应该如何学?

    千次阅读 多人点赞 2020-09-15 23:14:48
    本文关键字:大数据专业、大数据方向、大数据开发、大数据分析、学习路线。笔者从事大数据开发和培训多年,曾为多家机构优化完整大数据课程体系,也为多所高校设计并实施大数据专业培养方案,并进行过多次大数据师资...
  • 大数据技术框架图解

    万次阅读 2018-10-31 15:18:30
    大数据技术框架见附件: 数据处理:
  • 1.大数据简历的黄金法则2.大数据简历的项目经验
  • 【155G大数据视频】2018大数据视频教程全套

    万次阅读 热门讨论 2019-08-26 13:54:34
    尚硅谷2018大数据全套(8月8更新版)–关键字【大数据大数据完整教程155G+,视频教程 01_尚硅谷大数据技术之Linux基础.rar 02_尚硅谷大数据技术之Hadoop.rar 03_尚硅谷大数据技术之Zookeeper.rar 04_尚硅谷...
  • BDTC2015大会精彩演讲PPT集锦

    万人学习 2019-06-21 09:54:56
    中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内具影响、规模大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2007年仅60人参加的技术沙龙到当下数...
  • 中国大数据行业发展趋势

    万次阅读 2017-10-17 15:23:48
    随着大数据技术的飞速发展,大数据已经融入到各行各业。2017年中国的大数据行业发展趋势是什么?大数据行业整体市场规模如何?大数据行业前景如何?请看大讲台老师的分析。 (一)大数据行业整体市场规模及预测 ...
  • 大数据环境下的关联规则挖掘

    万人学习 2019-07-01 10:35:23
    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。
1 2 3 4 5 ... 20
收藏数 553,407
精华内容 221,362
关键字:

大数据