精华内容
下载资源
问答
  • 那么大家知不知道大数据的数据来源都是通过什么渠道获得的?下面就由小编为大家解答一下这个问题。对于数据的来源很多人认为是互联网和物联网产生的,其实这句话是对的,这是因为互联网公司是天生的大数据公司,在...

    大数据应用中的关键点有三个,首要的就是大数据的数据来源,我们在分析大数据的时候需要重视大数据中的数据来源,只有这样我们才能够做好大数据的具体分析内容。那么大家知不知道大数据的数据来源都是通过什么渠道获得的?下面就由小编为大家解答一下这个问题。

    对于数据的来源很多人认为是互联网和物联网产生的,其实这句话是对的,这是因为互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。而物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源作为大数据的数据来源,正在不断产生各类应用。国外关于大数据的成功经验介绍,大多是这类数据资源应用的经典案例。还有一些企业,在业务中也积累了许多数据,从严格意义上讲,这些数据资源还算不上大数据,但对商业应用而言,却是最易获得和比较容易加工处理的数据资源,是我们常用的数据来源。

    而数据的来源是我们评价大数据应用的第一个关注点。首先需要我们看这个应用是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患。二是要看这个应用的数据资源质量如何,是好数据还是坏数据,能否保障这个应用的实效。对于来自自身业务的数据资源,具有较好的可控性,数据质量一般也有保证,但数据覆盖范围可能有限,需要借助其他资源渠道。对于从互联网抓取的数据,技术能力是关键,既要有能力获得足够大的量,又要有能力筛选出有用的内容。对于从第三方获取的数据,需要特别关注数据交易的稳定性。数据从哪里来是分析大数据应用的起点,只有我们找到了好的数据来源,我们就能够做好大数据的工作。这句需要我们去寻找数据比较密集的领域。

    一般来说,我们获取数据的时候需要数据密集的行业中挖掘数据,主要就是金融、电信、服务行业等等,而金融是一个特别重要的数据密集领域。金融行业既是产生数据尤其是有价值数据的基地,又是数据分析服务的需求方和应用地。更为重要的是,金融行业具备充足的支付能力,将是大数据产业竞争的重要战场。许多大数据是通过在金融领域的应用辐射到了各个行业。

    我们在这篇文章中为大家介绍了大数据的数据来源以及数据密集的领域,希望这篇文章能够给大家带来帮助,最后感谢大家的阅读。

    展开全文
  • 那么大家知不知道大数据的数据来源都是通过什么渠道获得的?下面就由小编为大家解答一下这个问题。 对于数据的来源很多人认为是互联网和物联网产生的,其实这句话是对的,这是因为互联网公司是天生的大数据公司,在...
        
    13825820-335c06fbf591ce44.jpg

    大数据应用中的关键点有三个,首要的就是大数据的数据来源,我们在分析大数据的时候需要重视大数据中的数据来源,只有这样我们才能够做好大数据的具体分析内容。那么大家知不知道大数据的数据来源都是通过什么渠道获得的?下面就由小编为大家解答一下这个问题。

    对于数据的来源很多人认为是互联网和物联网产生的,其实这句话是对的,这是因为互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。而物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源作为大数据的数据来源,正在不断产生各类应用。国外关于大数据的成功经验介绍,大多是这类数据资源应用的经典案例。还有一些企业,在业务中也积累了许多数据,从严格意义上讲,这些数据资源还算不上大数据,但对商业应用而言,却是最易获得和比较容易加工处理的数据资源,是我们常用的数据来源。

    而数据的来源是我们评价大数据应用的第一个关注点。首先需要我们看这个应用是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患。二是要看这个应用的数据资源质量如何,是好数据还是坏数据,能否保障这个应用的实效。对于来自自身业务的数据资源,具有较好的可控性,数据质量一般也有保证,但数据覆盖范围可能有限,需要借助其他资源渠道。对于从互联网抓取的数据,技术能力是关键,既要有能力获得足够大的量,又要有能力筛选出有用的内容。对于从第三方获取的数据,需要特别关注数据交易的稳定性。数据从哪里来是分析大数据应用的起点,只有我们找到了好的数据来源,我们就能够做好大数据的工作。这句需要我们去寻找数据比较密集的领域。

    一般来说,我们获取数据的时候需要数据密集的行业中挖掘数据,主要就是金融、电信、服务行业等等,而金融是一个特别重要的数据密集领域。金融行业既是产生数据尤其是有价值数据的基地,又是数据分析服务的需求方和应用地。更为重要的是,金融行业具备充足的支付能力,将是大数据产业竞争的重要战场。许多大数据是通过在金融领域的应用辐射到了各个行业。

    我们在这篇文章中为大家介绍了大数据的数据来源以及数据密集的领域,希望这篇文章能够给大家带来帮助,最后感谢大家的阅读。

    展开全文
  • 从哪里开始学呢? 就以上几个问题,本文将系统性的为大家介绍学习大数据需要掌握哪些知识,学习哪些框架,从一个全局的角度带大家切入大数据的殿堂,主要介绍的内容如下: 为什么要学习大数据 HDFS是什么 MapReduce...

    在这个国家都在大力发展大数据战略的时代,无论是作为学生还是已经工作了的程序猿,都希望能够通过学习掌握大数据来获得一份好的工作,提升自己的工资收入。那么我们该如何学习大数据?从哪里开始学呢?

    就以上几个问题,本文将系统性的为大家介绍学习大数据需要掌握哪些知识,学习哪些框架,从一个全局的角度带大家切入大数据的殿堂,主要介绍的内容如下:

    1. 为什么要学习大数据
    2. HDFS 是什么
    3. MapReduce 是什么
    4. HBase 是什么
    5. 什么是 Hive
    6. 啥是 Pig
    7. Sqoop,Flume 是什么
    8. Spark 是什么
    9. Scala 是什么
    10. Storm 是什么
    11. Kafka 是什么
    12. Zookeep 是什么
    13. 大数据整体架构

    一、为什么要学习大数据?

    我们对数据的存储以及处理大致可以划分为以下几个阶段:

    1. 单纯靠人脑记忆:远古时期的智人,买东西的时候不会记录下来自己这次花了多少钱,买了多少东西,只是单纯的记录在自己的大脑里,很快就会忘记,记都记不住更不用说去分析处理一下数据了。

    2. 记录在纸上:有了造纸术之后,我们就把数据记录到了纸上,数据就不那么容易丢失,而且我们还可以对数据做一些简单的处理,比如说记个账,算算自己这一个月总共花了多少钱。这个时期数据已经可以存储下来了,并且还可以做一些简单的计算,但是,纸容易腐烂导致数据易丢失,可靠性不是很高。

    3. 记录在磁盘/U 盘中:有了计算机之后,有了磁盘,后来又有了 U 盘,我们就可以把原来写在纸上的东西以文件的形式放到磁盘中,磁盘不容易坏,这大大提高了数据的可靠性。

    4. 分布式的存储:对于少量数据的存储和处理,我们只需要用一个磁盘就可以解决,但是随着数据量的增加,任何单一的磁盘都不足以容纳海量的数据。当一头牛拉不动的时候,不要试图用一头更强壮的牛,用两头牛。所以我们就会使用两块磁盘来存储,就有了分布式存储这一概念。数据的存储在多台机器上,自然,数据的处理也发生在多台机器上。对于存储在多台机器上的数据,其数据存储方式和处理方式自然有别于在单台机器上存取和处理数据。因此,大家学习大数据技术的目的就是为了解决在多台机器上存取和处理海量数据这两个问题的

    啥叫分布式存储?就是分开存储,分开管理呗;那啥叫分布式计算?就是你算 50%,我算 50%,咱俩合起来 100%呗。大家在学习大数据的时候会遇到很多或许你从未听过的名词,不要被那些专业术语吓到,说白了都是学术界搞的装 13 的词。

    就像你学习 Spring 的时候有人就会这样跟你说:先学习 IOC 和 AOP 思想。博主当初学的时候上网上到处找关于 IOC 和 AOP 思想的文章看,看了很多还是看不懂。最后找了个 Spring 的视频,跟着视频敲了几天代码就搞懂了,在类上加个 @Service@Repository@Component注解,在需要这些类实例的成员变量上加上@Autowired注解,这样在 Spring 启动的时候就会自动创建被 @Service,@Repository,@Component注解的类的对象,并且会把对象的引用赋值给被@Autowired注解的成员变量上,然后你写代码的时候就不用手动 new 对象了,这就把对象的控制权从你的手上转移到 Spring 上了,这就 IOC(控制反转) 了;再比如@Transactional注解,大家在做事务性操作(增删改)的时候经常使用,它内部其实就是先把向数据库自动提交 SQL 语句的操作关上,然后等你的所有 SQL 全部执行完毕,在把自动提交开开,然后你对数据库的操作就要么全部执行成功,要么全部执行失败了,你只要是想实现事务,在方法上加上@Transactional注解就可以了,也不用在业务代码里面去改自动开关连接了,就不会污染你的代码了,这就 AOP(面向切面编程)了。就这么回事。

    二、如何学习大数据?

    知道了为什么要学习大数据,那么该如何学习大数据呢?该学习哪些东西呢?从哪里开始呢?

    1. 分布式存储

    首先是解决海量数据的存储,大家学习大数据第一步就是要学习 HDFS(Hadoop Distributed File System),HDFS 是在 Linux 之上的一套分布式的文件系统。

    大家首先要学会熟练安装 hadoop(因为 hadoop 中包含了 hdfs)(大家也不要对安装这个词过于畏惧,其实就是解压个 jar 包,配置个环境变量,非常轻量的,在电脑上安装个虚拟机,反复练就完了,弄坏了,重新新建个虚拟机就行了),然后要熟练掌握 HDFS 的基本命令(其实,你使用 hdfs 的命令和使用 linux 的命令差不多,比方说,我们在 linux 中创建目录的命令是:mkdir temp,使用 hdfs 创建目录的命令是:hdfs dfs -mkdir /temp),熟练使用 hdfs 是大数据的基本功,就像你要在 linux 上做开发,一些基本的 linux 命令你就必须掌握;你要在 HDFS 上做大数据开发,那么一些基本的 hdfs 命令你就必须掌握。

    同时,HDFS 也是后续分布式计算数据的主要来源,它的重要性就好比我们做 J2EE 开发时的数据库一样。做 Java 开发我们主要是操作 MySql 数据库中的数据,对数据库中的数据进行增删改查;而做大数据开发我们操作的数据大部分都是 HDFS 上的,对 HDFS 上的数据进行复杂查询。

    注意:HDFS 上的数据是不会修改和删除的,因为大数据开发的主要目的是针对已有的海量数据做分析,而不是做事务性操作。比方说:我们经常会分析网站某天的流量变化情况,而用户访问网站这个行为属于历史行为,是不可以修改的,如果修改了,那么后续的数据分析工作都毫无意义了;或许会有人问:那如果有一些错误的数据怎么办呢?我们在分析数据之前会有一步操作,叫数据清洗,在这步操作中,会把一些错误的不准确的数据过滤掉。

    学完了 HDFS 大家其实就可以学习一个基于 HDFS 的 NoSQL => HBASE。

    HBase 是以 HDFS 为基础的,HDFS 的数据是存在磁盘上的,那它为什么叫 NoSql 呢?

    HBase 的数据存储的格式不同于传统的关系型数据库,关系型数据库是以行为单位进行存储,而 HBase 是以列为单位进行存储,也是以 key-value 对的方式来存储数据的,存储的数据会先放在内存中,内存满了再持久化到 HDFS。

    2. 分布式计算

    学会了如何存取 HDFS 上的数据,接下来我们就需要学习如何对 HDFS 上的数据进行计算。因为 HDFS 属于分布式文件系统,在分布式文件系统上对数据的计算,自然也就叫分布式计算。分布式计算又分两种:离线计算,实时计算;还可以称这两种计算方式分别为批处理,流计算。对于这两种计算,我们首先要先学习离线计算,然后再学习实时计算。

    2.1. 离线计算/批处理

    大家在做 JavaEE 开发时,比如:电商后台统计所有订单的签收情况,订单签收情况来源于订单的物流轨迹,而查询订单的物流轨迹又需要调用对应物流公司提供的 API,而物流公司为了防止频繁调用 API 发生 DDOS,常常对接口 API 进行调用的限制(例如:1 秒只允许查询一次)。所以,对于大量的订单没有办法立即获得统计结果;因此,对于这样耗时比较长的计算,就会写成一个定时任务,每天晚上执行一次计算,第二天看结果。

    大数据领域的离线计算和上面的例子类似,我们写完了一个离线计算程序(MapReduce 程序或 Spark 程序)之后,提交到服务器集群上,然后它就开始运行,几个小时之后或者第二天获取运行结果。与 JavaEE 的定时任务不同的是:大数据领域计算的数据量是巨大的,通常是 PB 级别的,只用单机的定时任务来处理数据那猴年马月也计算不完,而大数据领域使用分布式的离线计算则可以大大地减少时间。

    2.1.1. MapReduce

    离线计算首先要学习的就是开发 MapReduce 程序。

    开发 MapReduce 程序的步骤如下:

    1. 创建 Maven 工程
    2. 导入 Hadoop 所需的 pom 依赖
    3. 继承相关的类,实现相关的方法
    4. 编写主程序,含 main 方法的那个类
    5. 打成 jar 包
    6. 上传到 linux 服务器上
    7. 执行 hadoop 命令将 mapreduce 程序提交到 yarn 上运行

    看了上面的步骤之后,大家对 mapreduce 程序应该不是那么的畏惧了,就像开发我们的 JavaEE 项目一样简单。

    上面出现了一个大家不熟悉的词:yarn。yarn 相当于一个运行 mapreduce 程序的容器;它就好比大家在 J2EE 开发的时候使用的 Tomcat,Weblogic。yarn 没有什么好说的就是一个资源分配运行 mapreduce 程序的容器。

    2.1.2. Hive

    学习完了开发 mapreduce 程序,再学习 Hive。

    为什么要按照这个顺序?

    hive 是啥?

    在网上一搜,有人说它是数据仓库,有人说它是数据分析引擎,那它到底是啥?有没有说人话的来解释一下? ---- 博主当时百度的时候就是这么想的。

    1. 学 hive 首先也要先学会安装(其实也是官网下载压缩包,解压,配置环境变量,修改配置文件,执行命令初始化),这里暂不讨论。

    2. 之后再在 linux 上执行命令 hive,就启动了 hive,hive 是长这样的,直观感受一下:

    3. 像不像启动 mysql 时的样子?然后大家就可以在 hive 里面输入 SQL 语句,像 show tables;,select * from bigtable;,就像操作 mysql 一样去操作 hive。所以,有人称 hive 为数据仓库。那么 hive 里面的数据存储在哪里呢?相信大家已经猜到了,就是一开始提到的 HDFS 中。

    4. 那么,为什么又有人称 hive 为数据分析引擎呢?大家在 hive 中执行 SQL 语句时有想过 hive 对这条语句做了什么吗?其实,hive 是把这条查询语句转化成了一个 mapreduce 程序,我们在 hive 中执行的复杂查询其实都是转换成了一个 mapreduce 程序,而 mapreduce 程序它是用来做分布式计算的,所以就有人称 hive 为数据分析引擎。

    学习 hive 其实就是在学习 hive 的查询语句(Hive Query Language),建表语句。

    2.1.3. Pig

    另一个和 Hive 类似的数据分析引擎叫 Pig,它使用一种叫 Piglatin 的查询语句来查询数据,企业中用的不多,大部分用的都是 Hive,感兴趣的同学可以自行百度。

    2.1.4. Sqoop

    无论是手动编写 mapreduce 程序还是直接使用 hive 来处理数据,操作的都是 hdfs 上的数据,那 hdfs 上的数据又是哪里来的呢?难道是手动输入的?

    拿电商来举例,我们的订单数据都是存在关系型数据库 MySql,Oracle 中的,而我们需要操作 HDFS 上的数据,就需要把我们关系型数据库中的数据导入到 HDFS 上;对于处理完的数据,又需要导出到关系型数据库中(因为前端界面展示的数据主要都是去查的数据库)。Sqoop 的功能就是在关系型数据库和 HDFS 之间导入和导出数据。

    其实学 sqoop 也很简单,首先是安装(和 hive 类似,其实整个大数据中大部分框架的安装过程都是类似的:官网下载压缩包,解压,改配置文件,执行命令初始化),然后是执行 sqoop 命令,学习 sqoop 其实就是学习 sqoop 命令。

    例:将 mysql 中的数据导入到 HDFS 上:

    sqoop import --connect jdbc:mysql://localhost:3306/dbname --username root --password 123 --table cate --target-dir /data
    2.1.5. Flume

    学完了 sqoop,我们已经可以把 mysql,oracle 上的数据导入到 HDFS 上了,那么对于一些访问日志,像 Ngnix 的访问日志,怎么将这些日志文件导入到 HDFS 上呢?

    所以,接下来我们就要学习 Flume 这个日志采集引擎(当然,你也可以先学 FLume),它的主要作用就是采集日志文件,监控文件或目录,当文件或目录的内容发生变化后实时的将数据发送到指定目的。

    先官网下载压缩包,解压,修改环境变量,修改配置文件,然后执行命令启动 flume,flume 会根据你配置文件中的参数,去监控指定的文件或目录,当文件或目录内容发生变化的时候就会将数据发送到 HDFS 或者其他的目的。

    PS:大数据的大部分框架(99%)的安装过程都类似,后面就不再啰嗦了。

    2.1.6. Spark

    其实学完上面的部分,离线计算的部分已经差不多了,已经可以解决一些需求了。但是,人类的欲望总是永无止境的,总是渴望更高,更快,更强。mapreduce 计算框架在计算的时候,每一步的计算结果都是持久化到磁盘上的,在进行下一步操作的时候就需要进行磁盘 IO,效率就比较低。

    因此,Spark 横空出世。Spark 把中间过程的计算结果放在内存中,因此大大提高了离线计算的计算效率。Spark 也是企业中使用最广的大数据计算框架,因为它还提供了一个可以进行实时计算的子模块 SparkStreaming,后面会提到(就像 Spring 有 SpringMVC 这个子模块一样)。Spark 既可以进行离线计算也可以使用 SparkStreaming 进行实时计算,所以大部分企业都会选择使用 Spark 来作为核心的计算框架(因为统一了嘛,实现需求的时候就不用这个功能用 A 框架实现,另一个功能用 B 框架实现,不好维护),而 Hadoop 中的 mapreduce 框架只是起一个辅助作用。

    2.1.7. Scala

    大家在学习 Spark 之前需要先学一门语言:Scala。Scala 是一个语法比较杂的编程语言,你学 Scala 的时候会觉得它和 JS,Java,C++ 都有点像;而且它兼容 Java,也运行在 JVM 上,你用 Java 写的工具类和方法可以直接被 Scala 类方法调用,反之亦然。

    虽然 Spark 程序也可以使用 Java 来编写,但是,用 Scala 编写会更加简洁一些,一般企业中编写 Spark 程序也是用的 Scala,很多大数据的招聘也要求你得会使用 Scala。

    2.2. 实时计算/流计算

    像统计过去一年订单中某件商品的销售总额这类需求,对实时性要求不高,一般会使用离线计算程序(mapreduce)来计算。但是,像网站访问的 PV,UV,每天各小时的流量这种类型的需求,hadoop 的 mapreduce 框架或者叫编程模型的计算效率就有点低。所以为了应对实时性较高的需求就需要学习一些实时计算框架。

    2.2.1. Storm

    Storm 属于老牌经典的实时计算框架,大部分公司内部都有使用,编程模式和 mapreduce 极其相似,导 jar 包,实现接口,main 方法,打 jar 包,向集群提交,运行。

    在本地编写 Storm 程序也是相当的方便,环境都不需要配,建立 maven 工程导入依赖,写代码,右击运行就 OK。

    2.2.2. JStorm

    jstorm

    Jstorm 是阿里在 Strom 的基础上对其性能进行了改良和优化后的产物,用法和 Strom 类似,你用 storm 写的代码都不需要做太大的修改就可以直接运行在 JStorm 集群上。

    2.2.3. SparkStreaming

    在上面讲离线计算的时候已经提到了 SparkStreaming,它是 Spark 的一个子模块,用于进行实时计算,那它和 Strom 有什么不同呢?

    Strom 是真正的实时,来一个数据就处理一个;而 SparkStreaming 是以时间段的方式,是个伪实时,比如每过 5 秒才集中处理一下过去 5 秒内的发送过来的数据。

    Storm 和 SparkStreaming 在企业中可以说是平分秋色,用的都比较多。

    2.2.4. Kafka

    Storm,JStorm,SparkStreaming 它们接收的都是实时发送过来的数据,那这个数据是从那里来的呢?

    在介绍离线计算的时候,我们知道了 Flume 可以实时的监控文件目录,当文件内容增多或目录中的文件发生变化时可以发送数据到指定目的,这里的目的就可以是 Storm,JStorm,SparkStreaming。但是,数据发送速度非常快的时候,有的数据可能来不及接收,然后数据就丢失了,针对这种情况我们一般会使用消息中间件来做缓存,暂时的将发送过来的数据缓存到中间件里。Kafka 就是大数据常用的一种消息中间件。

    在企业中一般的做法是:Flume 实时监控目录或文件末尾,数据发生变化后送到 Kafka 缓存,Kafka 再将数据送到 SparkStreaming,Storm 等实时计算组件中。

    所以,大家在学实时计算框架的时候也需要学一下 Kafka 这个缓存组件。

    2.2.5. Zookeeper

    最后,大数据技术要真正应用于企业的开发,需要保证它的 HA(High Availaibility) 高可用性,大家在搭建 Hadoop 集群,Spark 集群,Storm 集群的时候都会用上 Zookeeper,将 Hadoop,Spark,Storm 的元信息存储到 Zookeeper 上,防止因为某个节点宕机而造成数据计算失败。

    其实,根据名字和图片大家就可以猜出来 Zookeeper 在整个大数据体系中的作用:动物园管理者。Hadoop 是一头大象,Hive 是个小蜜蜂,HBase 是小鲸鱼,Pig 是一头猪...,zookeeper 就是用来确保这些 "小动物" 的稳定性可用性。

    三、大数据整体架构

    最后上一幅博主手绘的大数据架构图。企业中的大数据平台整体架构和上面的类似。

    1. 最底层是数据源,可以来自关系型数据库,用户访问日志等。
    2. 网上就是数据采集层,就需要我们使用 Sqoop / Flume 采集关系型数据库,日志中的数据,当然,我们也可以使用爬虫去爬取其他公共网站的数据。
    3. 再往上,我们采集完了数据就要把它存储到 HDFS 上,实时的就送到 Kafka。离线计算就用 Hive,MapReduce 调 HDFS 的数据,实时的就通过 Storm,JStorm,SparkStreaming 取 Kafka 中的数据再进行计算。
    4. 再向上,就是数据挖掘层,就是一直炒的火热的人工智能,机器学习,深度学习云云。其实就是一系列复杂的算法,而这都是在拥有海量数据的基础之上才能开始做的,没有数据做支撑,算法就是个空壳,就好像你买了个榨汁机,但是却没有水果。所以,就有人说:大数据是人工智能的血液。
    5. 再向上,就是大家最熟悉的一层,产品经理就住在这一层。

    相信看到这里大家对大数据已经没有那么陌生了。

    最后,祝大家顺利入门大数据,找到一份好工作。


    本文首发于 GitChat,未经授权不得转载,转载需与 GitChat 联系。

    阅读全文: http://gitbook.cn/gitchat/activity/5de23e09b81379774740ea65

    您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

    FtooAtPSkEJwnW-9xkCLqSTRpBKX

    展开全文
  • 掘金大数据

    2013-09-24 15:49:00
    无论是否出于你的意愿,数据正在每天为...……这些通通可以你的网络浏览记录、交易记录、手机通话记录、联通视频记录、收发邮件记录、社交网络记录等等当中获得,你在网络上的每一个“足迹”都会以数据的形式被记...


      无论是否出于你的意愿,数据正在每天为你做着人生笔记:你去了哪里?看到了什么?做了什么?你的性格喜好?与谁联络?心情如何?……这些通通可以从你的网络浏览记录、交易记录、手机通话记录、联通视频记录、收发邮件记录、社交网络记录等等当中获得,你在网络上的每一个“足迹”都会以数据的形式被记录并存储下来,它们精准及时、事无巨细。而借助于这些数据,就可以拼出一个比你自己更了解的“你”。



      这样由一个个数据描绘出的“你”,有何价值?



      “鬼才”制片查理·布洛克(Charlie Brooker)推出的英国“神剧”《黑镜》(Black Mirror)中,出现了一款功能极其强大的“大数据+云计算”产品——“再造人”,一个连思维人格都可以和因车祸而早逝的Ash“一模一样”的机器人



      通过对Ash生前留在互联网世界的数据分析挖掘、统计比较和重新组织,进而发现规律、构建模型,最终实现准确“预测”,“机器人Ash”就可以像“真正Ash”那样与活着的人进行对话和对事物做出反应甚至进行学习。



      大数据(Big Data)带来的可能性,当然不会仅仅只是制造一个高级机器人那么简单,否则也不会使得全世界都在为之痴迷和疯狂:它被认为是人类文明第三次浪潮的主角,将改变人类的思考模式、生活习惯和商业法则,被认为将引发社会发展的深刻变革,被美国定位为未来最重要的国家战略之一,是未来大国博弈的决胜关键……



      现在,这一切正开始变为真金白银的生意。Amazon和Facebook用它卖出了更多的广告;Netflix用它创造了《纸牌屋》的收视奇迹;ZARA用它实现了比LV还高的利润率;奥巴马用它赢得了总统选举,但又为因它而起的“棱镜门”事件而焦头烂额……



      当然,世界对于“大数据所带来的机遇是否被过分炒作”的质疑也从未停歇。在刚刚结束的夏季达沃斯上,一场主题为“大数据还是大忽悠”的辩论异常激烈。



      辩论前对现场观众的调查显示,“大数据就是大忽悠”(正方)稍占上风。然而,辩论结束,“大数据不是大忽悠”(反方)成功逆转。反方“辩手”北京大学光华管理学院新媒体营销研究中心副主任苏萌教授的一段话赢得了观众手中的选票:15年前,人们认为互联网存在泡沫,但事实证明其并没有被高估;5年以前,人们又都认为电子商务被夸大,但如今看来这也是错误的结论。新事物的发展需要泡沫,这样才能吸引更多的资金和人才,沉淀下来的才是真正宝贵的东西。



      数据大爆炸



      你可能并不一定知晓下面这些数字,但你也一定会感受到“数据”正在呈几何基数的爆炸性增长,因为10亿台电脑、40亿部手机、无数的互联网终端……正在使得我们生活的世界高速数字化,“信息爆炸”早已从抽象的概念变为现实的描述。



      从出现文字记录到2003年,人类总共创造出的数据量只相当于现在全世界两天创造出的数据量;在如此大的基数之上,全球的数据量仍然每18个月就会翻一番;预计到2020年,全球数据规模会达到今天的44倍;如今人们在一天之内上传的照片数量就相当于柯达发明胶卷之后拍摄的所有图像的总和……



      就在10年前,1.44M的3.5寸盘还是我们装机的必备;几年前,体积不大但容量数百M的移动存储还曾让人们兴奋不已;而现在,GB级别的小U盘和TB级别的移动硬盘早已是普通用户的寻常之物,企业级应用则动辄就要跃升至PB、EB级别。(编者注:数据存储单位由小到大依次为Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,后者依次为前者的1024倍。)



      数据分析并不是一个新概念,也有人会因此对于大数据不以为然,认为这只不过是新瓶老酒而已。但是,量变引发质变传统数据所采用的获取、存储、分析和解释的方法和技术,早已无法应对现在的数据规模、产生速度和复杂程度了。



      “我们今天讲的大数据,和过去的数据挖掘有四个方面比较明显的差异。”中国工程院院士倪光南告诉《中国经济周刊》,“一是数据量大,常为PB量级,而且每年有40%~50%的增幅;二是数据特征复杂,大数据时代我们主要面临的是非结构化信息,比如文本、图形、音频、视频等,而且大多是实时信息;三是数据来源主要是社会日常运作和各种服务中实时产生的,如在线搜索、社交媒体、移动电话、电子商务交易、遥感遥测数据等等,而过去主要是企业交易数据;四是应用领域主要是社会科学范畴,如在经济学和社会学上的应用,而过去主要是自然科学范畴的应用。”



      而数据之所以变“大”的最重要的推手便是云计算。从技术上讲,大数据是根植于云计算的,它是云计算的重要延伸,两者相辅相成。数据被搬到了“云”上之后,更容易被收集和获得,过去那种各自分割存储的数据往往不具备太大价值,只有不同领域打通共享,数据金矿才能呈现眼前。而如此庞大的数据也只有依靠云计算强大的处理能力,才能够“淘尽黄沙始得金”。



      从概念到生意



      尽管在2012年,大数据才逐渐被中国产业界接受和关注,但业界普遍认为2013年将成为中国“大数据元年”,未来三年大数据市场都将呈爆发性增长态势。赛迪顾问统计数据显示,2012年我国大数据市场规模为4.5亿元,同比增长40.6%;而预计到2016年,大数据行业规模将突破百亿元。



      和以往一样,美国依然被视为风向标。实际上,大数据已经成为华尔街和硅谷最炙手可热的追逐对象。今年5月两只刚刚挂牌的大数据概念股Tableau和Marketo都受到了市场极大追捧,Tableau首日涨幅63.7%,募资2.542亿美元,成为今年以来美国股市最大一笔科技公司的IPO项目;Marketo股价首日也飙升了78%。




      二是掌握丰富大数据资源的互联网公司,国外以Google、Facebook、Amazon为代表,国内以阿里巴巴、百度和腾讯等为代表,这些公司掌握海量用户数据,通过数据挖掘形成产品和服务,如精准营销和个性化广告推介,同时也提供“数据租借”服务,为其他公司提供决策辅助。



      “这个两个方向并非竞争关系,而是合作关系。因为两者是大数据产业链上的不同分工,前者负责后端平台,是系统供应商,而后者则负责前端的应用。” 曙光公司总裁历军告诉《中国经济周刊》。



      三是会出现一大批分工细致的第三方大数据公司,他们虽然没有第一类公司的硬件优势,也不具第二类公司的数据资源优势,但凭借某些细分领域的技术优势和专业性,也会在产业链中争到一杯羹,如专注电子政务和智慧城市的拓尔思就是例子。



      行行都爱大数据



      杰夫·哈默巴赫(Jeff Hammerbacher)是一位哈佛数学天才,2006年,他离开华尔街投行贝尔斯登(Bear Steams)加入Facebook,成为Facebook最早搭建数据分析模型的人。通过对海量用户数据分析挖掘,他完成了Facebook CEO扎克伯格交给他的使命:弄清楚用户点击广告的动机和方式,这也为Facebook打开了高速盈利的阀门。



      2008年,杰夫离开Facebook开始自己创业。谈到原因,他说了一句非常著名的话:“我们这一代人中最聪明的那些都在想着怎么让更多人点击广告,这简直糟糕透了。”现在,杰夫的公司正在帮助医生们找出“癌症患者都有哪些共同基因”,以提示有类似基因的人提前预防和治疗。



      《大数据时代》作者维克托·迈尔·舍恩伯格向《中国经济周刊》介绍说,“苹果教父”史蒂夫·乔布斯的癌症实际上非常严重,但他比其他得癌症的人活得时间长,就是因为乔布斯有DNA排序的信息,这使得他有定制化、个体化的专门服务的治疗。



      确实,如果我们把大数据的价值仅仅理解为可以更精准地向用户推送广告就太为狭隘了。



      舍恩伯格告诉《中国经济周刊》,小到“以最合适价格和时机购买衣服”,大到“重要的经济决策中如何提高经济效益”,大数据都会告诉你如何做。



      “与人脑总是喜欢问‘为什么’相比,大数据会直接告诉你‘是什么’。”舍恩伯格举例说,冬天,人们总是被告知要记得戴帽子和手套,否则就会着凉,这是人脑的思维。但大数据分析会告诉你,着凉可能是病毒的问题,跟戴不戴手套和帽子没有很直接关系。再如,到餐馆吃饭,第二天生病了,人脑的思维马上会用可能吃坏了东西这样的理由来解释,但从数据统计学角度,生病还有可能与有细菌的手握手导致的。“如果有了大数据,就可以让脑子慢下来,不用去推测原因,直接回答结果。”



      舍恩伯格再以谷歌翻译举例:谷歌依靠互联网做统计方面的工作,并耗资了数十亿,推出谷歌翻译。“谷歌不需要知道为什么一个词要翻译成另外的词,它只知道翻译什么。”



      大数据的渗透力极强,从本质上讲,各行各业都已经在数据化了,比如电信业正在变成电信数据业,金融业变成金融数据业,医疗业也变成医疗数据业……这也就意味着,大数据挖掘将成为各行各业的必修课。



      根据全球最具权威的IT研究与咨询公司Gartner统计,2012年大数据带动了全球280亿美元的IT支出,2013年带动的规模有望增至340亿美元,到2016年全球在大数据上的总花费将达到2320亿美元。



      “中国一线的大型城市,仅仅健康档案的数据,一年就有5PB之多;一个智慧城市的数据一个季度就是200PB之多,这在过去很难想象。这些数据如果是无序的就是垃圾。我们需要把这堆垃圾变得井井有条,从中去寻找金矿。”历军说。



      “2012年底,中国共计发行了37亿张卡,是全球的第一大发卡国家,每天大概有500亿~600亿交易通过600万张银行卡交易,这是一个非常庞大的数据量。”中国银联副总裁柴洪峰告诉《中国经济周刊》,对于银联来说,这些数据已经在变成非常重要的资产,而提升大数据处理的能力将会成为银联,甚至整个国家的核心竞争力。



      全国农信银资金清算中心运行保障部总经理王永刚告诉《中国经济周刊》:“阿里金融的小额贷款几个小时就发放,而我们作为一个全力支持小微企业和个人金融服务的农村金融机构,最快也得7到10天。他们靠的是什么?就是利用开放平台的渠道的优势,还有一个就是数据挖掘的竞争性。他们大大降低了这种信贷、增信的成本和效率。我们银行不缺数据,但缺少把数据转为智慧,没有充分挖掘数据的商业价值。”



      “10年前我们还只是温饱社会,但今天已步入小康社会,未来大数据会有怎么样的发展,可能会突破我们的想象。比如,现在正在发展的移动支付,就需要我们和运营商的数据合作才能为用户提供更好的服务。未来,医疗、教育、养老服务都有可能因为大数据而得到升级和改善。”柴洪峰说。



      狂欢下的隐忧



      今年6月,30岁的爱德华·斯诺登(Edward Snowden)一个人几乎搅动了整个世界,这位美国防务承包商雇员、前CIA特工因为曝光了美国的“棱镜”计划而成为全球媒体的焦点。原来,美国国家安全局多年来一直通过直接接入苹果、微软、谷歌、雅虎等九大互联网公司的中心服务器,获取大量用户的邮件、聊天记录、视频及登录信息,中国内地和香港从2009年开始也在监控之列。



      尽管美国政府称已经有“数十起”可能的恐怖攻击因为“棱镜”而流产,但是这件事还是激起了全球大讨论:国家安全和个人隐私的微妙边界在哪里?而今年的“3·15”,央视等媒体也针对许多互联网公司通过Cookies“窃取”用户信息的行为进行了曝光,同样引发了大数据收集和分享与个人隐私保护之间的争论。不少业内人士忧虑,这会成为大数据产业发展的巨大障碍。



      大数据毕竟是新兴事物,相关的政策法规即使在美国也离完善差距甚远。倪光南认为:“我国大数据产业也同样面临着人才匮乏、数据开放程度较低、相关法律法规不完善等问题。”



      “大数据有可能是大机会、大发展、大创新,也可能是大危机、大破坏、大淘汰。云计算和大数据将注定带来一次革命。”历军说。



      就像在电影《点球成金》中,希望通过数据化思考代替经验思考的棒球队总经理所面临的最大困难并不是数据分析技术难题和资金投入,而是整个团队的不认同,因为经验丰富的教练和自认为慧眼识珠的球探,不认为一个数学天才可以用电脑代替他们多年修炼得来的经验和直觉。在我们的政府决策和商业判断中也是如此,能不能转变观念,才是大数据能否发挥实效的关键。



      “如果一个公司有数据,但没有数据的文化,它是很难开展让更多人用数据的,所以大数据实际是一种态度。”阿里巴巴集团数据委员会首任会长车品觉告诉《中国经济周刊》。



      目前在中国,“大数据”尚未直接以专有名词被国家提出。但是,工业和信息化部发布的物联网“十二五”规划中,把信息处理技术作为四项关键技术创新工程之一提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是“大数据”的重要组成部分。不过,已经有机构倡议将大数据像美国一样上升为国家战略。



      “中国的云计算和大数据产业是国内信息产业最有可能实现弯道超车的产业,我们的数据资源极为丰富,技术研究上我们已经实现了紧跟国际前沿,国内已有一些企业抓住这个机遇,扩展业务,进行转型,希望他们能实现跨越式发展。”倪光南说,但他也表示最大的瓶颈还在于“应用相对滞后”,但他相信发展前景会非常广阔。




    转载于:https://my.oschina.net/u/1160813/blog/163853

    展开全文
  • 什么是大数据测试?

    千次阅读 2020-09-08 15:40:16
    前言:近两年互联网行业动不动就喊着“大数据”的口号,大数据的诞生让很多企业节省人力物力实现精准营销获得丰厚利润。随着数据工程和数据分析技术的不断进步,...尽管有许多技术可用,技术人员仍然很难找出从哪里
  • 有的时候很难准确的把握,需要一定的学习积累或者运气,才能把握机会获得更多的流量,而对于专业从事SEO的人来说,只有数据才是唯一的指导真理! 那么问题来了数据来源于哪里? 数据来源于你能否建立这个行业的...
  • 大数据应用的关键点是数据来源、产品化和价值创造;数据资源分布不均,大数据应用在数据密集领域更易获得突破;须对不当的行业管理模式进行改革,以...我们独关注大数据应用,关注数据从哪里来、数据怎么用、成果谁买单,
  • 大数据应用的关键点是数据来源、产品化和价值创造;数据资源分布不均,大数据应用在数据密集领域更易获得突破;须对不当的行业管理模式进行改革,...我们独关注大数据应用,关注数据从哪里来、数据怎么用、成果谁买单...
  • 那么代理IP一般从哪里来呢?接下来的快乐代理谈谈获得IP的方法。 1、自己制作服务器,这个代理IP的优点是效果最稳定,时效和地区完全可以控制,可以根据自己的要求进行,深入匹配产品。但缺点也最明显,爬虫爱好者...
  • 大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为...攻击从哪里开始?目的是哪里?哪些地方遭受的攻击最频繁……通过大数据网络安全可视化图,我们可以在几秒钟内回答这些问题,这就是...
  • 随着互联网的迅猛发展,...那么代理IP一般从哪里来呢?一般获取代理IP的方式有以下三种,让我们一一道来。 第一种:自己搭建服务器,这种代理IP优点是效果最稳定,时效和地区完全可控,可以按照自己的要求来搞,深度
  • 无论你在哪里工作,或者你住在哪里,传输,收集和分析数据将在每一天发生在你的周围,并可能在今后几年里根本上保持改变世界的各种产业。 虽然你可能会只专注于你自己的地域或工作领域,当涉及到大数据时,重要的...
  • 随着互联网的迅猛发展,...那么代理 IP 一般从哪里来呢?一般获取代理 IP 的方式有以下三种,让我们一一道来。 第一种:自己搭建服务器,这种代理 IP 优点是效果最稳定,时效和地区完全可控,可以按照自己的要求来搞
  • 学习和使用Hadoop2已有半年多,其中遇到了一些常见问题,在网上搜索基本可以找到答案,出处已找不到,我只是对自己遇到的问题做个总结,也感谢解决这些问题的大神们,原谅我已经忘记到底从哪里获得的答案o(╯□╰)o...
  • 最近一段时间,清华老师被骗1700余万元、准大学生徐玉玉被骗学费后伤心过度离世等诈骗案件频发,而骗子从哪里获得如此精准的个人信息,成为很多市民关注的焦点。记者日前调查发现,在社交网站、数据交易平台上,贩售...
  • 未来,你可以东莞的大数据平台获得答案。昨日,东莞大数据协会举办今年首次分享会,记者获悉,东莞大数据共享平台正在构建中,今年将完成专家委员会及大数据研究院的组建。 “今年5月地铁就开通了,预计将有50%的...
  • 点击蓝色“有关SQL”关注我哟加个“星标”,天天与8000人一起快乐成长图 | 榖依米有很多同学加微信问我,进阶类的数据库知识,大数据和人工智能技巧可以从哪里获得咨询。已经浸淫数据行业多...
  • Python爬虫小分享

    2018-10-09 20:12:21
    以下所述都是小编个人愚见,不带有任何其他色彩 爬虫菜鸟的修炼之路 什么是网络爬虫 很多时候我问身边的人当今是什么样的社会,...而爬虫就是一个互联网爬取数据的工具,有了它我们将获得海量的数据。好了废话不...
  • 随着互联网的迅猛发展,大数据的应用,大数据样本获得需要通过数据爬虫来实现,而爬虫工作者一般都绕不过代理IP这个问题,为什么...那么代理IP一般从哪里来呢? 获取代理IP的方式有以下三种第一种:使用免费代理IP,...
  • 从哪里开始? 许多习惯于在图形环境中工作的人可能会默认使用电子表格工具,但还有另一种方法可能会证明是更快,更高效,而又付出了更多努力。 而且,您无需成为统计建模语言或大数据工具集的专家即可利用这些...
  • 你知道你应该从哪里开始吗?你可以获得的最简单,最重要的技能是SQL。在开发此技能之前,你必须了解SQL在大数据分析中的作用,以及为什么每个大数据分析专家都将SQL标记为对大数据分析家重要的一门。因此,让我们探讨...
  • 1.2.8 对大数据平台中的元数据管理是怎么理解的,元数据收集管理体系是怎么样的,会对大数据应用有什么样的影响 1.2.9 你理解常见如阿里,和友商大数据平台的技术体系差异以及发展趋势和技术瓶颈,在存储和计算两...
  • 第 15 章: 大数据与 MapReduce 工具 @wnma3mz 1003324213 Ml项目实战 第 16 章: 推荐系统(已迁移) 项目 推荐系统(迁移后地址) 第一期的总结 2017-04-08: 第一期的总结 总结 总结 529815144 网站视频 ...
  • 第 15 章: 大数据与 MapReduce 工具 @wnma3mz 1003324213 Ml项目实战 第 16 章: 推荐系统(已迁移) 项目 推荐系统(迁移后地址) 第一期的总结 2017-04-08: 第一期的总结 总结 总结 529815144 网站视频 ...
  • 第 15 章: 大数据与 MapReduce 工具 @wnma3mz 1003324213 Ml项目实战 第 16 章: 推荐系统(已迁移) 项目 推荐系统(迁移后地址) 第一期的总结 2017-04-08: 第一期的总结 总结 总结 529815144 网站视频 ...

空空如也

空空如也

1 2
收藏数 30
精华内容 12
关键字:

从哪里获得大数据