big data_big data算几类 ieee - CSDN
精华内容
参与话题
  • 如今进入大数据时代的必读书,可以很好的了解互联网时代数据的重要性
  • “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量的、高速增长率和多样化的信息资产。大数据到底是什么,新手必备,导入即用,无需安装各种插件!
  • 《大数据时代(BIG DATA)》

    千次阅读 2016-10-12 09:56:26
    —-豆瓣链接—- 大数据的时代思维变革 不是随机样本,而是全体数据 小数据时代的随机采样,最少的数据获得最多的信息 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。...


    —-豆瓣链接—-

    第一部分:大数据的时代思维变革

    • 不是随机样本,而是全体数据

      • 小数据时代的随机采样,最少的数据获得最多的信息
      • 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。简单解释是,当样本数量到达某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。所以可以认为样本选择的随机性比样本数量更重要
      • 随即采样是在不可收集和分析全部数据的情况下的选择,存在许多缺陷,比如实现采样的随机性非常困难,比如考察子类别。
      • 全数据模式,样本=总体
      • 大数据不同与随即采样,大数据采用了所有数据的方法。
      • 比如谷歌通过分析整个美国几十亿条互联网检索记录预测流感趋势。
    • 不是精确性,而是混杂性

      • 允许不精确
      • 对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。比如追求更高精度的对时间、空间的测量。
      • 在新情况下,允许不精确的出现已经成为一个新的亮点。放松了容错的标准,人们可以掌握更多的数据,利用这些数据做更多新的事情
    • 不是因果关系,而是相关关系

      • 知道人们为什么会对某些信息感兴趣是可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。
      • 通过给我们找到一个现象的良好的关联物相关关系可以帮助我们捕捉现在和预测未来。
      • 建立在人的偏见基础上的关联物监测法已经不再可行,因为数据库太大,考虑的领域太复杂。取而代之的是机器分析。
      • 大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
      • 建立在相关关系分析法的基础上的预测是大数据的核心。
      • 通过找出一个关联物并监控它,我们就能预测未来
      • 但当收集、存储和分析数据的成本比较高时,应该适当地丢弃一些数据。
      • 相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
      • 不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻认同。

    第二部分:大数据时代的商业变革

    • 数据化,一切皆可“量化”

      • 莫里的导航图说明远在信息数字化之前,对数据的运用就开始了。
      • 数据化是指一种把现象转变为可指标分析的量化形式的过程。
      • 数字化是指把模拟数据转换成0和1表示的二进制码的过程。
      • 计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
      • 数字化带来了数据化,但数字化无法取代数据化。
      • 当文字变成数据,则人可用之阅读,机器可用之分析
      • 当方位变成数据,我们可以预测人类行动,预知并避开交通拥堵。
      • 有了大数据的帮助,我们不再会将世界看做是一连串我们认为或是自然或是社会现象的实践,我们会意识到本质上世界是由信息构成的。
      • 将世界看做信息,看做可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观
    • “取之不尽,用之不竭”的数据创新

      • 数据的基本用途为信息的收集和处理提供了依据。
      • 不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地处理
      • 数据再利用:数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
      • 重组数据:随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集中的总和重组在一起时,重组总和本身的价值也比单个总和更大。
      • 可扩展数据:鼓励相同数据集的多种用途。
      • 数据的折旧值:即使数据用于基本用途的价值会减少,但潜在价值却依然强大。
      • 数据废气:当用户指出电脑化服务误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
      • 开放数据:“开放政府数据”的倡导者主张,政府只是他们所收集信息的托管人,私营企业和社会对数据的利用会比政府更具创新性。
    • 数据、技术和思维的三足鼎立

      • 大数据价值链的三大构成:基于数据的公司(Twitter)、基于技能的公司(Teradata)、基于思维的公司(Jetpac)。
      • 大数据掌控公司:接触到数据、有权使用数据或者授权给他人。
      • 大数据技术公司:拥有技术和专业技能的公司。
      • 大数据思维公司和个人:有着大数据思维的公司和个人,他们的优势在于他们思考的只有可能,而不考虑所谓的可行
      • 大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
      • 数据中间商:它们会从各种地方收集数据进行整合,然后再提取有用的信息进行利用。
      • 大数据公司的多样性表明了数据价值的转移
      • 随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。
      • Roadnet和Inrix说明了数据中间商能够聚合各个数据拥有者的数据并使这些聚合的数据发挥更大的能量。
      • 行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。

    第三部分:大数据时代的管理变革

    • 让数据主宰一切的隐忧

      • 随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式地增长。如果说在互联网时代我们的隐私受到了威胁,那么大数据还会带来更多的威胁。毕竟,大数据的核心思想就是用规模剧增来改变现状
      • 数据的价值不在单纯来源于它的基本用途,而更多源于它的二次利用
      • 大数据时代,很多数据收集的时候并无意用作其它用途,而最终却产生了许多创新性的用途。
      • 在大数据时代用技术方法来保护隐私是天方夜谭。有意识地避免某些信息可能会起反作用。而匿名化在大量多种数据的分析下不起任何作用。
      • 出现以上的无效性是因为两个因素:我们收集到的数据越来越多,我们会结合越来越多不同来源的数据。
      • 大数据可以帮助预测罪犯,但如果这样,人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。
      • 在由“小数据”时代向大数据时代转变的过程中,我们对一些信息的局限性必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错误或具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。这样很可能会导致“数据独裁”。
      • 其实在很多时候,卓越的才华并不依赖于数据(比如乔布斯依赖于自己的直觉而不是数据)。
      • 只要得到了合理的应用,而不单纯知识为了“傲据”而“数据”,大数据就会变成强大的武器。
      • 大数据诱使我们犯下罗伯克·麦克纳马拉(越战中痴迷战场统计数据)所犯的罪行,也让我们盲目相信数据的力量和潜能而忽略了它的局限性
    • 责任与自由并举的信息管理

      • 管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任。社会必须平衡数据二次应用的优势与过度披露所带来的风险。为实现这一平衡,监管机构可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。
      • 管理变革2:个人动因VS预测分析。当政府或机构依赖大数据预测来做出关乎我们个人利益的决策时,那就需要特定的防护措施:公开原则公正原则可反驳原则、最重要的是个人动因能够防范“数据独裁”。
      • 管理变革3:击碎黑盒子,大数据算法师的崛起。大数据的运作是在一个超出我们正常理解范围之上的。所以,大数据需要被监测并保持透明度。这就需要新型技术和机构来为众多领域提供支持,防止人群被错误诱导
      • 管理变革4:反数据垄断大亨。防止数据被某些大公司所垄断

    结语,正在发生的未来。

    • 凡是过去,皆为序曲。历史最悠久的做事方法并不是最好的。
    • 大数据时代是名副其实的“信息社会”。大数据给我们带来了巨大的风险,但我们可以建立规范自身的新准则
    • 更大的数据来自人本身。在一个利用数据做出决定的数据里,人类的直觉、常识和意外运气就显得十分重要。因为科技永远无法揭示人类的伟大
    • 大数据提供的不是最终答案,而只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心。铭记人性之本
    展开全文
  • 什么是大数据(Big Data)?

    千次阅读 2016-01-13 15:58:20
    什么是大数据? 可以从四个方面描述:数据量(volume)、处理速度(velocity)、多样性(variety)、真实性(veracity),简称4V。 Volume(数据量) 数据量大是大数据的比较明显的特征。每天的数据增长块。...

    什么是大数据?

    可以从四个方面概括:数据量(volume)、处理速度(velocity)、多样性(variety)、真实性(veracity),简称4V。

    Volume(数据量)

    数据量大是大数据的比较明显的特征,一般是TB级的数据量,并且每天数据的增长量比较大。

    Velocity(速度)

    要求数据的处理速度比较快,从数据采集、加工处理、分析到产生价值的速度,能够及时快速的响应,并不能因为数据量大,响应速度就慢下来。

    Variety(多样性)

    数据的来源不同,数据类型不同(结构化、非结构化)、比如可能来自网站的日志文件、数据库中库表等。

    Veracity(准确性)

    因为采集到的数据会掺杂太多的无用信息,需要确保收集到的数据非常准确、准确,否则对虚假的数据做处理也不会产生任何有用价值。

    对应这些方面,每个方面都需要专用的处理工具:

    • 数据加工——这些工具用来执行某种形式的计算和提取处理,比如对杂乱无序的数据做排序、筛选操作。比如像Storm、HBase、Hive等。
    • 数据传输——这些工具用来收集和接受数据并传输给数据加工系统(或者在不同的系统组件间传输)。这些工具的做法通常是使用消息总线(message bus)或消息队列。比如像Kafka、Flume、Sqoop等。
    • 数据存储——这些工具用来保存数据加工过程中不同阶段的数据存储。比如像分布式的文件系统(HDFS)和GlusterFS,还有像Cassandra这样的NoSQL数据库。

    大数据和关系型数据库的区别?

    主要区别体现在数据规模、数据类型(结构化、非结构化)、产生模式(来源多样性)。以及处理对象、处理工具的变化,由以计算为主转到以数据处理为主。

    大数据的处理模式

    大数据的处理模式大致可分为两种:一种为批处理(batch processing),另一种为流处理模式(stream processing)。两者的区别是批处理是先存储在处理,流处理是直接处理,然后再存储,甚至不存。

    1、批处理(batch processing)

    批处理模式最具代表性的就是MapReduce,它先将原数据分块,然后分别分发给多个map任务处理,每个map任务对输入进行解析,提取出键值对集合,然后由用户自定义的map函数对这些键值对集合做处理,得到中间结果并输出到磁盘上。然后由reduce任务读取这些中间结果,并根据Key值进行相关的排序、合并,最后由用户自定义的reduce函数对这些已排序的结果做处理,得到最终结果并输出。
    从MapReduce的处理过程可以看出其核心设计思想是:
    a、将问题分而治之
    b、把计算推到数据端,而不是把数据推到计算端,这样可以避免数据传输过程中产生的大量通信开销,有效降低网络带宽。

    2、流处理(stream processing)

    流处理模式的目标是尽可能快地对最新的数据进行分析并给出结果,因为数据的价值会随着时间的流逝而减少。
    流处理模式将数据视为流,源源不断的数据就形成了数据流,当新的数据到达时就立刻处理并返回所需结果。数据流本身具有持续性、速度快且数据量大等特点,通常不会对数据做持久化存储。并且由于响应时间的要求,流处理的过程基本都是在内存中进行的,因此内存是流处理的一个瓶颈。
    在流处理方面做得比较好的,如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等等。

    无论是批处理还是流处理都是大数据的可行思路,在实际的大数据处理中,通常并不是简单的使用其中某一种,更多的是将两者结合起来使用。

    3、大数据的基本处理流程
    大数据的处理流程可以定义为通过某种合适的工具,对广泛异构的数据进行抽取、筛选、集成,并把结果按照一定的标准统一存储。然后利用合适的数据分析技术对存储的数据进行分析,从中提取出有价值的信息,并利用某种方式展现给终端用户。简单点说分为数据的抽取与集成、数据分析以及数据解释。


    展开全文
  • 大数据(big data)究竟是什么?

    千次阅读 2012-11-30 16:23:34
    “大数据”这个词最近两三年在IT界越来越热门,搞IT的如果嘴里不说起大数据,就好象是落了伍。...PB(1PB=1000TB)级在线数据(online data)存储在Hadoop里面,即被称作大数据。这几年,这个领域一直是个热门,即便在08,

    “大数据”这个词最近两三年在IT界越来越热门,搞IT的如果嘴里不说起大数据,就好象是落了伍。大数据的意思不同人有不同的说法,比较实在含义是特指以Hadoop为代表的大型并发机群(Massively Parallel Processor)数据存储系统 。PB(1PB=1000TB)级在线数据(online data)存储在Hadoop里面,即被称作大数据。这几年,这个领域一直是个热门,即便在08, 09年这样的经济衰退期,美国风险投资对这个领域的投资都在一直增加,一批如Cloudera, MapR专门开发Hadoop系统的创业公司得以成长起来。那么大数据只是一时的时髦,还是一个真实的发展趋势呢?

     

    海量数据的存储问题,在过去几十年主要由磁带来解决。磁带是一种离线(offline)存储方式,数据一旦备份到磁带里,要再被读取出来,就需要经过繁琐的人工过程,成本很高。在美国信用卡公司内部流传着这样一个说法,一个信用卡用户可以给信用卡公司打电话,说他发现1年前的一笔花费,比如100美元左右,不是他花的,要求信用卡公司进行调查,信用卡公司会答应进行调查。一天之后,信用卡公司会对这个用户说事情已经查清了,这确实是一个错误,他们会返回给用户这笔钱。实际上,信用卡公司在这一天之内什么调查都不会做,因为从磁带上读取这个用户的交易记录成本要比这笔钱高很多,信用卡公司索性就不调查了,返回给用户这笔钱就对了。这样,存在磁带里的数据实际上成了死数据。

     

    10前,建立在关系型数据库(RMDB如Oracle, DB2)上的数据仓库系统,成为大规模数据在线存储和在线分析的主流。 RMDB能有效存储和分析TB级的数据(1TB=1000GB),  对于当时的绝大多数公司来说,这已经是够用了,相对于磁带来说,这是个巨大的进步。

     

    最近几年,从大型网络公司到银行,收集数据的数量成快速增长趋势,一年要翻倍或翻几倍,而根据摩尔定律,单机CPU的处理能力要18个月才能翻一倍,所以以单机构架为基础的RMDB越来越跟不上快速增长的数据存储需求。所以基于大型并发机群(MPP)构架的存储系统必将成为数据存储系统的主流。以Hadoop为例,它可以使上千台PC合成为一个PB级数据存储器,其硬件成本远远低于同等级别的单机存储系统。而且Hadoop是开源免费软件系统,所以其软件成本也要远低于其它商业系统。Hadoop的诞生和发展为建立经济有效的云计算后台系统提供了可能。

     

    Hadoop提供了便宜且巨量的在线数据存储系统,但是如何对Hadoop里的数据进行在线分析(OLAP)仍然是个有待解决的热点问题。大数据不仅指的是大数据的存储,更指的是对大数据实时的分析。如果对数据只能实现有效的存储,而不能实现有效的分析,那么数据的价值将大打折扣。博主将会在未来详细阐述大数据分析系统的最新动向(Big Data Analytics)。

    展开全文
  • 文章目录

    文章目录

    展开全文
  • What's more, Big Data Analytics with Spark provides an introduction to other big data technologies that are commonly used along with Spark, like Hive, Avro, Kafka and so on. So the book is self-...
  • AWS Certified Big Data – Specialty 考试用于考察应试者在设计和实施 AWS 产品,以从数据中获取价值方面的技术技能和经验。此考试适用于执行复杂大数据分析的个人,并考察个人是否能够: 根据...
  • 8月27日,华为云重磅发布了业界首个鲲鹏大数据解决方案——BigData Pro。该方案采用基于公有云的存储与计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务为统一的存储数据...
  • 大数据 Big Data & 数据挖掘 Data Mining

    千次阅读 2015-06-28 21:23:15
    大数据 Big Data 描述大量数据或动态大数据(某一时点大量数据)的情况下的各种应对。1)网站前端大数据输入,引出高并发、高负载、高性能的处理;2)大数据后台处理,引出分布式处理、分布式存储、云计算;3)...
  • 大数据【big data 4v】

    千次阅读 2014-11-23 19:25:13
    大数据技术(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托·迈尔-舍恩伯格及...
  • ##Big Data Tools插件安装(idea) Big Data Tools插件为了连接hadoop集群,可以在上面操作hdfs,方便好用。 1、首先下载Big Data Tools插件 注:在此我已经下载好了 在idea右边工具栏点击Big Data Tools。也可以...
  • 华为认证HCIP-Big Data Developer有什么用

    千次阅读 2020-01-16 19:56:06
    华为认证HCIP-Big Data Developer大数据高级工程师认证,聚焦基于企业业务场景和业务目标,运用开源Hadoop生态系统和华为FusionInsight HD大数据平台的大数据平台应用开发、常用组件二次开发的高级人才。 一、华为...
  • 分清big data,ML,AI之间的关系

    千次阅读 2016-06-01 11:48:06
    How are big data and machine learning related?(大数据与机器学习间关系)下面是回答: 1. Big data and machine learning are not related, but when used together can do real wonder. (没有直接联系,但是...
  • -- 安装需要的软件包: # yum -y install rlwrap unzip ...# unzip OGG_BigData_Linux_x64_12.3.2.1.1.zip Archive: OGG_BigData_Linux_x64_12.3.2.1.1.zip inflating: OGGBD-12.3.2.1-README.txt inflating: ...
  • 最近需要用到kettle,于是下载了最新版本8.2,结果发现Big Data中插件不全,只有四个。以为kettle被日立收购后,只有收费的企业版才有完整的大数据插件,免费版只有四个。于是网上找big-data-plugin,但编译错误很多...
  • Big Data Analysis and Mining

    千次阅读 2018-06-02 19:14:34
    Chapter1 Introduction ...1.1 What is Big Data: Anwser: used to describe a massive structured and unstructured data that is so large that it is difficult to process using traditional database and soft...
  • 在Win7 64位环境下,使用OGG从本地Oracle_10g_库取数据向集群中Kafka0.9导数据,按照网上的教程,在DBLOGIN这个环节卡住了,在Oracle Community社区看到从OGG for Big Data开始不用DBLOGIN这个命令了,请问有做过这...
  • 大数据(big data)

    千次阅读 2013-06-17 09:54:41
    大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯   大数据的4个“V”,或者说特点有...
  • IntelliJ IDEA官方的Big Data Tool插件
1 2 3 4 5 ... 20
收藏数 160,298
精华内容 64,119
关键字:

big data