• 大数据专业名词 2018-12-19 15:13:50
    常用大数据技术名词通俗解释 Hadoop: 最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上...
    常用大数据技术名词通俗解释
    Hadoop:
    最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上无穷多的文件,因此称为大数据平台。
    MapReduce:
    在Hadoop存文件的基础上,MapReduce担任处理文件的角色,它读到文件,并把处理文件的任务分成很多子任务,让它们在多台机器上执行,然后汇总结果。因此,只要机器足够多,处理文件的能力可以无限扩充。但它的一个缺点是每个任务的衔接,都是通过中间文件来完成,因此,除了CPU外,有很多磁盘读写的操作。
    Hive:
    Hive是基于Hadoop和MapReduce而衍生出来的,hadoop上文件的存放在hive里面抽象为数据库的表,访问表的SQL会被自动解析成MapReduce的任务。在hive出现之前,玩Hadoop大数据写MapReduce任务就是个高大上的玩意,难理解,难开发,难维护。 而在hive出现后,同样的需求,原来MapReduce可能要几百行实现,hive则只要十多行sql就能实现,一下子就把大数据平民化了。
    Spark:
    Spark是类似于MapReduce的文件处理引擎, 也是把读到的数据源文件分解成处理任务,然后分发到多台机器执行。不同的地方是,他以在内存执行为主。好处是速度快了, 坏处是内存玩不好容易奔溃,因此暂时还不是特别稳定,有效。
    SparkSQL:
    在Spark基础上增加了一种数据源的引入方式, 之前是从各种文件引入源数据, SparkSQL支持用SQL导入源数据处理(各种DB,包括Hive),在spark中分析处理,并把结果用SQL导回去。 这个方案好是好,结构化存储了数据,也避免了MapReduce的中间结果IO读写, 但是,开发人员要多学习一种开发语言Scala才能够把数据处理这个事情做完整,增加了开发维护的难度。
    Hive on Spark:
    在hive的基础上升级,目前看起来最完美的解决方案了。把原来Hive所依赖的任务计算引擎替换成Spark(set hive.execution.engine=spark;),一个配置而已,原来已经存在的代码都无需改动,性能直接提升100倍。但是,目前还没有正式版本GA, 估计要到Hive 1.3.0, 当前最新是Hive 1.2.1
    
    展开全文
  • 常用大数据技术名词通俗解释   Hadoop: 最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存...
  • 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这份术语表并没有100%包含所有...
  • 大数据的75个名词解释 2017-10-19 10:11:32
    在 DataConomy 上连发两篇文章,扼要而全面地介绍了关于大数据的 75 个核心术语,这不仅是大数据初学者很好的入门资料,对于高阶从业人员也可以起到查漏补缺的作用。本文分为上篇(25 个术语)和下篇(50 个术语)。...
  • 大数据名词解释 2020-05-11 18:04:29
    大数据名词解释大数据知识体系架构第一阶段:Hadoop一、ELK技术栈:二、HDFS:Hadoop分布式文件系统三、MapReduce:四、Apache Hive:五、Apache HBase:六、Apache Sqoop:七、Zeppelin可视化:第二阶段:Spark一、Scala...
  • 大数据技术之名词解释 2018-12-04 14:34:27
    分布式系统 分布式系统(distributed system)是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统)...
  • 大数据要怎么学,本文来说说到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考。数据科学特点与大数据学习误区 (1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。 大数据的...
  • 大数据名词记录 2018-08-10 09:38:56
    ActiveMQ 是Apache出品,最流行的,能力强劲的开源消息总线。 Dubbo是阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的 RPC 实现服务的输出和输入功能,可以和 Spring框架无缝集成。...
  • 大数据常用到的25个名词 2017-11-24 10:41:19
    如果你刚接触大数据,你可能会觉得这个领域很难以理解,无从下手。近日,Ramesh Dontha在DataConomy上连发两篇文章,扼要而全面地介绍了关于大数据的75个核心术语,这不仅是大数据初学者很好的入门资料,对于高阶...
  • 几个名词解释:大数据、Hadoop、云计算、机器学习、NLP、数据挖掘 大数据大数据是相对于传统"小数据"的, 传统由于数据处理的成本很高,所以只能处理部分信息系统中产生的非常规范的数据,而对于文本、...
  • 很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么?所有萌生入行的想法与想要学习Java的同学的初衷是一样的。岗位非常火,就业薪资比较高,,前景...
  • java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper...机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,...
  • 大数据要怎么学,本文来说说到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考。数据科学特点与大数据学习误区 (1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。 大数据的核心...
  • 看了这个知识名词,我才知道,知道的越多,不知道的越多,这些技术估计一辈子都搞不完了。。能搞完的一定是神才。我说的搞完是精通哦,源码级别的 1.关系型数据库管理系统 MySQL 世界上最流行的开源数据库。 ...
  • 分享最全大数据名词合集 2019-03-12 15:37:53
    关系数据库管理系统(RDBMS)  MySQL:世界最流行的开源数据库;  PostgreSQL:世界最先进的开源数据库;  Oracle 数据库:对象-关系型数据库管理系统。 ... Apache Hadoop:分布式处理架构,结合了 MapReduce(并行...
  • 大数据学习路线 java (Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark...
  • 大数据要怎么学,本文来说说到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考。数据科学特点与大数据学习误区 (1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。 大数据的核心...
1 2 3 4 5 ... 20
收藏数 7,432
精华内容 2,972