热门好课推荐
猜你喜欢
相关培训 相关博客
  • Hadoop生态圈各常用组件介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和MapReduce。Hdfs是分布式文件存储系统,用于存储海量数据;MapReduce是并行处理框架,实现任务分解和调度。Hado...
    2019-06-03 09:03:44
    阅读量:92
    评论:0
  • 离线计算组件1.1hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。但是在转换为MapReduce的计算过程中,计算速...
    2018-09-13 10:48:56
    阅读量:366
    评论:0
  • 数据类型1.结构化数据能够以二维表格表示的数据,如excel、简单文本2.非结构化数据不能够以二维表格表示的数据,如视频、音频、图片等3.半结构化数据具有一定结构化特征,但又不能全部按照结构化数据去表示,比如网页——文字、视频啥的都有大数据处理流程1.数据采集2.数据存储3.数据管理4.数据分析:分析出结果5.数据挖掘:关联性检测,...
    2018-08-27 22:06:00
    阅读量:153
    评论:0
  • 修饰符访问控制符修饰成员时的访问权限如下表所示:修饰符本类同一包中的类子类其他类public可以访问可以访问可以访问可以访问protected可以访问可以访问可以访问不能访问默认可以访问可以访问不能访问不能访问private可以访问不能访问不能访问不能访问通过对象直接访问成员变量,这样操作,会引起数据安全问题考虑:能不能不让外界直接访问对象的成员变量?使用private解决private:是一个修...
    2019-05-11 15:50:21
    阅读量:88
    评论:0
  • 大数据基础
    2018-11-13 10:34:05
    阅读量:287
    评论:0
  • 这年头,不扯点大数据、云计算都不好意思。以下内容部分抄袭,部分为个人理解。一、啥是大数据大数据(BigData)大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的特点是4V:数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity)。好像我在哪里还看过有个
    2016-04-22 20:19:02
    阅读量:6997
    评论:0
  • HDFS(分布式文件系统):主要用于存储数据HDFS:分布式文件系统:专门存储超大数据文件特点:1.HDFS可存储超大文件每个磁盘都有默认的数据块大小,这是磁盘在对数据进行读和写时要求的最小单位,文件系统是要构建于磁盘上的,文件系统的也有块的逻辑概念,通常是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为512个字节...
    2017-05-31 14:31:00
    阅读量:3
    评论:0
  • 面向对象思想A:面向过程:强调的是过程,所有事情都需要自己完成B:面向对象是一种更符合我们思想习惯的思想(懒人思想,我把事情自己不做,交给别人去做)可以将复杂的事情简单化(对使用者来说简单了,对象里面还是很复杂的)将我们从执行者变成了指挥者角色发生了转换面向对象:定义:首先根据客户的需求抽象出业务逻辑对象,然后对需求进行合理的分层,构建对应的独立的业务,之后进行设计业务员逻辑,利用封装、继承、多态...
    2019-05-10 17:38:30
    阅读量:41
    评论:0