精华内容
下载资源
问答
  • 大数据领域一些值得读的论文(不断更新 1.大数据Hadoop三辆马车 MapReduce-2004:一种计算框架 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf ...

    一些经典论文

    可以参考这位大佬的博客,2020年下半年开始有许多paper阅读笔记
    https://fuzhe1989.github.io/

    1.大数据Hadoop三辆马车

    1.MapReduce-2004:一种计算框架

    https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

    2.GoogleFileSystem-2003:GFS 谷歌的文件系统

    https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf

    3.BigTable-2006:数据存储

    https://static.usenix.org/events/osdi06/tech/chang/chang_html/?em_x=22

    2.snowflake数据仓库

    1.《The Snowflake Elastic Data Warehouse》- 2016

    snowflake 面向OLAP的云原生数据仓库

    https://dl.acm.org/doi/pdf/10.1145/2882903.2903741

    2.《Building An Elastic Query Engine on Disaggregated Storage》-2020

    是snowflake第一篇(2016)的后续版本,介绍snowflake架构和实现

    https://www.usenix.org/system/files/nsdi20-paper-vuppalapati.pdf

    3.一些论文

    1.《Impala: A Modern, Open-Source SQL Engine for Hadoop》-2015

    impala论文 介绍了架构

    http://cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf

    2.《Kudu: Storage for Fast Analytics on Fast Data 》-2015

    impala+kudu,一个是计算引擎,一个是存储

    apache kudu:一种支持高效随机读写和扫描的存储系统

    https://kudu.apache.org/kudu.pdf

    3.《Volcano-An Extensible and Parallel Query Evaluation System》- 1994

    火山架构

    https://paperhub.s3.amazonaws.com/dace52a42c07f7f8348b08dc2b186061.pdf

    4.《Dremel: Interactive Analysis of Web-Scale Datasets》-2010

    https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/36632.pdf

    Dremel开启了交互查询的新时代,

    另外还有一篇论文Google的Big-query,云原生的数据仓库,也可以看看 链接:https://cloud.google.com/files/BigQueryTechnicalWP.pdf

    5.《F1: A distributed SQL database that scales》-2013

    https://research.google/pubs/pub41344/

    6.《Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases》

    https://web.stanford.edu/class/cs245/readings/aurora.pdf

    亚马逊的云原生数据库Aurora

    7.《TiDB: A Raft-based HTAP Database》-2020

    pingCAP的数据库TiDB

    https://dl.acm.org/doi/pdf/10.14778/3415478.3415535

    8.《Alibaba hologres: a cloud-native service for hybrid serving/analytical processing》- 2020

    hologres是 融合NoSQL写和OLAP读的系统,称为HASP(Hybrid Srerving and Analytical Processing)

    https://dl.acm.org/doi/pdf/10.14778/3415478.3415550

    9.《AnalyticDB: Real-time OLAP Database System at Alibaba Cloud》-2019

    AnalyticDB 阿里的OLAP数据仓库,支持复杂ad-hoc查询的实时分析系统

    https://dl.acm.org/doi/abs/10.14778/3352063.3352124

    展开全文
  • 今天和大家分享的主题是《Greenplum在医疗大数据领域的应用》,Greenplum这几年越来越火,但在医疗行业里面的应用似乎并不多,个人认为主要原因如下: 首先医疗行业并不是一个特别前沿的行业,不像金融、电信、电力...

    30d74e76-b897-4c61-9711-709189b4acdd.jpg




    《Greenplum走进全国》系列技术研讨会济南站7月3日成功举行。在过去的三篇文章中我们分别为大家整理了基于Greenplum构建下一代数据分析平台基于fdw的跨Greenplum集群数据库查询实现、和Greenplum问题定位及性能调优三篇演讲内容。今天为大家介绍的是第四篇内容。相关PPT已上传Greenplum中文社区网站下载页面cn.greenplum.org/download,欢迎获取。



    今天和大家分享的主题是《Greenplum在医疗大数据领域的应用》,Greenplum这几年越来越火,但在医疗行业里面的应用似乎并不多,个人认为主要原因如下:
      首先医疗行业并不是一个特别前沿的行业,不像金融、电信、电力等,在IT设备上投入很大、数据量也非常的高,从而促使这些行业需要不断的追求新技术。而医疗是发展较为缓慢的行业,近年来,虽然医疗行业的大数据也比较火,但是做的好的企业其实并不多。医疗大数据需求很高,但也存在很多的专业性的数据处理需求,如今医疗的信息化发展仍然较为缓慢,需要行业进行更高的投资。接下来我来介绍一下我们医疗数据的具体情况,同时也邀请大家多关注民生行业。   提到医疗行业,就不得不关注医疗数据学。医疗数据有两大特点。   首先,相较于其他行业,医疗数据的规范化程度不高。 我们在日常生活中经常能看到医生手写的病历、拍的X光照片,这些都是非结构化的数据,必须经过二次处理才能形成结构化数据;   第二是,单条数据的体量较大 ,例如基因数据,往往包括成千甚至上万个字段,一条个人信息的原始数据就能达到几个TB。很多数据需要经过精细化的处理才能入库;有一些则需要用到很多人工智能的算法来处理。

    47ab3840-8a25-411c-8a67-140516878062.png


    基于以上的情况,在选择数据库产品时,我们主要关注以下几点:


     

    1

    入门门槛不能太高


    由于数据库使用对象以非计算机专业的教授和学生为主,因为大家都是非专业的DBA,在SQL编写上都非常不规范、不熟练,因此需要尽量对标准SQL有很好的兼容;

     

    2

    统一化的集群


    之前我们也用了很多其他的数据库,例如Oracle、MS SQL、MySQL等,集群数据量达到一定规模后,只能通过分库分表来提高计算性能,非常麻烦;所以我们需要的是一款一体化的集群,集群内部自动完成分库分表操作;

     

    3

    现有的数据分析工具多数要求数据离线,不安全;


    在这种情况下,在做分析时,需要去别的地方拿数据,比如从hadoop里面去把数据拿出来,因此需要一段等待时间;

     

    4

    基因数据放在HBase中,维护不便;


    HBase虽然大家应用的也比较多,但是维护和使用都不是很方便;

     

    5

    实时性需求较少


    医疗行业的数据分析和计算,对数据实时性要求不高;但是我们要求数据变动的最后一个版本,必须为最后版本;这个背景促使我们可以采用小批量入库,多次抓取的方式来处理数据,而不用像那些实时同步工具那样一有变化马上就发送过来;

     

    6

    我们没有热数据、温数据和冷数据之分;


    我们的数据需要存放在一个地方,最好不要拆分开。在查一个人的基因数据时,有可能需要向前追溯几代人的基因信息,这时也需要有一个强力的计算引擎来快速给出结果。


    Greenplum带来了什么?


    01

    入门门槛较低


    Greenplum兼容标准SQL语法,上手较为容易。与PostgreSQL兼容,便于迁移。文档规范,社区活跃。且Greenplum自带完整的运维工具生态,包括备份、迁移、测试、优化等,对运维人员非常友好。

     

    02

    MPP架构的优势

     

    Greenplum是一款MPP架构的数据库,可以解决单体数据库无法很好的完成数据拆分并行计算的问题;不需要分库分表,方便运维。Greenplum的批入库效率特别高,之前我们采用insert入库的性能是260行/s左右,经过改造后,入库性能直接能达到10万行/s左右,完全能满足我们的日常数据入库需求;Greenplum支持线性扩容,能满足医疗行业多变需求。Greenplum的高可用支持,不间断恢复,可以保证电子病历、健康档案、基因测序等敏感数据的安全。


    f773de85-4d39-4977-8014-74cc922f38f5.png


    03

    对R语言的深度支持

     

    R语言是医学、生信领域最常用的统计工具。Greenplum天生支持数据库内分析(In-Database Analysis),尤其是对R语言的支持,这是我们给予厚望的一个功能。利用PivotalR包和MADlib机器学习库,充分利用并行计算优势,突破R语言性能限制。

     

    04

    面向分析的关系型数据库


    基因数据数据量大、计算密集,非常适合Greenplum。Greenplum的GPText对非结构化文本数据的支持,也很适合医疗领域的医嘱、诊断、检验等。所有数据在线,原始数据低频使用。多表关联查询和复杂查询效率高。


    743895bd-212c-40a8-a5c9-7e0a3198d0e5.png


    在使用Greenplum之前,我们已经用Oracle有10多年时间了。开始接触Greenplum还是两年前的事,这么短的时间,我们就果断的决定转换阵营,还是由于Greenplum的强大功能。

     


    aac65181-1a66-4e67-8ed1-ed07eb7a73d5.png

    作者简介

    胡锡峰 国家健康医疗大数据研究院 医疗数据治理研究中心主任
    预防医学背景,曾主持多个省级医疗信息化项目,拥有16年医疗信息化行业数据库使用经验,在医疗数据汇聚、标准化、大数据应用方向有深刻认识。


    c747e846-7849-4eba-902d-1b11b69c600f.png



    f3bb720b-0f32-4f73-a5ce-ea2fc755d0ce.svg

    近期活动

    efb1cf85-c6fc-4f94-bb0b-8af07a63b98e.svg


    60e14a08-5b3a-4172-aa00-8cd7e0dc6cb5.jpg


    点击文末“ 阅读原文 ”,获取Greenplum中文资源。


    d900cb87-c970-4c0a-97bf-8340036c0c3e.gif

    1d4a3430-ad28-435e-a657-20036c37a241.png来一波 “在看”、“分享”和 “赞” 吧!


    本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
    如有侵权,请联系 support@oschina.cn 删除。
    本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

    展开全文
  • 大数据领域的性能测试Benchmark介绍

    万次阅读 2021-08-24 16:03:16
    前言:大数据领域的性能测试Benchmark介绍,需要的可以看看! 一、Benchmark简介 Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became ...

    前言:大数据领域的性能测试Benchmark介绍,需要的可以看看!

    一、Benchmark简介

    Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at their specifications.Therefore, tests were developed that allowed comparison of different architectures.”Benchmark在计算机领域应用最成功的就是性能测试,主要测试负载的执行时间、传输速度、吞吐量、资源占用率等。

    二、Benchmark的组成

    Benchmark的核心由3部分组成:数据集、 工作负载、度量指标。

    1、数据集
    数据类型分为结构化数据、半结构化数据和非结构化数据。由于大数据环境下的数据类型复杂,负载多样,所以大数据Benchmark需要生成3种类型的数据和对应负载。

    1)结构化数据:传统的关系数据模型,可用二维表结构表示。典型场景有电商交易、财务系统、医疗HIS数据库、政务信息化系统等等;

    2)半结构化数据:类似XML、HTML之类,自描述,数据结构和内容混杂在一起。典型应用场景有邮件系统、Web搜索引擎存储、教学资源库、档案系统等等,可以考虑使用Hbase等典型的KeyValue存储;

    3)非结构化数据:各种文档、图片、视频和音频等。典型的应用有视频网站、图片相册、交通视频监控等等。

    2、工作负载
    互联网领域数据庞大,用户量大,成为大数据问题产生的天然土壤。对工作负载理解和设计可以从以下几个维度来看
    1)密集计算类型:CPU密集型计算、IO密集型计算、网络密集型计算;

    2)计算范式:SQL、批处理、流计算、图计算、机器学习

    3)计算延迟:在线计算、离线计算、实时计算;

    4)应用领域:搜索引擎、社交网络、电子商务、地理位置、媒体、游戏。

    3、度量指标
    性能高估的两大利器就是Benchmark和Profile工具。Benchmark用压力测试挖掘整个系统的性能状况,而Profile工具最大限度地呈现系统的运行时状态和性能指标,方便用户诊断性能问题和进行调优。

    1)工具的使用
    a)在架构层面:perf、nmon等工具和命令;

    b)在JVM层面:btrace、Jconsole、JVisualVM、JMap、JStack等工具和命令;

    c)在Spark层面:web ui、console log,也可以修改Spark源码打印日志进行性能监控。

    2)度量指标
    a)从架构角度度量:浮点型操作密度、整数型操作密度、指令中断、cache命中率、TLB命中;

    b)从Spark系统执行时间和吞吐的角度度量:Job作业执行时间、Job吞吐量、Stage执行时间、Stage吞吐量、Task执行时间、Task吞吐量;

    c)从Spark系统资源利用率的角度度量:CPU在指定时间段的利用率、内存在指定时间段的利用率、磁盘在指定时间段的利用率、网络带宽在指定时间段的利用率;

    d)从扩展性的角度度量:数据量扩展、集群节点数据扩展(scale out)、单机性能扩展(scale up)。

    三、Benchmark的运用

    1、Hibench:由Intel开发的针对Hadoop的基准测试工具,开源的,用户可以到Github库中下载

    2、Berkeley BigDataBench:随着Spark的推出,由AMPLab开发的一套大数据基准测试工具,官网介绍

    3、Hadoop GridMix:Hadoop自带的Benchmark,作为Hadoop自带的测试工具使用方便、负载经典,应用广泛

    4、Bigbench:由Teradata、多伦多大学、InfoSizing、Oracle开发,其设计思想和利用扩展具有研究价值,可以参阅论文Bigbench:Towards an industry standard benchmark for big data analytics。

    5、BigDataBenchmark:由中科院研发,官方介绍

    6、TPC-DS:广泛应用于SQL on Hadoop的产品评测

    7、其他的Benchmark:Malstone、Cloud Harmony、YCSB、SWIM、LinkBench、DFSIO、Hive performance Benchmark(Pavlo)等等

    展开全文
  • 阿里巴巴大数据之道-大数据领域建模综述 为什么要数据建模? Linux 的创始人 Torvalds 有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据 结构和它们之间的关系。“ 数据建模的...

    阿里巴巴大数据之道-大数据领域建模综述

    为什么要数据建模?

    Linux 的创始人 Torvalds 有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据 结构和它们之间的关系。“

    数据建模的好处

    • 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少 数据的 110 吞吐。
    • 成本 : 良好的数据模型能极大地减少不必要的数据冗余,也能实 现计算结果复用,极大地降低大数据系统中的存储和计算成本。
    • 效率 :良好的数据模型能极大地改善用户使用数据的体验,提高 使用数据的效率。
    • 质量 : 良好的数据模型能改善数据统计口径的不一致性,减少数 据计算错误的可能性。

    OLTP 和 OLAP 建模区别

    OLTP

    • 主要数据操作是随机读写
    • 主要采用满足 3NF 的实体关系模型存储数据
    • 在事务处理中解决数据的冗余和一 致性问题

    OLAP

    • 主要数据操作是批量读写
    • 事务处理中 的一致性不是 OLAP 所关注的
    • 关注数据的整合,以及在一次性 的复杂大数据查询和处理中的性能

    建模方法论

    ER模型

    • 简述

      • 数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计一 个 3NF 模型,用实体关系( Entity Relationship, ER)模型描述企业业 务,在范式理论上符合 3NF。数据仓库中的 3NF 与 OLTP 系统中的 3NF 的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体 业务流程的实体对象关系的抽象。
    • 特点

      • 需要全面了解企业业务和数据。
      • 实施周期非常长。
      • 对建模人员的能力要求非常高。
    • 建模步骤

      • 高层模型

        • 一个高度抽象的模型,描述主要的主题以及主题间的 关系,用于描述企业的业务总体概况。
      • 中层模型

        • 在高层模型的基础上,细化主题的数据项。
      • 物理模型(也叫底层模型)

        • 在中层模型的基础上,考虑物理存 储,同时基于性能和平台特点进行物理属性的设计,也可能做一 些表的合并、分区的设计等。

    维度模型

    • 简述

      • 维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to Dimensional Modeling 是 数据仓库工程领域最流行的数据仓库建模的经典。
    • 特点

      • 从分析决策的需求出发构建模型,为分析需求服务
      • 具有较好的大规模复 杂查询的响应性能
      • 其典型的代表是星形模型,以及在一些特殊场景下 使用的雪花模型
    • 模型分类

      • 雪花模型
      • 星型模型
      • 星座模型
    • 建模步骤

      • 选择需要进行分析决策的业务过程

        • 业务过程可以是单个业务事 件,比如交易的支付、退款等;也可以是某个事件的状态,比如 当前的账户余额等;还可以是一系列相关业务事件组成的业务流 程,具体需要看我们分析的是某些事件发生情况,还是当前状态, 或是事件流转效率。
      • 选择粒度

        • 在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
      • 识别维表

        • 选择好粒度之后,就需要基于此粒度设计维表,包括 维度属性,用于分析时进行分组和筛选。
      • 选择事实

        • 确定分析需要衡量的指标。

    Data Vault 模型

    • 简述

      • Data Vault 是 Dan Linstedt 发起创建的一种模型,它是 ER 模型的衍 生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分 析决策。
    • 特点

      • 可审计的基础数据层
      • 数据的历史 性、可追溯性和原子
      • 而不要求对数据进行过度的一致性处理和整合
      • 基于主题概念将企业数据进行结构化组织
    • 组成部分

      • Hub

        • 是企业的核心业务实体,由实体 key、数据仓库序列代理 键、装载时间、数据来源组成。
      • Link

        • 代表 Hub 之间的关系。这里与 ER 模型最大的区别是将关 系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直 接描述 1 : 1 、 l :n 和 n:n 的关系,而不需要做任何变更。它由 Hub 的代理键、装载时间、数据来源组成。
      • Satellite

        • 是 Hub 的详细描述内容, 一个 Hub 可以有多个 Satellite。 它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信 息组成。
    • 模型实例
      在这里插入图片描述

    Anchor 模型

    • 简介

      • Anchor 对 Data Vault 模型做了进一步规范化处理, Lars. Ri:innback 的初衷是设计一个高度可扩展的模型,其核心思想是所有的扩展只是添 加而不是修改,因此将模型规范到 6NF,基本变成了 k-v 结构化模型。
    • 组成部分

      • Anchors

        • 类似于 Data Vault 的 Hub ,代表业务实体,且只有主键。
      • Attributes

        • 功能类似于 Data Vault 的 Satellite ,但是它更加规范 化,将其全部 k-v 结构化, 一个表只有一个 Anchors 的属性描述。
      • Ties

        • 就是 Anchors 之间的关系,单独用表来描述,类似于 Data Vault 的 Link,可以提升整体模型关系的扩展能力。
      • Knots

        • 代表那些可能会在多个 Anchors 中公用的属性的提炼, 比如性别、状态等这种枚举类型且被公用的属性。
    • 模型实例
      在这里插入图片描述

    综合实践

    模型设计

    • ODS:操作数据层

      • 存储所有基础数据,做简单的数据清洗
    • DWD:明细数据层

      • 采用维度退化的方法,将维度退化到事实表中,减少事实表和维度表的关联,调高明细表的易用性
    • DWS:汇总数据层

      • 采用更多的宽表化手段,构建公共指标数据层
    • ADS:应用数据层

      • 存放数据产品个性化的统计指标数据,主要面向前端展现
    • DIM:维度表

      • 存储所有维度表数据

    读感:
    阿里巴巴大数据之道-大数据领域建模综述,本章节主要简述了数仓建模的基本方法论,不设计到理论的实践。解答了为什么要数据建模?以及建模的方法论有哪些?
    可以做个初步的数仓建模理论理解,目前大多选择维度建模为主+宽表输出建设。要想更好的理解每个模型的优劣和不同点,还需要多实践。

    展开全文
  • 数据仓库常见建模方法与大数据领域建模实例综述

    千次阅读 多人点赞 2021-05-01 14:01:51
    为什么需要数据建模? 为什么要进行数据仓库建模?...大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑 ...
  • 自从“大数据”成为国民热词以来,想入行的人越来越多,不管是为了提高收入还是兴趣使然,只要是想学习新的知识,就必须有套系统的学习路线。本文整理了大数据领域入门必学的一些知识点,以及每个知识...
  • kafka在大数据架构应用很广,在大数据领域,特别是实时处理,由于数据量大,QPS高,在架构设计,都会采用kafka结合应用,用kafka暂存大量数据,然后业务端才会接入kafka开始处理业务逻辑,那kafka有哪些优点: ...
  • 来源:DatawhaleRamesh Dontha 曾在 DataConomy 上连发两篇文章,扼要而全面地介绍了关于大数据的 75 个核心术语,这不仅是大数据初学者很好的入门资料,对于高...
  • 5万成员丨CSDN 大数据领域网红社区!

    千次阅读 多人点赞 2021-10-24 17:37:16
    一、社区愿景 我的梦想很大,大到致力于打造大数据领域第一社区,赋能中国技术社区蓬勃发展。 我的“格局”很小,小到每一篇优质文章,都会不吝啬加精,置顶。
  • Zookeeper大数据领域的万金油 就目前我学习到的大数据领域相关的框架而言,zookeeper的身影真可谓无处不在,希望看了我文章的同学,能意识到zookeeper在整个大数据学习中的重要作用,从而认真学习,奥利给!!! 0....
  • OLAP场景下大数据领域技术发展趋势 1 OLAP场景,共同特点: 绝大多数是读请求 数据批次更新,而不是单行更新 已添加到数据库的数据不能修改 对于读取,从数据库中提取相当多的行,但只提取列的一小部分,列存储 宽...
  • 其实简单的来说,大数据就是通过分析和挖掘全量bai的非抽样的数据辅助决策。 大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不...
  • ** “读字节”公众号视频地址:进入大数据领域的学习路线是什么?** ** “读字节-大数据” B站视频地址:进入大数据领域的学习路线是什么?** ** “读字节(大数据)” 知乎视频地址:进入大数据领域的学习路线是什么...
  • 博客文章传送门:LeetCode(数据库)- 报告系统状态的连续日期
  •  互联网、大数据、人工智能,这些耳熟能详的词汇,将紧密和我省的实体经济“深度联姻”。日前,山西省政府办公厅下发《关于深化“互联网+先进制造业”发展工业互联网的实施意见》,提出到2020年,将打造形成低延时...
  • 超过50位国际人工智能领域的学术专家、产业领袖及行业代表,3000多位专业观众参与此次会议。作为中国地区国务院规划发布后所举办的TOP级人工智能行业盛会之一,今年CAIS的主题为“AI赋能,驱动未来”。    除高峰...
  • 众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。...
  • 数之联凭借扎实的技术实力和良好的发展势头,荣获“2021行业信息化大数据领域领军企业”奖项。 本次峰会汇聚了信息化领域内众多的专家大咖、企业代表以及媒体朋友,是知名信息行业交流平台。峰会邀请了中国工程院...
  • 关于Vertectorization哪些是正确的( ) 相对于其他编程模型,sql在大数据领域有哪些好处( ) 哪些部分适合做codegen( ) 关于内存计算描述不正确的有( )
  • 文章大纲1. Data structure2. Algorithm3. Programming Language3.1 JAVA3.2 Python4. Spark4.1 general concepts (optional)4.2 coding challenges5. MISC (Optional)5.1 DBMS5.2 Networking5.3 Operating System...
  • 线上服务领域的应用 摘 要 随着移动互联网对国民经济的不断影响,如今的物流行业也越来越体现标准化,数据化以及智能化。因此将线下商务机会与互联网结合成为了现代人们的一种主流方式。而今年(2020年)又经过一次...
  • 大数据工程师可以选择多种语言学习,其中,Java和Python是...1、Java大数据Java语言应用广泛,可以应用的领域也非常多,有完整的生态体系,另外Java语言的性能也非常不错。Java与大数据的关系非常密切,一方面目前做...
  • ______________________________________________________________________________________________________________精品资料对于大数据的认识和理解这学期选修了网络工程这门课程,当时是抱着扫盲的态度选的这门...
  • Presto我是谁?我从哪里来?要到哪里去? Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to ...
  • HDFS 和 YARN 目前还是大数据领域分布式存储和资源调度系统的事实标准,不过也面临一些挑战。 对 HDFS 而言,在公有云领域,越来越多的大数据应用会选择跳过 HDFS 而直接使用云上的对象存储, 这样比较方便实现计算...
  • 目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。 手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊...
  • 目录 一: HDFS 1.1 分布式文件系统的结构 1.2 分布式系统的目标 1.3HDFS主要组件及功能 1.4 HDFS 体系结构 1.5 HDFS读数据过程 1.6 HDFS写数据过程 二:Hbase 2.1 Hbase介绍 2.2 Hbase产生原因 ...1.5 HD
  • 大数据领域每年都会涌现出大量新的技术,大数据技术可以挖掘出大规模数据中隐藏的信息和知识,为人类社会经济活动提供依据,提高各领域的运行效率,甚至提高整个社会经济的集约化程度,那么大数据技术结构层次包含...
  • 而BI领域作为企业数据建设的排头兵,目前和未来将是怎样的发展态势呢? 这一年来我们走访调研了近百家企业,包括IT、业务管理者和企业高层,前后累计万份调研。 结合我们自身对于行业的洞察以及专业IT机构的指导,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 265,703
精华内容 106,281
关键字:

大数据领域