精华内容
下载资源
问答
  • greenplum

    2020-08-20 11:56:40
    greenplum简介 GreenPlum是面向数据仓库应用的关系型数据库,基于PostgreSQL开发,跟PostgreSQL的兼容性非常好,大部分PostgreSQL客户端工具及PostgreSQL应用都能运行在GreenPlum平台上。想要学习GreenPlum,可以先...

    greenplum简介

     GreenPlum是面向数据仓库应用的关系型数据库,基于PostgreSQL开发,跟PostgreSQL的兼容性非常好,大部分PostgreSQL客户端工具及PostgreSQL应用都能运行在GreenPlum平台上。想要学习GreenPlum,可以先看一看PostgreSQL的资料。

    1.greenplum属于OLAP 

      数据库系统一般分为两种类型:OLTP、OLAP:

      OLTP(On-Line Transaction Processing,联机事务处理)系统:也称为生产系统,它是事件驱动的、面向应用的,比如电子商务网站的交易系统就是一个典型的OLTP系统。

      OLTP的基本特点:

      1.   数据在系统中产生
      2.   基于交易的处理系统(Transaction-Based)
      3.   每次交易牵涉的数据量很小
      4.   对响应时间要求非常高
      5.   用户数量非常庞大,主要是操作人员
      6.   数据库的各种操作主要基于索引进行

      OLAP(On-Line Analytical Processing,联机分析处理)系统:是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。是跨部门的、面向主题的。

      OLAP的基本特点是:

      1.   本身不产生数据,其基础数据来源于生产系统中的操作数据(OperationalData)
      2.   基于查询的分析系统
      3.   复杂查询经常使用夺标联结、全表扫描等,牵涉的数据量往往十分庞大
      4.   响应时间与具体查询有很大关系
      5.   用户数量相对较小,其用户主要是业务人员与管理人员
      6.   优于业务问题不固定,数据库的各种操作不能完全基于索引进行

    2.丰富的特性

    如果想在数据仓库中快速查询结果,可以使用greenplum。

    Greenplum数据库也简称GPDB。它拥有丰富的特性:

    第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。

    第二,支持分布式事务,支持ACID。保证数据的强一致性。

    第三,做为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的GPDB集群都有很多案例。

    第四,GPDB是企业级数据库产品,全球有上千个集群在不同客户的生产环境运行。这些集群为全球很多大的金融、政府、物流、零售等公司的关键业务提供服务。

    第五,GPDB是Greenplum(现在的Pivotal)公司十多年研发投入的结果。GPDB基于PostgreSQL 8.2,PostgreSQL 8.2有大约80万行源代码,而GPDB现在有130万行源码。相比PostgreSQL 8.2,增加了约50万行的源代码。

    第六,Greenplum有很多合作伙伴,GPDB有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。

    3.greenplum起源

    Greenplum最早是在10多年前(大约在2002年)出现的,基本上和Hadoop是同一时期(Hadoop 约是2004年前后,早期的Nutch可追溯到2002年)。当时的背景是:

    • 互联网行业经过之前近10年的由慢到快的发展,累积了大量信息和数据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场计算方式的革命;
    • 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也难于满足数据计算性能指标,传统主机的Scale-up模式遇到了瓶颈,SMP(对称多处理)架构难于扩展,并且在CPU计算和IO吞吐上不能满足海量数据的计算需求;
    • 分布式存储和分布式计算理论刚刚被提出来,Google的两篇著名论文发表后引起业界的关注,一篇是关于GFS分布式文件系统,另外一篇是关于MapReduce 并行计算框架的理论,分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。

    下图就是GFS的架构

    image

    4.greenplum总体架构

    1.greenplum的总体架构如下:

    image

      数据库由Master Severs和Segment Severs通过Interconnect互联组成。

     

    • Master节点:是整个系统的控制中心和对外的服务接入点,它负责接收用户SQL请求,将SQL生成查询计划并进行并行处理优化,然后将查询计划分配(dispatch)到所有的Segment节点进行并行处理,协调组织各个Segment节点按照查询计划一步一步地进行并行处理,最后获取到Segment的计算结果,再返回给客户端;从用户的角度看Greenplum集群,看到的只是Master节点,无需关心集群内部的机制,所有的并行处理都是在Master控制下自动完成的。Master节点一般只有一个或两个(互为备份);
    • Segment节点:是Greenplum执行并行任务的并行运算节点,它接收Master的指令进行MPP并行计算,因此所有Segment节点的计算性能总和就是整个集群的性能,通过增加Segment节点,可以线性化得增加集群的处理性能和存储容量,Segment节点可以是1~10000个节点;
    • Interconnect:是Master节点与Segment节点、Segment节点与Segment节点之间的数据传输组件,它基于千兆交换机或万兆交换机实现数据在节点间的高速传输;
    • 外部数据加载到Greenplum时,采用并行数据流进行加载,直接加载到Segment节点,这项独特的技术是Greenplum的专有技术,以此保证外部数据在最短时间内加载到数据库中。

         简单来说

    Master主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计划向Segment的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字典。  

    Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。 

        2.基本体系架构

    image

    master节点,可以做成高可用的架构

    image

    master node高可用,类似于hadoop的namenode和second namenode,实现主备的高可用。

    image

    segments节点

    image

    3.无共享/MPP核心架构

        Greenplum数据库软件将数据平均分布到系统的所有节点服务器上,所以节点存储每张表或表分区的部分行,所有数据加载和查询都是自动在各个节点服务器上并行运行,并且该架构支持扩展到上万个节点。

    image

    5.并行管理

    对于数据的装载和性能监控。

    image

    并行备份和恢复。

    image

    数据访问流程,数据分布到不同颜色的节点上

    image

    查询流程分为查询创建和查询分发,计算后将结果返回。

    image

    对于存储,将存储的内容分布到各个结点上。

    image

    对于数据的分布,分为hash分布和随机分布两种。

    image

    均匀分布的情况:

    image

    6.混合的存储和执行(按列或按行)

        Greenplum发明支持混合按列或按行存储数据,每张表或表分区可以由管理员根据应用需要,分别指定存储和压缩方式。基于这个功能,用户可以对任何表或表分区选择按行或按列存储数据和处理方式。这些是在建表或表分区的DDL语句中配置的,只需在建表或表分区时指定。这个功能基于Greenplum的多态维数据存储技术。

        Master和Segment都是一个单独的PostgreSQL数据库。每一个都有自己单独的一套元数据字典。

        Master节点一般也叫主节点,Segment叫做数据节点。

        为了实现高可用,每个Segment都有对应的备节点 Mirror Segment分别存在与不同的机器上。

        Client一般只能与Master节点进行交互,Client将SQL发给Master,然后Master对SQL进行分析后再将其分配给所有的Segment进行操作。

        Greenplum没有Windows版本,只能安装在类UNIX的操作系统上。

        Greenplumn极度消耗I/O资源,所以对存储的要求比较高。

    展开全文
  • GreenPlum

    千次阅读 2017-11-19 15:43:27
    GreenPlum关系型数据库集群预研以及与Hadoop的比较 第二部分借鉴了网上的资料,感谢原作者!

    GreenPlum

    关系型数据库集群,由数个独立的非共享的数据库服务组成的逻辑数据库;基于postgresql,采用MPP(massive parallel processing 大规模并行处理系统)架构。

    • 分布式关系型MPP数据库集群

    • 支持PB级别海量数据存储和处理

    • 主要面向结构化数据、定位服务于OLAP,大数据计算或分析平台,不擅长做OLTP

    • 性能好、数据导入高效、开源、随着硬件的增加性能呈线性增长

    • 运维系统完善方便用户使用

    • 查询计划、并行执行


    GreenPlum适用场景

    Greenplum最大的特点总结就一句话:基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力,是对大任务、复杂任务的快速高效计算,但如果你指望MPP并行数据库能够像OLTP数据库一样,在极短的时间处理大量的并发小任务,这个并非MPP数据库所长。请牢记,并行和并发是两个完全不同的概念,MPP数据库是为了解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求。

    再通俗点说,Greenplum主要定位在OLAP领域,利用Greenplum MPP数据库做大数据计算或分析平台非常适合,例如:数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、移动信令分析系统、SANDBOX自助分析沙箱、数据集市等等。

    而MPP数据库都不擅长做OLTP交易系统,所谓交易系统,就是高频的交易型小规模数据插入、修改、删除,每次事务处理的数据量不大,但每秒钟都会发生几十次甚至几百次以上交易型事务 ,这类系统的衡量指标是TPS,适用的系统是OLTP数据库或类似Gemfire的内存数据库。


    与Hadoop比较

    MPP和Hadoop都是为了解决大规模数据的并行计算而出现的技术,两种技术的相似点在于:

    • 分布式存储数据在多个节点服务器上

    • 采用分布式并行计算框架

    • 支持横向扩展来提高整体的计算能力和存储容量

    • 都支持X86开放集群架构

    但两种技术在数据存储和计算方法上,也存在很多显而易见的差异:

    • MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式)

    • 两者采用的数据分布机制不同,MPP采用Hash分布,计算节点和存储紧密耦合,数据分布粒度在记录级的更小粒度(一般在1k以下);Hadoop FS按照文件切块后随机分配,节点和数据无耦合,数据分布粒度在文件块级(缺省64MB)。这一点Hbase好像支持对rowkey进行hash分布吧。

    • MPP采用SQL并行查询计划,Hadoop采用Mapreduce框架。后续也有sql on hadoop、sparkSQL出现。

    基于以上不同,体现在效率、功能等特性方面也大不相同:

    1 计算效率比较

    Mapreduce相比而言是一种较为蛮力计算方式(业内曾经甚至有声音质疑MapReduce是反潮流的),数据处理过程分成Map-〉Shuffle-〉Reduce的过程,相比MPP数据库并行计算而言,Mapreduce的数据在计算前未经整理和组织(只是做了简单数据分块,数据无模式),而MPP预先会把数据有效的组织(有模式),例如:行列表关系、Hash分布、索引、分区、列存储等、统计信息收集等,这就决定了在计算过程中效率大为不同(个人认为mapreduce对内存占用、资源占用率低、容错性好,稳定性高、适合处理大规模集群下的离线数据挖掘和计算任务)

    MAP效率对比

    • Hadoop的MAP阶段需要对数据的再解析,而MPP数据库直接取行列表,效率高

    • Hadoop按照64MB分拆文件,而且数据不能保证在所有节点均匀分布,因此MAP过程的并行化程度低;MPP数据库按照数据记录拆分和Hash分布,粒度更细,数据分布在所有节点中非常均匀,并行化程度很高

    • Hadoop HDFS没有灵活的索引、分区、列存储等技术支持,而MPP通常利用这些技术大幅提高数据的检索效率;

    Shuffle效率对比:(Hadoop Shuffle 对比MPP计算中的重分布)

    • 由于Hadoop数据与节点的无关性,因此Shuffle是基本避免不了的;而MPP数据库对于相同Hash分布数据不需要重分布,节省大量网络和CPU消耗;

    • Mapreduce没有统计信息,不能做基于cost-base的优化;MPP数据库利用统计信息可以很好的进行并行计算优化,例如,对于不同分布的数据,可以在计算中基于Cost动态的决定最优执行路径,如采用重分布还是小表广播

    Reduce效率对比:(对比于MPP数据库的SQL执行器-executor)

    • Mapreduce缺乏灵活的Join技术支持,MPP数据库可以基于COST来自动选择Hash join、Merger join和Nestloop join,甚至可以在Hash join通过COST选择小表做Hash,在Nestloop Join中选择index提高join性能等等(mapreduce在join这上面似乎真的是软肋,在odps上绝大多数情况下只适合单表分析)

    • MPP数据库对于Aggregation(聚合)提供Multiple-agg、Group-agg、sort-agg等多种技术来提供计算性能,Mapreuce需要开发人员自己实现;

    以阿里云的odps来看,输入输出都是数据仓库中的关系型表格,因此有分区等概念,对比hadoop mapreduce性能有提升。

    另外,Mapreduce在整个MAP->Shuffle->Reduce过程中通过文件来交换数据,效率很低,MapReduce要求每个步骤间的数据都要序列化到磁盘,这意味着MapReduce作业的I/O成本很高,导致交互分析和迭代算法开销很大,MPP数据库采用Pipline方式在内存数据流中处理数据,效率比文件方式高很多。最新版本的odps上的mapreduce支持pipeline模式

    总结以上几点,MPP数据库在计算并行度、计算算法上比Hadoop更加SMART,效率更高;在客户现场的测试对比中,Mapreduce对于单表的计算尚可,但对于复杂查询,如多表关联等,性能很差,性能甚至只有MPP数据库的几十分之一甚至几百分之一。

    2 功能上的对比

    MPP数据库采用SQL作为主要交互式语言,SQL语言简单易学,具有很强数据操纵能力和过程语言的流程控制能力,SQL语言是专门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据的操作和交互过程。

    而对MapReduce编程明显是困难的,在原生的Mapreduce开发框架基础上的开发,需要技术人员谙熟于JAVA开发和并行原理,不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为了解决易用性的问题,近年来SQL-0N-HADOOP技术大量涌现出来,几乎成为当前Hadoop开发使用的一个技术热点趋势。

    这些技术包括:Hive、Pivotal HAWQ、SPARK SQL、Impala、Prest、Drill、Tajo等等很多,这些技术有些是在Mapreduce上做了优化,例如Spark采用内存中的Mapreduce技术,号称性能比基于文件的的Mapreduce提高10倍;有的则采用C/C++语言替代Java语言重构Hadoop和Mapreuce(如MapR公司及国内某知名电商的大数据平台);而有些则直接绕开了Mapreduce另起炉灶,如Impala、hawq采用借鉴MPP计算思想来做查询优化和内存数据Pipeline计算,以此来提高性能。

    虽然SQL-On-Hadoop比原始的Mapreduce虽然在易用上有所提高,但在SQL成熟度和关系分析上目前还与MPP数据库有较大差距:

    • 上述系统,除了HAWQ外,对SQL的支持都非常有限,特别是分析型复杂SQL,如SQL 2003 OLAP WINDOW函数,几乎都不支持,以TPC-DS测试(用于评测决策支持系统(大数据或数据仓库)的标准SQL测试集,99个SQL)为例,包括SPARK、Impala、Hive只支持其中1/3左右;

    • 由于HADOOP 本身Append-only特性,SQL-On-Hadoop大多不支持数据局部更新和删除功能(update/delete);而有些,例如Spark计算时,需要预先将数据装载到DataFrames模型中;

    • 基本上都缺少索引和存储过程等等特征

    • 除HAWQ外,大多对于ODBC/JDBC/DBI/OLEDB/.NET接口的支持有限,与主流第三方BI报表工具兼容性不如MPP数据库

    • SQL-ON-HADOOP不擅长于交互式(interactive)的Ad-hoc查询,多通过预关联的方式来规避这个问题;另外,在并发处理方面能力较弱,高并发场景下,需要控制计算请求的并发度,避免资源过载导致的稳定性问题和性能下降问题;

    3 架构灵活性对比

    前文提到,为保证数据的高性能计算,MPP数据库节点和数据之间是紧耦合的,相反,Hadoop的节点和数据是没有耦合关系的。这就决定了Hadoop的架构更加灵活-存储节点和计算节点的无关性,这体现在以下2个方面:

    扩展性方面

    • Hadoop架构支持单独增加数据节点或计算节点,依托于Hadoop的SQL-ON-HADOOP系统,例如HAWQ、SPARK均可单独增加计算层的节点或数据层的HDFS存储节点,HDFS数据存储对计算层来说是透明的;

    • MPP数据库扩展时,一般情况下是计算节点和数据节点一起增加的,在增加节点后,需要对数据做重分布才能保证数据与节点的紧耦合(重新hash数据),进而保证系统的性能;Hadoop在增加存储层节点后,虽然也需要Rebalance数据,但相较MPP而言,不是那么紧迫。

    节点退服方面

    • Hadoop节点宕机退服,对系统的影响较小,并且系统会自动将数据在其它节点扩充到3份;MPP数据库节点宕机时,系统的性能损耗大于Hadoop节点。

    Pivotal将GPDB 的MPP技术与Hadoop分布式存储技术结合,推出了HAWQ高级数据分析软件系统,实现了Hadoop上的SQL-on-HADOOP,与其它的SQL-on-HADOOP系统不同,HAWQ支持完全的SQL语法 和SQL 2003 OLAP 语法及Cost-Base的算法优化,让用户就像使用关系型数据库一样使用Hadoop。底层存储采用HDFS,HAWQ实现了计算节点和HDFS数据节点的解耦,采用MR2.0的YARN来进行资源调度,同时具有Hadoop的灵活伸缩的架构特性和MPP的高效能计算能力.

    当然,有得也有所失,HAWQ的架构比Greenplum MPP数据库灵活,在获得架构优越性的同时,其性能比Greenplum MPP数据库要低一倍左右,但得益于MPP算法的红利,HAWQ性能仍大幅高于其它的基于MapReduce的SQL-on-HADOOP系统。

    4 Hadoop和MPP如何选择

    总结一下,Hadoop MapReduce和SQL-on-HADOOP技术目前都还不够成熟,性能和功能上都有很多待提升的空间,相比之下,MPP数据在数据处理上更加SMART,要填平或缩小与MPP数据库之间的性能和功能上的GAP,Hadoop还有很长的一段路要走。

    就目前来看,个人认为这两个系统都有其适用的场景,简单来说,如果你的数据需要频繁的被计算和统计、并且你希望具有更好的SQL交互式支持和更快计算性能及复杂SQL语法的支持,那么你应该选择MPP数据库,SQL-on-Hadoop技术还没有Ready。特别如数据仓库、集市、ODS、交互式分析数据平台等系统,MPP数据库有明显的优势。

    而如果你的数据加载后只会被用于读取少数次的任务和用于少数次的访问,而且主要用于Batch(不需要交互式),对计算性能不是很敏感,那Hadoop也是不错的选择,因为Hadoop不需要你花费较多的精力来模式化你的数据,节省数据模型设计和数据加载设计方面的投入。这些系统包括:历史数据系统、ETL临时数据区、数据交换平台等等。如果涉及到复杂的数据挖掘分析、一些SQL解决不了的问题、在多用户平台上考虑代码安全性等情况下时,可以采用mapreduce编码的形式来解决,对于机器学习、深度学习算法的支持等了解不深,二者的差异暂时不清楚。

    最后,提一下,Greenplum MPP数据库支持用“Hadoop外部表”方式来访问、加载Hadoop FS的数据,虽然Greenplum的Hadoop外部表性能大幅低于MPP内部表,但比Hadoop 自身的HIVE要高很多(在某金融客户的测试结果,比HIVE高8倍左右),因此可以考虑在项目中同时部署MPP数据库和Hadoop,MPP用于交互式高性能分析,Hadoop用于数据Staging、MPP的数据备份或一些ETL batch的数据清洗任务,两者相辅相成,在各自最擅长的场景中发挥其特性和优势。

    车辆大数据2.0选型问题

    车辆大数据2.0在开发早期选型是以mpp为底层引擎,python编写UDF形式实现数据挖掘算子,主要面临的问题是:

    • 不支持python所依赖的第三方库
    • 复杂的算子利用SQL解决较困难,例如涉及到过程存储等等
    • 对于mapreduce框架机制不熟悉,难以在GreenPlum上实施

    最终改成用spark作为底层引擎,mpp做数据ETL。

    展开全文
  • Greenplum

    2013-03-30 22:48:02
    Greenplum是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司,在全球已有:纳斯达克,纽约证券交易所,Skype. ...
    Greenplum是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司,在全球已有:纳斯达克纽约证券交易所Skype. FOX,T-Mobile;中国已有:中信实业银行东方航空公司阿里巴巴华泰保险中国远洋(Cosco),李宁公司等大型企业用户选择Greenplum的产品。
    greenplum

      greenplum

    MPP 系统!
    Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。当前使用的 OLTP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那采用MPP系统就要好,相反就不合适了。
    名字来源呢
    Greenplum的大中华区总裁Stanley Chen告诉我们:“Greenplum这个名字是一个7岁小女孩无意中脱口而出的。”起初几个创始人在斟酌公司名字的时候都很没头绪,于是他们去问了朋友的孩子,一个年仅7岁的可爱小姑娘告诉他们叫“Apple”,但是爸爸告诉她,这个名字已经被别人用了,还有其他的么?很快孩子变随口说了“Greenplum”,于是“Greenplum”公司的名字就这样诞生了。

    编辑本段中国运营

    Greenplum2008年12月进入中国市场,经过一年多的开拓,2010年1月1日Greenplum正式宣布在中国独立运营,并任命Stanley Chew先生为Greenplum大中华区总裁职务,Stanley Chew先生在IT行业从业25年以上,曾在Oracle公司工作16年担任亚太区副总裁。Stanley Chew总裁将管理和运营Greenplum在大中华区的业务,Greenplum公司将为大中华区的企业级用户提供世界领先的数据仓库解决方案和服务。Greenplum中国迅速而高效的适应能力已经彰显了其卓越的实力,宣布在中国的独立运营展示了Greenplum中国市场的信心,也体现了Greenplum描绘中国市场宏伟蓝图的决心,也预示着新一代超级数据引擎Greenplum在中国市场的无限前景。[1]

    编辑本段目标宗旨

    公司专注OLAP系统数据引擎开发,有世界级的研发团队进行高性能计算和数据库系统的前沿开发工作,宗旨是向客户提供高性能的超级数据引擎,并将强大的并行计算能力融入到大规模数据仓库分析领域中。公司具有发展趋势超前的视野和洞察力,为全球很多最大规模的数据仓库提供推动力;公司最先将SQL和Map Reduce的功能整合到统一的数据处理框架中。
    Greenplum中国公司拥有一支具备丰富行业经验的销售和技术团队,具备金融、电信、政府、互联网等等行业的数据仓库项目行业经验,专注于推动Greenplum在数据仓库分析领域的应用,为客户实现投资回报、价值增长。

    编辑本段软件优势

    数据存储

    当今是个数据不断膨胀的时代,数据量从过去的MB->GB->TB增长到现在的PB级数据规模,传统的OLTP数据库在TB级别以上数据管理中已经是捉襟见肘,采取MPP架构的数据库系统才能对海量数据进行管理。
    Greenplum支持50PB(1PB=1000TB)级海量数据的存储和处理,Greenplum将来自不同源系统的、不同部门、不同平台的数据集成数据库中集中存放,并且存放详尽历史的数据轨迹,业务用户不用再面对一个又一个信息孤岛,也不再困惑于不同版本数据导致的偏差,同时对于IT人员也降低管理维护工作的复杂度。

    高并发

    随着商业智能在企业内的快速发展,BI 用户对信息分析平台的访问频率和查询复杂度也快速提升,因此要求相应的数据库系统对高并发查询进行支持。Greenplum利用强大并行处理能力提供并发支持。
    Greenplum提供资源管理功能(workload managemnt)来管理数据库资源,利用资源队列管理可实现按用户组的进行资源分配,如Session同时激活数、最大资源值等。通过资源管理功能,可以按用户级别进行资源分配和管理用户SQL查询优先级别,同时也能防止低质量SQL(如没有条件的多表join等)对系统资源的消耗。

    线性扩展

    Greenplum采用MPP并行处理架构,在MPP架构中增加节点就可以线性提高系统的存储容量和处理能力。Greenplum在扩展节点时操作简单,在很短时间内就能完成数据的重新分布。
    Greenplum线性扩展支持为数据分析系统将来的拓展给予了技术上的保障,用户可根据实施需要进行容量和性能的扩展。

    高性价比

    Greenplum数据库软件系统节点基于业界各种开放式硬件平台,如SUN/HP/DELL等厂商的PC Server等,在普通的x86 Server上就能达到很高的性能,因此性价比很高,相比于其他封闭式数据仓库专用系统,Greenplum每TB的投资是前者的1/5甚至更低。同样,Greenplum产品的维护成本相比同类厂商也低许多。

    反应速度

    我们面对的是一个瞬息变化的市场,谁能首先感知到市场的需求和变化,就能在竞争中先行一步,获得主动权,在竞争中立于不败之地
    Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库(ADW)。基于动态数据仓库,业务用户能对当前业务数据进行BI实时分析-“Just In Time BI”,能够让企业敏锐感知市场的变化,加快决策支持反应速度。

    高可用性

    Greenplum是高可用的系统,在已有案例中最多使用了96台机器的集群MPP环境。除了硬件级的Raid技术外,Greenplum还提供数据库Mirror机制保护,即每个节点数据在另外的节点中同步镜像,单个节点的错误不影响整个系统的使用。
    对于主节点,Greenplum提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务。

    系统易用

    Greenplum产品是基于流行的PosgreSQL之上开发,几乎所有的PostgreSQL客户端工具及PostgreSQL应用都能运行在Greenplum平台上,在Internet上有着丰富的PostgreSQL资源供用户参考。
    最新进展
    Greenplum 被EMC公司收购,将其整合到EMC 云计算战略中。
    展开全文
  • greenplum资料

    2018-12-11 12:03:00
    greenplum工具书,较详细记录greenplum的特点,适用于初学者和工作中查阅
  • Greenplum手册

    2018-07-31 14:57:24
    Greenplum手册, 有安装和维护,很详细,希望能够帮助大家,Greenplum手册, 有安装和维护,很详细,希望能够帮助大家,请大家自行下载。
  • greenplum 5.11.1

    2018-09-27 15:52:57
    最新版greenplum数据库下载,最好用的mpp数据库。欢迎大家下载
  • greenplum 教程

    2016-03-11 17:03:56
    greenplum 的安装 使用,详解 psql的使用 greenplum 的架构等
  • Greenplum分布式数据库

    2019-09-29 13:39:46
    Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL数据库实例,它们共同作为一个有凝聚力的数据库管理系统(DBMS)。它基于PostgreSQL 8.2.15,在大多数情况下与PostgreSQL在SQL支持,功能,配置...
  • greenplum.zip

    2020-10-22 19:05:27
    greenplum6.1.0以及greenplum-cc-web6.1.0 for rhel7,包含 greenplum-cc-web-6.0.0-rhel7_x86_64.zip greenplum-db-6.1.0-rhel7-x86_64.rpm
  • greenplum监控台greenplum-cc-web,版本3.3.0,安装后可以监控greenplum
  • greenplum安装包

    2017-11-09 11:29:48
    greenplum安装包免费下载,centos6.5亲测可用。。。。
  • greenplum6.7安装包

    2020-06-04 14:22:17
    greenplum6.7安装包
  • Greenplum基本介绍

    2021-02-24 02:16:41
    本篇文章将为大家讲解了greenplum是什么,它的特性有什么,greenplum起源、greenplum总体架构、并行管理以及混合的存储和执行(按列或按行)。本文来自于博客园,由火龙果软件Anna编辑、推荐。GreenPlum是面向数据...
  • Greenplum support

    2020-12-29 06:31:00
    <div><p>The Greenplum is using PG, is it supported ? https://greenplum.org/</p><p>该提问来源于开源项目:eclipse-vertx/vertx-sql-client</p></div>
  • Greenplum| Greenplum汇总

    2019-02-23 20:27:25
    Greenplum支持50PB(1PB=1024TB)级海量数据的存储和处理,Greenplum将来自不同源系统的、不同部门、不同平台的数据集成到数据库中集中存放,并且存放详尽历史的数据轨迹,业务用户不用再面对一个又一个信息孤岛,也...

    简介:
    Greenplum支持50PB(1PB=1024TB)级海量数据的存储和处理,Greenplum将来自不同源系统的、不同部门、不同平台的数据集成到数据库中集中存放,并且存放详尽历史的数据轨迹,业务用户不用再面对一个又一个信息孤岛,也不再困惑于不同版本数据导致的偏差,同时对于IT人员也降低管理维护工作的复杂度。


    作者:YvesHe
    来源:CSDN
    原文:https://blog.csdn.net/u011479200/article/details/87896685
    版权声明:本文为博主原创文章,转载请附上博文链接!

    展开全文
  • GreenPlum使用手册

    2019-10-22 15:59:59
    GreenPlum使用手册
  • greenplum-database

    2018-08-28 17:41:59
    greenplum database
  • greenplum jdbc驱动

    2020-12-11 11:57:45
    greenplum 数据库 jdbc 驱动,自己项目一直在使用,版本是5.1.4,在greenplum官网未找到驱动下载资源
  • 小白快速入门greenplum

    2020-02-19 10:03:36
    数据时代的到来,数据分析业务越来越吃香,分析型MPP数据库-greenplum由开源大佬-pivotal出品(java中出品spring、springboot、springcloud等产品公司),greenplum简单来说也是"系出名门",作OLAP非常适合,效率...
  • Greenplum JDBC驱动文件(greenplum_jdbc_5.1.4.jar),官方下载,已在实际项目中使用。Postgresql的JDBC驱动也可用于访问Greenplum数据库,但部分接口会报错,建议使用此版本。
  • Greenplum详解

    千次阅读 2018-04-11 10:47:14
    一、Greenplum的发展历史Greenplum的发展可以分为下面6个阶段:图 1 Greenplum时间线Postgres关系型数据库。Postgres是UC Berkeley开发的关系型数据库,现已更名为PostgreSQL。PostgerSQL官网介绍自己是最先进的...
  • greenplum5.9.0安装包,greenplum-cc-web安装包,greenplum-cc-web-4.2.0-LINUX-x86_64.zip,greenplum-db-5.9.0-rhel6-x86_64.zip
  • 使用jdbc连接greenplum database所需要的依赖jar包。
  • Greenplum介绍

    万次阅读 多人点赞 2018-01-08 15:10:33
    一、Greenplum的发展历史 Greenplum的发展可以分为下面6个阶段: 图 1 Greenplum时间线 Postgres关系型数据库。Postgres是UC Berkeley开发的关系型数据库,现已更名为PostgreSQL。PostgerSQL官网介绍自己是最...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,057
精华内容 4,022
关键字:

greenplum