精华内容
下载资源
问答
  • 技术选型上实时计算、消息队列都有最优解,唯独在OLAP领域,百家争鸣,各有所长。大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse、Greeplum等等。我们就各个常用...
  • 记忆中的奥普拉(Olap) 内存中的Olap是一个库,用于在不依赖数据库的情况下操作OLAP多维数据集。 IT支持: 存储和计算的度量 所有OLAP操作(切片,骰子,向上钻取,向下钻取...) 不同的聚合/插值操作 尺寸属性...
  • olap4j-tck-1.1.0.jar

    2020-09-27 13:47:25
    olap4j-tck-1.1.0.jar
  • olap4j-0.9.7.309-JS-3.jar maven中央仓库下载不到 下载之后再maven的bin目录下使用mvn命令:mvn install:install-file -Dfile=F:\apache-maven-3.5.3\mylib\olap4j-0.9.7.309-JS-3.jar -DgroupId=org.olap4j -...
  • olap4j-0.9.7.309-JS-3.jar 29-Apr-2013 11:12 434.91 KB olap4j-0.9.7.309-JS-3.pom 29-Apr-2013 11:12 397 bytes
  • olap4j-xmla-1.1.0.jar

    2020-09-27 13:48:16
    olap4j-xmla-1.1.0.jar
  • Druid:为OLAP而生,多快好省高。 • 多,可以处理海量的数据, Druid官网说可以扩展到PB级,这个量非常大。 • 快,亚秒级响应,官网说10亿量级下做到亚秒响应,我们实际应用也是亚秒响应,实时导入,导入即可查询...
  • OLAP4J一个类似于JDBC驱动,能够用于访问任何OLAP服务器的Java公共类包。所以你可以开发一个应用程序来实现一个OLAP服务器与另一个服务器的交互。
  • 当项目中加载这个jasperreports-chart-themes-5.2.0.jar包时,会默认加载olap4j-0.9.7.309-JS-3.jar包,maven中央库中没有些包,只需下载些包,执行mvn install:install-file -Dfile=D:\olap4j-0.9.7.309-JS-3.jar -...
  • olap4j-0.9.7.309-JS-3.zip

    2019-12-10 15:27:29
    maven不支持的下载的jar,下载后本地执行mvn install:install-file -Dfile=D:\softwares\常用工具软件\自定义报表工具\olap4j-0.9.7.309-JS-3\mylib\olap4j-0.9.7.309-JS-3.jar -DgroupId=org.olap4j -DartifactId=...
  • OlaPy,基于Pandas的实验性OLAP引擎 关于 OlaPy是基于Python的引擎,它为您提供了一组工具,用于开发报告和分析应用程序,进行多维分析以及在和支持下浏览聚合数据。 地位 该项目目前是研究原型,不适合生产使用。 ...
  • 下载之后再maven的bin目录下使用mvn命令:mvn install:install-file -Dfile=F:\apache-maven-3.5.3\mylib\olap4j-0.9.7.309-JS-3.jar -DgroupId=org.olap4j -DartifactId=olap4j-0.9.7.309-JS-3 -Dversion=0.9.7.309...
  • 大数据分析,OLAP体系
  • OLAP.js 用于浏览器和Node.jsJavaScript在线分析处理服务器和库 (c)2015年Andrey Gershun( ) 工作正在进行中! Express OLAP服务器 var olap = require ( 'olap' ) ; olap . xmla ( ) ; olap olap . ...
  • olap4j-0.9.7.309-JS-3.jar及其pom坐标 1. olap4j-0.9.7.309-JS-3.jar 2. olap4j-0.9.7.309-JS-3.pom
  • 优化在线分析处理的性能是非常重要的,幸运的是,一些工具可以帮助监测和改善OLAP数据库的运行。 微软SQLServer分析服务(SSAS)提供了一个用来创建和管理数据挖掘应用和在线分析处理系统的强大引擎,为了取得最佳的...
  • olap4j-0.9.7.309-JS-3.jar

    2019-01-23 10:33:40
    olap4j-0.9.7.309-JS-3.jar maven中央仓库下载不到 网上找了很久
  • 数据仓库中多维数据立方计算对联机分析有着极为重要的作用,完全实例化的数据立方体上进行查询是非常...本文提出基于语义OLAP的Dwarf算法的频繁访问I/O问题提出了一个优化算法。实验表明,新的算法提高效率在10%以上。
  • olap4j 0.9.7.309-JS-3 jar包

    2018-08-20 14:17:23
    olap4j 0.9.7.309-JS-3 jar包网上很难找到的,我是因为公司新项目用到了这个jar包,现在分享出来
  • OLAP(On Line Analysis Processing)是数据仓库的典型应用,在数据仓库中频繁并发地执行涉及较大数据量的OLAP查询时,其查询处理效率易于逐渐降低。缓存技术是一种有效降低OLAP查询处理延时的方法。在现有的缓存数据...
  • OLAP

    2021-04-06 00:41:58
    大数据OLAP系统-概念 大数据OLAP系统-开源组件 OLAP概念 OLAP(联机分析处理)。OLAP对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模能力。多维数据模型使用户能够更直接,更直观地处理数据,包括...

    主要参考文档:
    大数据OLAP系统-概念
    大数据OLAP系统-开源组件

    OLAP概念

    OLAP(联机分析处理)。OLAP对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模能力。多维数据模型使用户能够更直接,更直观地处理数据,包括“分片和分块”。
    主要用于支持企业决策管理分析:业务其实是一个多维活动,企业通过考虑许多变量来跟踪其业务活动。例如一个业务至少要考虑以下方面:客户,地点,期间,销售人员和产品,而通过OLAP,可以使最终用户从多个维度对数据进行分析。
    维度:维度是描述与业务主题相关的一组属性,单个属性或属性集合可以构成一个维。如时间、空间、年龄、性别等都是维度。
    OLAP的操作是以查询为主,通过大量的预处理可以快速进行复杂查询。

    OLAP分类

    分类:按数据存储方式分类,可分为MOLAP、ROLAP、HOLAP
    1.MOLAP
    MOLAP是OLAP的经典形式。MOLAP存储方式:将数据存储在优化的多维数组中,而不是关系数据库中。维的属性值被映射成多维数据的下标值或下标的范围,而度量数据作为多维数组的值存储在数组的单元中。
    优点:对给定范围的问题的查询的响应非常快
    缺点:1.因为需要对数据进行与计算和存储,更新可能需要很长的时间2.预计算也可能导致所谓的数据爆炸3.查询局限于多维数据集的内容
    2.ROLAP
    ROLAP将分析用的多维数据存储在关系数据库中,本质是通过sql语句实现OLAP的切片和切块功能。ROLAP工具不使用预先计算的多维数据集,而是对标准关系数据库及其表进行查询,以获取回答问题所需的数据
    优点:具有询问任何问题的能力
    缺点:数据库需要针对ROLAP进行相应优化,比如并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引,sql的OLAP拓展(cube,rollup等)。专为OLTP设计的数据库不能像ROLAP数据库一样正常工作。
    3.HOLAP
    由于MOLAP和ROLAP有格子的优缺点,因为提出一个新的结构:HOLAP(混合型)
    这种工具通过允许同时使用多维数据库(MDDB)和关系数据库(RDBMS)作为数据存储来弥合这两种产品的技术差距,允许模型设计者根据具体需要选择将数据存储在MDDB或是RDBMS中。
    4.MOLAP和ROLAP的区别
    MOLAP采用了专为OLAP设计和优化的存储结构,支持多维索引和缓存,从物理层实现;而ROLAP主要是通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构。

    OLAP系统开源组件

    开源OLAP组件

    1.MPP数据库是个完整的数据库,通常数据需要导入其中才能完成OLAP功能。MPP数据库在数据入库时对数据分布可以做优化,虽然入库效率有一定下降,但是对后期查询性能的提高有很大帮助。MPP数据库可以提供灵活的即席查询能力,但一般对查询数据量有一定限制,无法支撑特别大的数据量的查询。
    2.SQL引擎只提供SQL执行的能力,本身一般不负责数据存储,通常可以对接多种数据储存,如HDFS、HBase、MySQL等。有的还支持联邦查询能力,可以对多个异构数据源进行联合分析。SQL引擎中,基于MPP架构的SQL引擎,一般对在线查询场景有特殊优化,所以端到端查询性能一般要高于基于通用计算框架的SQL引擎;但是在容错性能和数据量方面又会逊于基于通用计算框架的SQL引擎。

    Apache Hive

    Hive的运行原理,是将HQL(类SQL语法)转化成MapReduce进行执行,本质上来说,就是一款基于HDFS的MapReduce计算框架,使用HQL就可以对存储数据进行分析。作为Hadoop的数据仓库工具,Hive在大规模的数据分析处理上非常有优势。
    优点:支持SQL语法、拓展性强(底层基于HDFS)
    缺点:底层需要转换为MapReduce任务执行,所以延迟性比较高,所以通常来说,Hive更适合数据仓库的统计分析。

    ClickHouse

    ClickHouse是俄罗斯开源的一款列式存储数据库,在做数据分析时可直接选择某几列来作为分析属性,获取数据非常快,延迟低。在计算层,ClickHouse提供了多核并行、分布式计算、近似计算、复杂数据类型支持等技术能力。
    适用场景:1.日志数据行为分析2.标签画像的分析3.数据集市分层4.广告系统和实时竞价广告5.电商和金融行业6.实时监控和遥感测量7.商业智能8.在线游戏9.信息安全
    不适用场景:1.事务性工作(OLTP)2.高并发的键值访问3.文档存储4.超标准化的数据
    特性:
    1.真正的列式数据库
    2.数据压缩
    3.数据的磁盘存储
    4.多核并行处理
    5.多服务器分布式处理(数据保存在不同的shard(分片)上,每一个shard都由一组用于容错的副本组成,可并行查询所有shard)
    6.向量引擎(按列的一部分进行处理,高校实用CPU)
    7.实时的数据更新(支持在表中定义组件,数据增量有序存储在mergeTree中)
    8.索引(按照主键对数据进行排序,毫秒内完成对数据的查找)
    9.适合在线查询
    10.支持近似运算(允许牺牲精度的情况下低延迟查询)
    11.支持数据复制和数据完整性(使用异步多主复制技术。写入任何可用的复本后,数据将分发到所有剩余的副本。系统在不同的副本上保持相同的数据。数据在失败后自动恢复)
    缺点:
    1.没有完整的事物支持
    2.缺少完整Update/Delete操作,缺少高频率、低延迟的修改或删除以存在数据的能力,仅用于批量删除或修改数据
    3.聚合结果必须小于一台机器的内存大小
    4.不适合Key-Value存储,不支持Blob等文档型数据库
    ClickHouse作为目前所有开源MPP计算框架中计算速度最快的,它在做多列的表,同时行数很多的表的查询时,性能非常快;但是在做多表的join时,它的性能是不如单宽表查询的。

    展开全文
  • 通过运用DW(数据仓库)和OLAP(在线分析处理)等新技术,结合决策支持系统和证券分析模型的基本理论,为券商设计了一个基于数据仓库的证券分析OLAP系统,辅助公司管理者进行决策,并通过该系统为客户提供更高质量的
  • 2018大数据直播活动梓澈的QuickBI的OLAP引擎技术原理的 PPT
  • 初步了解OLAP

    2018-10-07 17:42:04
    OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察
  • OLTP和OLAP的区别

    2016-08-18 06:51:20
    当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)
  • 用于Pentaho CE的OpenI插件提供了一个简单干净的用户界面,以可视化OLAP多维数据集中的数据。 它支持直接Mondrian和基于xmla的连接,例如Microsoft SQL Server Analysis Services(SSAS),并提供附加功能,例如...
  • Apache Kylin大数据OLAP利器.pdf;Apache Kylin大数据OLAP利器.pdf
  • 如果你想利用SQLServer进行 OLAP实验,下载本资源就没有错,压缩包内部含数据备份文件,主要是讲解使用SQLServer 创建数据仓库,并进行OLAP分析操作,建立数据挖掘模型的过程
  • Postgres中国技术大会2018(大象汇,第8届)16日分会场2 PPT 主要章节:
  • OLAP组件选型

    2021-08-19 11:01:42
    OLAP组件选型一、OLAP简介1、olap准则2、OLAP场景的关键特征3、与oltp比较二、开源引擎1、Hive2、spark SQL3、presto4、kylin5、impala6、druid7、Greeplum8、clickhouse三、选型要求1、实时性要求较高,对接kafka,...

    一、OLAP简介

    说起 OLAP 要追溯到 1993 年。

    1、olap准则

    • 准则1 OLAP模型必须提供多维概念视图
    • 准则2 透明性准则
    • 准则3 存取能力准则
    • 准则4 稳定的报表能力
    • 准则5 客户/服务器体系结构
    • 准则6 维的等同性准则
    • 准则7 动态的稀疏矩阵处理准则
    • 准则8 多用户支持能力准则
    • 准则9 非受限的跨维操作
    • 准则10 直观的数据操纵
    • 准则11 灵活的报表生成
    • 准则12 不受限的维与聚集层次

    2、OLAP场景的关键特征

    • 大多数是读请求
    • 数据总是以相当大的批(> 1000 rows)进行写入
    • 不修改已添加的数据
    • 每次查询都从数据库中读取大量的行,但是同时又仅需要少量的列
    • 宽表,即每个表包含着大量的列
    • 较少的查询(通常每台服务器每秒数百个查询或更少)
    • 对于简单查询,允许延迟大约50毫秒
    • 列中的数据相对较小:数字和短字符串(例如,每个URL 60个字节)
    • 处理单个查询时需要高吞吐量(每个服务器每秒高达数十亿行)
    • 事务不是必须的
    • 对数据一致性要求低
    • 每一个查询除了一个大表外都很小
    • 查询结果明显小于源数据,换句话说,数据被过滤或聚合后能够被盛放在单台服务器的内存中

    3、与oltp比较

    与OLAP 不同的是,

    OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作,强调事务性。OLAP系统则强调数据分析,强调SQL执行时长,强调磁盘I/O,强调分区。

    在这里插入图片描述

    二、开源引擎

    目前市面上主流的开源OLAP引擎包含不限于:Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greeplum等,可以说目前没有一个引擎能在数据量,灵活程度和性能上做到完美,用户需要根据自己的需求进行选型。

    1、Hive

    Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

    2、spark SQL

    Spark SQL
    https://spark.apache.org/sql/

    SparkSQL的前身是Shark,它将 SQL 查询与 Spark 程序无缝集成,可以将结构化数据作为 Spark 的 RDD 进行查询。SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive。

    Spark SQL在整个Spark体系中的位置如下:
    在这里插入图片描述
    Spark SQL对熟悉Spark的同学来说,很容易理解并上手使用:相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。SQL提供了一个通用的方式来访问各式各样的数据源,包括Hive, Avro, Parquet, ORC, JSON, and JDBC。Hive兼容性极好。

    3、presto

    Presto
    https://prestodb.github.io/https://www.cnblogs.com/tgzhu/p/6033373.html

    Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes.Presto allows querying data where it lives, including Hive, Cassandra, relational databases or even proprietary data stores. A single Presto query can combine data from multiple sources, allowing for analytics across your entire organization.Presto is targeted at analysts who expect response times ranging from sub-second to minutes. Presto breaks the false choice between having fast analytics using an expensive commercial solution or using a slow “free” solution that requires excessive hardware.

    这是Presto官方的简介。Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多的数据源,包括 HDFS,RDBMS,KAFKA 等,而且提供了非常友好的接口开发数据源连接器。

    Presto支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto 本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。

    Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。Presto和Spark SQL有很大的相似性,这是它区别于Hive的最根本的区别。

    但Presto由于是基于内存的,而hive是在磁盘上读写的,因此presto比hive快很多,但是由于是基于内存的计算当多张大表关联操作时易引起内存溢出错误。

    4、kylin

    Kylin
    http://kylin.apache.org/cn/https://www.infoq.cn/article/kylin-apache-in-meituan-olap-scenarios-practice/

    提到Kylin就不得不说说ROLAP和MOLAP。
    传统OLAP根据数据存储方式的不同分为ROLAP(relational olap)以及MOLAP(multi-dimension olap)

    • ROLAP 以关系模型的方式存储用作多为分析用的数据,优点在于存储体积小,查询方式灵活,然而缺点也显而易见,每次查询都需要对数据进行聚合计算,为了改善短板,ROLAP使用了列存、并行查询、查询优化、位图索引等技术。

    • MOLAP 将分析用的数据物理上存储为多维数组的形式,形成CUBE结构。维度的属性值映射成多维数组的下标或者下标范围,事实以多维数组的值存储在数组单元中,优势是查询快速,缺点是数据量不容易控制,可能会出现维度爆炸的问题。

    而Kylin自身就是一个MOLAP系统,多维立方体(MOLAP Cube)的设计使得用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体进行数据的预聚合。

    Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
    在这里插入图片描述
    Kylin的优势有:

    • 提供ANSI-SQL接口

    • 交互式查询能力

    • MOLAP Cube 的概念

    • 与BI工具可无缝整合

    所以适合Kylin的场景包括:

    用户数据存在于Hadoop HDFS中,利用Hive将HDFS文件数据以关系数据方式存取,数据量巨大,在500G以上
    每天有数G甚至数十G的数据增量导入
    有10个以内较为固定的分析维度
    简单来说,Kylin中数据立方的思想就是以空间换时间,通过定义一系列的纬度,对每个纬度的组合进行预先计算并存储。有N个纬度,就会有2的N次种组合。所以最好控制好纬度的数量,因为存储量会随着纬度的增加爆炸式的增长,产生灾难性后果。

    5、impala

    https://impala.apache.org/

    Impala也是一个SQL on Hadoop的查询工具,底层采用MPP技术,支持快速交互式SQL查询。与Hive共享元数据存储。Impalad是核心进程,负责接收查询请求并向多个数据节点分发任务。statestored进程负责监控所有Impalad进程,并向集群中的节点报告各个Impalad进程的状态。catalogd进程负责广播通知元数据的最新信息。

    impala架构图如下:
    在这里插入图片描述
    Impala的特性包括:

    • 支持Parquet、Avro、Text、RCFile、SequenceFile等多种文件格式

    • 支持存储在HDFS、HBase、Amazon S3上的数据操作

    • 支持多种压缩编码方式:Snappy、Gzip、Deflate、Bzip2、LZO

    • 支持UDF和UDAF

    • 自动以最有效的顺序进行表连接

    • 允许定义查询的优先级排队策略

    • 支持多用户并发查询

    • 支持数据缓存

    • 提供计算统计信息(COMPUTE STATS)

    • 提供窗口函数(聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等)以支持高级分析功能

    • 支持使用磁盘进行连接和聚合,当操作使用的内存溢出时转为磁盘操作

    • 允许在where子句中使用子查询

    • 允许增量统计——只在新数据或改变的数据上执行统计计算

    • 支持maps、structs、arrays上的复杂嵌套查询

    • 可以使用impala插入或更新HBase
      同样,Impala经常会和Hive、Presto放在一起做比较,Impala的劣势也同样明显:

    • Impala不提供任何对序列化和反序列化的支持。

    • Impala只能读取文本文件,而不能读取自定义二进制文件。

    • 每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。这个缺点会导致正在执行的查询sql遇到刷新会挂起,查询不动。

    6、druid

    https://druid.apache.org/https://blog.csdn.net/warren288/article/details/80629909

    Druid 是一种能对历史和实时数据提供亚秒级别的查询的数据存储。Druid 支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。适用于数据量大,可扩展能力要求高的分析型查询系统。

    Druid解决的问题包括:数据的快速摄入和数据的快速查询。所以要理解Druid,需要将其理解为两个系统,即输入系统和查询系统。
    在这里插入图片描述
    Druid的特点包括:

    • Druid实时的数据消费,真正做到数据摄入实时、查询结果实时
    • Druid支持 PB 级数据、千亿级事件快速处理,支持每秒数千查询并发
    • Druid的核心是时间序列,把数据按照时间序列分批存储,十分适合用于对- 按时间进行统计分析的场景
    • Druid把数据列分为三类:时间戳、维度列、指标列
    • Druid不支持多表连接
    • Druid中的数据一般是使用其他计算框架(Spark等)预计算好的低层次统计数据
    • Druid不适合用于处理透视维度复杂多变的查询场景
    • Druid擅长的查询类型比较单一,一些常用的SQL(groupby 等)语句在druid里运行速度一般
    • Druid支持低延时的数据插入、更新,但是比hbase、传统数据库要慢很多
    • 与其他的时序数据库类似,Druid在查询条件命中大量数据情况下可能会有性能问题,而且排序、聚合等能力普遍不太好,灵活性和扩展性不够,比如缺乏Join、子查询等。

    我个人对Druid的理解在于,Druid保证数据实时写入,但查询上对SQL支持的不够完善(不支持Join),适合将清洗好的记录实时录入,然后迅速查询包含历史的结果,在我们目前的业务上没有实际应用。

    Druid的应用可以参考:《Druid 在有赞的使用场景及应用实践》https://blog.csdn.net/weixin_34273481/article/details/89238947

    7、Greeplum

    https://greenplum.org/https://blog.csdn.net/yongshenghuang/article/details/84925941https://www.jianshu.com/p/b5c85cadb362

    Greenplum是一个开源的大规模并行数据分析引擎。借助MPP架构,在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。

    GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。支持分布式事务,支持ACID。保证数据的强一致性。做为分布式数据库,拥有良好的线性扩展能力。GPDB有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。

    GreenPulm的技术特点如下:

    • 支持海量数据存储和处理
    • 支持Just In Time BI:通过准实时、实时的数据加载方式,实现数据仓库的- 实时更新,进而实现动态数据仓库(ADW),基于动态数据仓库,业务用户- 能对当前业务数据进行BI实时分析(Just In Time BI)
    • 支持主流的sql语法,使用起来十分方便,学习成本低
    • 扩展性好,支持多语言的自定义函数和自定义类型等
    • 提供了大量的维护工具,使用维护起来很方便
    • 支持线性扩展:采用MPP并行处理架构。在MPP结构中增加节点就可以线性提供系统的存储容量和处理能力
    • 较好的并发支持及高可用性支持除了提供硬件级的Raid技术外,还提供数据库层Mirror机制保护,提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务
    • 支持MapReduce
    • 数据库内部压缩
      一个重要的信息:Greenplum基于Postgresql,也就是说GreenPulm和TiDB的定位类似,想要在OLTP和OLAP上进行统一。

    8、clickhouse

    https://clickhouse.yandex/https://clickhouse.yandex/docs/zh/development/architecture/http://www.clickhouse.com.cn/https://www.jianshu.com/p/a5bf490247ea
    Clickhouse由俄罗斯yandex公司开发。专为在线数据分析而设计。Yandex是俄罗斯搜索引擎公司。官方提供的文档表名,ClickHouse 日处理记录数"十亿级"。

    特性:采用列式存储;数据压缩;支持分片,并且同一个计算任务会在不同分片上并行执行,计算完成后会将结果汇总;支持SQL;支持联表查询;支持实时更新;自动多副本同步;支持索引;分布式存储查询。

    大家都Nginx不陌生吧,战斗民族开源的软件普遍的特点包括:轻量级,快。

    ClickHouse最大的特点就是快,快,快,重要的话说三遍!与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:

    • 列式存储数据库,数据压缩

    • 关系型、支持SQL

    • 分布式并行计算,把单机性能压榨到极限

    • 高可用

    • 数据量级在PB级别

    • 实时数据更新

    • 索引
      使用ClickHouse也有其本身的限制,包括:

    • 缺少高频率,低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据。

    • 没有完整的事务支持

    • 不支持二级索引

    • 有限的SQL支持,join实现与众不同

    • 不支持窗口功能

    • 元数据管理需要人工干预维护

    三、选型要求

    1、实时性要求较高,对接kafka,实时查询数据

    2、可以接入hive数据

    3、单表查询数据较多,较少的join,在数仓中完成宽表构建

    可选组件为druid、clickhouse,考虑到druid时间窗问题,最好需要离线数据同步更新昨天druid中的数据,

    因此选定为clickhouse

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 74,315
精华内容 29,726
关键字:

olap