精华内容
下载资源
问答
  • OLAP开源引擎

    2020-04-13 15:25:31
    OLAP开源引擎 目前市面上主流的开源OLAP引擎包含不限于:Hive、Hawq、Presto、Kylin、Impala、Sparksql、Druid、Clickhouse、Greeplum等,可以说目前没有一个引擎能在数据量,灵活程度和性能上做到完美,用户需要...

    本文源自:https://cloud.tencent.com/developer/article/1506782

    OLAP开源引擎

    目前市面上主流的开源OLAP引擎包含不限于:Hive、Hawq、Presto、Kylin、Impala、Sparksql、Druid、Clickhouse、Greeplum等,可以说目前没有一个引擎能在数据量,灵活程度和性能上做到完美,用户需要根据自己的需求进行选型。

    组件特点和简介

    Hive

    https://hive.apache.org/

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

    1620uploading.4e448015.gif正在上传…重新上传取消

    对于hive主要针对的是OLAP应用,其底层是hdfs分布式文件系统,hive一般只用于查询分析统计,而不能是常见的CUD操作,Hive需要从已有的数据库或日志进行同步最终入到hdfs文件系统中,当前要做到增量实时同步都相当困难。

    Hive的优势是完善的SQL支持,极低的学习成本,自定义数据格式,极高的扩展性可轻松扩展到几千个节点等等。

    但是Hive 在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些 Key 建立索引。Hive 要访问数据中满足条件的特定值时,需要暴力扫描整个数据库,因此访问延迟较高。

    Hive真的太慢了。大数据量聚合计算或者联表查询,Hive的耗时动辄以小时计算,在某一个瞬间,我甚至想把它开除出OLAP"国籍",但是不得不承认Hive仍然是基于Hadoop体系应用最广泛的OLAP引擎。

    Hawq

    http://hawq.apache.org https://blog.csdn.net/wzy0623/article/details/55047696 https://www.oschina.net/p/hawq

    Hawq是一个Hadoop原生大规模并行SQL分析引擎,Hawq采用 MPP 架构,改进了针对 Hadoop 的基于成本的查询优化器。除了能高效处理本身的内部数据,还可通过 PXF 访问 HDFS、Hive、HBase、JSON 等外部数据源。HAWQ全面兼容 SQL 标准,能编写 SQL UDF,还可用 SQL 完成简单的数据挖掘和机器学习。无论是功能特性,还是性能表现,HAWQ 都比较适用于构建 Hadoop 分析型数据仓库应用。

    一个典型的Hawq集群组件如下:

    1620uploading.4e448015.gif正在上传…重新上传取消

    1620uploading.4e448015.gif正在上传…重新上传取消

    网络上有人对Hawq与Hive查询性能进行了对比测试,总体来看,使用Hawq内部表比Hive快的多(4-50倍)。

    Spark SQL

    https://spark.apache.org/sql/

    SparkSQL的前身是Shark,它将 SQL 查询与 Spark 程序无缝集成,可以将结构化数据作为 Spark 的 RDD 进行查询。SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive。

    Spark SQL在整个Spark体系中的位置如下:

    1620uploading.4e448015.gif转存失败重新上传取消

    SparkSQL的架构图如下:

    1620uploading.4e448015.gif转存失败重新上传取消

    Spark SQL对熟悉Spark的同学来说,很容易理解并上手使用: 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。 SQL提供了一个通用的方式来访问各式各样的数据源,包括Hive, Avro, Parquet, ORC, JSON, and JDBC。 Hive兼容性极好。

    Presto

    https://prestodb.github.io/

    https://blog.csdn.net/u012535605/article/details/83857079

    https://www.cnblogs.com/tgzhu/p/6033373.html

    Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes.
    Presto allows querying data where it lives, including Hive, Cassandra, relational databases or even proprietary data stores. A single Presto query can combine data from multiple sources, allowing for analytics across your entire organization.
    Presto is targeted at analysts who expect response times ranging from sub-second to minutes. Presto breaks the false choice between having fast analytics using an expensive commercial solution or using a slow "free" solution that requires excessive hardware.
    

    这是Presto官方的简介。Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多的数据源,包括 HDFS,RDBMS,KAFKA 等,而且提供了非常友好的接口开发数据源连接器。

    Presto支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto 本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。

    Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。Presto和Spark SQL有很大的相似性,这是它区别于Hive的最根本的区别。

    但Presto由于是基于内存的,而hive是在磁盘上读写的,因此presto比hive快很多,但是由于是基于内存的计算当多张大表关联操作时易引起内存溢出错误。

    1620uploading.4e448015.gif转存失败重新上传取消

    Kylin

    http://kylin.apache.org/cn/ https://www.infoq.cn/article/kylin-apache-in-meituan-olap-scenarios-practice/

    提到Kylin就不得不说说ROLAP和MOLAP。

    • 传统OLAP根据数据存储方式的不同分为ROLAP(relational olap)以及MOLAP(multi-dimension olap)
    • ROLAP 以关系模型的方式存储用作多为分析用的数据,优点在于存储体积小,查询方式灵活,然而缺点也显而易见,每次查询都需要对数据进行聚合计算,为了改善短板,ROLAP使用了列存、并行查询、查询优化、位图索引等技术。
    • MOLAP 将分析用的数据物理上存储为多维数组的形式,形成CUBE结构。维度的属性值映射成多维数组的下标或者下标范围,事实以多维数组的值存储在数组单元中,优势是查询快速,缺点是数据量不容易控制,可能会出现维度爆炸的问题。

    而Kylin自身就是一个MOLAP系统,多维立方体(MOLAP Cube)的设计使得用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体进行数据的预聚合。

    Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

    1620uploading.4e448015.gif转存失败重新上传取消

    Kylin的优势有:

    • 提供ANSI-SQL接口
    • 交互式查询能力
    • MOLAP Cube 的概念
    • 与BI工具可无缝整合

    所以适合Kylin的场景包括:

    • 用户数据存在于Hadoop HDFS中,利用Hive将HDFS文件数据以关系数据方式存取,数据量巨大,在500G以上
    • 每天有数G甚至数十G的数据增量导入
    • 有10个以内较为固定的分析维度

    简单来说,Kylin中数据立方的思想就是以空间换时间,通过定义一系列的纬度,对每个纬度的组合进行预先计算并存储。有N个纬度,就会有2的N次种组合。所以最好控制好纬度的数量,因为存储量会随着纬度的增加爆炸式的增长,产生灾难性后果。

    Impala

    https://impala.apache.org/

    Impala也是一个SQL on Hadoop的查询工具,底层采用MPP技术,支持快速交互式SQL查询。与Hive共享元数据存储。Impalad是核心进程,负责接收查询请求并向多个数据节点分发任务。statestored进程负责监控所有Impalad进程,并向集群中的节点报告各个Impalad进程的状态。catalogd进程负责广播通知元数据的最新信息。

    Impala的架构图如下:

    1620uploading.4e448015.gif转存失败重新上传取消

    Impala的特性包括:

    • 支持Parquet、Avro、Text、RCFile、SequenceFile等多种文件格式
    • 支持存储在HDFS、HBase、Amazon S3上的数据操作
    • 支持多种压缩编码方式:Snappy、Gzip、Deflate、Bzip2、LZO
    • 支持UDF和UDAF
    • 自动以最有效的顺序进行表连接
    • 允许定义查询的优先级排队策略
    • 支持多用户并发查询
    • 支持数据缓存
    • 提供计算统计信息(COMPUTE STATS)
    • 提供窗口函数(聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等)以支持高级分析功能
    • 支持使用磁盘进行连接和聚合,当操作使用的内存溢出时转为磁盘操作
    • 允许在where子句中使用子查询
    • 允许增量统计——只在新数据或改变的数据上执行统计计算
    • 支持maps、structs、arrays上的复杂嵌套查询
    • 可以使用impala插入或更新HBase

    同样,Impala经常会和Hive、Presto放在一起做比较,Impala的劣势也同样明显:

    • Impala不提供任何对序列化和反序列化的支持。
    • Impala只能读取文本文件,而不能读取自定义二进制文件。
    • 每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。这个缺点会导致正在执行的查询sql遇到刷新会挂起,查询不动。

    Druid

    https://druid.apache.org/ https://blog.csdn.net/warren288/article/details/80629909

    Druid 是一种能对历史和实时数据提供亚秒级别的查询的数据存储。Druid 支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。适用于数据量大,可扩展能力要求高的分析型查询系统。

    Druid解决的问题包括:数据的快速摄入和数据的快速查询。 所以要理解Druid,需要将其理解为两个系统,即输入系统和查询系统。

    Druid的架构如下:

    1620uploading.4e448015.gif转存失败重新上传取消

    1620uploading.4e448015.gif转存失败重新上传取消

    Druid的特点包括:

    • Druid实时的数据消费,真正做到数据摄入实时、查询结果实时
    • Druid支持 PB 级数据、千亿级事件快速处理,支持每秒数千查询并发
    • Druid的核心是时间序列,把数据按照时间序列分批存储,十分适合用于对按时间进行统计分析的场景
    • Druid把数据列分为三类:时间戳、维度列、指标列
    • Druid不支持多表连接
    • Druid中的数据一般是使用其他计算框架(Spark等)预计算好的低层次统计数据
    • Druid不适合用于处理透视维度复杂多变的查询场景
    • Druid擅长的查询类型比较单一,一些常用的SQL(groupby 等)语句在druid里运行速度一般
    • Druid支持低延时的数据插入、更新,但是比hbase、传统数据库要慢很多

    与其他的时序数据库类似,Druid在查询条件命中大量数据情况下可能会有性能问题,而且排序、聚合等能力普遍不太好,灵活性和扩展性不够,比如缺乏Join、子查询等。

    我个人对Druid的理解在于,Druid保证数据实时写入,但查询上对SQL支持的不够完善(不支持Join),适合将清洗好的记录实时录入,然后迅速查询包含历史的结果,在我们目前的业务上没有实际应用。

    Druid的应用可以参考: 《Druid 在有赞的使用场景及应用实践》https://blog.csdn.net/weixin_34273481/article/details/89238947

    Greeplum

    https://greenplum.org/

    https://blog.csdn.net/yongshenghuang/article/details/84925941

    https://www.jianshu.com/p/b5c85cadb362

    Greenplum是一个开源的大规模并行数据分析引擎。借助MPP架构,在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。

    GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。支持分布式事务,支持ACID。保证数据的强一致性。做为分布式数据库,拥有良好的线性扩展能力。GPDB有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。

    GreenPulm的架构如下:

    1620uploading.4e448015.gif转存失败重新上传取消

    GreenPulm的技术特点如下:

    • 支持海量数据存储和处理
    • 支持Just In Time BI:通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库(ADW),基于动态数据仓库,业务用户能对当前业务数据进行BI实时分析(Just In Time BI)
    • 支持主流的sql语法,使用起来十分方便,学习成本低
    • 扩展性好,支持多语言的自定义函数和自定义类型等
    • 提供了大量的维护工具,使用维护起来很方便
    • 支持线性扩展:采用MPP并行处理架构。在MPP结构中增加节点就可以线性提供系统的存储容量和处理能力
    • 较好的并发支持及高可用性支持除了提供硬件级的Raid技术外,还提供数据库层Mirror机制保护,提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务
    • 支持MapReduce
    • 数据库内部压缩

    一个重要的信息:Greenplum基于Postgresql,也就是说GreenPulm和TiDB的定位类似,想要在OLTP和OLAP上进行统一。

    ClickHouse

    https://clickhouse.yandex/ https://clickhouse.yandex/docs/zh/development/architecture/ http://www.clickhouse.com.cn/ https://www.jianshu.com/p/a5bf490247ea

    官网对ClickHouse的介绍:

    ClickHouse is an open source column-oriented database management system capable of real time generation of analytical data reports using SQL queries.
    

    Clickhouse由俄罗斯yandex公司开发。专为在线数据分析而设计。Yandex是俄罗斯搜索引擎公司。官方提供的文档表名,ClickHouse 日处理记录数"十亿级"。

    特性:采用列式存储;数据压缩;支持分片,并且同一个计算任务会在不同分片上并行执行,计算完成后会将结果汇总;支持SQL;支持联表查询;支持实时更新;自动多副本同步;支持索引;分布式存储查询。

    大家对Nginx不陌生吧,战斗民族开源的软件普遍的特点:轻量级,快快快。

    ClickHouse最大的特点就是快,快,快,重要的话说三遍!

    与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:

    • 列式存储数据库,数据压缩
    • 关系型、支持SQL
    • 分布式并行计算,把单机性能压榨到极限
    • 高可用
    • 数据量级在PB级别
    • 实时数据更新
    • 索引

    使用ClickHouse也有其本身的限制,包括:

    • 缺少高频率,低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据。
    • 没有完整的事务支持
    • 不支持二级索引
    • 有限的SQL支持,join实现与众不同
    • 不支持窗口功能
    • 元数据管理需要人工干预维护

    总结

    上面给出了常用的一些OLAP引擎,它们各自有各自的特点,我们将其分组:

    • Hive,Hawq,Impala - 基于SQL on Hadoop
    • Presto和Spark SQL类似 - 基于内存解析SQL生成执行计划
    • Kylin - 用空间换时间,预计算
    • Druid - 一个支持数据的实时摄入
    • ClickHouse - OLAP领域的Hbase,单表查询性能优势巨大
    • Greenpulm - OLAP领域的Postgresql

    如果你的场景是基于HDFS的离线计算任务,那么Hive,Hawq和Imapla就是你的调研目标; 如果你的场景解决分布式查询问题,有一定的实时性要求,那么Presto和SparkSQL可能更符合你的期望; 如果你的汇总维度比较固定,实时性要求较高,可以通过用户配置的维度+指标进行预计算,那么不妨尝试Kylin和Druid; ClickHouse则在单表查询性能上独领风骚,远超其他的OLAP数据库; Greenpulm作为关系型数据库产品,性能可以随着集群的扩展线性增长,更加适合进行数据分析。

    就像美团在调研Kylin的报告中所说的:

    目前还没有一个OLAP系统能够满足各种场景的查询需求。 其本质原因是,没有一个系统能同时在数据量、性能、和灵活性三个方面做到完美,每个系统在设计时都需要在这三者间做出取舍。

    展开全文
  • 今天的大数据开发分享,我们就主要来讲讲主流的几个OLAP开源数据分析引擎。 对于企业而言,想要控制成本,那么选择开源框架进行开发是不二之选,而在OLAP数据分析领域,开源的技术框架是非常多的,而各个框架各有...

    针对于不断新增的海量数据资源,企业需要通过及时地数据分析处理,才能从中挖掘出价值线索,反哺业务,实现数据驱动业务发展。而企业级的数据分析场景,多是采用OLAP数据分析引擎。今天的大数据开发分享,我们就主要来讲讲主流的几个OLAP开源数据分析引擎。

    对于企业而言,想要控制成本,那么选择开源框架进行开发是不二之选,而在OLAP数据分析领域,开源的技术框架是非常多的,而各个框架各有优缺点,最终还是需要结合到实际需求去进行技术选型。

    OLAP开源引擎

    目前市面上主流的开源OLAP引擎包含不限于:Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greeplum等,这里选取比较有代表性的几个框架来具体展开——

    Apache Hive

    说到Hive,大家想必都不算陌生,作为Hadoop的数据仓库工具,Hive在大规模的数据分析处理上,是非常有优势的。

    Hive的运行原理,是将HQL语句(类SQL语法)转化成MapReduce进行执行,本质上来说,就是一款基于HDFS的MapReduce计算框架,使用HQL就可以对存储数据进行分析。

    Hive的优点是学习简单(支持SQL语法)、扩展性强(底层基于HDFS)。但是同时,Hive的缺点也是明显的,因为底层需转换为MapReduce任务执行,所以延迟性是比较高的。所以通常来说,Hive更适合数据仓库的统计分析。

    Spark SQL

    SparkSQL的前身是Shark,它将 SQL 查询与 Spark 程序无缝集成,可以将结构化数据作为 Spark 的 RDD 进行查询。SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive。

    Impala

    Impala算是相对老牌一点的OLAP引擎,底层强依赖于kudu或Hive,其他的一概不支持,有很多大厂使用,比如滴滴,在前几年和性能不占优势的Hadoop系计算引擎相比,确实十几秒钟能把上千亿、TB级数据的SQL查出来让人眼前一亮,但是它的局限性在于是用C++写的,这让很多java系的伙伴望而生畏。

    Presto

    Presto是FaceBook开源的大数据分布式SQL查询引擎,客户端发出数据查询请求时,先有语法解析器进行解析,解析之后再给到对应的节点执行任务。Presto通过自己系统内部的查询和执行引擎来完成数据分析处理,所有的操作都在内存中完成,所以速度会快很多。Presto的优点是速度快、支持多数据源接入,缺点是容易内存溢出。

    Clickhouse

    Clickhouse是俄罗斯开源的一款列式数据库,在做数据分析时可直接选择某几列来作为分析属性,获取数据非常快,延迟低。在计算层,ClickHouse提供了多核并行、分布式计算、近似计算、复杂数据类型支持等技术能力,最大化程度利用CPU资源,提升系统查询速度。Clickhouse的优点就是快快快、分布式高可用,在数据分析这维度看基本没有缺点。

    Kylin

    是一个应用在T+1场景的olap引擎,提前建各个维度的cube,也就是相当于把你要查的东西全部提前跑出来,到时候直接拿就行了,所以预计算量很大,查询速度很快,这也是他的特点,也是在有限的应用场景管用,比如多维分析,速度极快。Kylin的优点就是简单、快速,缺点就是可选数据分析维度太多。

    关于大数据开发,OLAP开源数据分析引擎,以上就对主流的一些产品做了基本的介绍了。对于大数据开发者而言,对于这些产品需要有相应的了解,并且能够根据需求来进行技术选型。

    展开全文
  • 摘要:ClickHouse是俄罗斯公司Yandex在2016年开源的高性能、开源联机分析列式数据库管理系统。开源后,凭借卓越的分析性能、极好的线性扩展能力和丰富的功能,被业界公认为实时分析领域OLAP开源引擎的一匹黑马。

    摘要:ClickHouse是俄罗斯公司Yandex在2016年开源的高性能、开源联机分析列式数据库管理系统。开源后,凭借卓越的分析性能、极好的线性扩展能力和丰富的功能,被业界公认为实时分析领域OLAP开源引擎的一匹黑马。

    本文分享自华为云社区《云图说|OLAP开源引擎的一匹黑马,MRS集群组件之ClickHouse》,原文作者:阅识风云  。

    ClickHouse是一款开源的面向联机分析处理的列式数据库,数据压缩比高,基于多核并行计算、向量化执行与SIMD,在性能上表现卓越。ClickHouse利用Zookeeper,通过Replicated系列引擎实现了副本机制,副本机制的设计可以最大限度的减少网络数据传输,用以在不同的数据中心进行同步,所以也可以用来建设多数据中心、异地多活的集群架构。通过分片和分布式表机制提供了线性扩展的能力。当前ClickHouse被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域,非常适用于商业智能化应用场景,在国内外有大量的应用和实践。

    点击“了解更多”,MRS服务等着您!

     

    点击关注,第一时间了解华为云新鲜技术~

    展开全文
  • 睿思OLAP-开源多维分析系统 支持对关系型数据库进行OLAP查询,无需编写任何其他代码,用户只需需要通过语义层的定义就可以轻松构建自己的多维数据模型并进行数据多维查询和可视化。 产品优势: 简单易用:系统十分...
  • OLAP开源项目介绍,一些关于OLAP的开源项目
  • Cubulus OLAP-开源

    2021-05-09 18:20:28
    带有MDX支持,Web界面(切片和骰子)和关系数据库后端的OLAP聚合引擎。 有关更多信息,请参见“文档”。 演示文稿:http://cubulus.sourceforge.net/。 参见由Webfaction提供的在线演示,...
  • jdbc4olap-开源

    2021-05-09 19:18:57
    jdbc4olap是一个现成的JDBC 3.0驱动程序,提供对OLAP数据库的访问。 依靠多维环境的关系表示,它包括一个SQL-MDX转换器,并使用XMLA与OLAP服务器进行对话。
  • 开源OLAP引擎Mondrian

    2014-03-07 10:34:13
    关于OLAP开源引擎Mondrian讲解不错: http://www.blogjava.net/pdw2009/archive/2008/04/17/193728.html Mondrian提供了MDX查询的API,类似于Java中的JDBC Mondrian:MDX多维分析语言 JDBC:传统的SQL     ...

    关于OLAP开源引擎Mondrian讲解不错:

    http://www.blogjava.net/pdw2009/archive/2008/04/17/193728.html

    Mondrian提供了MDX查询的API,类似于Java中的JDBC

    Mondrian:MDX多维分析语言

    JDBC:传统的SQL

     

     

    关于Mondrian的使用,还是看

    http://www.blogjava.net/pdw2009/archive/2008/04/17/193728.html

    讲解

     

    展开全文
  • Olap Mapper-开源

    2021-05-09 20:55:34
    OLAP映射器是用Java编写的OLAP引擎。 它使您能够交互式分析存储在SQL数据库中的非常大的数据集,而无需编写SQL。 应用程序的主要概念基于星型模式可视化。
  • 开源OLAP引擎对比

    千次阅读 2019-07-28 15:59:50
    文章目录开源OLAP引擎对比OLAP简介分布式OLAP引擎分类及对比基于MPP架构的ROLAP引擎预计算引擎架构的MOLAP搜索引擎架构纯列存OLAP基于内存的SnappyData对比 开源OLAP引擎对比 OLAP简介 OLAP(On-Line Analytical ...
  • Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解
  • JMagallanes 是用 Java/J2EE 编写的用于 Olap 和动态报告的开源最终用户应用程序。 结合静态报告、数据透视表和图表。 它从 SQL 和其他数据源读取。
  • 开源OLAP引擎测评报告

    千次阅读 2019-01-23 14:25:50
    开源OLAP引擎测评报告 原创: 易观CTO 郭炜 Analysys易观    导读 现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,...
  • OLAP-SC 是用于支出 + 储蓄透明度、战略采购、采购/采购控制的商业智能应用程序。 IT 提供了一个 olap 多维数据集模型、一个关系数据库模型和控制报告。 见:http://www.orpheus-it.com
  • ClickHouse:registered:是一种快速的,面向列的开源数据库管理系统,可以通过SQL查询实时生成分析数据报告。 根据几个独立的基准,它远远超过其他可比的面向列的数据库管理系统,运行速度甚至快了1000倍。 每秒钟每...
  • 开源OLAP系统对比

    千次阅读 2019-07-06 16:06:49
    常见OLAP对比 数据库 响应时间 并发能力 社区 处理能力 分析能力 理解 Impala 慢 低 适中 支持的数据规模大 兼容HQL以及多表join和窗口函数 目前通用的解决方案是impala+kudu,mpp架构 Kylin 快 高 活跃 支持的数据...
  • “poco”(西班牙语和意大利语的“小”)OLAP 为您的数据仓库提供了一个基于 Web 的交叉表报告工具。 虽然它不是 OLAP 服务器或成熟的数据挖掘解决方案,但 pocOLAP 使您的数据易于使用和理解......免费!
  • 本文将围绕常见的开源OLAP引擎展开,介绍什么是OLAP以及OLAP的常见操作和分类,并对目前主流的开源OLAP引擎进行对比和特点的总结。 一、什么是OLAP OLAP(On-line Analytical Processing,联机分析处理)是在基于...
  • Mondrian开源OLAP引擎详解

    千次阅读 2018-05-14 16:09:35
    Mondrian是一个基于Java语言的开源OLAP引擎,它通过MDX语句执行查询,从关系型数据库RDBMS中读取数据,然后经过Java API以多维度的形式展示查询结果。Mondrian是一个OpenSource的基于关系数据库的分析服务器,遵循...
  • 摘要:本文主要介绍了主流开源OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。 PS: 文章较长...
  • ClickHouse:registered: 是一个快速、开源的面向列的数据库管理系统,可以通过 SQL 查询实时生成分析数据报告。 根据几个独立的基准测试,它远远超过其他类似的面向列的数据库管理系统,工作速度甚至提高了 1000 倍...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,138
精华内容 5,655
关键字:

olap开源