关于hadoop生态数据仓库框架的问题(oracle+hadoop+spark+azakaban+hive)

GameOfKevin 2017-03-19 11:14:20

我们原本的业务系统是在oracle，同时数据仓库也是在一台机器的Oracle上，但是现在数据量过大，有表快5亿数据量，已经撑不下了，现在想用Hadoop生态框架来解决大数据的问题，求各位大神帮忙指点迷津。

我的一些初步构想：
oracle原业务系统，通过全量或者增量的方式导出数据
Hadoop HDFS存储Hive的数据
azakaban做Spark的Job调度，执行导入数据到Hive
spark执行SQL任务导入数据到Hive
（这里我非常大的疑问，因为我不知道这样是不是OK，但是我非常希望用内存计算来解决速度问题。或者只能使用sqoop来解决ETL问题）

Hive使用mr引擎，做查询、权限等
-----------------------------------------------------------------------------------------------------------------------------------
请大家多给意见，有说的不对的地方请勿喷~~!!

...全文

322 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

小风0092 2017-03-22

打赏
举报

1. 定存储 DW，数据仓库，假设一次性写，不更新，没有事务，那么使用Hive + SparkSQL OLAP，在线分析，经常更新，那么使用HBase + Phoenix OLTP，在线交易，需要事务，需要join，那么使用Greenplum 2. 定计算理论上应该使用Sqoop对关系数据库迁移不过你的想法使用Spark也可以，Spark RDD内部使用JDBC/JPA没有任何问题，我们验证过，而且是并发读