关于hadoop生态数据仓库框架的问题(oracle+hadoop+spark+azakaban+hive)

GameOfKevin 2017-03-19 11:14:20
我们原本的业务系统是在oracle,同时数据仓库也是在一台机器的Oracle上,但是现在数据量过大,有表快5亿数据量,已经撑不下了,现在想用Hadoop生态框架来解决大数据的问题,求各位大神帮忙指点迷津。

我的一些初步构想:
oracle原业务系统,通过全量或者增量的方式导出数据
Hadoop HDFS存储Hive的数据
azakaban做Spark的Job调度,执行导入数据到Hive
spark执行SQL任务导入数据到Hive
(这里我非常大的疑问,因为我不知道这样是不是OK,但是我非常希望用内存计算来解决速度问题。或者只能使用sqoop来解决ETL问题)

Hive使用mr引擎,做查询、权限等
-----------------------------------------------------------------------------------------------------------------------------------
请大家多给意见,有说的不对的地方请勿喷~~!!

...全文
312 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
小风0092 2017-03-22
  • 打赏
  • 举报
回复
1. 定存储 DW,数据仓库,假设一次性写,不更新,没有事务,那么使用Hive + SparkSQL OLAP,在线分析,经常更新,那么使用HBase + Phoenix OLTP,在线交易,需要事务,需要join,那么使用Greenplum 2. 定计算 理论上应该使用Sqoop对关系数据库迁移 不过你的想法使用Spark也可以,Spark RDD内部使用JDBC/JPA没有任何问题,我们验证过,而且是并发读

20,846

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧