关于hadoop生态数据仓库框架的问题(oracle+hadoop+spark+azakaban+hive)
我们原本的业务系统是在oracle,同时数据仓库也是在一台机器的Oracle上,但是现在数据量过大,有表快5亿数据量,已经撑不下了,现在想用Hadoop生态框架来解决大数据的问题,求各位大神帮忙指点迷津。
我的一些初步构想:
oracle原业务系统,通过全量或者增量的方式导出数据
Hadoop HDFS存储Hive的数据
azakaban做Spark的Job调度,执行导入数据到Hive
spark执行SQL任务导入数据到Hive
(这里我非常大的疑问,因为我不知道这样是不是OK,但是我非常希望用内存计算来解决速度问题。或者只能使用sqoop来解决ETL问题)
Hive使用mr引擎,做查询、权限等
-----------------------------------------------------------------------------------------------------------------------------------
请大家多给意见,有说的不对的地方请勿喷~~!!