精华内容
下载资源
问答
  • 阿里巴巴的大数据实战总结,maxcompute,hadoop等。深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册
  • Hadoop大数据实战手册

    2018-04-08 17:37:41
    Hadoop大数据实战手册 Hadoop大数据实战手册 Hadoop大数据实战手册
  • 云计算大数据实战自学
  • 大数据实战

    2017-11-08 15:40:42
    大数据实战课视频,简单看了一下,内容还行,欢迎大家前来下载。本视频仅供学习交流使用,不涉版权!
  • kylin大数据实战学习教程。cube构建,安装文档,资料,还有视频,基础篇,进阶篇,高级篇,实战详解。
  • 智能视频大数据实战平台建设方案
  • 大数据实战项目教程等
  • 手Q性能优化的大数据实战.pdf
  • 大数据实战【千亿级数仓】项目总结

    万次阅读 多人点赞 2020-05-21 23:01:47
    大数据实战项目这个专栏。         现在项目结束了,理应对此进行一个总结,好好回顾一下这个项目中遗漏的细节… 文章目录项目架构技术选型数据来源数据存储数据同步计算...

            前段时间做过一个大数据离线数仓的项目,前后花了有好几周的时间。一共是6个阶段,想关注阶段细节的朋友可以查看👉大数据实战项目这个专栏。

            现在项目结束了,理应对此进行一个总结,好好回顾一下这个项目中遗漏的细节…
    在这里插入图片描述


    项目架构

    在这里插入图片描述
    ① 原始数据在mysql中存储

    ② 使用kettle将数据从mysql同步到数据仓库(hive)

        同步分为全量同步+增量同步
        增量同步需要使用到拉链表(目标:既能够保存历史数据,又不会有数据冗余)

    ③ 数据储存到hive

        hive数仓内结构:
        ODS : 存储着数据源同步过来的数据
        DW : 对ODS层数据机型预处理(数据过滤,数据填充),以及数据的拉宽,将业务中需要的字段,但是字段不在一个表里。使用拉宽(join)将这些字段拉到一个表中。
        ADS:存储最终结果

    ④ 使用kylin对hive内的数据进行预计算,提高查询效率

    ⑤ 部分数据同步至mysql,使用sqoop/kettle同步


    技术选型

    ★ 数据来源: MySQL

    ★ 数据存储: Hive

    ★ 数据同步: Kettle

    ★ 计算模型(数仓): ODS,DW,ADS三层

    ★ 结果存储: Hive的ads和Mysql

    ★ 加速查询的组件: Kylin

    以为就这样技术选型就讲完了?不不不,既然在开头咱都谈到了需要深挖细节,那么接下来我们就要从结论反推,思考某个方面的技术为什么需要用到这个技术/组件,而不是其他类似的技术/组件。

    数据来源

            我们的数据来源为什么选择的是关系型数据库MySQL,而不是其他的非关系型数据库?

            最主要的原因是因为 MySQL

            ■ 体积小,速度快,总体拥有成本低,开源;

            ■ 支持多种操作系统;

            ■ 是开源数据库,提供的接口支持多种语言连接操作;

            而以MongoDB为例的非关系型数据库

            □ 使用键值对存储数据;

            □ 无需经过sql层的解析,读写性能很高;

            □ 不提供SQL支持,学习使用成本较高;

            □ 无事务处理,附加功能bi和报表等支持也不好;

            综上所述,在该项目中,关系数据库MySQL更适合。

            


    数据存储

            Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。

            使用Hive的好处:

            √ 操作接口采用类SQL语法,提供快速开发的能力。
            √ 避免了去写MapReduce,减少开发人员的学习成本。
            √ 功能扩展很方便。

    通过Hive与传统RDBMS的对比

    HiveRDBMS
    查询语言HQLSQL
    数据存储HDFSRaw Device or Local FS
    执行MapReduceExcutor
    执行延迟
    处理数据规模
    索引0.8版本后加入位图索引有复杂的索引

            总结:

            hive具有sql数据库的外表,但应用场景完全不同
            hive只适合用来做批量数据统计分析

            

    数据同步

            谈到关于数据同步的问题,相信很多好学的朋友有疑问了😨

            为啥这个项目不用Sqoop来进行数据的同步?

            相信看完下面Kettle与Sqoop差异对比的表格就清楚了。

    功能KettleSqoop
    领域数据抽取、转换、加载关系型与非关系型数据库数据迁移
    输入关系型数据库、HDFS、Hbase、Excel、HL7、JSON、RSS、文本文件、等等关系型数据库、非关系型数据库
    输出关系型数据库、Hbase、HDFS、Excel、CSV、等等关系型数据库、非关系型数据库
    Hadoop集成度外部工具,需要安装对应版本的插件,仅支持流行的Hadoop发行版属于Hadoop生态圈,启动即用
    适用数据量十万、百万、千万级亿级
    支持系统Linux、Windows、UnixLinux
    交互有图形界面没有图形界面
    底层多线程提高效率MapReduce

            在这个项目阶段一开始的时候,就介绍了,咋们这个项目的每日订单量为10W,按照上图表格所述,确实不太适合 支持系统单一交互无图形化界面底层计算效率低Sqoop

            当然也并不是说Sqoop没用,当数据量真的达到亿级别之后,Kettle就无法发挥它的优势,这个时候我们就只能借助于Sqoop了。
            

    计算模型

            每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上数据分为三个层,数据运营层数据仓库层数据服务层。基于这个基础分层之上添加新的层次,来满足不同的业务需求。

            数仓分层通过数据分层管控数据质量,需要对数据清洗等操作,不必改一次业务就需要重新接入数据,每一层数据都是单独的作用,同时规范数据分层,减少业务开发、直接抽取数据

            其中

            数据运营层ODS存储着数据源同步过来的数据

            数据仓库层DW需要对ODS层数据进行预处理(数据过滤,数据填充)

            数据服务层存储最终结果
            

    结果存储

            通过上面的分析,在Hive中ADS层负责存储着结果数据,可以根据用户需求,利用简易sql而查询出最终结果。而数据源来自MySQL,我们自然也可以选择将结果存储至MySQL当中。数据同步组件根据实际情况选择Kettle或者Sqoop。
            

    加速查询

            Kylin 是一个 Hadoop 生态圈下的 MOLAP 系统,是 ebay 大数据部门从2014 年开始研发的支持 TB 到 PB 级别数据量的分布式 Olap 分析引擎。其特点包括:

            ✔ 可扩展的超快的 OLAP 引擎

            ✔ 提供 ANSI-SQL 接口

            ✔ 交互式查询能力

            ✔ MOLAP Cube 的概念

            ✔ 与 BI 工具可无缝整合

            Kylin 的核心思想是利用空间换时间,在数据 ETL 导入 OLAP 引擎时提前计算各维度的聚合结果并持久化保存。

            在离线数仓项目中,我们使用Kylin对Hive的ADS层的数据进行预处理,并将结果写入到HBase,提高了实际应用场景对于Hive数据表的查询效率。


    结语

            关于大数据离线数仓项目的总结,暂时就先更到这里…后期博主可能会对此进行更详细的补充,敬请期待😎

            如果以上过程中出现了任何的纰漏错误,烦请大佬们指正😅

            受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波🙏

    在这里插入图片描述

    展开全文
  • 基于视频云的车辆大数据实战应用探索.pdf
  • 大数据实战-仿天猫用户行为分析
  • 深度学习与交通大数据实战 By 张金雷 北京交通大学博士研究生
  • 基于SPARK的大数据实战(在线电影推荐),使用最主流的大数据技术,实现电影的推荐,包含代码。
  • 基于云中心的视频大数据实战应用平台建设.pdf
  • 基于视频云的车辆大数据实战应用探索
  • Hadoop大数据实战开发

    万人学习 2019-05-24 10:17:23
    本课程以杨力老师主编的《Hadoop大数据开发实战》为参考,书中详细的介绍了各个步骤,有需要的同学可以留意一下。 该课程的后续课程为杨力老师主讲的《hive大数据离线应用开发》,想要更进一步的同学可以继续...
  • 深度学习与交通大数据实战V1.0版.pdf
  • hadoop大数据实战培训教材 spark 培训教材,培训,学习
  • 大数据实战——测试工具领域应对海量数据的解决方案.pdf
  • 大数据实战视频分享

    2018-05-07 08:38:21
    共享经济时代,分享一个大数据实战视频的公众号关注后请查看历史消息,有下载地址。

    共享经济时代,分享一个大数据实战视频的公众号


    关注后请查看历史消息,有下载地址。

    展开全文
  • Hadoop大数据实战权威指南 交流资源请加501326386@qq.com

    Hadoop大数据实战权威指南


    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    交流资源请加501326386@qq.com

    展开全文
  • Kafka大数据实战

    2020-04-01 23:18:42
    讲解消息队列的作用及kafka的基本概念及特性,包括kafka的环境搭建,Kafka常见面试问题,Kafka的shell操作,Kafka工作原理,实战将所学的知识点应用到SpringBoot项目中;包括消息的产生、数据的存储、数据的消费、...
  • 当虹科技-当虹鹰眼-人像大数据实战应用解决方案.pdf 当虹科技-当虹鹰眼-人像大数据实战应用解决方案.pdf
  • Kylin大数据实战学习教程 大数据高级架构师,多年大数据项目架构及研发经验...

    扫码下载「CSDN程序员学院APP」,1000+技术好课免费看

    APP订阅课程,领取优惠,最少立减5元 ↓↓↓

    订阅后:请点击此处观看视频课程

     

    视频教程-Kylin大数据实战学习教程-大数据

    学习有效期:永久观看

    学习时长:733分钟

    学习计划:13天

    难度:

     

    口碑讲师带队学习,让你的问题不过夜」

    讲师姓名:易水

    架构师

    讲师介绍:大数据高级架构师,多年大数据项目架构及研发经验,同时有丰富的授课经验。致力于打造大数据精品课程,让每位学习大数据的同学,学的起、学得会、学的好。

    ☛点击立即跟老师学习☚

     

    「你将学到什么?」

    本课程为专题课,通过全面讲解Kylin架构原理、分布式集群搭建以及项目案例,让你快速掌握Kylin实时大数据BI技术,从而解决海量数据多维指标动态计算耗时问题、复杂条件筛选问题以及跨月、季度、年等大时间区间查询问题。

     

    「课程学习目录」

    第1章:【补习】大数据平台集群节点准备
    1.【试学】Kylin官网案例实操
    2.虚拟机介绍
    3.VMware虚拟机安装
    4.Linux操作系统介绍
    5.虚拟机安装1
    6.虚拟机安装2
    7.Linux网络配置
    8.Linux静态IP配置
    9.Linux虚拟机克隆
    10.X-Shell集群连接工具使用
    11.Linux创建用户和用户组
    12.Linux主机名配置
    13.Linux防火墙关闭
    14.openssh-clients服务安装
    15.配置主机名与IP地址映射
    16.SSH免密码登录
    17.FileZilla集群上传与下载工具的安装与使用
    18.集群节点2完整配置
    19.集群节点3完整配置
    第2章:【补习】Zookeeper分布式集群安装部署
    1.Zookeeper集群规划
    2.Zookeeper集群时钟同步
    3.Zookeeper集群Hosts文件配置
    4.Zookeeper集群SSH免密码登录
    5.Zookeeper 集群配置文件编写
    6.集群分发脚本deploy.sh编写
    7.集群分发脚本deploy.sh调试
    8.集群远程命令执行脚本runRemoteCmd.sh编写
    9.Zookeeper集群JDK安装
    10.Zookeeper集群安装部署
    11.Zookeeper Shell测试运行
    第3章:【补习】Hadoop分布式集群安装部署
    1.HDFS安装配置
    2.HDFS服务启动
    3.HDFS测试运行
    4.YARN安装配置
    5.YARN服务启动bug调试
    6.YARN测试运行
    7.Hadoop官网文档使用详解
    第4章:【补习】HBase分布式集群部署
    1.HBase安装前须知
    2.HBase集群规划
    3.HBase版本选择与下载解压
    4.HBase配置文件修改
    5.HBase启动运行
    6.HBase master切换访问
    7.HBase 数据库shell测试运行
    第5章:【补习】Hive安装部署
    1.MySQL元数据库在线安装
    2.Hive安装配置
    3.Hive服务启动与测试
    4.Hive图像界面安装配置
    5.Hive Web服务启动运行
    第6章:【补习】Kafka1.x分布式集群安装部署
    1.Kafka版本兼容性与选择
    2.Kafka集群安装配置
    3.Kafka在Zookeeper元数据解读
    4.Kafka 新api测试运行
    5.Kafka旧api测试运行
    6.Kafka集群监控与kafkamonitor.sh脚本编写
    7.Kafka 监控可视化指标分析
    8.Kafka监控注意事项
    第7章:Kylin概述及工作原理
    1.Kylin概述
    2.数据仓库
    3.OLAP与OLTP
    4.维度和度量
    5.Cube和Cuboid
    6.事实表和维度表
    7.星型模型和雪花模型
    8.Kylin技术架构与运行原理
    9.Kylin特性
    10.Kylin服务器模式
    第8章:Kylin集群安装部署
    1.Kylin环境准备
    2.版本下载与解压安装
    3.Kylin集群配置
    4.Kylin相关集群服务启动
    5.Kylin官网案例实操
    第9章:Kylin项目案例实战
    1.数据集准备与模型规划
    2.构建Project
    3.构建data model
    4.创建cube
    5.维度查询
    6.Kylin官网文档使用
    7.Kylin企业应用案例

     

    7项超值权益,保障学习质量」

    • 大咖讲解

    技术专家系统讲解传授编程思路与实战。

    • 答疑服务

    专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。

    • 课程资料+课件

    超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)

    • 常用开发实战

    企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。

    • 大牛技术大会视频

    2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

    • APP+PC随时随地学习

    满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。

     

    「什么样的技术人适合学习?」

    • 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
    • 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
    • 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。

     

    「悉心打造精品好课,13天学到大牛3年项目经验」

    【完善的技术体系】

    技术成长循序渐进,帮助用户轻松掌握

    掌握大数据知识,扎实编码能力

    【清晰的课程脉络】

    浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

    【仿佛在大厂实习般的课程设计】

    课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

     

    「你可以收获什么?」

    能够构建Kylin大数据BI平台

    理解Kylin架构原理

    能够利用Kylin构建Cube实现多维度实时查询

     

    展开全文
  • 大数据实战经验分享

    2016-04-28 16:43:28
    大数据实战经验分享之Docker 优酷链接视频 下载更多hadoop视频
  • 分享课程-Spark3+Clickhouse+Hadoop大数据实战课程。本课程采用项目驱动的方式,以Spark3和Clickhouse技术为突破口,带领学员快速入门Spark3+Clickhouse数据分析,促使学员成为一名高效且优秀的大数据分析人才。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 76,960
精华内容 30,784
关键字:

大数据实战