精华内容
参与话题
问答
  • 大数据平台大数据平台
  • 大数据平台

    万次阅读 2018-01-26 10:46:00
    大数据平台选型有三种选择: 1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性; 2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活; 3、自己造轮子,优点...

    选型

    大数据平台选型有三种选择:

    1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性;

    2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活;

    3、自己造轮子,优点就是根据需要定制部署,缺点周期长、成本高、坑特别多。

    公司高层视数据如命,使用公有云平台是不可能的,大数据团队刚建成、预算不足,只能走向自主建设这条艰辛路。经历了大数据平台从有到无,功能越来越完善,稳定性和性能逐步提升,支持的业务越来越多。体会到自主建设一个生产级别的大数据平台,要踩了很多坑。所以记录一下大数据平台的技术演进历程,一来用于总结经验,二来也给其他正准备自己建设大数据平台的同学提供参考。

    总体架构

     

    • 数据源,支持多种数据源,可以实现对公司的各个业务线的数据进行接入整合;
    • 接入层,业务mysql数据库定时同步和基于canel的实时同步结合,日志数据实时接入,互联网海量数据实时爬取清洗;
    • 存储层,hdfs分布式文件系统实现海量数据存储,hbase提供数据实时读写,kafka消息队列实现数据缓存;
    • 计算层,离线计算引擎用于数据挖掘和机器学习模型训练,实时计算引擎实现日志的实时分析和处理,深度学习引擎用于人工智能算法的运行;
    • 分析层,实时SQL用于探索性分析和多维分析,机器学习算法用于商机的分类和推荐,NLP分析实现自然语言处理,深度学习算法用于图片水印和违禁图片识别;
    • 数据服务层,对外提供数据服务;
    • 数据应用层,个性推荐为PC端和单品通app端提供推荐服务;用户画像可以抽象出标签化的用户模型是提升会员质量的基础;用户行为分析对用户访问网站的规律进行分析可用于智能推荐;统计报表对数据进行挖掘分析,提供报表作为决策的依据,实现商业智能;运营支持对运营部门的需求提供大数据支持;数据大屏方便用户直观的了解运营情况,包括实时交易图、统计大屏和基地大屏。

    数据采集

    需要采集的数据有三类:
    • 业务数据,主要存储是关系型数据;
    • 日志类,主要存储是文件;
    • 爬虫抓取类,主要存储是文件。

    业务数据

    Sqoop阶段

    公司业务数据库使用的mysql,最初业务数据同步使用sqoop定时同步,主要问题有三个:数据同步有延时,同步后的数据有串行、对业务库压力大。所以想找到更好替代方案。

    Kafka Connect阶段

    这个时候confluent 的kafka connect 进入我们的视野,看完官网的介绍和原理,设计理念特别好,支持各种数据源,完全满足我们的需求,经过部署测试,稳定性太差,根本无法用到生产环境。

    Sqoop+canal阶段

    最后又把目光又回到了sqoop上,利用sqoop的job实现增量同步,同时对并行度进行优化基本可以满足要求。对业务数据库压力大的问题并没有解决,考虑专门创建一个mysql备库用于我们同步数据,这时候闪现了一个想法可以考虑直接读取mysql的binlog日志进行同步,先在github上找找有没有开源的轮子,在万能的github上找到了canal。最后的方案就是通过sqoop+canal的方案,sqoop用于第一次全量同步,canal用于增量同步。

    日志数据

    可选的方案有三个:

    flume、logstash、filebeat。最后的选择的是filebeat直接接入kafka,没有使用logstash原因是对服务器压力太大,flume更侧重数据传输。

    爬虫抓取类

    爬虫抓取集群和大数据集群网络环境差,爬取的文件格式复杂,这种情况是flume最擅长的。

    平台管理

    平台建设开始就要考虑的数据资源和计算资源的管理,避免使用混乱,否则后患无穷。

    数据资源管理

    hdfs、hive、hbase启用安全策略,开发了专门的元数据管理平台,对数据进行管理,包括数据所属人,数据的用途。

    计算资源管理

    引用账号和队列,每个产品线对应一个用户组,每个用户对应一个队列,针对队列设置配额。

    性能优化

    硬件环境

    • 系统盘和数据盘分开。避免使用一个磁盘的两个分区作为系统盘和数据盘,这样可以避免数据盘负载太高导致系统变卡。
    •  数据盘不需要做raid,直接使用单个磁盘。使用raid0虽然性能高,但是单个磁盘损坏会导致整个raid磁盘不能使用,使用raid5数据可靠性高,但是性能不高。更重要的是,我们数据的安全性靠的是软件保证。
    • 每台机器的磁盘数和磁盘空间尽可能一样。
    • 系统盘一定要是使用单独的磁盘,最少200G空间以上
    • 使用高转速磁盘,至少1000转以上,避免磁盘成为瓶颈。
    • 集群机器之间至少10Gigabit(万兆)以太网。
    •  内存、CPU、磁盘、带宽和磁盘io要保持一个合理的性价比。例如正常情况下内存越大越好,但是内存大到一定阶段,cpu和带宽就会成为瓶颈,如果加大cpu和带宽,最后磁盘io就有可能是瓶颈。

    操作系统

    • 禁用swap,使用交换分区会严重影响程序的性能。现在的内存已经不是很稀缺了,而且内存和磁盘速度相差太大。
    • 增大操作系统的最大打开文件数。
    • 设置数据盘的noatime属性。
    • 文件系统选择ext4

    部署建议

    hdfs

    Namenode节点不要和datanode节点部署在一起 

    Yarn

    • yarn分配的内存是机器总内存的75%,剩余的内存用于操作系统、系统缓存、程序等使用。
    • nm节点和datanode节点部署到同样的机器上。
    • RM节点选择和namenode节点部署到同一个机器。

    Zookeeper

    • zookeeper节点选择负载比较少的机器部署,不要和nodemanager部署到同一台机器上
    • zookeeper节点数3个
    • zookeeper数据最好存储到单独的磁盘上,不要和数据盘用同一个盘

    spark

    • 计算节点尽快能接近数据节点
    • 配置多个磁盘作为spark的本地目录,最好能和datanode的数据目录用同一个,spark-on-yarn由yarn.nodemanager.local-dirs确定

    kafka

    • kafka最好单独部署一个集群,如果机器资源不够也需要有单独的磁盘
    • kafka尽可能部署到负载比较小的机器上

    其它优化

    shuffle相关参数调优

    hdfs小文件合并

    任务隔离

    大数据集群的规模是随着业务发展逐渐增大,导致集群机器配置不一致,主要是有一批配置低的机器最初用来跑MR任务,一批配置高的机器使用跑spark任务,最好不同的任务能提交到指定的机器运行,所以引入了对NodeManager打标签。将配置低的机器打标签为MR任务,配置高分为spark离线任务和spark Streaming任务。同时对队列也设置相应的标签。


    展开全文
  • 大数据平台一般包括集群运维管理软件Manager、Hadoop基础组件 、安全管控软件和SQL客户端、ETL可视化组件、任务调度可视化组件等各个开 发工具软件组成。核心是Manager,负责管理整个集群,并提供可视化的操作; ...
  • 大数据平台是为了满足企业对于数据的各种要求而产生的。大数据平台:是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等...

    f63dadc2285da4507d220c570d9c8fd6.png
    大数据平台是为了满足企业对于数据的各种要求而产生的。

    大数据平台:

    是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

    既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。

    大数据新手学习交流群,如果有想学习大数据或者交流经验的都可以加入,一起互相学习交流:→→→点击我即可加入圈子

    ba2518ffd25a6f8c7a12feaaa8b6466f.png

    大数据平台的功能:

    1、容纳海量数据

    利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。

    2、速度快

    结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术,不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制。

    3、兼容传统工具

    确保平台已经过认证,可以兼容传统工具。

    4、利用Hadoop

    Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型数据管理的高效益平台。

    5、为数据科学家提供支持

    数据科学家在企业IT中拥有着更高的影响力和重要性,快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。

    6、提供数据分析功能

    确保大数据平台不仅支持在数秒钟内准备并加载数据,还支持利用高级算法建立预测模型,轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。

    比较好的大数据平台:

    阿里云,腾讯,百度,华为和星环

    阿里云的大数据平台偏技术,产品比较齐全;

    腾讯大数据产品偏分析,产品和方案偏少;

    百度大数据的产品也比较齐全,另外偏营销的解决方案不少;

    华为的产品根据行业客户需求进行优化的解决方案;

    星环的产品很有特点,但是研发能力和市场等比较弱。

    如何搭建大数据分析平台?

    一般性步骤:

    1、Linux系统安装

    2、分布式计算平台/组件安装

    当前分布式系统的大多使用的是Hadoop系列开源系统

    3、数据导入

    数据导入的工具是Sqoop

    4、数据分析

    数据分析一般包括两个阶段:数据预处理和数据建模分析。

    数据预处理这个过程可能会用到Hive SQL,Spark QL和Impala。

    数据建模分析最好用的是Spark

    5、结果可视化及输出API

    可视化一般式对结果或部分原始数据做展示

    码字不容易,帮忙点个赞,点赞关注是我写作的动力,谢谢

    展开全文
  • 经过半年多的运行,浑南会客厅继“领跑加速度”后又推行“浑南会客厅”大数据平台这一重要举措,实现了浑南区行政审批速度与大数据的完美对接。在大数据的背景下,实现所有审批业务的全面公开、全面透明、全面监督,...

    3ff2ae5db9ec1781843d68b60b4cc542.gif

    133d12f2a9b91cf5ad5fdb74d9b9cf21.png

    经过半年多的运行,浑南会客厅继“领跑加速度”后又推行“浑南会客厅”大数据平台这一重要举措,实现了浑南区行政审批速度与大数据的完美对接。在大数据的背景下,实现所有审批业务的全面公开、全面透明、全面监督,使得审批数据时时看、刻刻查,分分秒秒尽在群众的掌握之中。

    c405b644d7bb82d131db46844c616726.png

    此次推出“浑南会客厅”大数据平台,是在“领跑加速度”的基础上充分整合现有数据,利用大数据云端处理并实时反映到群众眼前。大数据平台放置于北咨询台电梯口处,打破传统表格统计表现方式,以线形图、饼状图等多种图形化模式更新会客厅实时数据。平台共分为事项类型统计、运行监察统计、事项办件TOP5、累计办件量、实时办件情况公示、本月办件来源、在线服务成效、工程建设项目统计八大模块。模块间相辅相成,实时监控浑南区所有行政审批事项。

    65034a42a56780d0bd45f3be3bc78503.png

    “浑南会客厅”大数据平台不但为企业随时了解业务办理动态提供直接渠道,而且为企业实时监察后台职能部门业务处理情况提供了便利手段。经过半年多的经验积累,“浑南会客厅”以大数据分析为基本点,压缩审批时效为驱动,让数据搭建起沟通的桥梁,再次优创浑南区营商环境。

    a27186268352c71fb977d7d6852ef191.png

    展开全文
  • 大数据平台是为了满足企业对于数据的各种要求而产生的。大数据平台:是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等...

    大数据平台是为了满足企业对于数据的各种要求而产生的。

    cdc81eedb941852bf52039283929ad34.png

    大数据平台:

    是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

    既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。

    大数据平台的功能:

    1、容纳海量数据

    利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。

    2、速度快

    结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术,不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制。

    3、兼容传统工具

    确保平台已经过认证,可以兼容传统工具。

    4、利用Hadoop

    Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型数据管理的高效益平台。

    5、为数据科学家提供支持

    数据科学家在企业IT中拥有着更高的影响力和重要性,快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。

    6、提供数据分析功能

    确保大数据平台不仅支持在数秒钟内准备并加载数据,还支持利用高级算法建立预测模型,轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。

    6c35697613972fc71cf6435e66dd0671.png

    比较好的大数据平台:

    阿里云,腾讯,百度,华为和星环

    阿里云的大数据平台偏技术,产品比较齐全;

    腾讯大数据产品偏分析,产品和方案偏少;

    百度大数据的产品也比较齐全,另外偏营销的解决方案不少;

    华为的产品根据行业客户需求进行优化的解决方案;

    星环的产品很有特点,但是研发能力和市场等比较弱。

    436d4bf5d57175cfce10a281ba6cf351.png

    如何搭建大数据分析平台?

    一般性步骤:

    1、Linux系统安装

    2、分布式计算平台/组件安装

    当前分布式系统的大多使用的是Hadoop系列开源系统

    3、数据导入

    数据导入的工具是Sqoop

    4、数据分析

    数据分析一般包括两个阶段:数据预处理和数据建模分析。

    数据预处理这个过程可能会用到Hive SQL,Spark QL和Impala。

    数据建模分析最好用的是Spark

    5、结果可视化及输出API

    可视化一般式对结果或部分原始数据做展示。加米谷大数据培训整理。

    展开全文
  • 大数据全网数据采集技术方案(ppt)数据治理模型管控平台技术方案(ppt)大数据平台集团公司顶层设计方案(ppt)大数据平台规划建设集团企业方案(图文)数据治理:大数据治理体系规划指导方案(ppt)大数据平台数据治理规划...
  • 企业大数据平台三:企业大数据平台安装标签(空格分隔): 企业大数据平台企业大数据平台三企业大数据平台安装 一CM 5x介绍 二CM安装 三添加集群 四问题解决 一,CM 5.x介绍 分布式: –主节点:Cloudera Manager ...
  • 企业大数据平台二:企业大数据平台环境准备标签(空格分隔): 企业大数据平台企业大数据平台二企业大数据平台环境准备 一Hadoop发型版本 二准备工作 一,Hadoop发型版本1,apache版本–开源版本 2,Cloudera版本:...
  • ambari 搭建大数据平台

    2018-01-02 15:15:29
    ambari 搭建分布式的大数据平台,可对大数据平台进行集群管理
  • 大数据平台建设方案

    2018-10-08 14:43:44
    大数据平台建设方案
  • 美团大数据平台架构实战,美团大数据平台架构实战,美团大数据平台架构实战
  • 2017年最后一期公开课预告-《ArcGIS空间大数据平台与Hadoop&Spark大数据平台的集成与开发》 12月26日《ArcGIS空间大数据平台与Hadoop&Spark大数据平台的集成与开发》公开课课程简介: ...
  • 搞定大数据平台:从入门到实战

    万人学习 2019-01-15 10:17:18
    本课程主要是构建大数据平台,包含目前大数据常用的所有技术组件的环境部署。所有技术组件的安装部署,都是手把手操作,不会出现跳讲和断讲,0基础同学也能一站式搞定大数据平台环境。
  • 介绍大数据中台、数仓、大数据平台等大数据领域的一些方法论
  • 近日,中国电信集成公司与中标软件有限公司共同宣布:飞龙大数据平台和中标麒麟服务器操作系统完成相关产品兼容性相互认证测试。测试结果显示,飞龙大数据平台在中标麒麟服务器操作系统上顺利安装、运行良好,且整体...
  • AI大数据平台架构图

    2020-10-12 16:47:18
    AI大数据平台架构图
  • 大数据平台智能运维系统,李若愚,徐鹏,近年来,随着大数据技术和应用的发展,越来越多的企业意识到大数据对企业的重要作用,越来越多的大数据平台被企业采用。然而大数
  • 初步了解大数据平台 Hadoop 分布式系统的基础(需保证时间同步)。 主要包含: HDFS(分布式文件存储) YARN(分布式资源管理) MapReduce(分布式计算) 适合:大数据、流式数据(写一次,读多次) HDFS详解:...
  • 目前人工智能非常火,大家所熟知的人脸识别、智能安防、...Momenta大数据平台Momenta的目标是打造自动驾驶大脑,基于深度学习和海量数据,Momenta已经形成服务多个场景的自动驾驶解决方案,解决了逆光、桥、隧道、雨...
  • 当前,我国多地正在建设城市大数据平台。统一的城市大数据平台有利于加速资源整合、便利应用开发,在创新城市治理模式、改革政府管理方式等方面正在发挥越来越重要的作用。 本白皮书从城市大数据驱动新型智慧城市...
  • 万科商业大数据平台

    2018-12-10 00:17:47
    万科大数据平台方案介绍 购物中心&写字楼
  • 大数据平台是为了满足企业对于数据的各种要求而产生的。 大数据平台: 是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等...
  • 政务大数据平台建设方案,很不错的参考方案,需要编写政务大数据平台方案的可以学习
  • 智慧企业大数据平台建设方案议程xxx大数据平台业务需求以及理解大数据解决方案数据交换平台数据仓库平台数据管控平台数据的展现与可视化项目实施整体规划大...
  • 饿了么大数据平台的相关技术分享
  • 应急指挥一张图可视化平台方案(ppt)大数据平台架构建设方案(图文)大数据平台技术架构解决方案(ppt)大数据平台总体架构方案(ppt)大数据平台框架选型分析方案(图文)大数据可视化分析平台应用方案(图文)大数据应用分发...
  • 如何从0到1搭建大数据平台

    万次阅读 2020-07-02 06:20:00
    大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平台的...
  • 大数据平台规划

    千次阅读 2018-10-25 17:12:38
    大数据能力模型 大数据平台规划
  • 大数据平台建设实施方案

空空如也

1 2 3 4 5 ... 20
收藏数 27,272
精华内容 10,908
关键字:

大数据平台