精华内容
下载资源
问答
  • 大数据开发实战(Hadoop、Hive、Spark等)
  • 疫情实时大数据报告.pdf
  • 联储证券实时大数据系统建设和应用.pdf
  • ArcGIS矢量大数据解决方案-Geoanalytics Server,介绍了Geoanalytics Server的使用、功能拓展和业务集成几大块内容
  • 基于ApacheSpark软件栈的实时大数据
  • PB以上数据,如何构建一个高扩展性的dataaudit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch来解决这个问题。微软的ASG(应用与服务...
  • Druid在大数据领域已经不是新人了,因此可能很多读者都已经听说过Druid,甚至用过Druid,但是未必每个人都真正清晰地了解Druid到底是什么,以及在什么情况下可以用Druid。同时,为了避免大家听了半天,却一直陷在...
  • 实时大数据平台的设计与实现

    千次阅读 2019-01-12 16:24:38
    实时大数据平台的设计与实现 什么是实时大数据平台 实时大数据平台和离线大数据平台还是有区别的,更强调数据的实时性.具体的架构,具体的代码该怎么写,模块怎么去构建,各个系统之间怎么去组织协调,都需要根据对应的...

    实时大数据平台的设计与实现

    什么是实时大数据平台
    实时大数据平台和离线大数据平台还是有区别的,更强调数据的实时性.具体的架构,具体的代码该怎么写,模块怎么去构建,各个系统之间怎么去组织协调,都需要根据对应的需求和业务去考虑,数据平台强调整个数据生产的
    实时大数据平台的应用场景
    1.运营监控
    我们有一个产品或者一个网站,比如微信,支付宝等,那么作为运营人员,可能就比较关心昨天的pv和uv有多少,每天都多少点击量,网站中有一个产品每天有多少人消费了,每天的消费额是多少,上个月的销售表现如何,近期活跃用户数变化趋势
    2.产品改进
    作为一个pm(产品经理),比较关心用户的粘性如何,产品核心流程的转化如何,用户登录后有没有浏览商品,下单,支付,新功能的使用情况如何,有哪些用户在使用
    3.商业决策
    公司的leader,决策层更关心的问题,是否要在哪个区域开展业务,应该加大哪个渠道的广告投放,哪个区域的地推团队表现得更出色
    上述的三个问题,跟我们的数据平台又有什么关系呢?
    为什么需要实时数据平台
    在这里插入图片描述
    在没有大数据平台的时候,每当有一个新需求,数据工程师都要分析清楚需求,然后从不同的数据源中爬取数据,如此反复,相当耗费人力时间;
    大数据平台,将所有用户的行为数据都收集好,整理好,无论是前台展示,点击,浏览的数据,还是后台的日志,注册的信息,都导入大数据平台中,然后提供很友好的界面,展示各种报表数据,不管是运营人员,pm还是决策者,只需要在界面上点一点,选一选,就可以看到想要的数据.这个时候实时大数据平台的作用就体现出来了
    我们可以根据实时的数据,看到产品的实时动态,进而进行产品改进和决策
    实时数据平台的需求特点
    数据按照时间轴存储,维度(属性)非常多
    用户的浏览信息,登录信息,是什么时间来的,用户的IP,他浏览了哪些页面,点击了哪些按钮,年龄性别等维度信息
    注意时间轴,用户行为是有时间先后关系的

    一次导入,多次查询
    将数据按照需求整理好,不需要再修改,提供多次查询

    响应相对实时: 灵活性>实时性
    大数据平台并不是像一个业务数据库那样实时性要求很高,数据报表一般是给运营,pm和leader看的,不需要在几毫秒内就显示结果.对用户行为作分析,报表的灵活性越高越好,这样就很容易用更少的钱拉来更多的用户
    查询频率较低
    不会有自动化的业务,所以查询到频率较低
    可运维,易拓展
    在这里插入图片描述
    1.数据接入
    我们要收集哪些数据,如果我们要采集的是业务数据,就要到后台服务器去接入日志采集的程序,如果是采集用户在APP上或者web网站上的行为数据,就需要埋点
    数据来源:Batch importer(导入历史数据的工具),Java/PHP SDK,Android/iOS SDK,JS SDK

    2.数据传输
    数据的来源很复杂,我们需要统一的收集起来,所以就要有一个数据传输系统
    数据接入子系统:Nginx+Extractor+Kafka
    Nginx:作为一个HTTP服务器,接收前端的答点请求,简单的将接收到的数据记录下来
    Extractor(数据抽取器):接收Nginx记录的数据,同时发送到kafka,相当于是将分散的数据抽取,合起来发送到一个消息队列中,我们就可以接入更多的APP的数据
    Extractor模块是自定义实现的,kafka有consumer和producter模型,Extractor就是一个生产者的角色,按照kafka的API去实现生产者的功能.因为Nginx可能会有很多,所以Extractor会有很多,
    3.数据建模/存储
    ETL子系统:Data loader,清洗掉不合适,不完整的,不符合规范的数据,得到符合规范和要求的数据后,对比较重要的数据进行规范化解析,比如根据用户的IP解析出用户属于哪个省市,根据用户的UA信息,解析出浏览器的版本,内核,当前用户使用的手机型号和系统,数据传输之后,我们将数据按照一定的格式存储起来
    存储子系统:kudu(存储引擎,支持实时的写入)/parquet,hdfs
    批量计算子系统:离线计算使用,提供MapReduce计算任务
    4.数据查询
    Impala/Spark,基于格式化好的数据,进行实时查询操作
    5.数据可视化/反馈
    Query engine(翻译查询引擎和展示界面之间的请求和响应)
    将查询的结果,反映到可视化的界面,提供给上层的数据分析师或者leader看
    Monitor:监控器,管理各个组件,及时报警或修复组件
    元数据子系统:数据的基本信息,比如数据有哪些属性和维度
    实时大数据平台的架构设计
    在这里插入图片描述

    实时大数据平台的实现
    构建数据采集子系统
    前端采集:代码埋点,全埋点,可视化埋点
    后端采集:传输可靠,时效性高(内网中),信息丰富;后端日志+logagent
    采集业务数据/历史数据:各种导入工具;RESTful API
    ID-Mapping:打通登录前后的用户ID

    代码埋点:
    优点:采集的维度广,灵活,自定义
    缺点:需要写额外的代码,和业务逻辑耦合重
    全埋点(无埋点):
    优点:简单,无需额外代码
    缺点:系统兼容问题多,采集维度受限
    后端采集:
    优点:传输可靠,时效性高,有些维度必须在后端采
    缺点:某些维度的数据依然依赖于前端的采集;数据系统和业务系统必须部署于同一内网环境中

    开源日志收集工具:
    Flume,Scribe,LogStash(和es组合,非常适用于数据的监控,排查)

    LogAgent+Kafka选择理由:轻量,开源,灵活自定义(比如数据的清洗,自定义日志解析),适合自己的场景.
    一般的数据采集系统是自定义开发的,要选择合适业务场景的工具

    数据接入子系统
    在这里插入图片描述

    ETL子系统
    日志的清洗,过滤,加载
    1.和业务强相关,属于自研核心模块
    2.先定义框架,后定义逻辑
    一定要先理清需求,不要着急写代码,填充需求,定义好框架之后,再根据需求去写代码
    3.异常数据清洗,IP解析,UA解析
    4.ID-Mapping处理
    数据存储子系统
    优化存储比优化查询重要:
    一定要弄清楚要查询什么,想要的结果是什么,那么在数据存储的时候,就把数据分成有利于查询的格式.比如每次根据ID来查询用户,那么就用kv存储,选择Redis

    支持秒级导入和秒级查询:存储分为WOS(面向写存储)和ROS(面向读存储),读写分离
    WOS(Write Optimized Store):采用kudu表支持实时导入
    引入kudu,新一代面向实时分析的存储引擎
    底层使用类似parquet的存储结构
    支持实时写入,实时更新和随机查询
    扫描性能比parquet略差

    ROS(Read Optimized Store):采用parquet列式存储,采用合理的分区和文件大小,最大化的减少扫描的数据量
    采用parquet作为主存储格式
    列存(数据中维度很多,扫描时可以略过不必要的维度)
    按时间分区(时间轴维度)
    局部排序
    缺点:只支持批量写入,不能追加无法实现实时写入
    在这里插入图片描述
    Parquet 和 Kudu 的融合
    同时使用两种存储格式:
    Kudu存储实时数据,parquet存储历史数据
    定时进行数据转储: kudu–>parquet

    使用视图进行无缝融合,对于查询层来说,是完全透明的,优化 UNION ALL 的实现,消除不必要的数据拷贝
    在这里插入图片描述

    数据存储模型
    在这里插入图片描述

    用户行为表(事件表)
    时间 用户 事件 渠道 搜索关键词 价格
    2015-03-01 00:00 123 注册 Baidu
    2015-03-01 00:01 123 登录
    2015-03-01 10:00 123 搜索 iPad
    2015-03-01 03:00 123 订单支付 4888
    用户表
    用户ID 性别 注册渠道 会员等级
    123 男 百度 1
    456 男 官网 2
    789 女 头条 3
    888 女 未知 4
    调度和预计算子系统
    Scheduler:例行调度、workFlow 管理理
    Yarn:资源管理理、MapReduce/Spark job
    MapReduce:离线批计算

    Impala 架构

    在这里插入图片描述

    实时查询子系统
    在这里插入图片描述
    基于impala的实时查询架构
    在这里插入图片描述
    合理使用查询引擎
    合理的硬件:CPU,IO,网络带宽,内存
    优化的SQL
    性能要求:3节点,10秒内完成 10 亿条行为数据的分组聚合

    元数据和监控
    元数据(Meta)
    描述数据的数据
    mysql + redis + zookeeper
    监控(Monitor)
    容易易忽视但又是必不可少的模块
    自动化运维,兜底⽅案,数据持久化

    总结

    合理的数据接入方式
    • 简化的数据模型
    • HDFS + Kudu 的数据存储方式
    • 支持 SQL 的通用查询引擎: Impala
    • 针对特定场景的查询优化

    展开全文
  • 大数据可视化监控管理系统云平台
  • 阿里巴巴高级技术专家大沙,在《2017阿里巴巴双11技术十二讲》技术分享中,主要讲解了阿里巴巴实时大数据和相关的机器学习技术,以及这些技术如何运用于阿里巴巴几十个事业部,实现大数据升级,最终取得卓越的双11...
  • 实时大数据广电案例.pdf
  • 实验内容 1. 采用基于“抽税”法在MapReduce框架下,分析图1的网页PageRank排名; 2. 图1中,若节点②和节点⑤是主题节点,采用面向主题的PageRank算法重新计算所有节点的PageRank值。
  • 离线和实时大数据开发实战 笔记一

    千次阅读 2019-05-04 15:05:46
    大数据整体有一定的了解。 1.OLTP(Online Transaction processing)和OLAP (Online Analytical Processing) 从命名上就可以看出轻微的区别,一个是事物型,一个是分析型。2. 2.数据建模,最近刚好在做这方面的...

    这本书也算是二刷了,推荐可以看看。对大数据整体有一定的了解。

    1.OLTP(Online Transaction processing)和OLAP (Online Analytical Processing)

    从命名上就可以看出轻微的区别,一个是事物型,一个是分析型。2.

    2.数据建模,最近刚好在做这方面的工作。以我司为例,用的是维度建模。维度建模客观世界分为度量和上下文。度量简单的说就是一些需要聚合或者是直接可以用的数值 如订单金额、库存数量等等,维建模中称它为事实。事实由大量文本形式的上下文包围着,而且这些上下文常被直观地分割成为多个独立的逻辑块,维度建模称之为维,维描述了度量的5个W(When,Where,What,Who,Why)信息,比如什么时候下单,何种方式下单,买的什么,客户是谁等等。在星形架构中间是事实表,事实表周围的则是各个角度的维度表。

    第二点则是总线体系架构。我的理解就是不同主题公用的相同维度来保障所处数据的口径一致。从图中可以看出,不同主题之间的联系就是维度。另一种就不介绍了有兴趣可以看看这部书了解一下BillInmon建模方法论。

    数仓分层:以我司为例,分为lz(原业务库数据),ods(初步合并数据),dw(维度和事实),rpt(报表层) 本书分层:  只是名称叫法不同,其实含义是差不多的。

    3.流计算平台的选择:

    技术成熟度:即该流计算框架在工业界的实际应用情况;该技术有没有在生产环境和大数据量、大集群环境下得到验证;有无现成经验和解决方案可供参考;一旦出现问题,能否快速利用别人的经验快速解决.

    性能:该技术是否能够抗住现有的业务数据量,预留空间是多少,实时延迟是否能够满足现有的业务要求。比如,基于微批处理的框架延迟至少在秒级,而原生的流处理框架可以到几十毫秒。

    开发难度和速度:该技术是否提供高级的API,还是必须都从底层API构业务逻辑;底层API处理灵活,但是对开发人员的技能要求比较高,而且通常耗时较长,高级API(比如流计算SQL)的开发效率非常高,而且门槛低,但某些场景下SQL无法表述,实际项目中需要综合考虑.

    可维护性:具体在流计算框架下主要体现在状态管理和容错性方面,比如任务失败了、需要调优或者业务逻辑更改升级了,需要暂停和重启任务,流计算框架应该支持从上一个状态中恢复。

    可靠性:流计算的可靠性主要体现在流计算框架对atleastonce和exactlyonce的支持。atleastonce意味着每条消息会进行多次传输尝试,至少一次成功,即消息传输能重复但不会丢失;exactlyonce的消息传输机制是每条消息有且只有一次,即消传输既不会丢失也不会重复。

    4.数据探查

           数据探查就是对数据的内容本身和关联关系等进行分析,包括但不限于需要的数据是否存在、都有哪些字段、字段含义是否规范明确已经字段的分布和质量如何等。数据探查常用的分析技术手段包括主外键、字段类型、字段长度、null值占比、枚举值分布,最大值,最小值,平均值等。

            数据探查分为战略性的和战术性的。战略性的数据探查是指在使用数据之前首先对数据进行轻量级数据分析,确定是否可用、数据稳定性如何,以决定是否可以纳入数据平台使用。战略性的数据探查是构建数据平台前首先要进行的任务,不合格的数据源头必须尽快剔除,如果到后期才发现数据源头不合格,将和对数据平台的构建造成重大影响。战术性的数据探查则指用技术手段对数据进行详尽的分析,发现尽可能多的数据质量问题反馈给业务员或通知源头系统进行改进。

      数据探查真的很重要,如果从源数据平台来的数据大量不合格不可用会对用到此数据的所有主题造成影响。

     

     

    展开全文
  • 携程实时大数据平台介绍.pptx
  • 企业实时大数据系统介绍.pptx
  • 苏宁物流实时大数据的探索与_苏宁易购.pdf
  • 物流实时大数据的探索与实践.pptx
  • 实时大数据在风控中的实践.pdf
  • 苏宁物流在实时大数据的最佳实践.pdf
  • 联储证券实时大数据系统建设和应用
  • Flink+ClickHouse 玩转企业级实时大数据开发.zip
  • 基于实时大数据的伪基站侦测系统;伪基站介绍;基于实时大数据的伪基站侦测系统原理;无线侦测终端部署场景;精准性;应用
  • 苏宁物流实时大数据的探索与_苏宁易购
  • 多种H5监控大屏模板,可以用于通用的监控大屏的页面模板,提供了多种布局方式,集成多种组件,比如echart等等。
  • 打造实时大数据的平台

    千次阅读 2018-05-03 23:22:51
    实时大数据又是一个什么概念?笔者想用一个调查机构的话来回答: 据估计,接入物联网中的设备在2020年将达到260亿,假设这些传感器中有1/1000的传感器每秒传回一个状态,则每秒同时要处理的实时数据将达0.26亿。 ...
    物联网火热到什么程度?实时大数据又是一个什么概念?
    笔者想用一个调查机构的话来回答: 
    
    据估计,接入物联网中的设备在2020年将达到260亿,假设这些传感器中有1/1000的传感器每秒传回一个状态,则每秒同时要处理的实时数据将达0.26亿。  




    GeoEvent Server登场:  
    实时数据的连续接入、处理和输出  

    物联网中的实时大数据往往都与空间位置分布有直接或间接的关系,传统的技术手段已经无法很好地接收和处理。ArcGIS 10.5中的GeoEvent Server为实时大数据的接入和处理提供了一种有效的方案。 

    GeoEvent Server可以对接物联网中各种类型的传感器,并对实时大数据进行高效处理和分析,输出到ArcGIS平台或者其它的平台中,它是ArcGIS平台提供的一种高效、实用的实时大数据处理服务器。 

    GeoEvent Server内置了非常多的输入、输出协议以及数据处理方法,并提供可视化的配置界面,通过拖拽式的操作即可快速配置实时大数据处理流程,使得实时大数据流能够在GeoEvent Server中轻松的完成流转。其中,数据接入的协议多达17种,包括TCP、UDP、RSS、Web Socket等多种常用主流协议,可以说,任何流数据都可以通过GeoEvent Server接入。 



    GeoEvent Server同时提供了非常多的实时数据分析方法,用来进行实时数据的过滤和处理,在10.5当中,过滤方法多达23种,其中最重要最实用的“地理围栏”多达12种,支持进入、离开、在里面、相交……等几乎所有场景,并且支持多个地理围栏的any或all状态;同时提供了包括缓冲分析、投影转换、凸包计算等多达27种的空间数据处理方法,可以实现目标监控、交通流量统计等核心业务。 


    经过GeoEvent Server处理的实时数据,同样可以多种形式对外输出,如可以向手机发送短信提醒、邮件提醒,可以输出为Web Socket被其它平台使用,还可以输出到RabbitMQ、Hadoop、MongoDB等多种平台中。 



    GeoEvent Server  
    支持实时大数据  

    1、实时大数据可视化  

    GeoEvent Server提供的“时空大数据存储输出连接器”支持将实时流数据接入ArcGIS平台进行实时动态聚合显示,用户可以一目了然的看出每一时刻的数据状态,以及当前时刻的密度分布。 


    2、实时大数据存储  
    GeoEvent Server还基于Esri新推出的ArcGIS Data Store实现实时大数据的高效存储,将传感器的历史数据都予以保留,可以充分发挥历史数据的巨大价值。如通过对历史数据进行时间轴播放,可以对航班/车辆的历史轨迹进行回放,有助于确定在某些特殊的状态下,移动目标的轨迹是否合理,为路径规划提供参考。 


    3、实时历史大数据的挖掘分析  
    在ArcGIS 10.5当中,GeoEvent Server实现了与GeoAnalytics Server的集成,这意味着,通过GeoEvent Server接入的实时大数据可以使用GeoAnalytics Server提供的多种大数据分析工具进行挖掘分析。与传统的分析工具相比,使用全新推出的、基于Spark框架的GeoAnalytics Server大数据分析工具可以更快的得到分析结果。这使得GeoEvent Server更好的支持实时大数据分析。 


    4、快速创建实时大数据应用  
    结合ArcGIS平台已有的各种即拿即用的客户端,可以非常简单方便的创建实时大数据的应用。通过GeoEvent Server可以将实时大数据以增强的地图服务和要素服务的方式输出到ArcGIS平台中,这两种类型的服务可以在Portal for ArcGIS、Web AppBuilder for ArcGIS、Operations Dashboard,ArcGIS Pro,以及最新推出的洞悉数据的利器Insights for ArcGIS中进行可视化、查询,甚至是分析。 


    5、GeoEvent Server实时大数据的规模  
    GeoEvent Server和ArcGIS Data Store均具备分布式多节点部署的能力,采用多个GeoEvent Server节点和ArcGIS Data Store节点分布式部署,可以显著提升GeoEvent Server接入和处理实时大数据的能力。下图展示的是GeoEvent Server和ArcGIS Data Store节点数与峰值时刻的处理速度。 
    据有效测算,在GeoEvent Server节点36个,ArcGIS Data Store节点18个的情况下,每秒能处理的实时数据峰值在8.76万/秒,这个值已经超过2015年双十一期间支付宝的交易峰值。由此可见,GeoEvent Server可以真正支撑物联网背景下的实时大数据应用。 

    写在最后  

    GeoEvent Server是ArcGIS 10.5中四大重要的服务器之一,在物联网蓬勃发展,大数据炙手可热的时代,它给用户提供了一种高效的实时大数据接入、处理和输出以及可视化的途径,并通过与GeoAnalytics Server的结合,在实时大数据积累的历史数据挖掘方面有更大的突破,为企业用户充分挖掘数据背后的价值。


    三维地球云平台    www.hapxu.com

    地图大数据云平台  www.favxu.com

     QQ:63747667

    邮箱:hui1788@163.com

    展开全文
  • 网络游戏-基于深度包检测的网络实时大数据系统及大数据分析方法.zip
  • 离线和实时大数据开发实战.朱松岭(详细书签)

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 165,353
精华内容 66,141
关键字:

实时大数据

友情链接: ohnewenn.rar