精华内容
下载资源
问答
  • 实时大数据平台的设计与实现

    千次阅读 2019-01-12 16:24:38
    实时大数据平台的设计与实现 什么是实时大数据平台 实时大数据平台和离线大数据平台还是有区别的,更强调数据的实时性.具体的架构,具体的代码该怎么写,模块怎么去构建,各个系统之间怎么去组织协调,都需要根据对应的...

    实时大数据平台的设计与实现

    什么是实时大数据平台
    实时大数据平台和离线大数据平台还是有区别的,更强调数据的实时性.具体的架构,具体的代码该怎么写,模块怎么去构建,各个系统之间怎么去组织协调,都需要根据对应的需求和业务去考虑,数据平台强调整个数据生产的
    实时大数据平台的应用场景
    1.运营监控
    我们有一个产品或者一个网站,比如微信,支付宝等,那么作为运营人员,可能就比较关心昨天的pv和uv有多少,每天都多少点击量,网站中有一个产品每天有多少人消费了,每天的消费额是多少,上个月的销售表现如何,近期活跃用户数变化趋势
    2.产品改进
    作为一个pm(产品经理),比较关心用户的粘性如何,产品核心流程的转化如何,用户登录后有没有浏览商品,下单,支付,新功能的使用情况如何,有哪些用户在使用
    3.商业决策
    公司的leader,决策层更关心的问题,是否要在哪个区域开展业务,应该加大哪个渠道的广告投放,哪个区域的地推团队表现得更出色
    上述的三个问题,跟我们的数据平台又有什么关系呢?
    为什么需要实时数据平台
    在这里插入图片描述
    在没有大数据平台的时候,每当有一个新需求,数据工程师都要分析清楚需求,然后从不同的数据源中爬取数据,如此反复,相当耗费人力时间;
    大数据平台,将所有用户的行为数据都收集好,整理好,无论是前台展示,点击,浏览的数据,还是后台的日志,注册的信息,都导入大数据平台中,然后提供很友好的界面,展示各种报表数据,不管是运营人员,pm还是决策者,只需要在界面上点一点,选一选,就可以看到想要的数据.这个时候实时大数据平台的作用就体现出来了
    我们可以根据实时的数据,看到产品的实时动态,进而进行产品改进和决策
    实时数据平台的需求特点
    数据按照时间轴存储,维度(属性)非常多
    用户的浏览信息,登录信息,是什么时间来的,用户的IP,他浏览了哪些页面,点击了哪些按钮,年龄性别等维度信息
    注意时间轴,用户行为是有时间先后关系的

    一次导入,多次查询
    将数据按照需求整理好,不需要再修改,提供多次查询

    响应相对实时: 灵活性>实时性
    大数据平台并不是像一个业务数据库那样实时性要求很高,数据报表一般是给运营,pm和leader看的,不需要在几毫秒内就显示结果.对用户行为作分析,报表的灵活性越高越好,这样就很容易用更少的钱拉来更多的用户
    查询频率较低
    不会有自动化的业务,所以查询到频率较低
    可运维,易拓展
    在这里插入图片描述
    1.数据接入
    我们要收集哪些数据,如果我们要采集的是业务数据,就要到后台服务器去接入日志采集的程序,如果是采集用户在APP上或者web网站上的行为数据,就需要埋点
    数据来源:Batch importer(导入历史数据的工具),Java/PHP SDK,Android/iOS SDK,JS SDK

    2.数据传输
    数据的来源很复杂,我们需要统一的收集起来,所以就要有一个数据传输系统
    数据接入子系统:Nginx+Extractor+Kafka
    Nginx:作为一个HTTP服务器,接收前端的答点请求,简单的将接收到的数据记录下来
    Extractor(数据抽取器):接收Nginx记录的数据,同时发送到kafka,相当于是将分散的数据抽取,合起来发送到一个消息队列中,我们就可以接入更多的APP的数据
    Extractor模块是自定义实现的,kafka有consumer和producter模型,Extractor就是一个生产者的角色,按照kafka的API去实现生产者的功能.因为Nginx可能会有很多,所以Extractor会有很多,
    3.数据建模/存储
    ETL子系统:Data loader,清洗掉不合适,不完整的,不符合规范的数据,得到符合规范和要求的数据后,对比较重要的数据进行规范化解析,比如根据用户的IP解析出用户属于哪个省市,根据用户的UA信息,解析出浏览器的版本,内核,当前用户使用的手机型号和系统,数据传输之后,我们将数据按照一定的格式存储起来
    存储子系统:kudu(存储引擎,支持实时的写入)/parquet,hdfs
    批量计算子系统:离线计算使用,提供MapReduce计算任务
    4.数据查询
    Impala/Spark,基于格式化好的数据,进行实时查询操作
    5.数据可视化/反馈
    Query engine(翻译查询引擎和展示界面之间的请求和响应)
    将查询的结果,反映到可视化的界面,提供给上层的数据分析师或者leader看
    Monitor:监控器,管理各个组件,及时报警或修复组件
    元数据子系统:数据的基本信息,比如数据有哪些属性和维度
    实时大数据平台的架构设计
    在这里插入图片描述

    实时大数据平台的实现
    构建数据采集子系统
    前端采集:代码埋点,全埋点,可视化埋点
    后端采集:传输可靠,时效性高(内网中),信息丰富;后端日志+logagent
    采集业务数据/历史数据:各种导入工具;RESTful API
    ID-Mapping:打通登录前后的用户ID

    代码埋点:
    优点:采集的维度广,灵活,自定义
    缺点:需要写额外的代码,和业务逻辑耦合重
    全埋点(无埋点):
    优点:简单,无需额外代码
    缺点:系统兼容问题多,采集维度受限
    后端采集:
    优点:传输可靠,时效性高,有些维度必须在后端采
    缺点:某些维度的数据依然依赖于前端的采集;数据系统和业务系统必须部署于同一内网环境中

    开源日志收集工具:
    Flume,Scribe,LogStash(和es组合,非常适用于数据的监控,排查)

    LogAgent+Kafka选择理由:轻量,开源,灵活自定义(比如数据的清洗,自定义日志解析),适合自己的场景.
    一般的数据采集系统是自定义开发的,要选择合适业务场景的工具

    数据接入子系统
    在这里插入图片描述

    ETL子系统
    日志的清洗,过滤,加载
    1.和业务强相关,属于自研核心模块
    2.先定义框架,后定义逻辑
    一定要先理清需求,不要着急写代码,填充需求,定义好框架之后,再根据需求去写代码
    3.异常数据清洗,IP解析,UA解析
    4.ID-Mapping处理
    数据存储子系统
    优化存储比优化查询重要:
    一定要弄清楚要查询什么,想要的结果是什么,那么在数据存储的时候,就把数据分成有利于查询的格式.比如每次根据ID来查询用户,那么就用kv存储,选择Redis

    支持秒级导入和秒级查询:存储分为WOS(面向写存储)和ROS(面向读存储),读写分离
    WOS(Write Optimized Store):采用kudu表支持实时导入
    引入kudu,新一代面向实时分析的存储引擎
    底层使用类似parquet的存储结构
    支持实时写入,实时更新和随机查询
    扫描性能比parquet略差

    ROS(Read Optimized Store):采用parquet列式存储,采用合理的分区和文件大小,最大化的减少扫描的数据量
    采用parquet作为主存储格式
    列存(数据中维度很多,扫描时可以略过不必要的维度)
    按时间分区(时间轴维度)
    局部排序
    缺点:只支持批量写入,不能追加无法实现实时写入
    在这里插入图片描述
    Parquet 和 Kudu 的融合
    同时使用两种存储格式:
    Kudu存储实时数据,parquet存储历史数据
    定时进行数据转储: kudu–>parquet

    使用视图进行无缝融合,对于查询层来说,是完全透明的,优化 UNION ALL 的实现,消除不必要的数据拷贝
    在这里插入图片描述

    数据存储模型
    在这里插入图片描述

    用户行为表(事件表)
    时间 用户 事件 渠道 搜索关键词 价格
    2015-03-01 00:00 123 注册 Baidu
    2015-03-01 00:01 123 登录
    2015-03-01 10:00 123 搜索 iPad
    2015-03-01 03:00 123 订单支付 4888
    用户表
    用户ID 性别 注册渠道 会员等级
    123 男 百度 1
    456 男 官网 2
    789 女 头条 3
    888 女 未知 4
    调度和预计算子系统
    Scheduler:例行调度、workFlow 管理理
    Yarn:资源管理理、MapReduce/Spark job
    MapReduce:离线批计算

    Impala 架构

    在这里插入图片描述

    实时查询子系统
    在这里插入图片描述
    基于impala的实时查询架构
    在这里插入图片描述
    合理使用查询引擎
    合理的硬件:CPU,IO,网络带宽,内存
    优化的SQL
    性能要求:3节点,10秒内完成 10 亿条行为数据的分组聚合

    元数据和监控
    元数据(Meta)
    描述数据的数据
    mysql + redis + zookeeper
    监控(Monitor)
    容易易忽视但又是必不可少的模块
    自动化运维,兜底⽅案,数据持久化

    总结

    合理的数据接入方式
    • 简化的数据模型
    • HDFS + Kudu 的数据存储方式
    • 支持 SQL 的通用查询引擎: Impala
    • 针对特定场景的查询优化

    展开全文
  • 論建立实时大数据平台

    千次阅读 2021-02-15 10:00:32
    論建立实时大数据平台 李万鸿2020-2-15 目前的大多大数据平台都是T+1的非实时平台,只能展示昨天的数据,而客户普遍需要实时数据仓库提供服务,那么,如何解决此问题,打造高...

                                                              論建立实时大数据平台

                                                                                                                                                            李万鸿2020-2-15

     

     

               目前的大多大数据平台都是T+1的非实时平台,只能展示昨天的数据,而客户普遍需要实时数据仓库提供实时服务,那么,如何解决此问题,打造高质量、高可用、高稳定、高性能实时数据库呢?

       我们在刚刚完成湖南的一个项目中,就成功地完成了一个实时大数据平台,使用效果良好,客户很满意,给予好评。实时大数据平台需要实时增量获取数据并进行实时处理,才能提供实时数据服务。我们采用的技术体系是这样的:

    1. 采用Spark Delta0.7数据湖做数据仓库DW,使用俄罗斯的新颖大数据平台Clickhouse做数据集市DM。
    2. 全量采用Spark抽取数据到delta的ODS,并在delta生成DWS,再生成ADS到clickhouse。这里需要根据业务建立数仓模型,运行大量的sql。
    3. 对oracle数据库采用logmnr获取log变动的sql,对Mysql数据库采用Canal获取log的sql,把sql通过kafka发送到Spark Streaming,使用spark执行insert、update、delete语句,修改ods,再对ODS生成dws和ads,从而实时增量获取变化的数据。
    4. 使用Springboot开发clickhouse的微服务接口,实时处理数据,提供实时数据服务。比如出差、请假数据,实时比对日期,修改出差状态是已出差、已结束等。

     

    Spark Delta数据湖具有事务功能,支持增删改查,性能优异,支持Spark的sql操作,作为DW数据仓库,clickhouse性能优异,是不同于hadoop的大数据存储平台,支持实时写入和读取,无需采用事务处理,稳定快速,速度是Mysql的800倍,实际使用,快如闪电,线性扩展,P级海量,是新出现的好产品,阿里华为都在使用。

    经过实战,我们发现,还可以进一步简化架构,直接使用clickhouse做整个实时数据仓库,把ODS、DWD、DWS、ADS都放在ch,这样效果更好,简单快捷,更为实时高效。

    对这个平台在建立数据中台时,需要根据这个技术架构进行巧妙设计,比如使用Datax全量抽取数据到Hive,利用Hive的mysql元数据建立数据的元数据管理,再从Hive把数据抽取到ch。

       从ch查询数据,进行数据资产管理,等等。

          总之,实时大数据平台和中台已成为新时代的大势所趋,这是一个行之有效的方案,希望对大家有所启迪开发更棒的实时中台,谢谢。

     

    展开全文
  • 基于ApacheSpark软件栈的实时大数据
  • 近年来,实时大数据快速发展,并扎根于科技金融、车联网、物联网、电商、智慧城市等应用场景,创造新的价值。毋庸置疑,数据越实时价值越大,秒级甚至毫秒级的实时流式大数据计算场景层出不穷。并且当下,从数据产生...

    近年来,实时大数据快速发展,并扎根于科技金融、车联网、物联网、电商、智慧城市等应用场景,创造新的价值。毋庸置疑,数据越实时价值越大,秒级甚至毫秒级的实时流式大数据计算场景层出不穷。并且当下,从数据产生到分析结果的计算,数据时效性对业务的蓬勃发展起到更至关重要的作用。

    而针对当前大数据领域分析场景需求各异而导致的存储问题,亿信华辰则提供了一种新的融合数据存储方案,能融合不同架构的统一数据管理平台即PetaBase-s实时大数据平台。与早期的分布式数据库产品相比,PetaBase-s全面升级为实时大数据平台。它基于开源Hadoop框架开发,融合MPP、SQL on Hadoop、流处理等大数据技术,支持海量数据的高效储存和统一管理,为企业决策提供实时的数据支撑。

    作为具有创新性的实时大数据平台,PetaBase-s能够帮助各个行业的企业在海量的数据中洞察更多隐藏的商业价值。

    制造业,PetaBase-s能帮助企业利用工业大数据提升制造业水平,例如:产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗等;

    金融行业,PetaBase-s在高频交易和信贷风险分析领域能发挥重大作用;

    互联网行业,PetaBase-s可以协助分析客户行为,进行商品推荐和针对性广告投放;

    电信行业,PetaBase-s可协助实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施;

    能源行业,PetaBase-s可以帮助企业掌握海量的能源生产与消耗信息,分析用户行为模式,改进基础设施运行,合理设计能源需求响应系统,确保生产安全等;

    物流行业,PetaBase-s能帮助优化物流网络,提高物流效率,降低物流成本;

    智慧城市,PetaBase-s可实现智能交通、环保监测、城市规划和智能安防

    这些年,我们一直在致力于解决两个问题:

    1)数据量不断快速增长,期望获取、处理和存储要求的时间越来越短;

    2)用户对即时查询(hoc query)响应的要求越来越高。

    在经过近一年紧张有序的开发和大量测试之后,PetaBase-s在功能和性能上都实现大幅度的提升。它就可以解决星形模型、企业数据仓库以及集成的先进分析混合模型分析等应用场景,从传统数据仓库用例到敏捷快速的实时数据智能平台,PetaBase-s实时大数据平台都很适合。

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

    △产品架构图

    下面让我们一起来看看 PetaBase-s 实时大数据平台都有哪些重要特性:

    01 全面扩展开源软件

    早期的PetaBase分布式数据库集成了Hdfs、MapReduce、Impala、Zookeeper、Hive共计5个主流组件,主要面向海量数据集的交互式联机分析场景。

    新版的PetaBase-s实时大数据平台采用了全新的企业级平台框架,以开源的Ambari作为平台统一管理工具,集成了诸多主流开源组件,数量总计近20个。其中包括:YARN(统一资源管理)、HBase(列存NoSQL数据库)、Spark(快速通用的、基于内存的、分布式的计算引擎)、Kudu(支持单条记录级别的增删改查的存储系统)、Kafka(分布式发布订阅消息系统)、Flume(分布式的海量日志采集系统)、Sqoop(关系型数据库与hdoop之间的数据ETL工具)等。

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

     

    无论你需要处理的数据结构是哪种:地理空间信息、文本、自然语言或是结构化的、非结构化的图像分析,PetaBase-s都能处理。在海量的非结构化/半结构化/结构化数据集上同时进行离线计算和流式处理,还能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。

    02 支持单行记录级的增删改查

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

     

    PetaBase-s实时大数据平台引入了新的存储系统——Kudu。Kudu是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。Kudu引擎不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。

    03 基于流式处理的实时计算功能

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

     

    PetaBase-s实时大数据平台集成了Spark引擎,并基于Spark Streaming框架开发了一套可进行实时流计算的功能模块StreamProcessor。StreamProcessor可以实现高吞吐量的、具备容错机制的实时流数据的处理。它借助Apache Spark Engine处理微小批量的实时数据,并进行内存计算和处理优化。

    另一个显著特点是用户可以用SQL书写数据处理逻辑,比如聚合、关联、过滤等。它支持Spark SQL语法,这样用户能直接使用现有的查询技术实时计算流数据。

    04 支持多种传输协议的数据采集

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

     

    Petabase-s实时大数据平台添加了对多种数据源的接入支持,可支持OPC、MQTT等数十种传输协议,覆盖从工业物联网到传统电子交易的实时采集场景。

    PetaBase还提供了基于数据库日志的采集接口,能支持Oracle、Mysql、PostgresQL、SqlServer等主流rdbms的cdc数据采集,实现联机交易类的业务数据到大数据平台的实时同步。

    05 更加直观易用的统一运维中心

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

     

    PetaBase-s实时大数据平台提供了一致、安全的可视化管理工具。平台向用户提供直观的Web UI以及强大的REST API,特别有利于自动化群集操作。与早期的控制台相比,新版的控制台可显著简化安装,配置和管理流程,提供集中式安全设置,增加了对群集健康的可视化监控,并具有高度可扩展性和可定制性。

    除此之外,控制台还提供了对存储在PetaBase-s中的文件、数据进行访问管理的IDE。用户可以在这个IDE中编写mr,查看修改Hdfs的文件,管理Hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。

    06 HTAP(OLAP + OLTP)性能增强

    PetaBase-s实时大数据平台发布,6大特性拥抱大数据生态

     

    PetaBase-s实时大数据平台在存储层增加了LSM存储模型,LSM(结构化日志合并)树模型非常适合大规模在线读写。新增的存储模型对用户是非常友好的,用户甚至不需要特别关注它。建表时只需要指定表的存储属性即可使用LSM模型,之后基于该表的数据操作都和原来一样的,使用标准sql即可。基于此,LSM表可支持大并发的更改删除查询,从而提高整个系统的并发度和吞吐量。

    PetaBase-s还对join(关联)操作进行了优化,减少了数据在网络交换中的传输量。结合查询优化器带来的其他优化,PetaBase的OLAP性能得到显著改进,混合负载业务尤其受益。

    展开全文
  • 阿里巴巴高级技术专家大沙,在《2017阿里巴巴双11技术十二讲》技术分享中,主要讲解了阿里巴巴实时大数据和相关的机器学习技术,以及这些技术如何运用于阿里巴巴几十个事业部,实现大数据升级,最终取得卓越的双11...
  • 离线和实时大数据开发实战.朱松岭(详细书签)
  • 打造实时大数据的平台

    千次阅读 2018-05-03 23:22:51
    实时大数据又是一个什么概念?笔者想用一个调查机构的话来回答: 据估计,接入物联网中的设备在2020年将达到260亿,假设这些传感器中有1/1000的传感器每秒传回一个状态,则每秒同时要处理的实时数据将达0.26亿。 ...
    物联网火热到什么程度?实时大数据又是一个什么概念?笔者想用一个调查机构的话来回答: 
    据估计,接入物联网中的设备在2020年将达到260亿,假设这些传感器中有1/1000的传感器每秒传回一个状态,则每秒同时要处理的实时数据将达0.26亿。 




    GeoEvent Server登场: 
    实时数据的连续接入、处理和输出 

    物联网中的实时大数据往往都与空间位置分布有直接或间接的关系,传统的技术手段已经无法很好地接收和处理。ArcGIS 10.5中的GeoEvent Server为实时大数据的接入和处理提供了一种有效的方案。 

    GeoEvent Server可以对接物联网中各种类型的传感器,并对实时大数据进行高效处理和分析,输出到ArcGIS平台或者其它的平台中,它是ArcGIS平台提供的一种高效、实用的实时大数据处理服务器。 

    GeoEvent Server内置了非常多的输入、输出协议以及数据处理方法,并提供可视化的配置界面,通过拖拽式的操作即可快速配置实时大数据处理流程,使得实时大数据流能够在GeoEvent Server中轻松的完成流转。其中,数据接入的协议多达17种,包括TCP、UDP、RSS、Web Socket等多种常用主流协议,可以说,任何流数据都可以通过GeoEvent Server接入。 



    GeoEvent Server同时提供了非常多的实时数据分析方法,用来进行实时数据的过滤和处理,在10.5当中,过滤方法多达23种,其中最重要最实用的“地理围栏”多达12种,支持进入、离开、在里面、相交……等几乎所有场景,并且支持多个地理围栏的any或all状态;同时提供了包括缓冲分析、投影转换、凸包计算等多达27种的空间数据处理方法,可以实现目标监控、交通流量统计等核心业务。 


    经过GeoEvent Server处理的实时数据,同样可以多种形式对外输出,如可以向手机发送短信提醒、邮件提醒,可以输出为Web Socket被其它平台使用,还可以输出到RabbitMQ、Hadoop、MongoDB等多种平台中。 



    GeoEvent Server 
    支持实时大数据 

    1、实时大数据可视化 

    GeoEvent Server提供的“时空大数据存储输出连接器”支持将实时流数据接入ArcGIS平台进行实时动态聚合显示,用户可以一目了然的看出每一时刻的数据状态,以及当前时刻的密度分布。 


    2、实时大数据存储 
    GeoEvent Server还基于Esri新推出的ArcGIS Data Store实现实时大数据的高效存储,将传感器的历史数据都予以保留,可以充分发挥历史数据的巨大价值。如通过对历史数据进行时间轴播放,可以对航班/车辆的历史轨迹进行回放,有助于确定在某些特殊的状态下,移动目标的轨迹是否合理,为路径规划提供参考。 


    3、实时历史大数据的挖掘分析 
    在ArcGIS 10.5当中,GeoEvent Server实现了与GeoAnalytics Server的集成,这意味着,通过GeoEvent Server接入的实时大数据可以使用GeoAnalytics Server提供的多种大数据分析工具进行挖掘分析。与传统的分析工具相比,使用全新推出的、基于Spark框架的GeoAnalytics Server大数据分析工具可以更快的得到分析结果。这使得GeoEvent Server更好的支持实时大数据分析。 


    4、快速创建实时大数据应用 
    结合ArcGIS平台已有的各种即拿即用的客户端,可以非常简单方便的创建实时大数据的应用。通过GeoEvent Server可以将实时大数据以增强的地图服务和要素服务的方式输出到ArcGIS平台中,这两种类型的服务可以在Portal for ArcGIS、Web AppBuilder for ArcGIS、Operations Dashboard,ArcGIS Pro,以及最新推出的洞悉数据的利器Insights for ArcGIS中进行可视化、查询,甚至是分析。 


    5、GeoEvent Server实时大数据的规模 
    GeoEvent Server和ArcGIS Data Store均具备分布式多节点部署的能力,采用多个GeoEvent Server节点和ArcGIS Data Store节点分布式部署,可以显著提升GeoEvent Server接入和处理实时大数据的能力。下图展示的是GeoEvent Server和ArcGIS Data Store节点数与峰值时刻的处理速度。 
    据有效测算,在GeoEvent Server节点36个,ArcGIS Data Store节点18个的情况下,每秒能处理的实时数据峰值在8.76万/秒,这个值已经超过2015年双十一期间支付宝的交易峰值。由此可见,GeoEvent Server可以真正支撑物联网背景下的实时大数据应用。 

    写在最后 

    GeoEvent Server是ArcGIS 10.5中四大重要的服务器之一,在物联网蓬勃发展,大数据炙手可热的时代,它给用户提供了一种高效的实时大数据接入、处理和输出以及可视化的途径,并通过与GeoAnalytics Server的结合,在实时大数据积累的历史数据挖掘方面有更大的突破,为企业用户充分挖掘数据背后的价值。


    三维地球云平台    www.hapxu.com

    地图大数据云平台  www.favxu.com

     QQ:63747667

    邮箱:hui1788@163.com

    展开全文
  • 前言 ...接着前两章 构建大数据开发知识体系图谱 和 大数据平台架构技术概览 ,本次继续分享邦中老师的《离线和实时大数据开发实战》读书笔记 。讲讲大数据开发的主战场 —— 离线数据开发。 ...
  • 近年来,实时大数据快速发展,并扎根于科技金融、车联网、物联网、电商、智慧城市等应用场景,创造新的价值。毋庸置疑,数据越实时价值越大,秒级甚至毫秒级的实时流式大数据计算场景层出不穷。并且当下,从数据产生...
  • 离线和实时大数据开发实战 目 录 前言 第一篇 数据大图和数据平台大图 第1章 数据大图 2 1.1 数据流程 2 1.1.1 数据产生 3 1.1.2 数据采集和传输 5 1.1.3 数据存储处理 6 1.1.4 数据应用 7 1.2 数据技术 8...
  • 今天,我们将向大家分享阿里云实时大数据解决方案,助力企业实时决策。 性能高1倍,价格低3/4!数据库实时同步新选择! 实时分析决策的第一步就需要将数据实时同步到大数据计算引擎,DataWorks数据集成采用自研高...
  • 携程实时大数据平台实践分享

    千次阅读 2016-09-11 11:25:00
    携程实时大数据平台实践分享 携程技术中心 · 25 天前 编者:本文作者为携程大数据平台负责人张翼。张翼浙江大学硕士毕业,2015年初加入携程,主导了携程实时数据计算平台的建设,以及携程大数据平台整合和平台技术...
  • 1、概述 WeLab是业内领先的金融科技公司。我们以定制化服务的方式为合作伙伴提供金融智能解决方案,帮助合作伙伴实现金融科技创新。...WeLab的实时大数据平台是一套包含了数据实时采集、存储、集成、挖掘、分析和
  • 手把手教你搭建实时大数据引擎FLINK 服务器规划Standalone高可用HA模式架构图下载并上传tar包具体安装步骤yarm 集群环境搭建 服务器规划 服务器规划 服务名称 职能 zhen 192.168.2.5(震) master+slave ...
  • 实时大数据平台PetaBase-s作为亿信华辰的一款数据存储产品,能帮助企业在这股大数据的数字化漩涡中激流勇进、加速前行。PetaBase-s是基于开源Hadoop 2.x 平台基础上开发的,具有软件著作权的国产分布式实时大数据...
  • 近年来,实时大数据快速发展,并扎根于科技金融、车联网、物联网、电商、智慧城市等应用场景,创造新的价值。毋庸置疑,数据越实时价值越大,秒级甚至毫秒级的实时流式大数据计算场景层出不穷。并且当下,从数据产生...
  • 大家好我是许振文,今天分享的主题是《基于 Flink+ServiceMesh 的腾讯游戏大数据服务应用实践》,内容主要分为以下四个部分:背景和解决框架介绍实时大数据计算 OneData数...
  • 实时大数据平台需要有一系列的基础,例如将业务数据库同步到基于Hadoop架构的数据仓库,从而解决大数据实时查询的需求。同时,相比全量同步数据也减少对网络带宽的消耗。
  • 9月,一场热闹非凡的技术盛宴——2018实时大数据Meetup要来啦!\\最近两年,实时大数据快速发展,流式SQL、在线机器学习、流式大数据查询、SQL复杂时间处理(CEP SQL)、时空数据分析(Time GeoSpatial)与处理等...
  • Druid在大数据领域已经不是新人了,因此可能很多读者都已经听说过Druid,甚至用过Druid,但是未必每个人都真正清晰地了解Druid到底是什么,以及在什么情况下可以用Druid。同时,为了避免大家听了半天,却一直陷在...
  • ArcGIS矢量大数据解决方案-Geoanalytics Server,介绍了Geoanalytics Server的使用、功能拓展和业务集成几大块内容
  • 每天产生多达5PB以上数据,如何构建一个高扩展性的dataaudit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch来解决这个问题。微软的ASG...
  • 实时大数据OLAP技术一直是大数据几座最陡峭和难以征服的技术高峰之一,因为在海量数据、实时性、复杂的OLAP技术和系统复杂性之间达到平衡本身就是一件很困难的事情。为了解决这个难题,各大互联网和技术公司都各自出...
  • 京东实时大数据平台

    万次阅读 2016-10-17 19:53:44
    JRDW(JD Realtime Data Warehouse)是京东大数据部为了解决公司越来越广泛的实时业务需求,而推出的一整套技术解决方案,包括数据的实时接入、实时解析、实时传输、实时计算和实时查询等技术环节。通过JRDW来解决实时...
  • 基于Blink为新商业调控打造实时大数据交互查询服务 案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 从IT到DT、从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖掘大数据的价值成为...
  • 维度建模理论的提出远在Doug Cutting于2007年提出Hadoop之前,也远在Google于2004年发表的对大数据发展产生深远意义的三篇论文前。经过10余年大数据技术的发展,目前的存储越来越廉价,计算也越来越廉价,Ralph ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,007
精华内容 4,802
关键字:

实时大数据