精华内容
下载资源
问答
  • 实时计算

    千次阅读 2015-01-18 15:41:54
    实时计算(Real-time computing)也称为即时计算,是计算机科学中对受到“实时约束”的计算机硬件和计算机软件系统的研究,实时约束像是从事件发生到系统回应之间的最长时间限制。实时程序必须保证在严格的时间限制...

    实时计算Real-time computing)也称为即时计算,是计算机科学中对受到“实时约束”的计算机硬件计算机软件系统的研究,实时约束像是从事件发生到系统回应之间的最长时间限制。实时程序必须保证在严格的时间限制内响应。[1]通常实时响应时间会是以毫秒为单位,也有时是以微秒为单位。相比之下,非实时系统是一种无法保证在任何条件下,响应时间均符合实时约束限制的系统。有可能大多数的情形下,非实时系统都可以符合实时约束限制,甚至更快,只是无法保证在任何条件都可以符合约束限制。

    在其他领域中也有用到“实时”这个词,但其含义不同:在仿真领域,实时是指“实时时钟同步”,此外在数据传输、多媒体处理和企业系统领域,实时意思是“感觉不到延迟”。

    实时软件必须使用一种或多种同步编程语言实时操作系统以及建立在一个实时软件应用程序上的实时网络提供的基本框架。

    防抱死系统是个实时计算系统的简单例子,在这个系统中的实时约束是为了避免车轮锁死,刹车必须释放的时间。实时计算系统的反应最后期限一般和事件有关,若没能在最后期限前完成,即为实时计算系统的失效。不论系统负载如何,实时计算系统均需满足最后期限的限制条件。

    历史[编辑]

    术语实时的使用起源于仿真的早期,

    实时计算标准[编辑]

    如果一个系统作业的正确性不仅取决于其逻辑的正确性,还与其执行的时间有关,此系统就被称为实时系统。实时系统和其最后期限可以依照若错最后期限所造成的后果来加以分类:

    Hard
    错过最后期限会导致整个系统故障。
    Firm
    能容忍偶尔的错过最后期限,但此情形下可能会降低系统的服务质量。若超过最后期限,其实用性为零。
    Soft
    超过最后期限的结果会造成实用性降低,从而降低系统的服务质量。

    因此,硬实时系统的目标是确保所有最后期限的完成。,


    转载:维基百科:http://zh.wikipedia.org/wiki/%E5%AE%9E%E6%97%B6%E8%AE%A1%E7%AE%97

    展开全文
  • 实时计算在点评

    2017-09-09 12:39:18
    实时计算在点评 实时计算在点评 实时计算在点评 实时计算在点评 实时计算在点评 实时计算在点评 实时计算在点评
  • 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台 蘑菇街实时计算平台
  • 实时计算与实时数仓比较 普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的...

    实时计算与实时数仓比较

    普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。
    在这里插入图片描述

    实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性

    在这里插入图片描述

    展开全文
  • 实时存储引擎和实时计算引擎

    千次阅读 热门讨论 2020-10-20 00:06:16
    实时存储引擎和实时计算引擎 一 实时存储引擎 Kafka SSD 缓存架构解决延迟消费污染缓存空间问题 二 实时计算引擎 Flink 简介和系统架构 相当于mapreduce/spark + 实时计算 在实时处理框架中,不会持久化,而是写入...

    系列文章

    1. 实时存储引擎和实时计算引擎
    2. 美团点评 Hadoop/Spark 系统实践
    3. 美团大数据查询技术
    4. 美团深度学习平台实践
    5. 美团广告系统实践

    一 、实时存储引擎 Kafka


    SSD 缓存架构解决延迟消费污染缓存空间问题

    二 、实时计算引擎 Flink

    2.1 简介和系统架构

    相当于 mapreduce/spark + 实时计算

    在这里插入图片描述
    在实时处理框架中,不会持久化,而是写入内存的一个 state,通过写入内存替代持久化,增加处理速度。
    最近两年使用 streaming,Flink,生态比较好。
    在这里插入图片描述
    native 单条
    micro-batch 微批

    在这里插入图片描述
    在这里插入图片描述
    实时计算平台实际就是作业管理平台,提供了上面四种功能。

    为了规范开发过程,在平台上完成所有工作,集中化管理作业,平台操作取代客户端。

    在这里插入图片描述
    以下是应用场景:

    在这里插入图片描述
    反爬虫:实时 一分钟之内一个IP访问某网站多少次
    实时流量分析: 节日活动的效果
    B 端:面向商家的应用

    2.2 Flink 具体的作业

    在这里插入图片描述
    在这里插入图片描述

    source从 kafka 数据源读数据,然后中间两个 Transform ,读过来的每一行的 id 进行分发,分发的时间窗口是 10s 中,每个窗口进行 sum。如果把 id 当作 ip , 就和上面的 爬虫案例 相同了。最后写到文件中。

    上面是逻辑流程,我们看上面的流程是如何被编译成一段作业,一个 job 图,被分配到物理节点上去的。
    在这里插入图片描述
    中间的点呢都是操作(function),箭头是一个 streaming ,是一个数据流。source、map分布在多个组件上(分布式化),sink 可以是单一的或者分布式的。只有 keyby / apply的时候才需要进行 shuffle 。
    在这里插入图片描述
    source 和 map 都是分布式,合并后可以减少网络代价。
    所以把进行了合并,合并后的节点就在同一个机器上进行运行。


    这些节点最终被分配到用 YARN 做资源调度的模型当中,这个模型就是物理模型。这个物理模型就是 Flink 的 program 通过 Client 提交到 YARN 集群上去运行,YARN 集群上也有 Job Manager 和 Task Manager。Job Manager 是用来控制整个系统的,Task Manager 是我们上面讲的五个节点。

    (可能这里少了一部分qaq)

    在这里插入图片描述

    在写 Spark 的时候关心它的状态吗?Spark 是没有这个概念的。在实时处理的时候是非常关心状态,是否数据丢失或者重复,这涉及到准确性语义保证。离线作业数据丢失或者重复可以重新再来一遍,但是实时处理不行,想做到重复消费需要非常麻烦的机制,这里不讲。所以流式处理的语义保证就有几种情况:

    1. 最多消费一次
    2. 至少消费一次
    3. 准确一次

    这里说完了 state,再说说窗口(窗口就是比如统计过去 10 秒的数据中的10秒就是窗口),有很多种,如滑动窗口等。这里不细讲,同学们下去拓展延伸开来和 Spark 进行对比,理解的就比较透彻了。

    2.3 Flink HA 新架构

    这是一个基于 YARN 的 Flink 架构。

    在这里插入图片描述
    YRAN 申请资源;
    job M 和 Task M通过 HDFS 和 ZK 进行交互;
    在这里插入图片描述有监控程序监控 Job Manager,监控程序轮询检测时间周期太长。怎么办呢?我们看看社区的解决方案。
    在这里插入图片描述
    社区的解决方案

    在这里插入图片描述
    Leader 的选举和发布 通过 zk 管理;类似分布式锁
    当然这样也有问题
    在这里插入图片描述
    保证系统只有一个 app master
    在这里插入图片描述
    没有必要选举,所以去掉选举过程。最终方案如下:
    在这里插入图片描述

    三、QA

    A:消费 kafka 不能保证一次性消费

    A:日志不保证顺序,多进程 多线程不保证顺序性

    Q:水位预估?

    一般设置更大的阈值,一般是测试过程中拿到的数据比对去设置水位值

    Q:Kafka 的扩容需要分区重新分配,代价比较大,美团再在 Kafka 扩容方面有做什么优化吗?

    如果扩充分区,可以让新数据写新分区

    代价大的是迁移数据,当我们发现不均衡的时候会启动迁移,选择压力比较小的时间(如晚上)进行

    Q:实时数据和批数据怎么对齐,如果批数据和实时数据计算结果不一样?

    当两种数据放到同一个表的时候,从业务上进行区分,分开写或者根据时间判断是由实时覆盖或者批数据进行覆盖。

    Q:美团 Flink cep 应用场景多么吗?大流量下的准确性怎么验证呢?

    将实时处理结果和离线结果进行比对。将测试阶段和实时阶段进行对比

    Q:业务数据进入大数据平台后做离线分析前,需要检查 T+ 1 业务数据是否完整进入大数据平台吗?需要的话,会做哪些检查呢?

    怎么保证进来的是完整的数据?完整性是需要检查的,但是这种检查是只是否全部收集,而不考虑数据的正确性。有两种策略,对于昨天进来的数据; check down (没太听清)。

    注:
    内容来自美团技术团队10.13大数据课程,侵删。

    展开全文
  • 离线计算与实时计算

    千次阅读 2018-12-17 19:10:09
    离线计算? 离线计算:批量(batch)获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:sqoop批量导入数据、HDFS批量存储数据、...流式计算:数据实时产生、数据实时传输、数据实时计算、实...

    离线计算?

    离线计算:批量(batch)获取数据、批量传输数据、周期性批量计算数据、数据展示

    代表技术:sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、hive批量计算数据

    1. hivesql
    2. 调度平台
    3. hadoop集群运维
    4. 数据清洗(脚本语言)
    5. 元数据管理
    6. 数据稽查
    7. 数据仓库模型架构

    流式计算?

    流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示

    代表技术:Flume实时获取数据、

                      kafka/metaq实时数据存储、

                      storm/JStorm实时数据计算、

                      Redis实时结果缓存、

                      持久化存储(mysql)

    离线计算与实时计算区别?

    最大的区别:实时收集、实时计算、实时展示

    展开全文
  • 流式计算、实时计算和离线计算

    万次阅读 2017-07-11 16:03:10
    流式计算和批处理计算 实时计算和离线计算 以水为例,Hadoop可以看作是纯净水,一桶桶地搬;而Storm是用水管,预先接好(Topology),然后打开水龙头,水就源源不断地流出来了。 1、流式计算 流式计算:数据...
  • 分布式计算技术中,我们经常会听到离线计算、批量计算、实时计算和流式计算这四个概念,也常常会弄混。那么,离线计算和批量计算,实时计算和流式计算到底是什么呢?离线计算和批量计算、实时计算和流式计算分别是...
  • 流式计算strom Strom解决的问题 实现实时计算系统要解决那些问题 离线计算是什么 流式计算什么 离线和实时计算
  • 实时计算框架

    2017-06-08 17:40:33
    实时计算框架思路
  • 互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。实时计算的今天,业界都没有一个准确的定义,...
  • 离线计算与实时计算的比较 离线需求 就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的...
  • Storm 实时计算系统

    2019-03-09 22:47:45
    一、Storm概述 1、什么是离线计算 离线计算:批量获取数据、批量...流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术:Flume实时获取数据、Kafka实时数据存储、Storm实时数据计算、Red...
  • 1 实时计算简介1.1 应用场景谈起实时计算,一般我们都会首先去比较实时计算和离线计算的区别。离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示;代表技术:Sqoop批量导入数据、HDFS批量存储...
  • 实时计算场景里,表格存储强大的写入能力和多模型的存储形态,使其不仅可以作为计算结果表,同时也完全具备作为实时计算源表的能力。通道服务是表格存储提供的全增量一体化数据消费功能,为用户提供了增量、全量和...
  • 简介:如何使用实时计算 Flink 搞定实时数据处理难题?本文由阿里巴巴高级技术专家邓小勇老师分享,从实时计算的历史回顾着手,详细介绍了阿里云实时计算 Flink 的核心优势与应用场景,文章内容主要分为以下四部分:...
  • 实时计算和流式计算的区别

    万次阅读 2016-11-17 16:14:54
    实时计算,强调的是实时。比如小明要查看他去年一年的消费总额度,那么当小明点下统计按钮的时候,服务器集群就在噼里啪啦的赶紧计算了,必须在小明能够忍耐的时间范围内得出结果。这种计算的背后实现,一般都是冗余...
  • 实时计算平台设计

    千次阅读 2017-03-18 09:03:37
    同时,如果各个业务方自己既负责开发实现各种实时计算程序,同时还需要维护一套实时计算软件环境,不仅效率低效,对公司的开发资源、硬件资源也是极大的浪费。所以为公司提供统一的实时计算平台,提升业务团队开发...
  • 实时计算设计

    2015-03-20 16:44:56
    如何解决实时计算的数据逻辑与存储可复用问题
  • bilibili 实时计算平台架构与实践

    千次阅读 2020-02-18 20:50:30
    摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主...
  • 大数据实时计算框架简介

    千次阅读 2019-01-03 19:16:19
    一、实时计算,流式计算? 实时计算 == 流式计算 自来水厂就是一个典型的实时计算系统: 自来水厂可以简单的理解为由一个水泵(采集水源),多个蓄水池(处理水源:沉淀,过滤,消毒等步骤),管理员构成。 ...
  • 离线计算:这个大家都能理解,今天早上一点,把昨天累积的日志,计算出所需结果。...流式计算:与实时计算相比,时效稍微慢些,实时计算是以主动查询来触发,流失计算是以事务发生及结果变更为触发。强调不累积日
  • 阿里云实时计算学习笔记

    千次阅读 2019-04-25 15:03:59
    下面的全部内容均来自阿里云实时计算文档,把个人认为比较重要的点记录下来方便自己使用! 什么是阿里云实时计算 阿里云实时计算是一套基于Apache Flink构建的大数据处理平台 当前实时计算对外接口定义为Flink ...
  • 1.Spark Streaming:大数据实时计算介绍2.Spark Streaming:DStream基本工作原理3.Spark Streaming:StreamingContext详解技能点4.Spark Streaming:输入DStream和Receiver详解5.Spark Streaming:DStream的...
  • 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark Streaming相对其他实时计算框架该如何技术选型? 本文主要针对初学者,如果有不明白的概念...
  • 这里主要结合自己使用阿里云实时计算平台的经验,介绍下阿里云实时计算开发流程,虽然阿里云实时计算有官方文档,但有些地方对于新手来说可能有些难于理解。第一次使用阿里云实时计算的同学可以参考。 我所在的项目...
  • 实时计算pv/uv Demo

    2021-01-22 14:17:20
    简介: 本文由阿里巴巴高级技术专家邓小勇(静行)分享,主要用 Demo 演示如何通过实时计算 Flink 实时计算pv/uv的场景。 本文由阿里巴巴高级技术专家邓小勇(静行)分享,主要用 Demo 演示如何通过实时计算 Flink...
  • 滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于...6. 介绍Lambda architecture,阐述如何将离线计算和实时计算统一起来,通过离线计算来修正实时计算
  • 30分钟概览Spark Streaming 实时计算

    万次阅读 多人点赞 2017-02-18 17:12:49
    什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark Streaming相对其他实时计算框架该如何技术选型? 本文主要针对初学者,如果有不明白的概念...
  • 摘要:实时计算技术已经应用到广告、电商、游戏、文娱等各个领域,比如电商网站实时分析用户属性,基于分析结果给客户推送相关商品;网络游戏实时分析玩家数据,进而对游戏参数和平衡性进行调整。本文重点讲述中信...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,135
精华内容 12,854
关键字:

实时计算