精华内容
下载资源
问答
  • 数据平台建设

    万次阅读 2020-12-09 22:09:19
    - 数据质量层次不齐 - 数据交换和共享困难 - 缺乏有效的管理机制 - 存在数据安全隐患

    数据平台建设

    平台要解决的问题

    • 数据质量层次不齐
    • 数据交换和共享困难
    • 缺乏有效的管理机制
    • 存在数据安全隐患

    平台架构要求的能力

    • 无数据模型的架构

    很多时候数据处理都是在一个无模式或者非结构化或者半结构化的数据集上进行处理

    • 近实时的数据采集

    批量采集和实时采集

    • 微批处理的能力

    基础设施的要求

    • 线性可扩展
    • 高吞吐量
    • 容错能力
    • 分布式数据处理

    具体的平台化工具

    任务调度系统

    • 数据采集任务、数据同步任务、数据清洗任务、数据分析任务等;这些任务除了定时调度,还存在非常复杂的任务依赖关系,比如:数据分析任务必须等相应的数据采集任务完成后才能开始;数据同步任务需要等数据分析任务完成后才能开始;
    • 调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分。

    除了Crontab,Quartz这类偏单机的定时调度程序/库。开源的分布式作业调度系统也有很多,比较知名的比如:oozie,azkaban,chronos,zeus等等,此外,还有包括阿里的TBSchedule,SchedulerX,腾讯的Lhotse,当当的elastic-job,唯品会的Saturn等等

    可以说,几乎每家稍微有点规模的数据平台团队,都会有自己的调度系统实现方案,要不然自研,要不然在开源的基础上进行一些封装和改造(比如很多公司采取了封装oozie的方式)。

    资源调度系统,它的工作重点是底层物理资源的分配管理,目标是最大化的利用集群机器的CPU/磁盘/网络等硬件资源,所调配和处理的往往是与业务逻辑没有直接关联的通用的程序进程这样的对象。

    作业调度系统有时也会考虑负载均衡问题,但保证负载均衡更多的是为了系统自身的健壮性,而资源的合理利用,作为一个可以优化的点,往往依托底层的资源调度系统来实现。

    一个成熟易用,便于管理和维护的作业调度系统,需要和大量的周边组件对接,不仅包括各种存储计算框架,还可要处理或使用到包括:血缘管理,权限控制,负载流控,监控报警,质量分析等各种服务或事务。这些事务环节,在每家公司往往都有自己的解决方案,所以作业调度系统所处的整体外部环境,千差万别,再加上各公司各种业务流程的定制化需求进一步加大了环境的差异性,所以,调度系统很难做到既能灵活通用的适配广大用户的各种需求,又不落到太过晦涩难用的地步。

    调度类型

    依赖调度
    • 父依赖执行完开始执行
    时间调度
    • 到达特定的时间点开始执行

    依赖推荐

    • 随着数仓的建设,表越来越多,依赖推荐尤为重要,自动依赖推荐可以避免少添加依赖的数据错误(数据错误任务状态不会错误,不容易发现,只能通过数据质量监控平台或者业务方反馈)、多添加依赖的无用等待,以及循环依赖的致命错误

    基线控制

    大数据离线计算通常作业执行时间比较长,如果不能及时发现问题,重跑需要几个小时,显然来不及

    统一管理
    • 统一管理作业的完成时间、优先级、告警策略、保证数据加工按时完成,调度模块需要根据重要性、优先级、最短执行时间策略进行动态资源调整,让资源利用率最大化,损失最小化
    算法预测和调控
    • 算法对正常数据进行训练,当作业无法正正常产出和动态调整资源无法完成的时候,调度中心会通知运维和值班人员进行接入处理。

    代码校验

    • 设计了代码上线时候的语法检测,并且设计了试运行和线上以及测试三种运行模式,上线的时候必须有试运行成功的记录

    环境隔离

    • 通过运行模式实现了测试和试运行以及线上形成了测试环境、uat环境、线上三种环境

    多引擎支持

    • 支持自定义脚本,hive,sprk,python,等多种引擎

    功能

    • 用户可以在管控后台中,自主的对拥有权限的作业/任务进行管理,包括添加,删除,修改,重跑等。对没有权限的作业,只能检索信息。
    • 支持当日任务计划和执行流水的检索,支持周期作业信息的检索,包括作业概况,历史运行流水,运行日志,变更记录,依赖关系树查询等
    • 支持作业失败自动重试,可以设置自动重试次数,重试间隔
    • 支持历史任务独立重刷或按照依赖关系重刷后续整条作业链路
    • 允许设置作业生命周期,可以临时禁止或启用一个周期作业
    • 支持任务失败报警,超时报警,到达指定时间未执行报警等异常情况的报警监控
    • 支持动态按应用/业务/优先级等维度调整作业执行的并发度
      调度时间和数据时间的分离

    支持灰度功能,允许按特定条件筛选作业按照特定的策略灰度执;根据血缘信息,自动建立作业依赖关系;任务日志分析,自动识别错误原因和类型

    元数据管理系统(元数据治理)

    数据安全

    数据安全——权限
    • 核心数据的权限管理
    数据安全——脱敏
    • 数据脱敏

    血缘关系

    数据生命周期管理

    数仓的治理规范的落地

    • 建表的权限
    • 命名是否规则

    数据质量监控平台

    随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。

    • 完整性、准确性、一致性和及时性
      image-20201205191525265

    image-20201205191545457

    完整性

    • 完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障
    • 考虑两个方面:一是,数据条数是否少了,二是,某些字段的取值是否缺失。完整性的监控,多出现在日志级别的监控上,一般会在数据接入的时候来做数据完整性校验。
    数据同步工具故障
    数据被归档

    准确性

    • 准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息
    • 直观来讲就是看数据是否上准确的。一般准确性的监控多集中在对业务结果数据的监控,比如每日的活跃、收入等数据是否正常
    • 常见的度量规则,空值检测、重复值检测、相关性检测、波动性检测、阈值检测、业务逻辑规则检测(非常重要)

    一致性

    • 一致性是指同一指标在不同地方的结果是否一致
    • 数据不一致的情况,多出现在数据系统达到一定的复杂度后,同一指标会在多处进行计算,由于计算口径或者开发人员的不同,容易造成同一指标出现的不同的结果。

    及时性

    • 在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值
    • 及时性很容易理解,主要就是数据计算出来的速度是否够快,这点在数据质量监控中可以体现在监控结果数据数据是否在指定时间点前计算完成。
    • 主要随着数据规模的变化,导致边界问题对数据的及时性的影响越来越大(集群故障、网络故障、流量激增)

    其实主要是数据源的监控、数据指标的监控、数据表的监控、高级一点的会涉及到全链路的监控

    监控平台设计思路

    数据:主要是需要被数据质量监控到的数据,数据可能存放在不同的存储引擎中,比如Hive、PG、ES等。
    
    规则:是指如何设计发现异常的规则,一般而言主要是数值的异常和环比等异常监控方式。也会有一些通过算法来发掘异常数据的方法。
    
    告警:告警是指出发告警的动作,这里可以通过微信消息、电话、短信或者是微信小程序的方式来触发告警内容。
    
    反馈:这里需要特别注意,反馈是指对告警内容的反馈,比如说收到的告警的内容,那么负责人要来回应这个告警消息是否是真的异常,是否需要忽略该异常,是否已经处理了该异常。有了反馈的机制,整个数据质量监控才容易形成闭环。更能体现业务价值。
    

    image-20201205191417368

    • 问题:告警信息太多了,容易被忽略,主要是思路是提高告警的准确率,避免无用的告警

    多使用机器学习算法的方式来发现异常点,比如:异常森林。

    加入反馈机制,如果业务负责人认为该告警是正常的,就打上正常的tag,后续告警规则根据反馈进行优化。

    加入屏蔽功能,屏蔽不感兴趣的告警。

    数据同步平台

    • 主要有增量同步、全量同步、基于binlog 的实时同步,不论哪种方式到最后都涉及到数据更新合并的问题
    • 由于数据湖的发展,可能会改变基于binlog 的同步方式(离线——(kafka/hbase),实时——hbase)
    • 这个平台也很重要,因为这是一切的数据来源,而且随着业务的发展,要对接各种各样的数据源,数据同步平台的稳定与准确是一切的基础保障

    数据同步方式(工具)

    数据库直连同步

    -sqoop

    数据库文件同步
    • 自定义脚本

    会遇到两个问题,一个是网络波动可能会丢包,另一个是源文件比较大需要进行压缩传输。因而通常在传输数据文件的同时,会上传一个校验文件,检测数据量、文件大小等信息,以保证数据同步的准确性

    数据库日志解析同步
    • maxwell、cancel

    大多数主流数据库都可以通过日志文件的方式进行系统的恢复,并且由于日志文件的信息记录非常完整,格式解析也很稳定,因而完全可以通过解析数据库日志文件来获得发生变更的数据,再更新离线系统以最大提升效率

    数据更新

    • 数据库日志解析实现了准实时同步的能力,对业务系统的影响也很小,因而广泛的应用在了从业务系统到数据仓库的增量数据同步应用之中。值得注意的是,由于数据仓库对于更新操作支持比较差,通常会采用先删除、再插入的方式来模拟更新操作
    • 主要实现方式有两种,一种是通过join 的方式,另外一种是row_number()的方式

    数据延迟、处理数据量较大及数据漂移,因而中间系统的建设也需要进行一定的编码开发,以消除数据不一致的情况

    数据资产服务平台

    • 数据资产的定义是由企业拥有或者控制的,能够为企业未来带来经济利益的,以物理或者电子方式记录的数据资源,如文件资料或者数字资料
    • 对外提供数据支持,直接服务于各个业务线已经公司的数据分析师,只有业务能够读懂能够理解的数据才叫数据资产

    数据分析平台(adhoc)

    • 相对于adhoc 而言提供了可视化的功能
    • zeeplin
    • superset
    • adhoc(自研)

    接口服务(数据资产服务平台)

    • 提供sql 的方式进行接口配置,对接口进行统一管理,安全、性能、稳定性、生命周期、监控
    • 充当数据的提供方,报表数据、计算指标、明细数据、用户画像数据

    报表服务(数据资产服务平台)

    • BI 工具,支持报表和 Dashboard
    • 需要接口服务的接口(其实也可以直接采用sql 配置的方式)

    实时数仓

    • 资源层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时越来越长;
    • 业务层面——数据按T+1更新,延迟高,数据时效价值打折扣,无法精细化运营与及时感知异常。

    实时数仓即离线数仓的时效性改进方案,从原本的小时/天级别做到秒/分钟级别。

    底层设计变动的同时,需要尽力保证平滑迁移,不影响用户(分析人员)之前的使用习惯

    指导思想:Kappa架构

    计算引擎

    • 批流一体化——能同时进行实时和离线的操作
    • 提供统一易用的SQL interface——方便开发人员和分析人员

    底层(事实数据)存储引擎

    可靠存储——有一定持久化能力,高可用,支持数据重放。

    • kafka

    实时平台

    展开全文
  • 目录数据平台数据中台数据平台与数据中台的区别与联系区别联系整体架构硬件层&虚拟化数据平台存储能力计算能力管理平台数据中台数据仓库数据集市数据开发数据运维赋能对象赋能管理者赋能业务运营赋能业务中台...

    数据平台

    • 数据平台是在数以万计的硬件之上建立统一的基础数据存储和计算的服务,当然我们所建设的数据平台需要周边一些辅助的服务来支撑核心服务的运行,以及一些数据平台管理类工具,辅助日常SRE工作

    数据中台

    • 数据中台是抽象了数据能力的共性形成的数据服务能力,是一系列数据服务,用系统化思路解决数据前台对数据获取的难度,更好的赋能业务

    数据平台与数据中台的区别与联系

    区别

    • 核心区别是-是否跟业务强相关
    • 数据平台和业务的联系并不密切,提供基础的存储,计算,调度,数仓工具等基础的技术服务,至于业务数据怎么存储,数据表如何组织,数据模型如何建,数据如何服务业务,数据平台并不关心
    • 数据中台的目的是通过系统化思路的去组织数据,让数据更好的服务业务,包括数据前台的报表,自助分析,OLAP,维度指标管理,业务中台等

    联系

    • 数据平台是数据中台的基石,数据中台要基于需求业务体系,在数据平台之上去建设数据体系
    • 数据中台的建设,也会给数据平台带来更多的技术需求和压力,促进数据平台技术栈更加多样性,性能向更优化方向发展

    整体架构

    • 此处的图是包含了这个数据生态的基本体系架构,从低向上的依赖关系
      在这里插入图片描述

    硬件层&虚拟化

    • 基础的IT设施,提供基本的运力
    • 万物上云,为云上的服务提供动态缩放的能力,降低整个it设施的成本,提高it设备利用率,当然很多公司的数据平台还有很多直接基于硬件搭建的

    数据平台

    存储能力

    • 分布式文件系统,不论是基于磁盘还是基于内存,只是不同存储成本的文件系统,带来不同存储性能和特性
    • MQ类的主要支持数据采集和实时计算
    • 数据库主要支持查询类和实时计算,类别很多,关系型,nosql,各有千秋

    计算能力

    • 离线计算,提供批处理计算能力,主要负责天,周,月等数据生产,主流的像早期的mr,后期的spark等
    • 实时计算,提供实时数据处理能力,负责实时数据生产,当然实时离线是我们人为划定的时间界限,对于引擎而言,像spark,flink都提供实时和离线的解决方案
    • 算法平台,主要提供机器学习,人工智能,数据挖掘的计算能力,算法框架的选择也是很多,当然在大数据生态还是需要运行在yarn这样资源管理平台,才可以发挥大数据的价值
    • 查询类服务,提供一些和用户交互的查询能力,像一些mpp框架等,多数提供sql查询能力

    管理平台

    • 管理平台,是在原生的大数据生态的基础之上,为了更好的管理集群服务,管理集群的资源,提供灵活SRE能力和资源核算审计能力的一系列工具和合称

    数据中台

    数据仓库

    • 数据中台包括数据仓库的全部内容,数据仓库为数据中台提供了数据对外提供服务的基础资源,数据中台将数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度
    • 大家都知道数据仓库需要分层建设,需要面向业务主题,但是规范和落地往往是有差异,中台可以帮助数仓建模流程从文档化向标准化迈进,降低由于团队认知差异带来的数仓规范不统一的风险

    数据集市

    • 集市层主要面向具体应用做开发,是数仓向数据前台数据的重要连接层,数仓建设的好坏,对数据集市的建设影响很大
    • 数仓和数据集市同样都面临数据重复建设,数据不一致的问题,需要中台协助数仓和数据集市规范化落地

    数据开发

    • 数据中台需要改变原来的开发模式,提供全流程的数据开发解决方案,规范开发流程的每一个步骤,达到大一统的效果
    • 维度指标元数据管理
    • 指标树主要维护了指标和指标之间关系,比如某个衍生指标是有哪些基础指标通过什么计算公式计算得到,这个关系很重要,这是做智能异动分析的基础,可以实现很多自动化的异常数据监控和分析能力
    • 指标地图主要维护了指标和数据的物理存储的关联关系,通过地图我们可以轻松到找到哪些维度指标存储到了哪些物理存储里面
    • 建模工具来帮助数仓和数据集市规范的落地,如果没有工具协助,我们制定再好的仓库分层方案,仓库建模方案都是徒劳的,经过长期的累计和人员流动,非常容易导致规范落地不标准,导致数据不一致等一系列问题
    • 开发工具主要协助RD对ETL代码管理,如果还是通过原始命令+sql文件方式来管理ETL,那开发效率会很低,而且对依赖关系和调度的管理也是问题,开发工具会贯穿几乎开发的全流程,来加速开发

    数据运维

    • DQC,数据质量监控,提供日常数据质量监控能力,是保证数据一致性的基础,DQC一般提供的基础的质量监控,比如基础的同环比阈值监控,条数监控,空数据监控,均值监控等
    • SLA,数据按时生产的参考标准,etl任务健康度评估的重要指标,保证数据按时交付,确定etl任务的优化目标
    • 异动分析,为业务提供自动化的数据波动分析能力,帮助业务人员定位异常根源,快速调整业务决策
    • 资产管理,数据中台的核心资源就是数据,数据以资产形式管理起来,可以是我们精确的知道我们拥有数据的情况,以方便对数据资源的管理
    • 生命周期管理,数据都有时效性,随着时间推移,需要对数据进行生命周期管理,做合理的清理,属于数据治理的子模块

    赋能对象

    赋能管理者

    • 赋能管理者,大盘类,大屏类产品,提供综合的,上层的业务视角的数据,来为管理者提供管理决策需要的基础数据
    • 提升一点,可以配合业务经验和AI,来提供辅助决策意见,辅助管理者做决策

    赋能业务运营

    • 赋能业务运营,报表类,自助分析类产品,提供了比支持管理者产品更细粒度的数据,可以渗透到业务细节中,为底层运营决策提供精准的数据支持能力

    赋能业务中台

    • 赋能业务中台,没有数据的赋能,业务中台也还是偏向于业务公共服务的抽象,只有数据中台的赋能,才能使业务系统是一个智能化的业务系统
    • 比如像"千人千面"的推荐系统

    赋能数据变现

    • 赋能数据变现,精准营销的广告系统,为广告带来更高的流水

    赋能合作伙伴

    • 赋能合作伙伴,强大的数据服务能力,可以为合作伙伴提供正确的决策方向,达到共赢的状态
    展开全文
  • 回首数据平台建设心路,探索数据架构新方向

    千次阅读 热门讨论 2020-12-16 16:18:32
    回首数据平台建设心路,探索数据架构新方向一、引言二、对平台的简单认识1.关于数据集成2.更好的离线计算3.离线&实时&AI三、平台发展新机遇四、平台建设挑战 一、引言 本人钱包里有几百块一直没有花出去的...

    一、引言

    本人钱包里有几百块一直没有花出去的现金,在钱包中睡了大概有几个月,不是我这几个月没花钱,而是因为这几个月身边结婚的少了,礼金——现金于我的最大使用场景。尤其今年新冠肺炎疫情的发生,培养了人们诸多新型消费习惯,无接触购物、直播带货、社区团购等新渠道、新服务不断涌现。随着宽带基础设施的完善、5G时代的到来,在线娱乐、在线教育、在线医疗、短视频直播等接受度越来越高,但现金支付的场景越来越少,几乎日常生活中全部的支付场景已经线上化,数字化的时代已经悄然来临。作为一个大数据从业者,我主要从事着数据平台开发的工作,大数据平台该如何建设和发展的问题经常会让我陷入沉思,这里从个人角度出发,分享我对数据平台与数据架构的浅薄观点。

    二、对平台的简单认识

    (一)关于数据集成

    数据集成指的是将多种、多样的数据进行汇聚的一种行为,大数据中我们常用ETL来进行更加详细的表达这种行为。ETL是每个大数据平台不可或缺的一部分,宗旨一般都是为企业提供稳定、可靠、安全的数据传输服务,多年前以DataX为代表的离线数据同步工具已经具备了多源异构数据同步能力,而近年来离线存储体系并没有发生大面积的更迭,所以如果一个ETL产品的定位是离线数据同步,那经过这几年的沉淀和发展其产品应该已经足够成熟。

    但是技术的推陈出新总是让人措手不及,当前阶段新的业务需求和下游技术的发展都对更具时效性的ETL提出了诉求,比如需要目标端对接更多管道类大数据组件(如:Kafka、Pulsar等)以及源头端需要适配更多接数据库及组件(如:Canal、Databus、Maxwell、Debezium等),而下一阶段将数据“入湖上云”更是一个触手可及的市场,可以肯定的是各大云厂商会带着自己的迁移工具到企业中去,而一个横向的、跨云的数据同步服务工具也会有市场空间的。综上来讲,一个离线数据同步产品如果想快速响应新的诉求并抓住下一阶段的市场机会,一次系统架构调整相比较于在现有产品上添砖加瓦应该是更具有意义的,或者说一个全新的技术体系产品也可能是更好的选择。

    在这里插入图片描述

    (二)更好的离线计算

    根据专家估计,随着近年来数据规模呈几何级数高速增长,到2030年需要处理的数据量会大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”,由此引起的整个网络、存储、计算、传输、结构等方面的变革我们暂且不展开。本文我们将讨论内容限定为企业内部,那么从谷歌发布大数据的三篇文论至今,大数据的存储和计算的技术已经很成熟,现有的计算框架足以应对当前的计算需求,但,也只是应对。企业级计算能力的前提下,如何更好的将金融、证券、保险等行业的跑批耗时大幅度的压缩,我认为可以从以下三方面入手:

    • 打造存算分离的架构
      通过将数据的存储和计算分离,存算分离能够有效避免服务器的浪费、降低服务器更新频率、提高可扩展性、提高资源利用率,才能做到动态的向计算密集型作业分配更多的算力(算力的潮汐),最终成为降低企业IT成本的直接、有效手段。

    • 优化存储
      在数据方面通过对现有数据进行去重、拉链、生命周期管理、冷热数据分离、清理外围数据等方面的优化,降低存储清理,提高数据价值密度。在存储架构方面通过对数据块大小调整、小文件管理、元数据管理等一些方法,有效降低NameNode请求压力,从而大幅的提高NameNode在线率。

    • 磁盘故障感知
      在这里插入图片描述
      根据上面“硬盘驱动器故障浴盆曲线”(左图)及“前四年硬盘驱动器故障率”(右图)可以看出,硬盘故障是影响跑批时效性的一个定时炸弹,不管近年来的磁盘质量有多大提升,也只不过是延长了故障爆发的时间而已,所以在这样的情况下,做到磁盘故障感知尤其的重要,我认为磁盘故障处理与感知有下面三个阶段:

      • 现阶段:发现故障->隔离坏盘->磁盘换新->数据平衡
      • 下一阶段:预测->重点观察->隔离坏盘->磁盘换新->数据平衡。本阶段的难点工作在于“预测”,我认为可以根据磁盘的生产时间、上架时间、良品率、同型被更换数量、近期R/W速度波动……等等指标进行建模,实现磁盘的故障预测,并根据实际结果对模型调优。
      • 最终阶段:通过存算分离的架构,将计算任务上收而非当前的下放。接下来将数据上云,进一步释放本地存储压力,解放数据运维工作,专注云上计算。

    (三)离线&实时&AI

    有一句话是:“实时计算不会取代离线计算”,谈“替换”需要太大的勇气,更何况在一些传统数据架构企业或业绩导向企业,实时计算更多的是在扮演一些体验优化、离线计算功能补充的角色。当前的应用深度和企业数据架构并不利于使实时计算成为一个业务驱动引擎。而在诸如滴滴、顺丰等互联网与物流企业中,他们对实时计算有天然的需求,便捷的实时数据获取,使得实时计算平台可以实现大量的低延时业务的需求;阿里巴巴内部已经基于实时计算引擎(Flink)改造出了一个通用算法平台(Alink),可以看到的是在不久的未来,离线、实时、AI一定是朝着融合的方向发展。这里我们可以先看一下目前实时计算的架构图,如下:

    在这里插入图片描述
    相对低成本的实时数据获取是实时计算发展的基础,得益于Flink技术的繁荣发展,未来的实时计算将会成为一座桥梁,一边连接传统的离线计算一边探索与AI的融合,简单罗列如下:

    • 基于Hive元数据且特定场景下的流批一体;
    • 实时计算支持特征工程、在线学习、在线预测等 AI 场景;
    • 摆脱中间件以来,不断完善的CDC能力;
    • Flink中更强大的复杂事件处理(CEP)服务;

    在这里插入图片描述

    三、平台发展新机遇

    如今塞班、黑莓纷纷退出历史舞台,三星手机的销量也今非昔比。这么多年技术领域不变的是一直在变化,而在变的只是变化周期和速度。2C或靠平台运营来实现公司主要收入的商业模式更容易收到技术革新的冲击或带动。在数字化转型的大趋势下,以推动企业现有架构变革或希望通过新技术、新思路来丰富业务增长点的探索显得迫切而有必要。所以在渠道拓展方面对新技术的嗅探、新产品的孵化、新的对外合作模式的创新等,都是一些具体的方式;在技术方面进行探索,最大化的通过技术的变革来创新业务模式、升华服务质量,比如:

    • 推进HTAP的研究和探索,更快捷的支撑实时决策场景;
    • 拥抱云计算,推进海量数据的敏感字段加密技术,实现将密态数据或非敏感数据上云,降低企业内部存储、运维成本,实现更快的基于云的弹性计算;
    • 通过边缘计算,集合内部大数据平台和云上资源,对IoT、客户、设备等数据进行计算和模型预测;
    • 丰富平台产品矩阵,随着5G、云计算、边缘计算的到来,首先对现有系统进行云原生改造;其次积极探索新技术可能拉动的产品真空,丰富产品矩阵;
    • 加快联邦技术落地,通过数据联邦与联邦学习,降低数据存储和使用成本,扩大模型训练集,提高训练效果;
    • 推进流批一体落地,借助Hive的统一元数据与Flink的流批一体技术,在数据湖的基础上加快流批一体技术的落地,推动全面实时化;

    四、平台建设挑战

    建设并非因为要建设而建设,建设是为了更好的解决需求、完成目标,而平台的不断演进可以更好的服务现有需求并开创新的可能。

    (一)数据开发全链路

    对大数据平台而言,数据的抽取、存储、加工、管理、开放运营等是大数据的核心能力,数据开发平台等系统的投产极大程度降低了数据的加工、使用门槛,满足了基本的数据研发需要,但是在元数据管理、数据研发规范性、数据质量把关、安全审计等治理方面仍然存在较大的改进空间。通过更接下来的平台建设进一步提升易用性、提升数据稳定性、提高数据质量和数据安全、增强数据调度能力,进而在数据融合加工基础上进一步的完善数据治理体系,从而实现更好的数据开放共享,以便更快捷的支撑应用系统的建设和成长显得尤为重要。

    在这里插入图片描述

    (二)数据“超市”建设

    数据能说话、数据助决策。大企业中对数据的诉求和使用好比家庭购物买菜,菜市场和超市都可以买菜,但是菜市场具有占地面积大、对周围交通及环境影响大的特点,而超市则显得比较灵活和便捷,能够更好的适应城区。目前很多业务场景下对数据的使用好像在菜市场买菜,需要接触每个摊位主(数据负责人/提数人员/……),分别沟通来买菜(提数)并逐个结算。而超市则提供了分区、分类、分级的产品供应,并实现了自由选择、统一结算的服务,并且超市往往对顾客隔离了材料加工、包装(数据加工)的过程,更好的购物环境、更优质的服务、更快捷的体验。所以建设好我们的数据超市不但是对我们数据的梳理和分类,实现数据运营也将会把我们的数据服务能力提升到一个新的台阶,给数据使用人员一种更好的使用体验。

    (三)换种角度看产品

    • 打造云产品
      软件运行的环境从主机到虚拟机再到发展到容器,企业降本的诉求一直反压着技术进行着不断的变革,云的出现不仅改变了传统IT行业的构架,更是加速了传统行业的转型和升级。节约了传统企业的IT投入,更是为Paas、SaaS提供了极大的便利。积极拥抱云原生技术,深入推进企业上云,加速企业数字化改造。

    • 用产品的眼光看产品
      传统的以小组为单位的产品布局提供了很明确的产品责任人和发展模式,其产品的发展方向和速度往往由上层和内部因素共同决定,而面对飞速发展的技术变革、跨产品发展需求等,此模式比较容易形成“画地为牢”的局限性,反而不容易做到快速抢占新产品市场、实现跨界产品需求,所以如果我们反问自己,什么是对这个产品最好的?哪个方向的迭代对产品更好?本产品是否要集成其他小组已有产品的功能?本产品是否具有市场竞争力以及前瞻性?
      互联网下的产品往往是“跨界”的,此类产品往往不会过于聚焦于单一的某个功能,但往往是以某个核心功能为中心的上下游功能共同组成了本产品的功能矩阵,实现产品即决方案。提升产品的市场竞争力,降低产品在企业落地难度。

    (四)建设数据联邦

    “众人拾柴火焰高”,以一个企业内部的数据积累来进行用户行为属性判断、标签加工等事情还是略显薄弱,如果能够实现通过获取外部数据、三方行为数据的使用,通过全天候、多维度的行为分析来最终判定一个主体的属性和标签,将会有利于更好的对主体把控。通过数据上云,实现行业云内数据的共享,实现本地数据与云上数据的联邦。外部产品矩阵、外部数据联邦等等,目的就是对内部提供更加优质的服务,实现更多、更好的产品孵化、更精确的客户定位、赋能业务、最终实现更好的实现数字化转型。

    五、平台未来展望

    中原银行经过4年的大数据平台建设,已经从原始的人海战术实现了大数据系统的平台化,这很大程度上要归功于我们在大数据平台建设的轻装上阵和极有魄力的领导力,回顾过去展望未来,大数据平台的演进之路大致如下:
    在这里插入图片描述
    在2020年末2021伊始的时间节点,结合业界发展趋势,我认为下一代的大数据平台发展将会形成人工智能和大数据的双引擎局面,对人工智能而言则是需要探索与大数据的融合,于大数据而言,除了与人工智能的融合外也要快速实现新一代的数据存储、计算、使用等方面的变革,基于这个想法大数据平台建设架构大致如下:

    在这里插入图片描述
    最后,希望大数据平台每年都有更好的呈现,每一次阵痛的变革都是为了坚守最原始的初心。

    作者:思甜,数据银行部

    展开全文
  • 工业互联网:4 数据平台

    千次阅读 2018-11-25 15:53:33
    4 数据平台 为什么会有物联网的数据平台呢?从某种程度上说,数据平台才是最具物联网特色的东西。虽然提到物联网,很多人脑海中第一个闪现的是传感网络,但实际上,如果你读过前几章就会发现,实际上所谓物联网,...

    4    数据平台
    为什么会有物联网的数据平台呢?从某种程度上说,数据平台才是最具物联网特色的东西。虽然提到物联网,很多人脑海中第一个闪现的是传感网络,但实际上,如果你读过前几章就会发现,实际上所谓物联网,获得表征物体的数据是关键,而表征物体数据的获取办法很多,并不见得要另外加装传感网络——这一点在工业领域尤为明显。这是因为,因为工业领域自动化控制的需求,实际上很多关于机器的数据已经被获取了,只不过,这些数据暂时还局限在直接控制机器的控制系统中,没有被更大内涵的系统所用于更广泛的目的罢了。既然物联网的而核心在于表征物体的数据的使用,那么数据平台位于核心地位也就顺理成章了。

    数据平台还有一个使其成为物联网核心商业模式和产品形态的潜质:数据平台是最容易产品化的。没错,虽然不同的业务对数据的最终利用方式千差万别,而不同行业现场对数据的采集获取手段也千差万别,但是数据的获取、存储和基本处理逻辑却是惊人的相似。

    4.1    数据收发方式
    在第1章中,我们把数据分为以下几类,从平台的角度上看,其手法方式一般也不同。
    4.1.1    时序数据
    时序数据是物联网数据平台的基本数据,也是物联网之区别于普通的面向人的联网应用的地方。时序数据的特点是,一般是均匀的数据流。也就是说,对于一个物体、设备,一旦开始发送数据,则一般是按照一定的采样周期发送的均匀、持续的数据。但是这并不是说物联网就没有一般面向人的互联网那种数据峰值-估值的变化。就以工业互联网为例,因为多数工厂是白天工作,所以很明显白天的日常工作时间端,比如说从8点到18点之间,数据处于一个高位的平台,因为一般这个时候设备都在上电运行。但是这种高位相对难以出现尖峰,因为设备时序数据一般都是均匀采集并发送到平台的。但是这也造成了另外一个问题:类似电网的峰谷差,我们在构建数据平台的时候,计算能力和带宽也必须按照预测的峰值来设计。对于油气管道之类的物联网,这个数据峰谷差可能基本上是不存在的,因为油气、城市水网等系统是全天24小时都处于工作状态的,其相关的数据也一直在向平台提交,而且和水网、油气的负载没有关系。但是对于离散制造业,一般是白天大家都在加工,所有的机器都在提交数据,而晚上只有少部分工厂在轮班工作,才会提交数据。总之,在构建数据接收模块乃至整个服务端的时候,物联网系统所服务的业务和客户的特点需要加以考虑。

    时序数据在出现的时候一般是一个均匀的数据流。借鉴实时数据库的实现方式,我们在接收过程中要考虑数据在内存中的缓存,以防因为云端系统的算力问题丢失数据。所幸的是,目前大多数数据库都具有这种缓存能力。

    另外需要注意的一点就是数据的重发。数据重发是数据平台和设备端之间的互动。当网络通道出现问题的时候,设备端可能会选择丢弃数据,但更好的实现方法也许是在就地存储未能发送到服务端的数据,并在网络信道畅通后集中发出。这样的策略虽然无法缓解数据的实时性所面临的挑战,但至少保证了数据在时间轴上的完整性。考虑到物联网服务端很多应用四基于统计和分析的,这种对数据完整性的保障经常是值得投资的,甚至是必须的。

    4.1.2    事件数据
    类似设备告警等数据是偶发的,虽然也带有时间戳,但是其一般没有特别的规律。此类数据的接受对及时性和完整性都非常强调,因为一个没能及时收到或者干脆被丢失的报警数据可能是致命的。当然也未必需要过度地追求,因为很多场合下并没有那么糟糕:现场的自动化控制系统还有第一道防线。也正是如此,在设计自动化系统的时候,必须要注意不能因为有更上一个层次的物联网系统而有任何的疏忽;而将原本属于自动化系统的安全保障工作转移到物联网系统中,更是不可原谅的错误。

    4.1.3    指令数据
    指令数据主要是从服务器发送到设备的。可能并不带时间戳,但是建议最好是带有,因为有时指令的有效性和时间可能有关系:互联网并没有保证数据包按照你预想的次序到达的能力,如果你的应用中很强调这一点就要自己建立识别指令次序或指令发出的时间的机制,以便抛弃过期的指令,或者按照正确的次序来执行指令。

    4.1.4    文件数据
    文件类数据是双向的,但是一般不强调及时性。只要文件被完整无误地传递即可。FTP等现成的协议很多,所以此类数据一般并不需要过多关注。但是无论如何,“无误”还是要关注的,起码的校验,如MD5,还是有必要的。

    4.1.5    媒体数据
    实际上为了配合组建完整的业务平台,有时还要加上媒体数据。主要是视频、音频的采集。此类数据,尤其是视频数据,实际上已经有很完善的解决方案。但是之前一般是在安防等领域应用的,并不太被理解为物联网数据。但是最近几年,随着AI识别等技术的应用,从视频图像中自动识别设备状态也成为一项设备故障诊断技术,所以此类数据也开始和物联网平台发生关联。比如某数控机床厂商开发的关于断刀的在线诊断,就是在加工中心中附加一个摄像头采集实时视频上传到服务器,由服务器判断是否发生了刀具断裂的事故。一旦系统判定发生断刀,会立即向加工中心发送停机指令以防止故障影响的进一步扩大。

    4.2    数据存储
    当然是采用各种数据库来实现。此时的选项其实很多。无论是SQL类关系型数据库还是NoSQL类菲关系型数据库都有自己的用武之地。典型的情况是将二者结合,两个数据库分别存储不同的数据类型,以期达到整个系统的最优化。物联网业务目前在各类企业中都还处于较新的业务,所以不确定性较大,数据库内部架构也可能会因此发生持续的调整。因此在设计关系型数据库表结构的时候要有一定的预见性,或者采用某些对此类情景有设计考量的数据库。

    4.3    数据模型
    为什么要提到数据模型?主要是我们要考虑到进一步的数据整合、交换和业务开发的过程。实际上数据模型在非物联网业务中已经开始了应用,因为大家都在力图寻找一种可以对不断变化的业务具有一定自适应能力的系统。而一个具有一定自解释能力的数据模型对开发普适的数据处理工具至关重要。以制造业为例,OPC UA协议就包含了一个可以自定义数据模型的机制,但是遗憾的是其并没有为各行业提供标准或者流行的模型。这种模型一般是某个企业、行业协会甚至国家标准组织来定义并在一定范围内执行的。而MTConnect协议则自带了一个建议的标准的机床模型,使得开发机床联网系统的时候,做一个可以对接不同厂商的机床的系统成为一种可能。

    数据模型方面的工作迄今为止还是需要各行业不断努力去完善。

    4.4    数据整合
    数据整合的发起者实际上是上层的应用平台的各类业务逻辑,虽然人们因为这个过程叫做数据整个而将其归为数据平台。当然,这么做的原因也因为数据整合虽然与具体的业务逻辑息息相关,但实际上是可以抽象为各种可配置的算法和自动触发的服务的。市场上这种面向开开发者的物联网平台,其核心技术之一,如果不是最核心的技术的话,就是各种数据自动处理的引擎。这些引擎有的可以在人机界面上进行配置,类似工业自动化中广泛使用的组态软件,也有的只是一系列的API,需要采用某种开发语言去调用。而后一种情况下,开发者往往会在应用平台为数据整合提供一个自己定义的配置界面。

    4.5    数据平台的计费
    较早出现的数据平台一般采取虚拟机销售的方式。所以实际上是按照虚拟机的配置来收费的。虚拟机上的服务无论你是否使用、使用的量如何,并不影响费用的计算。而随着可配置化的数据整合引擎的出现和各类功能的服务化,越来越多的物联网平台开始采用按照服务收费的,更加细的粒度的收费模式。
    4.6    数据平台案例
    实际上,很多互联网背景的物联网平台基本上都是数据平台模式。如Amazon的AWS云。国内一些电信运营商的物联网平台,如中国移动的OneNET也是。此类业务的运营主体的特点是自身并没有可最终交付的物联网业务,但是具有网络带宽、计算能力等资源,另外业务层面追求规模,所以一般会走这条道路,也往往只能走这条道路。

     

    上一篇:工业物联网:3 网络层(2)

    下一篇:工业物联网:5 业务平台

    展开全文
  • 大众点评数据平台架构变迁

    万次阅读 2013-12-18 19:04:37
    最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。 以下从数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,...
  • 数据平台初试(技术篇)——抖音数据采集(高级版) ​ 上一篇文章讲了如何对采集的数据进行抓包和解析,本次主要讲解如何使用自动化工具,实现自动化数据采集。如果想了解抓包和解析部分的内容,可以查阅我的上一篇...
  • 数据平台简介

    千次阅读 2018-10-31 18:28:31
    为了给各个业务平台提供稳定可靠的数据 提供一个通用的数据处理流程解决方案 生成一些面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合 整合多个数据源的历史数据进行细粒度的、多维的分析 说白了...
  • 数据库自动化运维平台--元数据平台

    千次阅读 2017-04-12 15:00:08
    数据库元数据平台 很多DBA可能都用过Excel来维护数据库集群列表,在公司数据库集群规模比较小,用这种方式维护也是很简单方便的。但随着数据实例越来越多达到了上百上千的时候,再用这种方式维护就要崩溃了。所以...
  • 近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑…… 正如我们清楚的知道企业要进行数字化驱动架构之前,必须要建立统一...
  • 汽车之家数据平台架构

    千次阅读 2015-04-27 09:22:10
    汽车之家数据平台架构 互联网企业数据仓库构建是采用自下而上的方式,还是自上而下的方式?如果你是一个数据部门的架构师,你怎样去规划数据仓库呢?2015年中国数据库技术大会上,来自汽车之家用户智能组的高...
  • 2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,...
  • 先大概列一下互联网行业数据仓库、数据平台的用途: 整合公司所有业务数据,建立统一的数据中心;提供各种报表,有给高层的,有给各个业务的;为网站运营提供运营上的数据支持,就是通过数据,让运
  • 如何设计实时数据平台(技术篇)

    千次阅读 2019-06-21 11:54:24
    导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下...
  • 这段时间一直在研究百度地图的鹰眼轨迹平台,但是还有一个交虎鲸数据平台的东西,也是百度接口提供的,能提供海量数据存储。 那么这两者有什么区别呢? 个人见解 根据百度给出的API接口,我觉得鹰眼轨迹平台是...
  • 数据平台维度模型设计十个技巧

    千次阅读 2017-05-25 16:28:00
    了解过数据仓库历史的人都知道Bill Inmon、 Ralph Kimball。 Bill Inmon 代表作《Building the Data WareHouse》 , Ralph Kimball代表作为...两位大师对数据模型都分别作了深入阐述,个人理解的数据模型是数据平台的灵
  • 上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,大数据平台的架构也有所演进,本文简单介绍了架构更新的部分。 整体架构 数据采集 ...
  • 如何设计实时数据平台(下篇)

    千次阅读 2018-07-23 11:16:47
    导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架...
  • 数据平台调度系统的设计

    千次阅读 2015-01-02 15:05:50
     1 能定时发起各类型的任务 1.1 任务类型比如 shell脚本,或者jar 程序,或者调用存储过程 ...1.3 数据平台一般的任务类型有:  1.3.1 101任务: 检查数据源文件是否到齐(包括文件个数,或者
  • 近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑…… 正如我们清楚的知道企业要进行数字化驱动架构之前,必须要建立统一...
  • 金融市场数据平台的架构设计之道

    千次阅读 2017-01-06 13:46:39
    互联网科技与传统金融行业的结合越来越深入,作为投行交易系统定海神针的市场数据平台,有着怎样的技术背景?其架构设计又是怎样的? 投行的Global Markets或Sales&Trading部门主要服务于大型机构客户,包括金融...
  • 阿里巴巴数据平台火热招聘中

    千次阅读 2013-12-08 22:15:24
    阿里大脑-智能数据平台项目招聘 分布式系统研发工程师 1、拥有C++大型系统开发经验 2、在以下领域之一有大型生产系统研发经验  -大型分布式系统开发  -大流量和高性能在线服务设计和性能调优领域有实践...
  • 企业每天都在制造大量的经营数据,这些数据反映了企业生成、销售状况。营销分析是在广泛收集信息资料的基础上,运用各种定性和定量的方法,帮助管理层决策分析,更好的为开展营销工作服务。着公司企业规模的扩大,对...
  • 数据平台投标方案模板

    千次阅读 2017-04-07 19:20:31
    随着信息化程度的加深,以及移动互联网、物联网的崛起,人们产生的数据急剧膨胀,传统的数据处理技术难以支撑数据大量的增长和处理能力。经过近几年的发展,大数据技术逐步成熟,可以帮助企业整合更多的数据,从海量...
  • hera(赫拉)任务调度系统–为数据平台打造的任务调度系统 hera项目背景  在大数据部门,随着业务发展,每天承载着成千上万的ETL任务调度,这些任务集中在hive,shell脚本调度。怎么样让大量的ETL任务准确的完成...
  • 是如何保证数据的不重复?也就是说每次取数据都要按照时间字段做限制?还是说不需要关心这个,他给什么就收什么?是多线程的吗,实时保持通信?望好心人做做解答。多谢
  • 美团点评数据平台融合实践

    千次阅读 2017-08-25 19:00:00
    原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。2015年10月,美团与大众点评合并为今天的“美团点评”,成为全球规模最大的生活服务平台。主要分布在...
  • 一、需求分析 ...字段:排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入二、rvest爬虫实现源代码rm(list=ls()) gc() options(scipen = 200) library('rvest') timest
  • 前面放完建设四个现代化大数据平台乌托邦理想的大卫星,接下来的文章得谈谈具体组件的生产大跃进了。第一篇,先来讨论一下大数据开发平台的核心组件之一:作业调度系统。作业调度系统是一个相对复杂的系统,涉及的...
  • 本文主要讲述了敦奴集团数据分析平台建设的案例。
  • 数据平台作业调度系统详解-实践篇

    万次阅读 热门讨论 2017-07-25 09:34:19
    比如,外部业务方业务流程复杂,多数业务相关程序必须在自己的系统中运行,只有部分数据处理作业可以提交到数据平台上来,或者出于安全角度的考虑,只有部分任务需要(可以)提交到开发平台上执行和管理。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 155,902
精华内容 62,360
关键字:

数据平台