精华内容
下载资源
问答
  • 3.2 Spring Boot 整合MyBatis 使用注解方式整合MyBatis 编写测试方法进行接口方法测试以及整合测试 @RunWith(SpringRunner.class) @SpringBootTest public class Chapter03ApplicationTests { @Autowired private ...
  • Hadoop在互联网企业中的应用案例;集成各个子项目形成企业级数据分析平台;Hadoop与机器学习
  • 基于阿里云数加构建企业级数据分析平台 注:本文有小部分来自于阿里云大学教学文档中,有兴趣的可以直接进行学习。 1.数加:误以为数加是云服务  阿里云大数据品牌名,包含不同大数据服务阿里云一站式数据开发,...

    基于阿里云数加构建企业级数据分析平台

    注:本文有小部分来自于阿里云大学教学文档中,有兴趣的可以直接进行学习。

    1.数加:误以为数加是云服务
                  阿里云大数据品牌名,包含不同大数据服务阿里云一站式数据开发,分析,数据处理应用平台
    2.数据分析:(数据量大,数据价值密度低,所以需要提炼)
                          基于商业目的,有目的的进行收集,整理,加工和分析数据,提炼出有价值信息的过程
    3.数据分析步骤
        明确目的》数据收集(统一处理平台)》数据处理(处理缺失值:会员性别;不一致数据:身高单位;关联,汇总数据)》数据分析(基本数据分析SQL,数据探索,复杂数据分析)》数据展现(整理组合信息,整合信息,观点,图表展示信息)》分析报告(指导企业发展)
    4.数据分析目的
        获得用户,留住用户,增加收益(电商网站推荐)
        市场营销,产品运营,客户服务(不同维度销量)
        业务优化,流程改进,发现机会(提升产品良品率)
    5.数据分析平台的组成部分
        分析需求——》确认数据源——》ETL处理——》数据整合/汇总——》数据建模——》数据分析展示
        源数据:数据获取
            ETL:数据抽取转换加载过程(如缺失值处理,类型不一致等问题进行处理)
        数据仓库:数据存储,计算,建模
        数据应用:数据分析
    6.用户使用服务时不需要自己搭建底层数据集群或处理框架,直接使用数加服务,将更多的精力关注在自己的业务层次,而不用过度关注底层数据集群或架构搭建
    7.用户不用重复创造轮子,阿里云已经提供(端到端的大数据服务)
       数据采集实时采集,适配开源,日吞吐量PB级别,数据计算引擎在6小时处理100PB数据
    8.基于飞天系统自主研发的海量数据处理分析平台(离线)MaxCompute
    9.数据事业部
                      :数据保存
                      :不同业务,不同领域打通
                      :灵活使用
    10.基础平台
         计算引擎:离线计算MaxCompute,在线计算分析型数据库,流式计算
         加工层:数据开发DataIDE,机器学习
    10.MaxCompute是阿里云提供的PB,TB级别的数据仓库解决方案,数据分析
         自主研发,实时性不高的分布式处理能力
         由于MaxCompute是面向全网用户,所以为了保障用户与用户之间的数据隔离,阿里云通过多租户使用来处理
         计算频率低——按量付费
      DataIDE(统一开发环境)基于MaxCompute提供海量数据的离线加工分析,展现,数据挖掘能力的一站式平台,运维工具
        数据开发管理工具,本身不会对数据进行分析
        数据工作流最终是跑在MaxCompute上的
        将企业内部数据打通,申请使用数据,拥有者批准,逐层处理
      QuickBI提供图形化报表服务
        :支持数据源多,mysql,sql server,maxcompute,大数据开发平台内数据,多种可视化组件
        快:在展示的同时对数据进行进一步分析,处理速度快,智能一键加速
        :灵活报表集成方案,安全权限管理
        :门槛低易于上手,云计算费用低省成本
    11.从业务系统到数据分析,非常适合于商业分析,挖掘等大数据处理场景
    12.数据集成:将源数据导入数加平台(项目空间使用时会指定一个maxcompute,odps格式数据源)
         数据源类型:rds,
                    线下:mysql,sqlserver云:postgresql,odps,ocs,drds,ads,oss,oracle,ftp,dm,hdfs,ots,redis,mongodb
        RDS管理控制台
        RDS数据导入云端:选择来源》选择目标》字段映射》通道控制(速率,并发数)》预览保存
        周期性调度——》调度配置(基本属性,调度属性(最小分钟),依赖属性(数据依赖任务),跨周期调度)
        依赖:不依赖上一调度周期
                   自依赖,等待上一调度结束,才能继续
                   等待下游任务的上一周期结束,才能继续
                   等待自定义任务的上一周期结束,才能继续
        测试运行或前往运维都可以进行任务的启动
    13.新建报表
        添加数据源——》创建数据集(数据指定)——》制作报表——》创建门户
        新建数据源
        关系型数据库:Mysql,SQLServer,PostgreSQL,Oracle,DM,DRDS,POLARDB,HybirdDB for SQL,HybirdDB for PostgreSQL
        大数据存储:MaxCompute(ODPS),Datahub,Analytic DB,Lightning
        半结构化存储:OSS,HDFS,FTP
        NoSQL:MongoDB,Mencache(OCS),Redis,Table Store(OTS)
        消息队列:LogHub
        云数据源:Maxcompute,Mysql(RDS),SQLServer(RDS),Analytic DB,HybirdDB(Mysql),HybirdDB(Greenplum)
        ECS:Mysql,SQLServer
        本地:csv,excel
        导入数据源:DataIDE
       在作品中可以看到制作的仪表板
    14.${bdp.system.bizdate}
        格式为yyyymmdd,日常调度实例定时时间的前一天(年月日)。节点每天自动调度实例定时时间年月日减1天。
        正常调度时,比如:任务定时在14号凌晨执行,那么${bdp.system.bizdate}替换的结果是13号。
        测试,补数据时,比如:业务日期选择为12号,那么${bdp.system.bizdate}替换的结果是12号。
    15.${bdp.system.cyctime}
        格式为yyyymmddhh24miss,日常调度实例定时时间(年月日时分秒)。yyyy表示4位数年份,mm表示2位数月份,dd表示2位数天,hh24表示24小时制的时,mi表示2位数分钟,ss表示2位数秒。
        正常调度时,比如:任务定时在14号凌晨1点整执行,那么${bdp.system.cyctime}替换的结果是 当天yyyymm140100。
        测试,补数据时,比如:业务日期选择为12号(任务调度时间配置为每天凌晨1点整执行),那么${bdp.system.cyctime}替换的结果是 所选业务日期的yyyymm130100。
    16.补数据
        当前节点,当前节点及下游节点,海量节点模式
    筛选功能:如上图中的模块①,有丰富的筛选条件,默认筛选业务日期是当前时间前一天的工作流任务,您可添加任务名称、运行时间、责任人等条件进行更精确的筛选。

    终止运行:只可对运行中状态的实例进行终止运行操作,进行此操作后,该实例将为失败状态。

    重跑:可以重跑某任务,任务执行成功后可以触发下游未运行状态任务的调度。常用于处理出错节点和漏跑节点。

    注意:

    只能重跑未运行、成功、失败状态的任务。

    重跑下游:可以重跑某任务及其下游任务,需要用户自定义勾选,勾选的任务将被重跑,任务执行成功后可以触发下游未运行状态任务的调度。常用于处理数据修复。

    注意:只能勾选未运行、完成、失败状态的任务,如果勾选了其他状态的任务,页面会提示已选节点中包含不符合运行条件的节点,并禁止提交运行。

    置成功:将当前节点状态改为成功,并运行下游未运行状态的任务。常用于处理出错节点。

    注意:

    只能失败状态的任务能被置成功。

    冻结:冻结状态的任务会生成实例,但是不会运行。若需要运行冻结的实例,您需解冻实例,单击重跑,实例才会开始运行。

    解冻:可以将冻结状态的实例解冻。

    若该实例还未运行,则上游任务运行完毕后,会自动运行。

    若上游任务都运行完毕,则该任务会直接被置为失败,需要手动重跑后,实例才会正常运行。

    批量操作:如上图中的模块③,批量操作包括终止运行、重跑、置成功、冻结、解冻5个功能。    


        
        
        
        
        

    展开全文
  • 从业务的角度看,企业级大数据平台功能可细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。 从技术的角度看,企业级大数据平台功能细分为Batch、SQL、流式处理、machine ...

    从业务的角度看,企业级大数据平台功能可细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。

    从技术的角度看,企业级大数据平台功能细分为Batch、SQL、流式处理、machine learning、Deep learning。

    企业的数据一部分来自于本身的业务数据,比如:MySQL、oracle等,还有一部分是大量的事件。数据源不同,处理的方式也不一样。传统的技术手段很难全面覆盖。采用大数据实时分析平台,那么,基于日志数据源,就用事件写入kafka;如果是针对MySQL、oracle等传统rdbms,就用Sqoop,写入HDFS里,并建立Hive的集群。还可以存一份数据在云端。有一部分业务就是对数据合并后放入HDFS做大量的业务查询和业务统计。这时希望用SQL的方式进行查询,会有很多选项,它选择的是大数据平台的Impala等。还有一些流式处理或机器学习可以用到大数据平台的Spark。

    社会文献出版社就是一个很好的例子。出版社要想在市场竞争中取得一席之地,除了要有一支过硬的内容生产队伍,还需要人人能用数据说话。所以构建基于出版社的大数据运营体系,势在必行。社会科学文献出版社选用了Smartbi,并期望通过Smartbi建立企业的BI平台来解决如上问题。截至到去年,全社30%的员工成为Smartbi的重度依赖者,可以一天不刷微博,但不能一天不用Smartbi!

    对于策划人员而言,之前在进行选题策划时,要听取发行人员的意见,或者随机发放调查问卷,这种方式会因为发行人员样本数量太小、主观性太强、问卷的可靠性低等原因导致调查结果与实际市场需求存在一定偏差。如今利用Smartbi对上游出版社和下游书店以及读者之间的数据进行分析,在需求最大的区域找出最合适的市场,以及不同个体的实时需求,挑选出社会公众关注度高的题材,与社交媒体上具有重大影响的公众人员进行联合宣传调查,从而实现精准的题材策划。

    的广告法国.png

    于运营人员而言,曾经天天加班做报表,即使是格式相同的周报、月报,还是需要每一次都进行手工填充。但有了Smartbi,只要用数据处理工具制作一次数据流,并基于该数据流制作一次分析看板,以后的工作量就是点击一次鼠标,选择自动更新源数据即可。同时,Smartbi是基于Excel设计的,兼容了绝大部分Excel的能力,他们不再需要懂代码,只要会Excel就能迅速上手。

    的各国大使馆.png

    除此之外,出版社还可以对收集的用户性别、年龄、所处位置、消费水平、职业、浏览记录、收藏书单、籍评价等个人信息进行分析,了解读者的行为习惯,以便迅速地在海量数据之中寻找到不同客户的需求,从而实现精准营销。同时,依据目标读者消费者的喜好,将营销信息很好地呈现在书籍设计和包装中,通过各种形式传达给读者,做每一位读者的专属在线书店。这种量身定制的数字化精准营销,对书籍的点击率、浏览时长以及购买率有明显的提升作用。

    g'g'g'g个个都是高手的.png

    社会科学文献出版社对BI的应用逐渐从简单的工具应用深度融入到业务、管理、财税等各项活动中。

    社会科学文献出版社做出的这个决定,太正确了。让数字化运营思路推动数据价值是涌出来的,只有管理层意识到数字化运营管理分析的重要性,让BI成为工作的一部分才能充分体现数据的价值。经营分析指标体系数据分析从各种维度分析具体指标,需要构建一套完整的指标体系、统一的规则,才能让各条线共享、认可数据分析的结果。

    展开全文
  • 在仅仅4U的机架式结构中实现真正高可靠的模块化、免工具维护设计,提供强大的数据处理性能,可轻松满足您高性能、高可靠、高可用的需求,是满足企业级应用及科学计算高性能、高可靠需求的理想解决方案。
  • 一、企业级数据中心应用推广中的弊端  1.电网企业数据中心建设多厂商、多技术形态,导致不同的各类数据分散,难以有统一的操作平台,gbase、SG-RDB(Mysql)、Hadoop、Informatica、等等。  2.企业数据中心建成后...

                                     

    一、企业级数据中心应用推广中的弊端

      1.电网企业数据中心建设多厂商、多技术形态,导致不同的各类数据分散,难以有统一的操作平台,gbase、SG-RDB(Mysql)、Hadoop、Informatica、等等。

      2.企业数据中心建成后,支撑各业务部门开展大数据分析应用建设,每一个业务部门背后都有其固定的厂商支撑信息化建设,比较熟悉对口的业务。

      3.各厂商得技术储备不一样,人员技术能力层次不齐,有的熟悉Oracle、有的熟悉Mysql、鲜有对gbase(大规模并行数据库有了解)、鲜有真正掌握Hadoop生态圈技术人员。或者说惰与接触新的知识体系。

      4.各厂商均有占“坑”的意识,难以通过统一的一套平台推动企业大数据分析应用建设。

      5.各有原由,不会技术、不懂原理、不按照统一规则执行.......,甚至给出了方法、流程,依旧不会,还气质昂扬。

        6.确实存在多端操作问题。操作Gbase数据库通过运维审计平台navicat工具,操作操作系统通过运维审计平台xshell,操作Inforatica需要通过运维审计平台跳转中专机(win虚拟机),需要运行java API操作大数据平台Hbase,似乎现在没有太多的方法,只能通过把写好的代码打成jar包上传大数据平台服务器。

      7.一些项目组人员甚至连客户端和服务端都搞不清楚。

           8.动辄申请各种端口,各种权限等等,凡此种种。这其中有管理上的问题、有各厂商的问题,既需要在现阶段提出解决方案。

           9.以上问题,导致不同的厂商确实很懵逼,需要给大家一个完整的操作环境。以提升整体的体验。但凡是各向进入数据中心建设大数据分析应用的厂商有空杯心态,那么事情或许没有这么复杂。

    二、现阶段的解决办法,建立一套完整的操作环境。

           1.现阶段不具备Docker的情况下,解决问题,做好的办法是建立一套完整的虚拟机模版,包括各类数据库操作客户端,linux系统操作工具、Java开发环境,根据项目需要开通访问端口。

      2.建立完整的权限控制,在该虚拟机上能授权操作的空间可进行操作,不能存储的空间断开运维审计平台侯自动清理,保持该操作机器的干净。

      3.运维审计平台仅仅对该机器进行全程操作监控,不采用运维审计平台上其他功能(如navicat、xshell、PL/Sql)等等

      4.一直强调的数据不出环境,也可以得到保障,通过操作机控制数据往外拷贝。解决原来通过运维审计平台数据库链接工具操作,往外拷贝数据情况。文件只进不出。

      5.通过一下操作方式免去各项目开通端口,掌握部署架构,等一系列问题。

                                                

    三、统一开发操作环境逻辑部署图

      待补充
    四、统一开发操作环境说明

       

        能在一定程度上解决现阶段问题,但核心的矛盾依然存在。

     

    展开全文
  • 观远数据联合创始人兼首席架构师吴宝琪在线分享《如何从0搭建企业级数据分析平台》。讲师简介:观远数据联合创始人兼首席架构师毕业于南开大学计算机学士&硕士曾就职于微策略、阿里巴巴Apache Dolphin...
    观远数据联合创始人兼首席架构师吴宝琪在线分享《如何从0搭建企业级大数据分析平台》。讲师简介:观远数据联合创始人兼首席架构师毕业于南开大学计算机学士&硕士曾就职于微策略、阿里巴巴Apache DolphinScheduler PPMCNetflix Polynote contributor演讲提纲:
    • 企业什么时候需要BI

    • BI在技术能力上包含什么

    • BI在应用和发展中有哪些机遇和挑战

    • BI如何衍生数据生态

    • 未来,BI有哪些发展趋势

    01.企业什么时候需要BI

    BI(Business Intelligence),中文为:商业智能。是利用软件或服务来把遍布于企业各处的数据转化为可行动的洞察,从而来影响企业的战略和战术决策。

    BI进入中国市场已经有20余年,而到目前,并不是所有企业都配备了BI系统。有些公司体量较小,需要处理的数据量只有不到10万行,一套Excel就可以解决。

    而随着很多公司规模越来越大,逐步健全了ERP、POS、CRM、OA等IT系统,沉淀了海量的数据资源,如果还是从单一系统来看数据,对于最高决策层来说,就很难全局了解整个公司的整体运营情况,这时,企业对BI的需求就应运而生。

    BI不仅能给公司提供一个权限分明的一站式大数据分析平台,解决数据融合的问题,还可以弥补Excel、报表等事后分析、静态报告的弊端,提供实时、动态交互的分析能力。以观远数据为代表的新一代BI平台,还可以在此之外提供可视化自助分析、十亿行数据秒级响应、一键AI预测等超前的数据分析能力。

    总结来说,当企业数据量达到几十万行,业务量正在急速增加,而传统的分析工具已经很明显地跟不上内部业务发展速度,严重影响决策效率和准确度,或者公司已经有了明确的IT项目规划,都可以考虑使用BI系统。

    02.BI在技术能力上包含什么

    BI是一个复杂的系统,涉及到技术的方方面面,而对于企业要实现的功能来说,主要可以总结为以下六点:

    • 数据可视化

    • 数据分析

    • 数据集成

    • 内容分发

    • 企业集成

    • 部署方式

    1、数据可视化

    对于企业最为关心的可视化模块,可以通过以下几种开源技术进行实现:ECharts、D3、Vega & Vega-Lite。

    c1ded5f6c8235c15acf55e29f55c3f79.png

    ECharts是目前国内最流行的开源可视化图表库,起源自百度,目前在Apache孵化器中孵化。ECharts提供了使用“JSON”来开发定制的配置方式,带有很多丰富的可视化图形,很适合与起步阶段的企业。

    D3,全名是:Data-Driven Documents。D3的特点首先是表达能力非常强大,其次是非常底层,如果类比编程语言的话, D3可以算是C语言,SVG是汇编语言。

    Vega 和 Vega-Lite都诞生于美国华盛顿大学交互数据实验室(Interactive Data Lab)。相比于同是受“图形语法”启发的D3,Vega对于非常多的通用可视化提供了便利的支持,并且也仍有一定的定制化能力。而 Vega-Lite 则是基于Vega,对于各种常用统计图形提供了更简单直接的支持。

    对于使用ECharts来说,首先会去看自己想要做什么样的图形,再去找例子,然后看怎样把数据转换成图形,是一种从图形到数据的过程。而对于Vega-Lite来说,首先是看自己到底有哪些数据,然后去看从哪些维度进行分析,最终的可视化图形就自然来了,所以它是一个从数据到图形的过程。这两者看着类似,但其实理念是不一样的。而对于BI来说,基础是数据,然后再去看要怎么分析,这样才能抓住重点。

    2、数据分析

    有了Vega-Lite和Voyager就可以产生BI?如果将这两者进行组合来代替BI,很快企业又会遇到新的瓶颈。例如,Vega-Lite默认是把所有的数据都加载到前端JS中进行处理,一旦数据量已经大到了几千万上亿行,就很难处理,需要有一个强大的后端去支持,这个就是数据分析过程。

    比如说企业一些主要数据,默认为他来自于一些关系型数据库,所以,最简单的处理方法就是,先去看下Vega-Lite产生的JSON有哪些数据维度,做了哪些数据转换,然后把它转化成关系型数据库所需要的SQL形式去直接查询数据库,这样就解决了数据直连中数据量过大的问题。

    除了支持关系型数据库,在BI系统中,可以通过把CSV和Excel导入到关系型数据库中,通过查询关系型数据库,处理本地的数据文件。对于企业拥有多种数据库类型,为了解决跨库查询的难题,可以将不同数据库的数据导入到某个关系型数据库中作为中央库来解决,或者使用一些外部表来关联数据,也可以起到数据融合的作用。

    当企业的数据量越来越大,一台关系型数据库无法承载时,则可以使用大数据或分布式处理的方式。例如观远数据目前依托Apache Spark数据处理引擎,再结合Kubernetes来管理,就可以形成一个分布式、集群化的操作系统汇总所有的数据,做到分布式处理。

    3、数据集成

    数据是BI的基础,而在企业内部,数据源不会只来源于一个途径,可以是关系型数据库、CSV、Excel、Web Services等。

    观远数据目前可以支持20多种数据库对接。对于CSV或者Excel,可以把它导入到中央存储库中,CSV可以用Apache Commons-CSV去解析内容,Excel就可以用Apache POI来解析。对于关系型数据库,可以直接用JDBC或ODBC接口来直接查询,或者把它们也导入到中央数据库中。

    而对于其他类型,比如Web Services、业务系统、HBase、ElasticSearch等,建议可以把一些基础的操作定义为插件的API,并提供一些SDK来辅助业务人员去编写插件,这样就接入系统中各种各样的数据,真正做到融合所有数据。

    4、数据分发

    数据分发可以总结为数据可视化结果展现给用户端的能力,比如我们常见的用Excel表格做日报周报,或者静态的PPT分析报告等。

    观远数据目前提供数据大屏、移动BI轻应用等多种应用形式,并且支持数据预警、邮件订阅等功能,当数据达到危险阀值时也能一键触发给对应负责人。

    5、企业集成

    BI是企业决策的一个中枢系统,但如果不能很好地融入到企业常规办公系统中,也会给使用者带来困扰。而达到这个目的,首要考虑的是如何把他的账号体系和核心办公系统绑定在一起。

    这个时候就可以使用Keycloak,它是集中身份认证和访问控制中心,提供了单点登陆SSO、用户组、角色管理、微服务授权等多功能。尤其当企业的应用平台较多时,如果说每一个系统都要求实现一套自己的帐号管理,就会带来一些重复的开发成本和复杂的使用体验。另外,借助Keycloak这种集中身份认证,也可以把微服务等也纳入到权限控制体系中,真正做到单点登录。

    6、部署方式

    不同的企业用户对于BI部署方式的选择不一样,选择之后所做的一系列动作也会存在很大差异。如果是部署在公有云上,就要充分应用公有云的功能,例如公有云所提供的托管服务,可以用它托管数据存储、数据监控、日志等。

    利用公有云的优点是:可以借助云服务商大量现成的功能,快速开发自己的系统。另外,云服务商是比较稳定的,也有很多专业的运维人员帮企业做运维,这样就可以节约成本。但同时也要考虑一点,就是云服务商是按照阶梯收费的,随着企业数据量越来越大,云服务上的消费也会越来越高,而因为之前在云服务商上已经绑定了很多专有服务,所以就很难再迁移到其他服务商上。

    如果说企业的业务既有本地化部署又有公有云,则可以采用Kubernetes。如果是公有云,企业可以使用托管的Kubernetes集群。而对于私有化就会复杂一点,需要自己去管理和安装Kubernetes,这个是比较有挑战的,还要考虑到Kubernetes的高可用性。当然,如果是节点比较少的时候,建议可以使用简化版的Kubernetes —— K3S就可以大大简化安装过程。

    03.BI在应用和发展中遇到的机遇和挑战

    不管是数据可视化、数据分析、数据集成、内容分发、企业应用还是部署方式,BI功能实现的每个环节都充满了挑战。主要集中在以下几点:

    • 如何去融合和管理BI所有的功能点。尤其是当企业的BI平台已经有上百个功能时,如果此时要新增一个功能,而这个功能可能和之前50个功能都有关系,这时就可能发生破坏之前功能,或者之前其它功能点上是不可用的情况。

    • 稳定性和高可用性。所有系统不管开源还是商业的,都需要投入大量的人力和财力。观远数据在使用Spark引擎时,也遇到过一系列数据倾斜或任务变慢的问题,最后都是通过时间积累和技术优化去克服这些难题,给用户呈现出一个高稳定高可用的产品。

    • Docker/Kubernetes使用问题。对于Docker/Kubernetes,偶尔会遇到内部DNS不稳定、iptables错误,端口一段时间后无法连接等问题。

    • 数据库标准问题。每种数据库都有自己的标准,而很多数据库只规定了很少的一部分标准,对于标准中没有提到的部分,每个厂家又有自己的一套实现形式,尤其是一些日期函数、总计小计等都需要去支持。另外就是对于每一个数据库,如果要从那获取数据,一定要做到能够去增量获取,而不是查询结果立马都加载到内存中,这样就会造成机器没有内存。

    面对如此多的挑战,总结来说,自研成本比采购成本要高出很多,对于IT资源有限的企业,建议可以采购成熟的BI系统。

    当然,如果企业坚持自研,也可以借助Apache Spark、Kubernetes/K3S、Keycloak等丰富的开源软件。一方面企业可以利用这些软件去搭建BI系统,另一方面,企业的研发人员也可以通过这些软件去学习更多的开源知识,提高自己的架构水平。

    其次,我们正处于一个马上要变革的云原生(Cloud Native)时代,在新的时代,也会诞生更多的开源项目,中国的本土开源项目发展也将会推动企业BI项目的构建。

    04.BI如何衍生数据生态

    以智能决策为目标,数据可视化为最终展现形式,可以推倒出整个BI体系。那么,BI体系是如何产生数据生态?

    首先当BI使用越来越多之后,任务类型也会随即增多,比如说ETL处理任务、卡片任务、订阅任务、预警任务等同时出现,随之而来的任务调度数量也会越来越多,从每天几百个到每天上千上万个。如果调度不好就可能出现某个任务一直在被调度,被多次触发的情况。而这时,就可以选用一些支持复杂调度的开源软件,比如Apache DolphinScheduler。

    第二个机遇是从BI这边会演化出一些数据血缘关系和元数据管理的需求。比如说是随着BI的使用越来越多,业务人员可能同时做了上千张的可视化页面、上千个数据集、上千个ETL等,如果系统没有一个很好的管理软件,就会出现业务人员想要新增功能,又无法查询之前是否有过类似功能的情况。或者即使知道有,也不敢在原来基础上修改,害怕牵一发而动全身。长期这样恶性循环下去,就是每个人都在加重复的逻辑和计算,导致系统资源浪费和口径不一。这个时候,企业就需要一些血缘关系和元数据管理软件。

    最后是质量检测和数据治理。比如说,有同事将ETL做错了出现很多Null值,或者数据更新不及时,导致后续数据错误等情况。这时,就需要一些数据质量检测和数据治理的工具,把错误扼杀在源头,减少数据排查工作。

    05.未来,BI有哪些发展趋势

    从Excel、报表系统到BI,BI产品在中国市场已经接近成熟,而在未来,也会向以下几个趋势发展:

    实时性:原来BI解决的都是T+1的历史数据处理,只是支撑管理层一些基本的看数需求,而随着使用的群体逐渐覆盖公司各个层级的日常运营,就更需要一些实时的数据分析去做监测做管理,比如在活动期间去监测门店的实时销量和实时库存。而实时性对于很多BI产品来说具有很大的挑战性,既要考虑将实时性、离线化、批量化很好地融合在一起,又要考虑他的易用性和计算成本。

    BI+AI:随着算法、算力的成熟,以及企业对于更高阶的数据分析需求的产生,未来,AI将会和BI更紧密的结合,产生更多的应用场景。观远数据一直秉承着从BI到AI的理念,并首创性地提出一整套从BI(敏捷分析)到AI(智能决策)的完整“5A”落地路径方法论(Agile敏捷化、Accurate场景化、Automated自动化、Actionable行动化、Augmented增强化),为企业构建智能决策大脑。

    846305d3ef7dd2a5ef6ddfd5336d6dcb.png

    一站式:国外的BI厂商更倾向于做BI功能中的某一点,比如专门做可视化,而国内的企业需要的是从数据接入、数据准备、数据分析、数据可视化到分发应用的一站式服务。只有形成一个从数据到决策的闭环,才能不断优化各个环节的产出和流程。

    BI作为企业决策的中枢系统,在大数据时代,将会发挥越来越重要的作用。不管是自研还是采购,企业越早规划,距离智能数据决策就更近一步。

    文章来源于知乎,版权归作者所有。

    ·END·见微知著,数析万象!请扫码联系我们eb75b087825c5383df4d281ca81b7b6c.png往期内容推荐:
    • 整理了一份数据分析工具集
    • 数据分析流程
    • 如果说Python只是工具,那么数据思维是什么?
    展开全文
  • 简介:近日,阿里云MaxCompute大数据计算平台联合帆软正式发布企业级BI分析解决方案,MaxCompute成为帆软FineBI与FineReport官方数据源。此次专为企业数据分析实现的产品集成,将极大解决企业数据分析及报表应用难题...
  • 1024大数据技术峰会邀请到11位来自一线互联网企业的大数据核心研发团队骨干成员,针对选型开源技术搭建大数据平台、持续运维、优化提升大数据平台的各项性能,技术架构演进以及实现应用大数据支持业务创新发展,这几...
  • 完整地总结了中国联合网络通信有限公司安徽分公司建设大数据面对的挑战和机遇以及通过快速构建B/O域融合的智慧运营平台累积的跨域数据多维度、多层次融合治理经验。此外,安徽联通还对用户离网预测进行了深入研究,...
  • 认识ES2007平台 CHARISMA平台,是一款企业级应用的快速开发平台。利用它,企业及开发商均可以非常方便、快速、高质量地开发复杂的业务系统,包括OA、CRM、EAI、MIS、ERP、电子政务平台、信息资源管理系统、网上直报...
  • 一、企业级数据中心应用推广中的弊端  1.电网企业数据中心建设多厂商、多技术形态,导致不同的各类数据分散,难以有统一的操作平台,gbase、SG-RDB(Mysql)、Hadoop、Informatica、等等。  2.企业数据中心建成...
  • CUBA Studio 8.2 发布 ,修复了50多项 Bug,推荐升级。 主要修复的 Bug: 1. 可视化界面设计器的缩放比例不能保存的问题 2. 数据...
  • 企业级应用是今后软件的主要利润来源,像计算机硬件需要一个统一的操作系统平台一样,企业级应用也需要一个统一的企业级应用软件平台企业级应用软件平台必将成为未来的杀手软件,而国产办公软件可以朝向这方面发展...
  • 敏捷大数据,即在敏捷理念原则指导下,构建出一系列通用平台工具,和一整套大数据应用全生命周期方法学,以支撑更轻量、更灵活、更低门槛的大数据实践。本文从理论层面整体解释我们所理解的“敏捷大数据”。 一、...
  • 据 App Annie 发布的《全球移动应用市场 2016 年回顾报告》数据表明,全球移动应用下载量增长15%,APP 使用时长增加了25%,主流应用商店的应用年度下载量超过900亿,向应用开发者支付的收入提升了40%。 进军...
  • 1、引言 “计算机体系架构30年来就始终没有改变过!”, 在科学院研究生院的第一节计算机体系结构课...企业级数据仓库如今在各个行业都已经广泛的应用,虽然还没有达到象国外市场的规模与成熟度,不过国内各行业的大型
  • 原文地址:...在企业应用中,数据的搜索和分析永远是一个重要的话题。Elasticsearch 作为 Java 平台中搜索领域的佼佼者,提供了强大的搜索功能。Logstash 作为数据搜索工具,也已经整合到 Elasticsea
  • 数据分析:这是最当前最广泛的应用方向,采用自研的平台(改造开源)或购买其他公司的平台进行数据分析,数据挖掘属于数据分析的一小块。 搜索/爬虫:elk、solr、lucence、es、爬虫 机器学习/深度学习:对个人的...
  • 随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用数据量面临着TB的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,...
  • 都知道JAVA凭借其强大的功能及其面向对象、跨平台、分布式、多...JAVA适合大项目,企业级项目开发,适合企业级应用,JAVA框架解决在商业组织、大型企业涉及的外部资源众多、事务密集、数据量大、用户数多、安全性...
  • 对于关注用户体验的每一个Web或移动应用而言,基于内存的NoSQL数据存储系统(例如开源的Redis和Memcached)正在成为事实标准。由于性能、可扩展性和可用性面临的诸多挑战,很多大企业已经在试图采用这些数据库系统。...
  • 一、前言随着企业信息化建设工作的不断推进,各大企业的业务系统经历了从无到有、从简单到复杂的过程,“信息化建设是一把手工程”,企业知道却很难做到,于企业而言,应用系统的构建...
  • 企业数据共享平台是支撑工业互联网相关应用开发的重要基础,能更好地发挥数字化、信息化技术对企业信息化系统及业务的支撑作用。本篇文章分享了企业数据共享平台的产品设计需求和设计思路,带领我们更具体地了解企业...
  • 摘要:作为可以承载EB级的数据存储能力,百PB级的单日计算能力的企业级计算平台,积极的在“智能+”重要战略中,释放技术红利,普惠大数据生态,帮助企业和个人开发者深化大数据、人工智能等研发应用,拓展“智能+”...
  • 在章节 5.3中, “在mod_jk中配置工作节点”, 我们涵盖了如何使用”会话粘贴”,以确保为了...随着时间的过去,在所有分布式节点上的负载可能是不平均,如果一个节点当掉(关闭了),那么在它上面的所有会话数据就...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,771
精华内容 708
关键字:

企业级数据应用平台