精华内容
下载资源
问答
  • 数据分析框架

    千次阅读 2019-03-16 13:52:13
    数据分析需要搭建数据分析框架,通过数据分析框架实现数据分析目标。比较常见的数据框架有市场营销模型、产品运营模型、用户行为模型、流量模型等等。在框架搭建前需要建立框架内的指标。 关于指标的建立技巧及建议...

    数据分析需要搭建数据分析框架,通过数据分析框架实现数据分析目标。比较常见的数据框架有市场营销模型、产品运营模型、用户行为模型、流量模型等等。在框架搭建前需要建立框架内的指标。

    关于指标的建立技巧及建议如下:

    技巧:刚开始制定指标时可以根据采用组合的方式,比如,uv+浏览时长,可以根据浏览时长的值设定兴趣用户和一般用户等梯度,再根据各个梯度的人数占总人数的比重设置兴趣用户比率、一般用户比率等指标。

    建议:

    1、指标需要有核心指标

    2、指标尽量时比例

    3、指标应该对分析有显著效果

    4、指标尽量简单

    5、指标不应该虚荣(比如利用标题党吸引的uv,虽然数量大,但是没有转化,应该改为注册用户占比指标)

    数据分析需要搭建数据分析框架,通过数据分析框架实现数据分析目标。比较常见的数据框架有市场营销模型、产品运营模型、用户行为模型、流量模型等等。在框架搭建前需要建立框架内的指标。

    指标梳理完后,则开始搭建分析框架。分析框架需要依据实际的业务需求,并根据业务流程进行搭建,建议的流程如下:

    1、 了解业务细节,根据业务流程画出流程图

    2、 根据结构化思维,优化流程图逻辑,根据公式化思维,将流程图节点指标化

    3、 再次根据业务流程修正流程图,并在实际业务中不断调整。

    实操案例:线上教辅机构数据分析框架
    很多新人在刚开始建立框架时由于不是很熟悉业务,可能画一个模型会感觉困难,比较好上手的建议是从框架的某个部分开始,比如先搭建新客获取部分
    在这里插入图片描述

    搭建好新客这部分后,可以在根据业务流程,将剩余流程添加进去

    在这里插入图片描述

    展开全文
  • Hadoop指标框架V2

    千次阅读 2014-08-21 14:27:55
    这个框架提供了多种方法来很容易地实现指标监控的构建,通过简单的MetricsSource接口或者甚至更简单、更简洁和声明式的指标注释。指标监控数据消费的一方只需要实现MetricsSink接口即可。Producers注册metrics ...

    Package org.apache.hadoop.metrics2 Metrics 2.0

    Interface Summary
    MetricsCollector The metrics collector interface
    MetricsInfo Interface to provide immutable meta info for metrics
    MetricsPlugin The plugin interface for the metrics framework
    MetricsRecord An immutable snapshot of metrics with a timestamp
    MetricsSink The metrics sink interface
    MetricsSource The metrics source interface
    MetricsSystemMXBean The JMX interface to the metrics system
    MetricsVisitor A visitor interface for metrics

     

    Class Summary
    AbstractMetric The immutable metric
    MetricsFilter The metrics filter interface
    MetricsRecordBuilder The metrics record builder interface
    MetricsSystem The metrics system interface
    MetricsTag Immutable tag for metrics (for grouping on host/queue/username etc.)

     

    Exception Summary
    MetricsException A general metrics exception wrapper

    Package org.apache.hadoop.metrics2 描述 Metrics 2.0 综述 这个包为指标监控的构建和发布提供一个框架。 这个框架提供了多种方法来很容易地实现指标监控的构建,通过简单的MetricsSource接口或者甚至更简单、更简洁和声明式的指标注释。指标监控数据消费的一方只需要实现MetricsSink接口即可。Producers注册metrics sources到一个指标监控系统,消费者注册sink。一个默认的监控系统的实现被提供来基于配置选项整理从source到sink的指标监控数据。所有的指标监控数据可通过标准JMX MBean接口被发布和查询。本文档的目标是框架的使用者。框架开发者可以看设计文档来查看架构和实现笔记。设计文档地址:http://wiki.apache.org/hadoop/HADOOP-6728-MetricsV2 子包 org.apache.hadoop.metrics2.annotation 公共的注释接口,可以更方便的构建指标监控。 org.apache.hadoop.metrics2.impl 框架的顶层包的接口或者抽象类的一些实现类。Sink插件代码通常不需要引用这里的任何类。 org.apache.hadoop.metrics2.lib 实现metrics sources的一些很方便的类,包括Mutable[Gauge*| Counter*| Stat] and MetricsRegistry. org.apache.hadoop.metrics2.filter 内置的指标监控过滤器实现包括GlobFilter 和RegexFilter。 org.apache.hadoop.metrics2.source 内置的 metrics source 实现包括JvmMetrics。 org.apache.hadoop.metrics2.sink 内置的 metrics sink实现包括FileSink org.apache.hadoop.metrics2.util 一些实现metrics sinks等的组件式常用的工具类,例如 MetricsCache。 快速上手 实现metrics sources

    Using annotations Using MetricsSource interface
      @Metrics(context="MyContext")
      class MyStat {
    
        @Metric("My metric description")
        public int getMyMetric() {
          return 42;
        }
      }
      class MyStat implements MetricsSource {
    
        @Override
        public void getMetrics(MetricsCollector collector, boolean all) {
          collector.addRecord("MyStat")
              .setContext("MyContext")
              .addGauge(info("MyMetric", "My metric description"), 42);
        }
      }
    

    在这个例子中,我们介绍下面这些东西: @Metrics Metrics注释用来声明这个类是一个metrics source MyContext 可选项context的name通常用来标识一个application,一个application的一组模块或者库。 MyStat 类的名字呗用作metrics record 的名字,一系列的关于它的指标被报告。例如,你有一个叫CacheStat的record,用来报告你的应用的关于内存的使用情况。 @Metric Metric注释用来标识一个特定的metric,在这个例子中,metric是getMyMetric 方法的返回值,返回值默认是gauge类型,这意味着它可以在两个方向变化,与counter类型相比,counter类型只能增加或者保持不变。metric的名字MyMetric,取自getMyMetric 方法的方法名。42是metric的值,可以被任意的java表达式替换。 注意:MetricSource接口更冗长但是更灵活,允许生成多个metric名字和多个record。事实上,注释接口就是实现了MetricsSource接口。 实现metrics sinks

    public class MySink implements MetricsSink {
        public void putMetrics(MetricsRecord record) {
          System.out.print(record);
        }
        public void init(SubsetConfiguration conf) {}
        public void flush() {}
    }

    在这个例子中,有几个额外的概念: record 与在metric source中创建的record相一致的对象,在前面的例子中就是MyStat。 conf 去掉前缀的sink实例的配置对象,所以你可以用get*方法取得任意指定sink的配置。 flush 这个方法在每一次更新周期内被调用,可能牵扯到多个record。被调用时,sink应该尝试flush所有缓冲的metric到它的后端。但是同步的实现不是必须的。 为了让用户使用MyMetrics 和 MySink,他们需要拥有指标监控系统的调用钩子。在这个例子中,也是在大多数情况下,DefaultMetricsSystem 就足够了。

    DefaultMetricsSystem.initialize("test"); // 每个应用调用一次
    DefaultMetricsSystem.register(new MyStat());

    指标监控系统配置 Sink通常在配置文件中被指定,在hadoop-metrics2-test.properties文件中,向下面这样:

    test.sink.mysink0.class=com.example.hadoop.metrics.MySink

    配置的语法是:

    [prefix].[source|sink|jmx|].[instance].[option]

    在前面的例子中,test是前缀,mysink0是一个实例的名字。DefaultMetricsSystem 将首先尝试加载hadoop-metrics2-[prefix].properties文件,如果没有发现,尝试类路径中默认的配置文件hadoop-metrics2.properties。注意,实例名是任意的,用来标识一个特定的sink实例。星号可以被用来指定默认的选项。 更多例子,可以参考在jvm,rpc,hdfs和mapred中的实现。 Metrics 过滤器 默认的指标监控系统的一个特性是source,context,record/tags和metric的过滤配置。最廉价的过滤指标的方式是在source级别,例如过滤名叫MyMetrics的source。最昂贵的方式是过滤每个监控指标。 这里有一些例子:

    test.sink.file0.class=org.apache.hadoop.metrics2.sink.FileSink
    test.sink.file0.context=foo

    在这个例子中,我们配置一个sink实例,这个实例将只接受来自foo context的指标监控数据。

    test.source.filter.class=org.apache.hadoop.metrics2.filter.GlobFilter
    test.*.source.filter.include=foo
    test.*.source.filter.exclude=bar

    在这个例子中,我们指定了一个source filter,这个source filter包括foo,不包括bar。当include模式被指定,过滤器在符合白名单配置的source上操作。同样的,当exclude模式被指定时,符合模式的source被排除在外。当include和exclude两个配置都出现时,不符合任何一个模式的source也被include。注意,include配置的模式比exclude模式有优先权。 类似的。你可以指定record.filter和metric.filter,它们各自在record和metric级别起作用。过滤器可以被合并以优化过滤的效率。 指标监控构建策略 在前面的例子中,我们展示了一个使用指标监控框架的最简单的例子。在一个更大的系统中,像hadoop,允许你自定义指标监控的构建,我们建议下面这样的方式:

    @Metrics(about="My metrics description", context="MyContext")
    class MyMetrics extends MyInstrumentation {
    
        @Metric("My gauge description") MutableGaugeInt gauge0;
        @Metric("My counter description") MutableCounterLong counter0;
        @Metric("My rate description") MutableRate rate0;
    
        @Override public void setGauge0(int value) { gauge0.set(value); }
        @Override public void incrCounter0() { counter0.incr(); }
        @Override public void addRate0(long elapsed) { rate0.add(elapsed); }
    }

    注意,在这个例子中,我们介绍下面这些: MyInstrumentation 这通常用一个抽象类(或一个接口)来定义一个仪器接口,例如incrCounter0 ,这个接口允许不同的实现。这可以是一个允许不同指标监控系统在运行时通过配置使用的机制。 Mutable[Gauge*|Counter*|Rate] 这是一些为了metric source的实现管理可变的指标的类库。它们通过快照为下游的数据消费者(sink)生成不可变的测量和计数(Metric[Gauge*|Counter*])。特别地,MutableRate ,提供一个测量延迟和操作的吞吐量的方式。在这种特别的情况下,当被快照时,它产生一个Rate0NumOps的计数和两个Rate0AvgTime。 从以前的系统迁移 以前的指标监控系统的用户将会注意到例子配置中context前缀的缺失。The new metrics system decouples the concept for context (for grouping) with the implementation where a particular context object does the updating and publishing of metrics, which causes problems when you want to have a single context to be consumed by multiple backends. You would also have to configure an implementation instance per context, even if you have a backend that can handle multiple contexts (file, gangalia etc.):

    Before After
      context1.class=org.hadoop.metrics.file.FileContext
      context2.class=org.hadoop.metrics.file.FileContext
      ...
      contextn.class=org.hadoop.metrics.file.FileContext
      myprefix.sink.file.class=org.hadoop.metrics2.sink.FileSink

    在新的指标监控系统中,你可以通过在sink选项中使用context选项来模仿先前的做法:

    Before After
      context0.class=org.hadoop.metrics.file.FileContext
      context0.fileName=context0.out
      context1.class=org.hadoop.metrics.file.FileContext
      context1.fileName=context1.out
      ...
      contextn.class=org.hadoop.metrics.file.FileContext
      contextn.fileName=contextn.out
      myprefix.sink.*.class=org.apache.hadoop.metrics2.sink.FileSink
      myprefix.sink.file0.context=context0
      myprefix.sink.file0.filename=context1.out
      myprefix.sink.file1.context=context1
      myprefix.sink.file1.filename=context1.out
      ...
      myprefix.sink.filen.context=contextn
      myprefix.sink.filen.filename=contextn.out

    为了发送一个特定的context的监控数据到一个特定的后端。注意,myprefix 是任意的前缀,它是为了配置分组用的,通常他们是一个特定进程的名字(例如namenode,jobtracker等等)。

    展开全文
  • 【数据分析】数据指标

    千次阅读 2018-10-30 18:12:36
    什么是好的数据指标? 找出正确的数据指标的五点方法 1、定性指标与量化指标 2、虚荣指标与可付诸行动的指标 3、探索性指标与报告性指标 4、先见性指标与后见性指标 5、相关性指标与因果性指标 市场细分、...

    目录

    什么是好的数据指标?

    找出正确的数据指标的五点方法

    1、定性指标与量化指标

    2、虚荣指标与可付诸行动的指标

    3、探索性指标与报告性指标

    4、先见性指标与后见性指标

    5、相关性指标与因果性指标

    市场细分、同期群分析、AB测试和多变量分析

    市场细分

    同期群分析

    AB和多变量测试

    数据分析周期

    数据科学家的思维方式(模式),10条创业者需要避免的数据圈套:

    数据分析框架

    海盗指标

    埃里克.莱斯的增长引擎

    黏着式增长引擎

    病毒式增长引擎

    付费式增长引擎

    阿什.莫瑞亚的精益创业画布

    肖恩·埃利斯的创业增长金字塔

    长漏斗

    精益数据分析阶段和关隘模型

    第一关键指标的约束力

     

    什么是好的数据指标?

    •     好的数据指标能带来你所期望的变化
    •     好的数据指标是比较性的
    •     好的数据指标是简单易懂的
    •     好的数据指标是一个比率
    1.         比率的可操作性强,是行动的向导
    2.         比率是天生的比较性指标
    3.         比率还适用于比较各种因素间的相生和相克(正相关和负相关)
    •     好的数据指标会改变行为
    1.         将日销售额之类的“会计”指标纳入财务报表,有助于进行更准确的财务预测
    2.         “试验”指标,如一个测试的结果,其作用在于帮助你优化产品、定价以及市场定位

     

    学会根据数据确定一条做与不做的准绳,对规范你的创业行为大有裨益。
    一个好的数据指标之所以能改变商业行为,是因为它与你的目标是一致的:保留用户,鼓励口碑传播,有效获取新用户,或者创造营收

    由错误数据指标引导的钠售团队也会犯同样的错误
    数据指标之间耦合现象也值得注意(转化率、病毒系传播系数、病毒传播周期)

     

     

    找出正确的数据指标的五点方法

    1、定性指标与量化指标

    定性指标:

    •         通常是非结构化的、经验性的揭不性的难以归类的;
    •         定性数据:杂乱的、主观的、不精确的,极难量化
    •         吸纳主观因素

    量化指标:

    •         则涉及很多数伯和统计数据,提供可靠的量化结果,但缺乏直观的洞察
    •         定量数据:那此我们跟踪和衡量的数字,比如休育比赛的比分和电影的评分
    •         量化数据使用方便,具有科学性,易于归类、外推和置入电子表格
    •         排斥主观因素

     

    2、虚荣指标与可付诸行动的指标

    虚荣指标:

    •         看上去很美,让你感觉良好,却不能为你的公司带来丝毫改变相反
    •         如果你有一个数据,却不知如何根据它采取行动,该数据就仅仅是一个虚荣指标。它毫无意义,唯一的作用是让人自我膨胀。

    可付诸行动的指标:

    •         可以帮你遴选出一个行动方案,从而指导你的商业行为
    •         真正应该关注的指标,即可付诸行动的指标,是“活跃用户占总用户数的百分比”(活跃用户占比)这个指标揭示了产品的用户参与度,当产品作出调整时,这个指标也会相应地变化。如果调整的思路是正确的,这个占比就应该上升。这就意味着,它可以指导你试验、学习和迭代。


    如果你并不明白哪个指标能够改变企业的行为,那你压根就不是在用数据驱动决策,而只是在数据的流沙里挣扎。
            
    另一个值得关注的指标是“单位时间内新用户的数量”(或“新用户增速”),它对比较不同营销手段的优劣往往很有帮助。

     

    8个需要提防的虚荣数据指标(模式)

    1. 点击量。
    2. 页面浏览量(PⅤ值)
    3. 访问量
    4. 独立访客数
    5. 粉丝/好友/赞的数量。
    6. 网站停留时间( time on site)/浏览页数( number of pages)。
    7. 收集到的用户邮件地址数量。
    8. 下载量。

     

    3、探索性指标与报告性指标

    探索性指标是推测性的,提供原本不为所知的洞见,帮助你在商业竟争中取得先手优势打告性指标则让你时刻对公司的日常运营、管理性活动保持信息通畅、步调一致
    我们知道我们不知道的”意味着某种度量行为,用于核算、衡量试验的结果
    “我们不知道我们不知道的”与创业的关系最紧密;它意味着在一系列探索之后,我们得到了一个能撼动市场的新产品。

    数据分析在唐纳德理论的四个象限中都有重要的应用:

    1. 检验我们手头上的事实和假设(如打开率或转化率),以确保我们不是在自欺欺人,我们的商业计划是切实可行的
    2. 验证我们的直觉,把假设变成证据;
    3. 为业务预测表、瀑布式开发流程图和董事会议提供数据;
    4. 帮助我们发现黄金机遇,大展宏图

     

     

    4、先见性指标与后见性指标

    先见性指标用于预言未来后见性指标则用于解释过去

    相比之下,我们更喜欢先见性指标,因为你在得知数据后尚有时问去应对-—术雨绸缪,有备尤患
    先见性指标(或称先见性指示剂)可用于预测未来,销售漏斗。
    后见性指标能提示问题的存在,用户流失。

     

    5、相关性指标与因果性指标

    如果两个指标总是一同变化,则说明它们是相关的;如果其中一个指标可以导致另一个指标的变化,则它们之间具有因果关系。

    如果你发现你能控制的事(比如播放什么样的广告)和你希望发生的事(比如营收)之间存在因果关系,那么恭喜你,你已拥有了改变未来的能力
    发现相关性可以帮助你预测未来,而发现因果关系意味着你可以改变未来
    证明一个因果关系:找到一个相关性,进行控制变量试验并测量因变量的变化。
    有时,你只能找到一些相关性,但你永不停止寻找因果性

     

    市场细分、同期群分析、AB测试和多变量分析

    测试是精益数据分析的灵魂,测试就是通过市场细分、同期群分析或AB测试来比较两个样本的不同。

    市场细分

    细分市场就是一群拥有某种共同特征的人。

    同期群分析

    同期群分析比较的是相似群体随时间的变化。
    产品会随着你的开发和测试而不断迭代,这就导致在产品发布第一周就加入的用户和后来才加入的用户有着不同的体验。
    每一组用户构成一个同期群,参与整个试验过程。通过比较不同的同期群,你可以获知:从总体上看,关键指标的表现是否越来越好了。
    同期群的概念还可以表现为,根据用户的体验划分数据。
    同期群分析为我们提供了一个更加清晰的视角。
    同期群分析使你能够观察处于生命周期不同阶段客户的行为模式,而非忽略个体的自然生命周期,对所有客户一刀切。同期群分析适用于营收、客户流失率、口碑的病毒式传播、客户支持成本等任何你关注的数据指标。

     

    AB和多变量测试

    纵向研究指比较不同群体的同期群试验,数据是沿着客户群体的自然生命周期收集
    横向研究指在同一时间段对不同被试群体提供不同的体验。

    AB测试看似简单易行,实则有一个软肋。只有用户流量巨大的大型网站(如微软必应、谷歌)能对单一的因素(如链接颜色、网页速度)进行测试并迅速得到答案。

    4种划分用户并进行分析或测试的方法:

     

    数据分析周期

     

    数据科学家的思维方式(模式),10条创业者需要避免的数据圈套:

    1. 假设数据没有噪声。
    2. 忘记归一化。
    3. 排除异常点
    4. 包括异常点
    5. 忽视季节性
    6. 抛开基数侈谈增长
    7. 数据呕吐
    8. 谎报军情的指标
    9. “不是在这儿收集的”综合征。
    10. 关注噪音。

     

    数据分析框架

    海盗指标

    创业公司最需要关注的指标分为五大类:获取用户( Acquisition)、提高活跃度( Activation)、提高留存率( Retention)、获取营收( Revenue)和自传播( Referral),简称 HARRI
    这五个指标并不一定遵循严格的先后顺序。

     

    埃里克.莱斯的增长引擎

    黏着式增长引擎

    黏着式增长引擎的重点是让用户成为回头客,并且持续使用你的产品
    用户参与度是预测产品成功的最佳指示剂之一
    衡量黏性最重要的KPI就是客户留存率。
    流失率和使用频率也是非常重要的指标。

     

    病毒式增长引擎

    病毒式传播归根结底就是一件事情:让声名传播出去
    病毒式传播之所以吸引人,在于它的指数性本质
    关键指标是病毒式传播系数,即每个用户所带来的新用户数。
    需要考虑流失率对整体病毒因子的影响。病毒因子越大,增长也就越迅速。
    衡量哪些用户行为形成了一个病毒传播周期(循环)

     

    付费式增长引擎

    赚钱是识别一个商业模式是否可持续的终极指标。
    赚钱并不是一种驱动增长的引擎
    客户终生价值(CV)和客户获取成本(CAC)
    客户盈亏平衡时间,也就是你收回获取一位客户的成本所需的时间。

     

    阿什.莫瑞亚的精益创业画布

     

    肖恩·埃利斯的创业增长金字塔

    肖恩·埃利斯是一位著名的企业家、市场营销家。他创造了增长黑客这个词语
    创业增长金字塔着眼于创业公司在找到产品与市场契合点之后该如何增长

     

    长漏斗

    客户可能会在试探性地访问几次后才决定购买。
    “长漏斗”它是一种分析方法,能够帮你理解你最初是如何获得客户的注意力的,以及客户从最初得知该网站到发生你所期望的行为的全过程

     

    精益数据分析阶段和关隘模型

    许多优秀的框架来帮你审视创业:

    1. 其中一些(如海盗指标和长漏斗框架)侧重于获取和转化用户的行为;
    2. 其中一些(如海盗指标和长漏斗框架)侧重于获取和转化用户的行为;
    3. 还有一些(如精益创业画布框架)帮助你厘清商业模式及其组成部分,让你可以细致地分析创业的这些成分。

     

    第一关键指标的约束力

    第一关键指标,就是一个在当前阶段高于一切、需要你集中全部注意力的数字。
    同时跟踪很多指标很了不起,却也是让你失去专注度的不归路。

    使用第一关键指标的四大理由:

    1. 它回答了现阶段最重要的问题。
    2. 它促使你得出初始(区别创业成败的)基线并建立清晰的目标。
    3. 它关注的是整个公司层面的健康。
    4. 它鼓励一种实验文化。
       

     

    参考:《精益数据分析》

     

    展开全文
  • 数据治理系列1:数据治理框架【解读分析】

    万次阅读 多人点赞 2019-05-08 14:58:56
    作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理、数据治理,欢迎关注。 一、什么是数据治理? 维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会...

    作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理、数据治理,欢迎关注。

     

    一、什么是数据治理?

     

    维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。

     

    笔者认为:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。

     

    二、为什么需要数据治理?

     

    在我国,各行业的信息化发展和建设水平并不均衡,甚至有的行业是刚刚起步。但是,不论是金融行业、通讯行业、地产行业、传统制造业以及农业,其信息化的发展基本都遵循了“诺兰模型”。笔者认为企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大的阶段,可以说是一个先建设后治理的过程。

     

     

    1、数据质量层次不齐

    当今时代,“数据资产化”的概念已经被大多数人理解和接受。不论是企业、政府还是其他组织机构,对于的数据资产的管理越来越重视。然而,数据并不等于资产,也就是说不是所有数据都是数据资产,数据中也有垃圾数据。我们需要治理的是能够为企业创造价值的数据资产,而不是全部数据。

     

    2、数据交换和共享困难

    企业信息化建设初期缺乏整体的信息化规划,系统建设大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,甚至还有大量的数据存放在员工的个人电脑中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,数据的价值不能充分发挥。只有联通数据,消除这些“信息孤岛”,才能实现数据驱动业务、数据驱动管理,才能真正释放数据价值。

     

    3、缺乏有效的管理机制

    目前,许多企业都认识到了数据的重要性,并尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,在数据流转过程中,存在数据维护错误、数据重复、数据不一致、数据不完整的情况,导致了产生了大量的垃圾数据。数据产权不明确,管理职责混乱,管理和使用流程不清晰,是造成数据质量问题的重要因素。

     

    4、存在数据安全隐患

    2018年3月份的Facebook 5000万用户信息被泄露和滥用的事件,受该事件影响,Facebook股价当日大跌7%,市值缩水360多亿美元,而盗用数据的剑桥分析这家公司也于同年5月停止运营,并申请破产。这种数据安全事件,在我国发生频率更多,我还清楚的记得:2011年,黑客在网上公开了CSDN的用户数据库,高达600多万个明文的注册邮箱账号和密码遭到曝光和外泄;2016年,顺丰员工应盗取大量客户信息被送上法庭;2017年,京东员工盗取用户个人信息50亿条,并通过各种方式在网络黑市贩卖。近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。

     

    三、DMBOK的数据治理框架

     

    DMBOK是由数据管理协会(DAMA)编撰的关于数据管理的专业书籍,一本DAMA 数据管理辞典。对于企业数据治理体系的建设有一定的指导性。注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。

     

    DMBOK将数据管理分为以下10个职能域:

     

    • 数据控制:在数据管理和使用层面之上进行规划、监督和控制。

    • 数据架构管理:定义数据资产管理蓝图。

    • 数据开发:数据的分析、设计、实施、测试、部署、维护等工作。

    • 数据操作管理:提供从数据获取到清除的技术支持。

    • 数据安全管理:确保隐私、保密性和适当的访问权限等。

    • 数据质量管理:定义、监测和提高数据质量。

    • 参考数据和主数据管理:管理数据的黄金版本和副本。

    • 数据仓库和商务智能管理:实现报告和分析。

    • 文件和内容管理:管理数据库以外的数据

    • 元数据管理:元数据的整合、控制以及提供元数据。

     

    四、数据治理框架的理解和解读

     

    DMBOK对企业级数据治理给出了框架性建议,但是任何指导性的框架文件都不是万能的。不同的行业、不同性质的企业、不同的信息化程度、不同的企业文化,其数据治理方案必须因地制宜,量身定制。我们常说:没有最好的解决方案只有更合适的解决方案。企业在实施数据治理的时候,应做好充分的分析和评估,切勿盲目跟风,避免出现数据治理收效甚微,还浪费了投资的窘境。

     

    笔者认为企业数据治理应考虑以下要素:

     

    1、数据治理的对象

    大家都在谈数据治理,但是到底哪些数据需要被治理?我们说数据治理不是治理全部数据,而是针对企业数据资产的治理。那么,问题来了,到底什么是数据资产?又如何识别数据资产?

     

    维基百科定义:数据资产属于普通个人和企业的数字财产,数据资产是无形资产的延伸,不具有实物形态。其本质是数据作为一种经济资源参与企业的经济活动,减少和消除了企业经济活动中的风险,为企业的管理控制和科学决策提供合理依据,并预期给企业带来经济利益。

     

    笔者认为,数据资产虽不具备实物形态,但是它必定是实物在网络世界映射的一种虚拟形态。对于企业而言,人、设备、产品、物料、软件系统、数据库、以及任何涉及到使用文件作为载体的各类数据,都属于企业的数据资产。

     

    我们虽然定义了数据资产,但是不同行业的数据治理侧重点也不同。数据治理要理解行业需求、企业诉求,在不同行业、不同企业应具有不同的差异化方案。企业在实施数据治理的时候,首先要进行数据资产的识别和定义,明确数据治理的对象和范围,做好数据治理的顶层设计!

     

    2、数据治理的时机

    这些年由于工作原因走访了一些企业,其经济情况不同、行业特点不同、信息化程度不同、数据治理情况也不尽相同。

     

    第一类企业:经济实力雄厚,信息化起步较早,信息化程度比较高,如:XX银行、国家电网,他们已形成了系统性的数据治理体系。

     

    第二类企业:有一定的经济实力、信息化程度相对较好,但是早期的信息化盲目建议,买了一堆的套装软件,建了一堆的系统,虽然系统或多或少都有使用,但效果不佳,谈起数据治理,客户自己都觉得头痛:企业到底都有哪些数据?这些数据都是分布在哪里?数据治理该如何入手?

     

    第三类企业:经济实力相对薄弱,也有信息化刚刚起步的企业,这些企业多数的业务还是靠纸质或线下模式,部分企业使用了财务软件或ERP系统,数据存放个人电脑或生产系统中,基本没有数据治理。我国的一些中小民型营制造企业多数处于这个水平。

     

    企业数据治理的时机该如何选择?是先有了数据再进行治理,还是先建设好数据治理体系再进行应用系统建设?针对上述不同类型的企业,其数据治理选择的时机和体系建设的设计绝对不能一概而论。

     

    对于第一类企业,已经有了相对完善的数据治理体系,更需要的是加强数据安全、数据应用、数据创新,稳固提升数据管理、数据应用和数据变现的能力;

     

    对于第二类企业单体架构的系统多,信息孤岛严重,一定存在数据多源、重复、不一致等问题,其数据治理已是迫在眉睫;

     

    对于第三类企业,在数字化的浪潮下,信息化虽然薄弱,但如果打好数据基础,未免不是企业改革创新,实现“弯道超车”的最佳时机。

     

    3、谁来实施、谁来主导

    企业常常有这样一个误区,很多人认为数据治理就是信息化部门的事情和业务部门无关。前边我们说过数据治理是对企业数据资产的治理,既然是资产,就一定要确权。企业数据资产的生产、使用应该有明确的责任部门,显然数据资产的生产及归属部门应该是业务部门,信息化部门最多也就是一个数据资产的托管部门而已。笔者也多次强调企业的数据问题,80%是业务和管理的问题,20%是技术问题。

     

    所以,企业数据治理是应有高层领导牵头,业务部门负责,信息部门执行,企业全员的参与。企业全员应培养起数据思维和数据意识,当然这是一个长期的过程,也是一件很不容易的事情,需要一点一滴的积累沉淀,并不断融入企业文化中。

     

    4、数据治理的内容

    数据治理是长期、复杂的工程,涉及到组织体系、标准体系、流程体系、技术体系和评价体系五方面的工作领域,包含了数据标准、数据质量、主数据、元数据、数据安全等多个方面内容。由于企业性质、业务特点、管理模式的不同,有必要建立符合企业现状和企业需求的数据治理框架,指导企业数据治理工作的开展。

     

    以下是笔者个人理解的数据治理框架内容,不足之处希望业内专家指正,期待与您的交流:

     

     

    组织体系:数据治理项目的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,进行数据资产的确权,明确相应的治理制度和标准,培养整个组织的数据治理意识。这需要 IT 与业务部门进行协作,而且必须始终如一地进行协作,以改善数据的可靠性和质量,从而为关键业务和管理决策提供支持,并确保遵守法规。

     

    标准体系:数据治理的标准体系是多个层面的,包括:国际标准、国家标准、行业标准、企业标准等。企业数据标准体系内容应涵盖:元数据标准、主数据标准、参照数据标准、数据指标标准等。数据治理的成效,很大程度上取决与数据标准的合理性和统一实施的程度。企业数据标准体系的建设应既满足当前的实际需求,又能着眼未来与国家及国际的标准接轨。

     

    流程体系:数据治理流程体系,为数据治理的开展提供有据可依的管理办法、规定数据治理的业务流程、数据治理的认责体系、人员角色和岗位职责、数据治理的支持环境和颁布数据治理的规章制度、流程等。建立数据的生产、流转、使用、归档、消除的整个生命周期管理的过程。企业应围绕数据治理的对象:数据质量、数据标准、主数据、元数据、数据安全等内容建立相应的制度和流程。

     

    评价体系:建立数据评价与考核体系是企业实施和贯彻数据治理相关标准、制度和流程的根本。建立明确的考核制度,实际操作中可根据不同企业的具体情况和企业未来发展要求建立数据的认责体系,设置考核指标和考核办法,并与个人绩效挂钩。考核指标包括两个方面内容,一方面是对数据的生产、管理和应用等过程的评估和考核指标,另一方面是数据质量的评测指标。

     

    技术体系:数据治理包括数据治理的工具和技术,总体应包括元数据管理、主数据管理、数据标准管理、数据质量管理和数据安全管理。

     

     

    元数据管理:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。

     

    数据标准管理:数据标准适用于业务数据描述、信息管理及应用系统开发,可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。数据标准需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。

     

    主数据管理:主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。

     

    数据质量管理:建立数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。

     

    数据安全管理:目前多数人都知道数据安全问题十分重要,但在现实中,数据安全却常常被忽视,只有出现了数据安全问题甚至事故时,人们才认识到要为数据安全做点什么了。数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。

     

    五、数据治理框架总结

     

    再次强调,企业实施数据治理需因地制宜,不论建立什么样的数据治理体系、采用什么样的数据治理技术,其目的都是实现数据治理目标,即:通过有效的数据资源控制手段,对进行数据的管理和控制,以提升数据质量进而提升数据变现的能力。数据治理体系和框架,只是企业数据治理的一个参考,不能照搬和套用,更不能为了治理而治理。

    (文:石秀峰 2019年4月)

    阅读原文

    更多精彩请微信扫描上图二维码,关注谈数据!

    展开全文
  • 游戏数据分析框架

    万次阅读 多人点赞 2017-10-09 14:43:57
    游戏数据分析框架 游戏数据分析框架 用户 用户分析的维度 用户的统计 平台 时间 渠道 新增用户 游戏硬技术 新增用户的分析 活跃用户 AARRR模型 新老用户和留存 活跃用户数量分析 游戏时长分析 用户流失 生命...
  • 【数据标准】数据指标体系建立

    万次阅读 多人点赞 2019-10-15 22:03:22
    数据分析常遇到挑战 问题出在哪里? 当一个决策分析类项目(如商务智能、数据仓库、大数据分析等)开始筹划的时候,往往面临着如何选择分析场景的问题。有一些业务人员非常有想法,目标明确,直接请实施厂商来做就...
  • 老李给大家整了各行业的数据指标体系框架,帮助大家理清分析思路,上次分享了关于线下零售指标体系的文章,不少朋友觉得不过瘾,今天继续给大家带来电商行业的全指标体系详解!建议收藏! 下面我们详细解释其中...
  • 手把手教你建立数据指标体系

    千次阅读 2020-09-30 16:17:40
    数据分析工作中,咱们对于数据指标一定不陌生,而几乎所有数据分析工作都会提“建立数据指标体系”。但是同学们或许有一些现实的困惑:你说报表我就见过,我天天都在更新。可这玩意怎么就体系了呢?做了体系又怎么样...
  • 如何构建合理的数据指标体系

    千次阅读 2021-01-19 07:07:00
    “没有一套合理的数据指标体系,纵然你有再多的数据,分析起来根本无从下手。”做数据分析时的你是否深有同感?因此今天我会先讲解如何构建数据指标体系,接着再谈谈数据分析方法,从这两方面分享我所...
  • 大家好,我是 GrowingIO 的商业分析经理史晓璐, 今天将围绕“数据指标体系的规划”为大家展开主题分享。 通过今天的分享你将习得一套「搭建业务、数据一体化指标体系」的系统思维,并运用于实践。 来源:GrowingIO...
  • 作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理、数据治理,欢迎关注。一、什么是数据治理?维基百科:数据治理对于确保数据的准确、适度分享和...
  • :博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。 博客地址:天阑之蓝的博客,学习过程中不免有困难...
  • 如何搭建数据指标体系

    千次阅读 2020-07-01 22:52:05
    文章目录指标体系的作用1.建立业务量化衡量标准2.减少重复工作,提高分析效率3...指标体系可以建立业务量化衡量的标准,数据分析的目的就是说明、衡量、预测业务的发展。 比方说衡量一个门店经营的状况,一个门店月净利
  • 超详细的APP数据指标体系分析

    万次阅读 多人点赞 2019-07-16 23:20:38
    1.搭建数据运营分析框架 一个APP的构建与运营工作通常由多个角色分工实现,由于大家的工作重点不同,仅关注一个方面的数据就如同管中窥豹,无法全面了解产品运营情况,不能提出行之有效的分析建议。因此,只有搭建...
  • 基于深度学习框架指标 一 基于深度学习框架的IQA指标 (1) 如果说传统领域内的指标有什么缺陷的话,我个人认为传统指标的缺陷归根到底还是其所设计的特征不能很好地匹配真实的人类视觉,在某些领域往往会产生同...
  • 最全的运营数据指标解读

    万次阅读 多人点赞 2017-06-16 16:03:32
    最全的运营数据指标解读  数据分析 2017-05-23 1,178 0 摘要:业务的洞悉决定了数据分析师发展的上限,数据技巧只是逼近它。好的分析师都懂业务,也必须懂业务。 数据分析涉及不同的业务领域,很多...
  • 数据统计埋点工作框架及细节规范

    千次阅读 2019-08-09 21:56:15
    首先,最基础的是要熟悉数据工具平台与产品业务,其次,要学会逐步建立产品完整的数据指标体系,最后,是能够通过数据分析解读驱动业务发展。 具体拆解来看,主要包含: (1)数据层面 源数据层:数据源的采集、...
  • ref: http://www.sohu.com/a/155141436_151779提起“大数据”就不得不提起有关数据的处理,虽然有人说过大数据在数据质量方面的要求不比传统数据的要求那么严格,当然这也是分场景的断言,但是无论何时数据处理在...
  • 全面教你如何建立数据分析的思维框架

    千次阅读 多人点赞 2017-07-07 09:10:04
    目前,还有一些人不会建立数据分析的思维框架,那么今天课课家,就一步一步的教大家怎么建立,大神路过还请绕道,当然还可以交流一下。有需要的小伙伴,可以参考一下。  曾经有人问过我,什么是数据分析思维?...
  • 一个项目到了汇总的时候,免不了形成一份相对完整的数据分析报告,一个数据分析报告的框架,主要包含以下几项,具体如下: 项目背景:简述项目相关背景,为什么做,目的是什么 项目进度:综述项目的整体进程,以及...
  • 测试VOC数据集和coco数据集,并输出各种性能指标 mmdetection的github地址: https://github.com/open-mmlab/mmdetection 使用深度学习目标检测框架mmdetection训练自己的数据集,首先配置好环境: 根据之前博客...
  • 在微信公众号中搜索数据运营指标体系,我们随便能找到类似的文章不少于3000篇,这种数据指标体系往往是数据指标分类解释说明,或是数据指标集合。我常常想,这样的数据指标体系对我们的数据化运营到底有多少帮助?...
  • 案例来源:@美团技术博客 ...   1. 目标:在BI实践中,快速定位到使某个业务指标发生异动的因素,并对该因素进行细分维度... 1)指标计算:将基础指标、自定义指标进行拆分,从数据源获取数据  2)分析算法:  ...
  • MTK6589下传感器框架结构和代码分析以及传感器的参数指标 作者:韩炜彬  中国当代著名嵌入式研究专家 一、 模块框架   1)配置 路径:Alps/mediatek/config/$(project)/ProjectConfig.mk ...
  • 前端ui框架+数据可视化发展浅析

    千次阅读 2017-12-07 18:42:31
    要说前端ui框架+数据可视化发展就必须提到插件库,因为框架是不同插件库组装的框架,然而数据可视化只是其中的一部分,相信很多朋友也有关注,因为我们自己的后台就是数据可视化后台,各方面数据都可以一览,方便...
  • CBoard框架数据集实现--DataProvider

    千次阅读 2017-12-01 17:29:45
    前段时间在使用Cboard,一致觉得这个框架的DateProvider的实现是核心的内容(其他的就一般般咯……哈哈),所以,最近花了点时间研究了DataProvider的实现,这里只能简单的分析一下它的实现,可以给大家在开发过程中...
  • Java数据访问和持久化SQL 方案一JDBC 什么是JDBC 架构图 JDBC规范下载链接 JAVA使用JDBC访问数据库的步骤 实例练习 方案二JdbcTemplate jdbcTemplate是什么 应用场景 实例操作 方案三ORM ORM是什么 为什么需要ORM ...
  • 一个股票数据(沪深)爬虫和选股策略测试框架数据基于雅虎YQL和新浪财经。 根据选定的日期范围抓取所有沪深两市股票的行情数据。 根据指定的选股策略和指定的日期进行选股测试。 计算选股测试实际结果(包括与沪深...
  • 七周成为数据分析师 第七周:Python- CSDN博客 七周成为数据分析师 第六周:统计学- CSDN博客 七周成为数据分析师 第五...七周成为数据分析师 第二周:业务篇-指标- CSDN博客 七周成为数据分析师 第二周:业务篇-...
  • 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统...处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据数据的计算则是指从大量单一数据点中提

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 104,322
精华内容 41,728
关键字:

数据指标框架