精华内容
下载资源
问答
  • 当前使用的指标需要统计数据
    万次阅读 多人点赞
    2021-10-04 23:01:32

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

    感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。


    为了进一步提升自己分析业务的能力,首先得先了解好在日常业务分析当中往往会用到那些数据指标。

    接下来我给大家整理了常见的一些数据指标,建议收藏后慢慢阅读。

    用户获取

    渠道到达量

    这个俗称曝光量,如果在CSDN有发过博客的朋友应该知道“展现量”这个词,同理。

    这个指标其实是一个比较虚的数据,因为实际上我们每个人每天都会接收到许多的信息,但实际上真的吸引到我们的信息又有多少呢?但是这个值又往往跟我们的推广费(广告费)挂钩。因为推广的时候你很难量化广告对用户的影响程度,所以系统往往只能将用户的行为归因到最近一次的推广

    渠道转化率

    不同业务下指代有所不同,以CSDN为例子可以是点击量/展现量。

    渠道ROI

    ROI,即为投资回报比——利润/投资。
    当ROI大于1时,说明是赚钱的,反之则亏钱。

    除了收入外,ROI也可以用于其他指标,不一定非得是收入,也可以是注册用户量,即具体业务具体指代可以有所不同,但最终目标都是用于衡量是否盈利(亏还是不亏)

    日应用下载量

    想要使用产品之前需要我们下载好该产品,如果不注重该环节也极有可能会流失用户(如下载时间过长很多没耐心的用户会选择放弃、应用商店对产品的介绍很差或者不到位也有可能劝退用户)。

    日新增用户数

    新增用户数是用户获取的核心指标(对于新兴产品尤为重要)。

    这一指标也可以进一步细分,自然增长数和推广增长数。前者往往变化幅度不大,后者则是运营人员强控制下增长的,起伏明显。

    当然啦,具体业务分析时我们往往可以再进一步细分指标,如自然增长可以分为用户邀请、用户搜索,推广增长可以按渠道、活动进一步细分。

    用户获取成本

    这一指标对于新兴产品同样十分重要。

    这里想举个例子:拼多多作为近年来的新兴网购平台,有一个100元提现的活动,这个活动利用好友间分享(新用户砍的力度更大)来获取新客户,看似白给了100快钱,实际上却得到了无数新用户,比以前京东白条新用户还有无门槛的50元券免费送的活动还要简单粗暴。

    一次会话用户数

    指新用户下载完App,仅打开过产品一次,且该次使用时长在2分钟(通常是2分钟)以内。这类用户,很大可能是黑产或者机器人,

    这是产品推广的灰色地带,通过各种技术刷量,获取虚假的点击量谋取收益。该指标属于风控指标,用于监管。

    举例:B站邀好友赚红包,新用户需看几分钟的视频红包才更大。

    用户活跃

    活跃用户

    一般情况下,活跃标准为用户用过产品(浏览网页内容、下单购买等)。

    活跃指标是用户运营的基础,活跃率即为某段时间内活跃用户占总用户量的比例。这里的某段时间通常有按天、周或者月来定义。活跃用户数衡量的是该产品的市场体量,而活跃率则是看产品的健康程度。

    不过为了进一步查看产品的健康程度,应该在活跃指标的基础上在对用户进行细分,分成新用户、活跃用户、忠诚用户、不活跃用户、流失用户和回流用户等。这里的忠诚用户指的是长期活跃的用户,回流用户指的是某段时间不活跃或者流失但后面又重新使用该产品的用户。

    其中,健康的产品流失用户占比不应该过多,同时新增用户数应大于流失用户数。

    PV和UV

    PV和UV是相对比较老的概念了。

    PV,即为PageView,页面浏览量的意思。
    UV,即为Unique Visitor,名为独立访客数,是一定时间内访问网页的人数。在同一时间内,不管用户访问网页为多少,只算做一个独立访客(通过IP或者cookie判断)。

    这里需要注意到同一用户在一定时间内的cookie和IP也有可能发生变化,所以这一指标统计时可能出现误差,需要额外的方法来辅助判断。

    用户会话次数

    学过开发的朋友应该听过session,记录着用户在该时间窗口内的所有行为集合。如用户打开应用,接受消息,发送消息,最后退出,这样算作一次会话。

    至于时间窗口的长度则没有统一标准,网页端通常是30分钟,移动端通常是5分钟,但具体业务可能也有所不同。

    这里的指标往往回合活跃用户数结合来判断用户的粘性,假设日活跃用户数为120,日用户会话数为100,则说明大多数用户只访问了一次,产品粘性较低。

    用户会话依赖数据埋点采集,是用户行为分析的基础。

    用户访问时长

    一次会话持续的时间,不同业务下的访问时长也不一样,社交产品往往较长,当发现社交产品的用户访问时间只有几十秒时,就要分析一下原因了。

    功能使用率

    除了关注上述指标,我们进行分析时还应该关注产品上的各种功能的使用情况,如CSDN上的关注、点赞、评论收藏等,这些功能的使用也会反映出用户使用深度。比如说通过观察浏览用户中有多少用户点赞、有多少评论了等等,对博客内容的评估,对运营人员推流是否有所帮助。

    用户留存

    用户留存往往用于衡量产品的后续发展前景。

    留存率

    在之前的时间段使用过该产品后仍在使用的用户,称为留存用户。留存率即为留存用户/当初的总用户量。

    当该产品用户趋于饱和,新用户增长较少时,留存率是比新增用户数和活跃数更常用到的指标,因为此时运营的重点是要留住用户。

    这里的留存率其实还可以分为新增留存率和活跃留存率,前者重在新用户的引导,后者更注重产品本身的质量和运营的水平。

    用户流失率

    同留存率恰好相反,两者相加即为1。

    产品的流失率高往往代表着产品不健康,但具体的业务下对于流失率的高低衡量也不同,比如日常用品的流失率为50%和婚庆类产品的50%截然不同。

    退出率和跳出率

    退出率:某个时间段内,离开网页的次数占该网页总浏览次数的比例。
    退出率=退出次数/总访问量*100%。

    跳出率指用户通过搜索关键词来到你的网站,仅浏览了一个页面就离开的访问次数与所有访问次数的百分比。

    退出率从某方面反映了网站对于访客的吸引力,如果退出百分比很高,说明访客仅浏览少量的页面便离开了,因此当你的网站退出百分比很高的时候就要想办法改善你网站的内容来吸引访客了。
    跳出率常用于推广和运营活动的分析,两者容易混淆。

    跳出率高,说明很多新用户来了,看了一页就离开。(好像有种被骗的感觉)
    退出率低,说明新老用户来了都点击很多页才离开。(说明网站内容深受欢迎)

    市场营销

    用户生命周期

    指用户从开始接触产品,到最后彻底流失的过程。

    这里可以从两个方面来讲,一是针对用户的生存窗口,二是用户关系管理层面来讲。
    前者如十月怀胎,十月即为营销窗口,孕期前后都需要运营人员制定不同的营销重点,后者像上文讲到的活跃用户一样,将用户分为潜在用户、兴趣用户、新用户、老用户,流失用户。

    再拿十月怀胎举例,我们需要知道用户怀胎几月了,也要知道用户是否使用过我们的产品(是潜在用户还是流失用户)。

    用户生命周期价值

    CLV,即Customer Lifetime Value,CLV是对客户未来利润的有效预测,用来衡量一个用户在一段时期内对企业有多大价值。

    CLV模型在中小企业的具体运营中应用到的不多,更多是在做年度规划,年度财务核算,或者企业战略中会较为常见的使用,以站在企业的战略层面去考虑顾客价值与投入之间的关系。

    需要特别说明的是,CLV考虑了完整的客户生命周期,包含客户获取和客户流失,也就是它计算的不只是眼前顾客已经产生的价值,还预测了未来价值。

    CLV的计算公式有非常多,有的会非常复杂,主要在流失率这个环节和影响因素就相当多,也有会加上投入成本,价值变化率和利率变化等等。

    假如一个客户两年内在某商店内消费2000元,这2000元就是CLV,具有预测性。

    作用:

    • 根据客户价值对客户分类,尽量获取优质客户;
    • 根据客户价值,执行推广计划,评估市场效果;
    • 制定留存策略,留住优质客户;
    • 差异化定价,针对性促销;
    • 对客户细分,提供更加针对性的服务。

    用户忠诚指数

    客户忠诚度,又可称为客户粘度,是指客户对某一特定产品或服务产生了好感,形成了“依附性”偏好,进而重复购买的一种趋向。本质上是对活跃用户的进一步细分。

    计算方法有很多,计算时最好对数据进行收敛,且往往要考虑时间权重,越近的消费肯定权重越大。

    用户流失指数

    本质是对流失用户的进一步细分,在早期分析时,忠诚指数+流失指数 = 1。

    具体的定义需要按照实际的业务调整,有时候是按是否有点击(打开)产品,有时候是按是否有购买产品。

    当数据量足够时,可以利用回归模型会预估流失率。

    用户价值指数

    衡量从以前到当前用户贡献的价值(用户生命周期价值还包括未来)。

    用户价值指数的主流计算方式有两种,一种是RMF模型,利用R最近一次消费时间,M总消费金额,F消费频次,将用户划分成多个群体。不同群体即代表了不同的价值指数。

    第二种是主成分分析PCA,把多个指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。

    比方说现在要评估CSDN博主的质量,是不是得考量他的粉丝数、点赞数、评论数、更新频率、博客总数等,利用PCA将其交工为两三个指标,再加工成价值指数就容易多了。

    运营时我们往往会同时参考多个指标,比方同时 考量用户流失指数和用户价值指数,对于高流失高价值的用户我们应该及时制定策略唤回,对于高流失低价值的用户,可以权衡后选择放弃。

    结束语

    博主能力有限,上述数据指标的定义我大多参考了百度百科,再结合自己的理解,希望大家看完后也能结合自己的理解,且如上文有所出错,恳请指正,一起进步!


    推荐关注的专栏

    👨‍👩‍👦‍👦 机器学习:分享机器学习实战项目和常用模型讲解
    👨‍👩‍👦‍👦 数据分析:分享数据分析实战项目和常用技能整理


    关注我,了解更多相关知识!


    CSDN@报告,今天也有好好学习

    更多相关内容
  • 通常我们讲述的指标是对当前业务有参考价值的统计数据,换句话说,不是所有的数据都叫指标指标的核心意义是它使得业务目标可描述、可度量、可拆解。常用的指标有PV、UV等。 指标体系是从不同维度梳理业务,并将...

    文章转自 数据指标体系搭建实践

    1. 什么是数据指标

    指标,是反映某种事物或现象,描述在一定时间和条件下的规模、程度、比例、结构等概念,通常由指标名称和指标数值组成。

    2. 为什么要搭建指标体系

    例如,在实际场景中,社区业务板块是整体业务的一个较为重要的子版块,在多批次循环迭代中,由于业务方向及产品形态的变化,需要多次更新调整数据计算逻辑。并且由于埋点及业务数据的不完善,经常需要校验异常数据,为确保准确性、应对频繁的产品迭代产生的数据需求以及更好的发现问题、定位问题,故需要从整体业务的角度构造指标体系。

    通过指标体系监测业务发展的状况,最大的价值就是高效利用时间,把时间花在解决问题上,而不是寻找问题上,从而提高整体的人效。

    指标体系的输出结果应当是一份指标字典和对应的Dashboard展示,需要至少满足以下要求:

    • 成体系化的指标监控系统,能够从多维度了解业务发展的现状
    • 在业务发展出现问题时能够快速定位问题所在
    • 高效地为团队提供数据支持

    3. 指标类型及命名

    在构建指标体系的过程中,首要动作就是明确指标的分类以及约束指标命名方式,使各个指标能够做到见名知意、减少沟通成本,这里我们按照阿里对指标的划分规范指标命名:

    指标分为原子指标和派生指标

    原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具有明确业务含义的名词 ,体现明确的业务统计口径和计算逻辑,例如支付金额。

    派生指标可以理解为对原子指标业务统计范围的圈定。

    原子指标 = 业务过程 + 度量

    派生指标 = 时间周期 + 修饰词 + 原子指标

    下图是各个基本概念之间的关系:
    在这里插入图片描述

    参照阿里对以上基础概念的定义:

    业务板块:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统。

    业务过程:指企业的业务活动事件,如下单、支付、退款都是业务过程,请注意,业务过程是一个不可拆分的行为事件,通俗的讲,业务过程就是企业活动中的事件。

    修饰类型:是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、PC端等修饰词。

    修饰词:指出了统计维度以外指标的业务场景限定抽象,修饰词隶属于一种修饰类型,如果在日志域的访问终端类型下,有修饰词PC端、无线端等。

    时间周期:用来明确数据统计的时间范围或者时间点,如最近30天、自然周、截至当日等。

    度量/原子指标:原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词,通常是业务过程+度量组合而成,如支付金额。

    维度:维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以成为实体对象。维度属于一个数据域,如地理纬度、时间维度。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。

    派生指标:派生指标 = 一个原子指标 + 多个修饰词(可选)+ 时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近一天海外买家支付金额则为派生指标(最近一天为时间周期,海外为修饰词,买家作为维度,而不作为修饰词)

    依据以上基本概念,下面是电商业务中一个具体的指标实例:
    在这里插入图片描述

    指标分为结果性指标和过程性指标

    结果性指标,比如电商场景下的 GMV(Gross Merchandise Volume,成交总额) 或订单量,它通常是业务漏斗的底部,是一个不可更改的、后验性的指标。

    过程性指标,可以简单理解为我到达这个结果之前经过的路径,以及通过这个路径去衡量转化好坏的过程,它是可干预的,而且通常是“用户行为”。

    如 GMV = UV * 转化率 * 客单价,GMV为结果性指标,UV、转化率、客单价为过程性指标,通常为了提高GMV去优化UV和转化率。

    搭建指标体系的核心指标应当是结果性指标,然后在其基础上拆解过程性指标并纵向划分层级,在此基础上再划分层级之间的关系,通过层次划分,最终实现我们需要的效果。

    4. 指标体系搭建

    搭建指标体系的时候,横向使用OSM模型纵向进行三级指标分级

    (一)横向选择数据指标

    选取数据指标是需要有方向性的,需要针对业务现状选取最能代表业务发展状态的指标,在这方面有成熟的模型可以参考,这里我们使用OSM模型来选取指标。

    OSM模型(Obejective,Strategy,Measurement)分别代表业务目标、业务策略、业务度量。

    O:用户使用产品的目标是什么?产品满足了用户的什么需求?业务的核心目标是什么?

    S:为了达成上述目标采取的策略是什么?

    M:这些策略随之带来的数据指标变化有哪些?

    我们依据核心业务目标,最终选取的关键指标如下:

    在这里插入图片描述
    (二)纵向划分数据指标层级

    指标分级可以帮助我们更高效的去定位问题,去验证你的方法论,无需每次都要思考要去看哪些指标。

    一级指标:公司战略层面指标,必须是全公司都认可的、衡量业绩的核心指标。它可以直接指引公司的战略目标,衡量公司的业务达成情况,本质上需要管理层和下级员工的双向理解、认同,且要易于沟通传达。比如公司的销售额,或者社交产品的活跃度。

    二级指标:业务策略层面指标,二级指标是一级指标的路径指标,一级指标发生变化的时候,我们通过查看二级指标,能够快速定位问题的原因所在。比如uv、转化率、客单价,通过这三个指标可以快速定位销售额降低的原因。

    三级指标:业务执行层面指标,三级指标是对二级指标的路径的拆解,即是二级指标的过程性指标。通过三级指标,可以高效定位二级指标波动的原因,并可以快速做出相应的动作。这一步会基于历史经验进行拆解,拆解时可以试着不断询问自己为了实现二级指标我需要做哪些事情?这些事对应的指标是什么?

    根据以上原则拆分指标如下(指标都为日度汇总指标):
    在这里插入图片描述
    以上是依据目前业务现状搭建的基本指标体系,在当前指标体系的基础上,仍然可以针对产品中的各个业务子板块继续依照以上方法搭建业务子板块的数据体系。比如针对社区板块中的鉴定板块,按照鉴定业务组的业务目标搭建鉴定频道的业务指标体系等。

    展开全文
  • 图解Kafka中的数据采集和统计机制

    千次阅读 多人点赞 2021-11-17 15:14:50
    在讲解kafka限流机制之前,我想先讲解一下Kafka中的数据采集和统计机制 你会不会好奇,kafka监控中,那些数据都是怎么计算出来的 比如下图这些指标 这些数据都是通过Jmx获取的kafka监控指标, 那么我们今天老探讨一下,...
    🔥《Kafka运维管控平台》🔥
    ✏️更强大的管控能力✏️
    🎾更高效的问题定位能力🎾
    🌅更便捷的集群运维能力🌅
    🎼更专业的资源治理🎼
    🌞更友好的运维生态🌞

    文末送书 30 本

    在讲解kafka限流机制之前

    我想先讲解一下Kafka中的数据采集和统计机制
    你会不会好奇,kafka监控中,那些数据都是怎么计算出来的
    比如下图这些指标

    LogiKM监控图

    这些数据都是通过Jmx获取的kafka监控指标, 那么我们今天老探讨一下,这些指标都是怎么被计算出来的

    在开始分析之前,我们可以 自己思考一下

    如果让你统计前一分钟内的流速,你会怎么统计才能够让数字更加精确呢?

    我相信你脑海中肯定出现了一个词:滑动窗口

    在kafka的数据采样和统计中,也是用了这个方法, 通过多个样本Sample进行采样,并合并统计

    当然这一个过程少不了滑动窗口的影子

    采集和统计类图

    我们先看下整个Kafka的数据采集和统计机制的类图

    数据采集和统计全类图

    看着整个类图好像很复杂,但是最核心的就是两个Interface接口

    Measurable: 可测量的、可统计的 Interface。这个Interface 有一个方法, 专门用来计算需要被统计的值的

    /**
    * 测量这个数量并将结果作为双精度返回
    * 参数:
    * config – 此指标的配置
    * now – 进行测量的 POSIX 时间(以毫秒为单位)
    * 返回:
    * 测量值
    */
    double measure(MetricConfig config, long now);
    
    

    比如说返回 近一分钟的bytesIn

    Stat: 记录数据, 上面的是统计,但是统计需要数据来支撑, 这个Interface就是用来做记录的,这个Interface有一个方法

    
     /**
     * 记录给定的值
     * 参数:
     * config – 用于该指标的配置
     * value – 要记录的值
     * timeMs – 此值发生的 POSIX 时间(以毫秒为单位)
     */
     void record(MetricConfig config, double value, long timeMs);
     
    

    有了这两个接口,就基本上可以记录数据数据统计

    当然这两个接口都有一个 MetricConfig 对象

    MetricConfig

    这是一个统计配置类, 主要是定义
    采样的样本数单个样本的时间窗口大小单个样本的事件窗口大小限流机制
    有了这样一个配置了,就可以自由定义时间窗口的大小,和采样的样本数之类的影响最终数据精度的变量。

    这里我需要对两个参数重点说明一下

    单个样本的时间窗口大小: 当前记录时间 - 当前样本的开始时间 >= 此值 则需要使用下一个样本。
    单个样本的事件窗口大小: 当前样本窗口时间次数 >= 此值 则需要使用下一个样本

    在整个统计中,不一定是按照时间窗口来统计的, 也可以按照事件窗口来统计, 具体按照不同需求选择配置

    好了,大家脑海里面已经有了最基本的概念了,我们接下来就以一个kafka内部经常使用的 SampledStat 记录和统计的抽象类来好好的深入分析理解一下。

    SampledStat 样本记录统计抽象类

    这个记录统计抽象类,是按照采样的形式来计算的。
    里面使用了一个或者多个样本进行采样统计 List<Sample> samples;
    当前使用的样本: current
    样本初始化的值: initialValue

    SampledStat : 实现了MeasurableStat 的抽象类,说明它又能采集记录数据,又能统计分析数据

    当然它自身也定义了有两个抽象方法

    
      /** 更新具体样本的数值 (单个样本)**/
      protected abstract void update(Sample sample, MetricConfig config, double value, long timeMs);
    
    
      /**组合所有样本的数据 来统计出想要的数据 **/
      public abstract double combine(List<Sample> samples, MetricConfig config, long now);
    
    

    SampledStat图形化展示

    如上图所示, 是一个SampledStat 的图形化展示, 其中定义了 若干个样本 Sample

    记录数据

        @Override
        public void record(MetricConfig config, double value, long timeMs) {
            Sample sample = current(timeMs);
            if (sample.isComplete(timeMs, config))
                sample = advance(config, timeMs);
            update(sample, config, value, timeMs);
            sample.eventCount += 1;
        }
    
    1. 获取当前的Sample号,如果没有则创建一个新的Sample, 创建的时候设置 初始化值Sample起始时间(当前时间) ,并保存到样品列表里面
    2. 判断这个Sample是否完成(超过窗口期),判断的逻辑是 当前时间 - 当前Sample的开始时间 >= 配置的时间窗口值 或者 事件总数 >= 配置的事件窗口值
    		/** 当前时间 - 当前Sample的开始时间 >= 配置的时间窗口值 或者  事件总数 >= 配置的事件窗口值 **/
    		public boolean isComplete(long timeMs, MetricConfig config) {
                return timeMs - lastWindowMs >= config.timeWindowMs() || eventCount >= config.eventWindow();
            }
            
    
    1. 如果这个Sample已经完成(超过窗口期), 则开始选择下一个窗口,如果下一个还没创建则创建新的,如果下一个已经存在,则重置这个Sample
    2. 拿到最终要使用的Sample后, 将数据记录到这个Sample中。具体怎么记录是让具体的实现类来实现的,因为想要最终统计的数据可以不一样,比如你只想记录Sample中的最大值,那么更新的时候判断是不是比之前的值大则更新,如果你想统计平均值,那么这里就让单个Sample中所有的值累加(最终会 除以 Sample数量 求平均数的)
    3. 记录事件次数+1。

    记录数据的展示图

    统计数据

        /** 测量  统计 数据**/
        @Override
        public double measure(MetricConfig config, long now) {
            // 重置过期样本
            purgeObsoleteSamples(config, now);
            // 组合所有样本数据,并展示最终统计数据,具体实现类来实现该方法
            return combine(this.samples, config, now);
        }
    
    
    1. 先重置 过期样本 , 过期样本的意思是:当前时间 - 每个样本的起始事件 > 样本数量 * 每个样本的窗口时间 ; 就是滑动窗口的概念,只统计这个滑动窗口的样本数据, 过期的样本数据会被重置(过期数据不采纳), 如下图所示

    滑动窗口重置过期数据

    1. 组合所有样本数据并进行不同维度的统计并返回数值, 因为不同场景想要得到的数据不同,所以这个只是一个抽象方法,需要实现类来实现这个计算逻辑,比如如果是计算平均值 Avg, 它的计算逻辑就是把所有的样本数据值累加并除以累积的次数

    那我们再来看看不同的统计实现类

    Avg 计算平均值

    一个简单的SampledStat实现类 它统计所有样本最终的平均值
    每个样本都会累加每一次的记录值, 最后把所有样本数据叠加 / 总共记录的次数

    在这里插入图片描述

    Max 计算最大值

    每个样本都保存这个样本的最大值, 然后最后再对比所有样本值的最大值

    在这里插入图片描述

    WindowedSum 所有样本窗口总和值

    每个样本累积每一次的记录值, 统计的时候 把所有样本的累计值 再累积返回

    在这里插入图片描述

    Rate 样本记录统计求速率

    Rate 也是实现了 MeasurableStat接口的,说明 它也有 记录record 和 统计 measure 的方法,
    实际上这个类 是一个组合类 ,里面组合了 SampledStatTimeUnit unit ,这不是很明显了么, SampledStat负责记录和统计, 得到的数据 跟时间TimeUnit做一下处理就得出来速率了, 比如SampledStat的实现类AVG可以算出来 被统计的 评价值, 但是如果我们再除以 一个时间维度, 是不是就可以得出 平均速率

    如何计算统计的有效时间呢

    这个有效时间 的计算会影响着最终速率的结果

       public long windowSize(MetricConfig config, long now) {
            // 将过期的样本给重置掉
            stat.purgeObsoleteSamples(config, now);
            // 总共运行的时候 = 当前时间 - 最早的样本的开始时间
            long totalElapsedTimeMs = now - stat.oldest(now).lastWindowMs;
            // 总时间/单个创建时间 = 多少个完整的窗口时间
            int numFullWindows = (int) (totalElapsedTimeMs / config.timeWindowMs());
            int minFullWindows = config.samples() - 1;
            // If the available windows are less than the minimum required, add the difference to the totalElapsedTime
            if (numFullWindows < minFullWindows)
                totalElapsedTimeMs += (minFullWindows - numFullWindows) * config.timeWindowMs();
    
            return totalElapsedTimeMs;
        }
    

    这是Rate的有效时间的计算逻辑,当然Rate 还有一个子类是 SampleRate

    SampleRate的窗口Size计算逻辑

    这个子类,将 有效时间的计算逻辑改的更简单, 如果运行时间<一个样本窗口的时间 则他的运行时间就是单个样本的窗口时间, 否则就直接用这个运行的时间, 这个计算逻辑更简单
    它跟Rate的区别就是, 不考虑采样的时间是否足够多,我们用图来简单描述一下

    SampleRate

    SampleRate 速率逻辑

    Rate

    Rate 速率逻辑

    Meter 包含速率和累积总指标的复合统计数据

    这是一个CompoundStat的实现类, 说明它是一个复合统计, 可以统计很多指标在这里面
    它包含速率指标和累积总指标的复合统计数据

    底层实现的逻辑还是上面讲解过的

    副本Fetch流量的速率统计 案例分析

    我们知道 在分区副本重分配过程中,有一个限流机制,就是指定某个限流值,副本同步过程不能超过这个阈值。
    做限流,那么肯定首先就需要统计 副本同步 的流速;那么上面我们将了这么多,你应该很容易能够想到如果统计了吧?
    流速 bytes/s , 统计一秒钟同步了多少流量, 那么我们可以把样本窗口设置为 1s,然后多设置几个样本窗口求平均值。

    接下来我们看看 Kafka是怎么统计的, 首先找到记录 Follower Fetch 副本流量的地方如下

    ReplicaFetcherThread#processPartitionData

    
    if(quota.isThrottled(topicPartition))
      quota.record(records.sizeInBytes)
    
    

    设置时间窗口配置

    这里设置的
    timeWindowMs 单个样本窗口时间= 1 s
    numQuotaSamples 样本数 = 11
    当然这些都是可以配置的

    查看使用了哪个实现类

    我们可以看到最终是使用了 SampleRate 来统计流量 !

    Gauge 瞬时读数的指标

    上面我们起始是主要讲解了Measurable接口, 它的父类是MetricValueProvider<Double> ,它没有方法,只是定义,当还有一个子接口是 Gauge ,它并不是上面那种采样的形式来统计数据, 它返回的是当前的值, 瞬时值
    它提供的方法是 value()Measurable提供的是measure()

    这个在kafka中使用场景很少,就不详细介绍了。

    好了,这一篇我们主要讲解了一下 Kafka中的数据采集和统计机制

    那么 接下来下一篇,我们来聊聊 Kafka的监控机制, 如何把这些采集

    到的信息给保存起来并对外提供!!!

    展开全文
  • 数据分析常用的100个指标和术语

    万次阅读 多人点赞 2019-09-05 18:31:47
    本文按照以下三类进行汇总。...通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。 2、UV(Uniq...

    本文按照以下三类进行汇总。

    1、互联网常用名词解释

    2、统计学名词解释

    3、数据分析名词解释

    一、互联网常用名词解释

    1、PV(Page View)页面浏览量

    指某段时间内访问网站或某一页面的用户的总数量。通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。

    2、UV(Unique Visitor)独立访客

    指来到网站或页面的用户总数。这个用户是独立的,同一用户不同时段访问网站只算作一个独立访客,不会重复累计,通常以PC端的Cookie数量作为统计依据。

    3、Visit 访问

    指用户通过外部链接来到网站,从用户来到网站到用户在浏览器中关闭页面,这一过程算作一次访问。

    Visit可重复累计,比如我打开一个网站又关闭,再重新打开,这就算作两次访问。

    4、Home Page 主页

    指一个网站起主目录功能的页面,也是网站起点。通常是网站首页。

    5、Landing Page 着陆页

    指用户从外部链接来到网站,直接跳转到的第一个页面。比如朋友给我发了一个介绍爆款T恤的淘宝链接,我点开会直接跳转到淘宝T恤的那个页面,而不是淘宝网众多其他页面之一,这个介绍T恤的页面可以算作是着陆页。

    6、Bounce Rate 跳出率

    指用户通过链接来到网站,在当前页面没有任何交互就离开网站的行为,这就算作此页面增加了一个“跳出”,跳出率一般针对网站的某个页面而言。

    跳出率=在这个页面跳出的用户数/PV

    7、退出率

    一般针对某个页面而言。指用户访问某网站的某个页面之后,从浏览器中将与此网站相关的所有页面全部关闭,就算此页面增加了一个“退出“。

    退出率=在这个页面退出的用户数/PV

    8、Click 点击

    一般针对付费广告而言,指用户点击某个链接、页面、banner的次数,可重复累计。比如我在PC端看到一则新闻链接点进去看了一会就关了,过了一会又点进去看了一遍,这就算我为这篇新闻贡献两次点击。

    9、avr.time 平均停留时长

    指某个页面被用户访问,在页面停留时长的平均值,通常用来衡量一个页面内容的质量。

    avr.time=用户总停留时长 / 访客数量

    10、CTR (Click-Through-Rate)点击率

    指某个广告、Banner、URL被点击的次数和被浏览的总次数的比值。一般用来考核广告投放的引流效果。

    CTR=点击数(click)/被用户看到的次数

    11、Conversion rate 转化率

    指用户完成设定的转化环节的次数和总会话人数的百分比,通常用来评价一个转化环节的好坏,如果转化率较低则急需优化该转化环节。

    转化率=转化会话数/总会话数

    12、漏斗

    通常指产生目标转化前的明确流程,比如在淘宝购物,从点击商品链接到查看详情页,再到查看顾客评价、领取商家优惠券,再到填写地址、付款,每个环节都有可能流失用户,这就要求商家必须做好每一个转化环节,漏斗是评价转化环节优劣的指标。

    13、ROI(Return On Investment )投资回报率

    反映投入和产出的关系,衡量我这个投资值不值得,能给到我多少价值的东西(非单单的利润),这个是站在投资的角度或长远生意上看的。通常用于评估企业对于某项活动的价值,ROI高表示该项目价值高。

    投资回报率(ROI)= 年利润或年均利润/投资总额×100%。

    14、重复购买率

    指消费者在网站中的重复购买次数。

    15、Referrer 引荐流量

    通常指将用户引导至目标页面的URL(超链接)。在百度统计中,引荐流量叫做“外部链接”。

    16、流失分析(Churn Analysis/Attrition Analysis)

    描述哪些顾客可能停止使用公司的产品/业务,以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

    17、顾客细分&用户画像(Customer Segmentation & Profiling)

    根据现有的顾客数据,将特征、行为相似的顾客归类分组。描述和比较各组。

    18、顾客的生命周期价值 (Lifetime Value, LTV)

    顾客在他/她的一生中为一个公司产生的预期折算利润。

    19、购物篮分析(Market Basket Analysis)

    识别在交易中经常同时出现的商品组合或服务组合,例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品,为陈列商品的决策提供依据等。

    20、实时决策(Real Time Decisioning, RTD)

    帮助企业做出实时(近乎无延迟)的最优销售/营销决策。比如,实时决策系统(打分系统)可以通过多种商业规则或模型,在顾客与公司互动的瞬间,对顾客进行评分和排名。

    21、留存/顾客留存(Retention / Customer Retention)

    指建立后能够长期维持的客户关系的百分比。

    22、社交网络分析(Social Network Analysis, SNA)

    描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点,而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法,既是数学的又是视觉的。

    23、生存分析(Survival Analysis)

    估测一名顾客继续使用某业务的时间,或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存,并引入合适的忠诚度政策。

     

    二、统计学名词解释

    1、绝对数和相对数

    绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。

    相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式:

    相对数=比较值(比数)/基础值(基数)

    2、百分比和百分点

    百分比:是相对数中的一种,他表示一个数是另一个数的百分之几,也成为百分率或百分数。百分比的分母是100,也就是用1%作为度量单位,因此便于比较。

    百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度,1%等于1个百分点。

    3、频数和频率

    频数:一个数据在整体中出现的次数。

    频率:某一事件发生的次数与总的事件数之比。频率通常用比例或百分数表示。

    4、比例与比率

    比例:是指在总体中各数据占总体的比重,通常反映总体的构成和比例,即部分与整体之间的关系。

    比率:是样本(或总体)中各不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。

    5、倍数和番数

    倍数:用一个数据除以另一个数据获得,倍数一般用来表示上升、增长幅度,一般不表示减少幅度。

    番数:指原来数量的2的n次方。

    6、同比和环比

    同比:指的是与历史同时期的数据相比较而获得的比值,反应事物发展的相对性。

    环比:指与上一个统计时期的值进行对比获得的值,主要反映事物的逐期发展的情况。

    7、变量

    变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。

    8、连续变量

    在统计学中,变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如:年龄、体重等变量。

    9、离散变量

    离散变量的各变量值之间都是以整数断开的,如人数、工厂数、机器台数等,都只能按整数计算。离散变量的数值只能用计数的方法取得。

    10、定性变量

    又名分类变量,观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。可以理解成可以分类别的变量,如学历、性别、婚否等。

    11、均值

    即平均值,平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。

    12、中位数

    对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

    13、缺失值

    它指的是现有数据集中某个或某些属性的值是不完全的。

    14、缺失率

    某属性的缺失率=数据集中某属性的缺失值个数/数据集总行数。

    15、异常值

    指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。

    16、方差

    是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

    17、标准差

    中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

    18、相关系数

    相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔森相关系数。

    19、皮尔森相关系数

    皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

    20、特征值

    特征值是线性代数中的一个重要概念。在数学、物理学、化学、计算机等领域有着广泛的应用。设A是向量空间的一个线性变换,如果空间中某一非零向量通过A变换后所得到的向量和X仅差一个常数因子,即AX=kX,则称k为A的特征值,X称为A的属于特征值k的特征向量或特征矢量。

     

     

    三、数据分析名词解释

    A

    聚合(Aggregation):搜索、合并、显示数据的过程。

    算法(Algorithms):可以完成某种数据分析的数学公式。

    分析法(Analytics):用于发现数据的内在涵义。

    异常检测(Anomaly detection):在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息。

    匿名化(Anonymization):使数据匿名,即移除所有与个人隐私相关的数据。

    分析型客户关系管理(Analytical CRM/aCRM):用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。

     

    B

    行为分析法(Behavioural Analytics):这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式。

    批量处理(Batch processing):尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。

    商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

     

    C

     

    分类分析(Classification analysis):从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。

    云计算(Cloud computing):构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。

    集群计算(Cluster computing):这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。

    聚类分析(Clustering analysis):它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

    冷数据存储(Cold data storage):在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

    对比分析(Comparative analysis):在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。

    相关性分析(Correlation analysis):是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。

     

    D

     

    仪表板(Dashboard):使用算法分析数据,并将结果用图表方式显示于仪表板中。

    数据聚合工具(Data aggregation tools):将分散于众多数据源的数据转化成一个全新数据源的过程。

    数据分析师(Data analyst):从事数据分析、建模、清理、处理的专业人员。

    数据库(Database):一个以某种特定的技术来存储数据集合的仓库。

    数据湖(Data lake):数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。

    暗数据(Dark Data):基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?

    数据挖掘(Data mining):数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。

    数据中心(Data centre):一个实体地点,放置了用来存储数据的服务器。

    数据清洗(Data cleansing):对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

    数据质量(Data Quality):有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程,并能满足在运营、决策、规划中的预期用途。

    数据订阅(Data feed):一种数据流,例如Twitter订阅和RSS。

    数据集市(Data Mart):进行数据集买卖的在线交易场所。

    数据建模(Data modelling):使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

    数据集(Data set):大量数据的集合。

    数据虚拟化(Data virtualization):数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

    判别分析(Discriminant analysis):将数据分类,按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

    分布式文件系统(Distributed File System):提供简化的,高可用的方式来存储、分析、处理数据的系统。

    文件存贮数据库(Document Store Databases):又称为文档数据库,为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。

     

    E

     

    探索性分析(Exploratory analysis):在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

    提取-转换-加载(ETL:Extract,Transform and Load):是一种用于数据库或者数据仓库的处理过程,天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。

     

    G

     

    游戏化(Gamification):在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。

    图形数据库(Graph Databases):运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。

    网格计算(Grid computing):将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

     

    H

     

    Hadoop:一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。

    Hadoop数据库(HBase):一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。

    HDFS:Hadoop分布式文件系统(Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

    高性能计算(HPC:High-Performance-Computing):使用超级计算机来解决极其复杂的计算问题。

     

    I

     

    内存数据库(IMDB:In-memory):一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。

    物联网(IoT):最新的流行语是物联网(IOT)。IOT通过互联网将嵌入式对象(传感器,可穿戴设备,汽车,冰箱等)中的计算设备进行互连,并且能够发送以及接收数据。IOT生成大量数据,提供了大量大数据分析的机会。

     

    K

     

    键值数据库(Key-Value Databases):数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

     

    L

     

    负载均衡(Load balancing):将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。

    位置信息(Location data):GPS信息,即地理位置信息。

    日志文件(Log file):由计算机系统自动生成的文件,记录系统的运行过程。

     

    M

     

    M2M数据(Machine 2 Machine data):两台或多台机器间交流与传输的内容。

    机器数据(Machine data):由传感器或算法在机器上产生的数据。

    机器学习(Machine learning):人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。

    Map Reduce:是处理大规模数据的一种软件框架(Map:映射,Reduce:归纳)。

    大规模并行处理(MPP:Massivel yParallel Processing):同时使用多个处理器(或多台计算机)处理同一个计算任务。

    元数据(Meta data):被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。

    多维数据库(Multi-Dimensional Databases):用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。

    多值数据库(MultiValue Databases):是一种非关系型数据库(NoSQL),一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

     

    N

     

    自然语言处理(Natural Language Processing):是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。

    网络分析(Network analysis):分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。

    NewSQL:一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库。

    NoSQL:顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

     

    O

     

    对象数据库(Object Databases):(也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象。

    基于对象图像分析(Object-based Image Analysis):数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。

    操作型数据库(Operational Databases):这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问、收集、检索公司内部的具体信息。

    优化分析(Optimization analysis):在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。

    本体论(Ontology):表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注:数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)

    异常值检测(Outlier detection):异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

    联机分析处理(On-Line Analytical Processing,OLAP):能让用户轻松制作、浏览报告的工具,这些报告总结相关数据,并从多角度分析。

     

    P

     

    模式识别(Pattern Recognition):通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测

    平台即服务(PaaS:Platform-as-a-Service):为云计算解决方案提供所有必需的基础平台的一种服务。

    预测分析(Predictive analysis):大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇。

    公共数据(Public data):由公共基金创建的公共信息或公共数据集。

     

    Q

     

    数字化自我(Quantified Self):使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为。

     

    R

     

    R:是一种编程语言,在统计计算方面很出色。如果你不知道 R,你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。

    再识别(Re-identification):将多个数据集合并在一起,从匿名化的数据中识别出个人信息。

    回归分析(Regression analysis):确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)。

    实时数据(Real-time data):指在几毫秒内被创建、处理、存储、分析并显示的数据。

    推荐引擎(Recommendation engine):推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。

    路径分析(Routing analysis):–针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的。

     

    S

     

    半结构化数据(Semi-structured data):半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构。

    结构化数据(Structured data):可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    情感分析(Sentiment Analysis):通过算法分析出人们是如何看待某些话题。

    信号分析(Signal analysis):指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

    相似性搜索(Similarity searches):在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据。

    仿真分析(Simulation analysis):仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优。

    软件即服务(SaaS:Software-as-a-Service):基于Web的通过浏览器使用的一种应用软件。

    空间分析(Spatial analysis):空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律。

    SQL:在关系型数据库中,用于检索数据的一种编程语言。

    流处理(Stream processing):流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析,即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。

     

    T

     

    时序分析(Time series analysis):分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。

    拓扑数据分析(Topological Data Analysis):拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。

    交易数据(Transactional data):随时间变化的动态数据

    透明性(Transparency):–消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

    文本挖掘(Text Mining):对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。

     

    U

     

    非结构化数据(Un-structured data):非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

     

    V

     

    价值(Value):(译者注:大数据4V特点之一)所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

    可变性(Variability):也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。

    多样(Variety):(译者注:大数据4V特点之一)数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据

    高速(Velocity):(译者注:大数据4V特点之一)在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。

    真实性(Veracity):组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。

    可视化(Visualization):只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。

    大量(Volume):(译者注:大数据4V特点之一)指数据量,范围从Megabytes至Brontobytes。

     

    W

     

    天气数据(Weather data):是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据。

    网络挖掘/网络数据挖掘(Web Mining / Web Data Mining):使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

     

    X

     

    XML数据库(XML Databases):XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化。

    展开全文
  • 数据仓库之指标体系建设分享

    千次阅读 2020-08-28 00:10:35
    1 指标体系 2 为什么要搭建指标体系 3 如何搭建指标体系 4怎么管理指标体系 5 如何产品化指标体系 6 结束 7 参考文献
  • 小进阶:数据指标体系和数据治理的管理关于作者:小姬,某知名互联网公司产品专家,对数据采集、生产、加工有所了解,期望多和大家交流数据知识,以数据作为提出好问题的基础,发掘商...
  • 数据分析实战】北京租房数据统计分析

    千次阅读 热门讨论 2021-07-09 09:45:58
    北京租房数据统计分析前言数据基本介绍数据读取数据预处理重复值和空值处理数据转换类型面积数据类型转换户型表达方式替换图表分析房源数量、位置分布分析户型数量分析平均租金分析面积区间分析 前言 近年来随着经济...
  • 机场生产运行数据统计指标-第四篇-机场运行保障类
  • 背景 消息报表主要用于统计消息任务的下发情况。比如,单条推送消息下发APP用户总量有多少,...个推在提供消息推送服务时,为了更好地了解每天的推送情况,会从不同的维度进行数据统计,生成消息报表。个推每天下...
  • 基于指标汇总层、集市层、可以提供面向业务人员的即席数据查询、以及面向应用开发者的数据接口、应用访问接口,满足不同类型应用的需要。 1、汇总指标层模型设计原则及步骤 1.1建设目标: 汇总指标层也叫中间层...
  • 玩转BI数据分析中的指标计算

    千次阅读 2021-12-02 18:08:38
    大数据的时代,数据量日益膨胀,业务人员的分析需求不断增加,在众多数量和度量指标中提取有核心价值的信息,用来驱动企业的运营和决策,显得尤为重要。 目前嵌入式BI已经具备了一定的计算能力,包括在创建数据集的...
  • 游戏常用数据分析指标汇总

    万次阅读 多人点赞 2019-10-22 21:31:25
    乐元素移动游戏运营数据分析指标汇总 一、用户获取 1、mobile用户获取流程 点击-下载-安装-激活-注册-DNU 点击:点击广告页或者点击广告链接数 下载:点击后成功下载用户数 安装:下载程序并成功安装用户数 ...
  • 数据分析】数据指标

    千次阅读 2018-10-30 18:12:36
    目录 什么是好的数据指标? 找出正确的数据指标的五点方法 1、定性指标与量化指标 2、虚荣指标与可付诸行动的指标 ...数据科学家的思维方式(模式),10条创业者需要避免的数据圈套: 数据分析框...
  • 手把手教你建立数据指标体系

    千次阅读 2020-09-30 16:17:40
    数据分析工作中,咱们对于数据指标一定不陌生,而几乎所有数据分析工作都会提“建立数据指标体系”。但是同学们或许有一些现实的困惑:你说报表我就见过,我天天都在更新。... 01为啥需要数据指标 ...
  • 网站数据分析指标体系

    千次阅读 2017-08-27 12:26:17
    【编者注】网站流量统计,是指对网站访问的相关指标进行统计。本文整理自网友分享的一份 Word 文档,主要介绍了网站分析的 KPI 指标数据分析方法、网站分析工具介绍和对比等。 一、总论 1. 概念  网站...
  • 流式数据中的数学统计量计算

    千次阅读 2017-07-03 22:38:04
    为了充分利用这些数据,我们需要数据进行分析。在数据分析领域,很重要的一块内容是流式数据分析。流式数据,也即数据是实时到达的,无法一次性获得所有数据。通常情况下我们需要对其进行分批处理或者以滑动窗口的...
  • 阿里数据银行中的常见指标定义

    千次阅读 2019-11-01 11:31:46
    数据银行使用的比较多,其中很多的指标概念不是很了解,这里记录下,备忘 AIPL定义 A 认知 Aware 认知: 消费者相对被动与品牌接触。包括:曝光&点击: 15天内,被阿里妈妈广告曝光过或点击过阿里妈妈广告;或被...
  • 滴滴数据仓库指标体系建设实践

    千次阅读 2020-08-27 21:34:39
    桔妹导读:指标体系是什么?如何使用OSM模型和AARRR模型搭建指标体系?如何统一流程、规范化、工具化管理指标体系?本文会对建设的方法论结合滴滴数据指标体系建设实践进行解答分析。1.什...
  • 统计分析之为什么需要统计

    千次阅读 2018-07-22 08:44:01
    那么,为什么需要统计统计 看过三国演义应该知道,诸葛亮排兵布阵时经常这样说:关羽听令!给你三千精兵,从左路包抄曹军;张飞听令,给你五千精兵,从右路包抄曹军……由此可知,诸葛亮打仗,必...
  • 数据指标 | 网站数据分析体系

    千次阅读 2017-03-15 18:23:30
    网站访问分析(有时也使用“网站流量分析”、“网站流量统计分析”、“网站访问统计分析”等相近的概念),是指在获得网站流量统计基本数据的前提下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将...
  • Flink 统计页面点击量

    万次阅读 2022-04-04 12:24:30
    Flink 统计页面点击量
  • 现代数据环境下,如何做数据集成?这11个靠谱实践收藏了
  • Gauge 瞬时读数的指标 上面我们起始是主要讲解了Measurable接口, 它的父类是MetricValueProvider ,它没有方法,只是定义,当还有一个子接口是 Gauge ,它并不是上面那种采样的形式来统计数据, 它返回的是当前的值,...
  • 超详细的APP数据指标体系分析

    万次阅读 多人点赞 2019-07-16 23:20:38
    在移动互联网公司,任何一个APP都应该事先规划好数据体系,才允许上线运营,有了数据才可以更科学、更省力地运营。今天我们来说说如何做APP的数据分析。 一、为什么要做APP数据分析 1.搭建数据运营分析框架 一个APP...
  • 数据统计埋点工作框架及细节规范

    千次阅读 2019-08-09 21:56:15
    首先,最基础的是要熟悉数据工具平台与产品业务,其次,要学会逐步建立产品完整的数据指标体系,最后,是能够通过数据分析解读驱动业务发展。 具体拆解来看,主要包含: (1)数据层面 源数据层:数据源的采集、...
  • 数据指标体系搭建实践

    千次阅读 2020-03-25 11:55:00
    为什么要构建数据指标体系?因为我们希望时间能花在解决问题而不是寻找问题上。前言我们所需要的并不是数据,而是数据背后映射的洞察。在业务发展过程中,会产生大...
  • 数据分析-如何搭建业务指标体系

    千次阅读 2019-04-14 21:23:24
    没有指标对业务进行系统衡量,我们就无法把控业务发展,无法对业务质量进行衡量,尤其现在很多企业多项业务并行,单一数据指标衡量很可能片面化。因此,搭建系统的指标体系,才能全面衡量业务发展情况,促进业务有序...
  • python数据统计分析

    万次阅读 多人点赞 2019-02-17 09:08:25
      scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。  scipy的stats包含一些比较基本的工具...
  • 图像检测常用评价指标数据

    千次阅读 2020-07-17 16:53:21
    评价指标 1.准确率(Accuracy) 检测时分对的样本数除以所有的样本数。准确率一般被用来评估检测模型的全局准确程度,包含的信息有限,不能完全评价一个模型性能。 2.混淆矩阵(Confusion Matrix) 混淆矩阵是以模型预测...
  • 对话系统中大都使用机器翻译、摘要生成领域提出来的评价指标,但是很明显对话系统的场景和需求与他们是存在差别的,这也是当前模型效果不是很好的原因之一。从对话系统不同的层次角度来评价对话系统的效果时,每个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 87,422
精华内容 34,968
关键字:

当前使用的指标需要统计数据