精华内容
下载资源
问答
  • 土壤温度数据异常分析,主要分析土壤温度传感器异常的数据分析
  • 晋中部分地区水准路线数据异常分析,张占阳,,为分析晋中部分地区的水准路线是否存在数据异常,本文基于区域中4条国家一等水准路线的测量控制点,通过水准路线测段高差计算了�
  • 走过路过不要错过点击蓝字关注我们数据异常分析作为数据分析日常工作中“再正常不过”的常规工作内容,经常出现在需求方的沟通消息中,"Hello,某某数据很异常啊,能查下原因么?”虽然...

    走过路过不要错过

    点击蓝字关注我们

    数据异常分析作为数据分析日常工作中“再正常不过”的常规工作内容,经常出现在需求方的沟通消息中,"Hello,某某数据很异常啊,能查下原因么?”

    虽然近乎一半的“数据异常”最后检查下来,都是口径不一致等的理解问题,但即便砍掉这部分需求,剩下的需求工作量也是不少的。

    本着“重复性需求”要想办法自动化解决或者沉淀出方法论(固定套路)让“小弟”去解决的“方针”,(咳咳,弟弟,我这不是害你呀,我这是爱你呀),我寻思着写写异动分析的方法论。

    具体步骤如下,enjoy.

    Step 0. 明确需求是不是真的是异动分析需求

    这一步准确来讲,其实不是异动分析的步骤,而是承接需求的工作习惯;所以本步骤记为 Step 0 吧。

    像上边说的那样,在真正的工作中,异动分析类的需求有不少都是理解偏差的伪需求,所以在接到需求时,不要着急马上就去拆解思路查问题;而是应当询问清楚需求方,Ta的数据异常结论是怎么得出来的,看了哪些数据。

    然后自己按照需求方发现问题的过程,检查一遍数据,排查是否是如下原因引起的伪需求:

    (1) 数据口径不一致等理解差异;

    (2) 数据源更新延迟等数仓侧原因;

    (3) 数据未上报/未采集等开发侧原因;

    Step 1.定位呈现问题的最小单元

    先解释下什么叫最小单元。最小单元就是对有这样问题表现的群体(即集合)进行不同维度(特征)的划分,直到找到某个集合,该集合中的群体都有这样的问题表现。

    举个例子,假设我们发现,某电商交易平台月活客户数持续下降。

    在问题提出时,我们得到的群体是“平台特定周期内所有活跃客户”,但是具体去看的时候,发生活跃度降低的用户群可能仅仅是某些渠道来的新客,也可能是具有某些群标签的老客,也可能是某些地区的用户(无新老客的差异),而我们要做的,就是对“平台特定周期内的活跃客户”进行一级*二级*三级等粒度维度的划分,具体去看呈现出异常表现的是具有哪些特征的人群

    图1. 拆分所有维度/特征

    在这一步,用到的仅仅是人群维度的结构化拆解,注意维度列举时应遵循MECE原则,即:相互独立,完全穷尽

    Step 2. 基于最小单元,梳理相关因素,进行猜想验证

    假设在第一步,我们定位到问题呈现现的最小单元是:某些投放渠道来的新客、某些城市的新客和某些城市的老客;

    图2. 验证相关维度/特征

    基于第一步的“最小单元”,梳理出每个单元涉及的相关方和相关因素。

    其中相关因素就涉及需求方的工作了,所以记得平时多和需求方沟通学习,了解合作方的工作内容。数据分析师能力模型中,所谓的“懂业务”,一部分就是可以通过这种多沟通的方式得到提升,特别是当你遇到一个很专业很能打的合作方。

    图3. 相关因素穷举

    针对梳理出来的因素,我们可以提出猜想并进行验证(以排除无关因素):

    1、【渠道】是不是渠道本身质量有问题?

    2、【渠道】是不是投放渠道配置的素材有问题,以致吸引的客群质量不佳?

    3、【渠道】是不是投放选的人群标签不对?

    4、【地区】是不是有竞对在分走客户?

    5、【地区】是不是区域的运营策略做了调整且调整后效果没有之前好?

    6、【地区】是不是区域最近有什么大事件,影响用户消费?

    ......

    列出各种猜想后,通过搜集相关资料和数据,来排除肯定错误的猜想,保留有证据支持的猜想。

     

    图4. 验证有效因素

    Step 3. 测算每个因素对结果的“贡献度”

    在第二步的基础上,排除掉确定无关的因素,且有证据表明剩余因素相关,若相因素唯一,则原因定位到了,反馈给合作方,后续持续跟进问题解决即可;

    若相关因素不唯一,则需要通过对比分析等方法,测算出各个因素对结果的影响程度,和需求方一起讨论解决方案以及各个子方案的优先级。

    番外.碰到实在分析不出原因的数据异常怎么办?

    上述的方法一定程度上可以解决大多数异动分析问题,但是还是会遇见一些无法通过数据分析定位到异常原因的数据异常,这个时候就得上用户调研了。

    高手在民间,用户的行为,只有你想不到,没有他们做不到的。实在分析不出来,就去回访用户爸爸吧。

    热门文章

    直戳泪点!数据从业者权威嘲讽指南!

    数据分析师做成了提数工程师,该如何破局?

    全栈型VS专精型,团队到底需要什么样的人?

    数据驱动业务,比技术更重要的是思维的转变

    最近面了十多个数据分析师,聊一聊我发现的一些问题

    【您的在看,我的莫大鼓励】

    展开全文
  • 如何做好数据异常分析对于用户端产品经理来说,监控处理日常的用户端数据是必不可少的工作之一,转化数据、用户数据、交易数据等等,都应该是列入日常监控的数据指标。一般来说,这些数据都有固定的波动周期,每个周期内...

    推荐公众号 朝阳35处  看完后觉得讲的太好了!!

    如何做好数据异常分析

    对于用户端产品经理来说,监控处理日常的用户端数据是必不可少的工作之一,转化数据、用户数据、交易数据等等,都应该是列入日常监控的数据指标。一般来说,这些数据都有固定的波动周期,每个周期内的数据变化应该是趋于稳定的,如果某天某周某月的数据不再符合预期的稳定变化,也就是我们所说的数据异常。这种情况下,我们需要去深挖数据异常产生的原因。虽然这种分析有点时候诸葛亮的意味,而且分析的过程往往无趣且极其耗费时间,对于那些认为产品经理的工作理应充满挑战和创新的人来说,这项工作简直是最让人厌恶的了。

    但是数据异常的分析仍然是必要的,首先,对于产品的各种数据知其所以然,这是对产品经理的基本要求;其次通过数据异常分析往往能够发掘未知的机会或风险,尤其难得的是这些机会和风险往往是我们平时忽略的(要不然我们也不会认为是“异常”),这对产品的持续优化具有重要意义。(虽然我明白其中的道理,不过说实话数据异常分析仍然是我最讨厌的工作,没有之一%>_<%)

    那么如何才能做好数据异常分析呢?(或者换个说法:如何完成我们必须要做的烦人分析工作?)首先,当然是要求我们能识别和确认数据异常,其次就是细致的分析过程,如果想要很好的完成这个过程,我认为可以用八个字概括:大胆设想,小心求证。

     

    识别和确认异常

     

     

    既然是数据异常分析,那么我们必须能察觉到这些异常,然后还要确认数据异常是真的存在,否则只会在错误的道路上越走越远。察觉数据异常最难也最简单,最难是因为察觉的过程往往依靠丰富的经验和对产品和业务的充分了解,我们称之为产品经理的数据敏感。最简单是因为我们一旦有了这种敏感性,只要借助基本的数据报表,就能够风吹草动无微不察。数据敏感不是一个“硬”技能,也很难说有具体的操作步骤去提高数据敏感性,这种敏感一部分真的要靠天赋,有些人可能逻辑性强,通过数据本身的相对关系就能够发现异常的存在,比如DAU和转化率都有提升而交易额呈下降趋势(这个异常相对明显,原谅我一时举不出需要更严密逻辑分析的例子)。另一部分,它需要产品经理对产品和业务有足够的了解,这个是可以通过平时多加关注各种产品数据来逐渐加强的,比如养成仔细阅读产品数据报告的习惯,然后对一些无法理解的数据进行详细分析,经过长期的主动训练,是一定可以提高数据敏感度的,这也是为什么Leader们(有经验的产品经理)更容易发现异常的原因。

    如果你已经具备了察觉或明显或隐蔽的数据异常的能力,你或许有发现宝藏的兴奋,迫不及待的想要去搞清楚所以然。但是我建议你在行动前最好确认一下这个异常是真的存在,简单的说,就是确认下数据有没有问题。这种事情很常见:我们经常会遇到数据服务、数据上报、数据统计上的BUG,然后数据报表中的数据就变得难以理解。所以,找数据报表的产品和技术同事确认一下是不是真的异常吧。

     

     

    数据异常分析



    如果数据异常经确认确实存在,那么你就要去找原因了。这个找原因的过程总结起来就是前面所说的“大胆设想,小心求证”,大胆设想就是对异常产生的原因做出合理的猜测,因为异常之所以为异常,是因为我们之前的忽视,所以在猜测的过程中需要脑洞大开,联系所有你能够想到的所有可能,回顾所有产品相关的信息,然后猜测一个可能造成数据异常的原因。小心求证是说在做出猜测之后,我们需要对自己的猜测负责,找到能够支持(或者否定)这种猜测的数据。

     


    大胆设想



     

    那么,我们如何才能做到脑洞大开大胆设想呢?对新手产品经理(好吧,数据异常分析好像大多由新手来分析处理)来说,你可能会觉得两眼一抹黑不知如何下手,下面有一个简单的表格,可供参考。


     

    * 如果你看到这个表格已经知道我要说些什么,那后面的内容你可以不用看了。

    对于大部分已经产生的数据异常,大概可以从两个维度来分类(个人经验总结,可能不同产品有不同的分类方式,但是我坚持推荐这种通过分类来确定分析方向的方式):

     


    第一个是范围维度,包括自己的产品、竞对方面以及产品业务的大环境,这样分类的原因是因为相互竞争的产品都处于大的产品业务环境之中,任何一方的变动都会造成自家产品的数据变化;

    第二个是内容维度,包括产品、技术、用户和运营,这几个维度基本囊括了互联网产品的重要构成,往往数据异常逃不过这几个方面。反过来说,如果我们发现了数据异常并且要给出一个合理的数据异常原因猜测,那么不妨联系实际选择表格中的某一格。



     

    我将已经遇到过的情况和一些觉得可能以后会遇到的情况填充到这个表格中,通过这些例子对这种分析(猜测)方法做出解释


     

    产品层面,A1和B1两种情况是指当自身的产品或者竞对的产品因为功能变更造成的数据变化,比如自己产品因为增加了高价排序功能造成客单价升高,而竞对将某些品类商品入口提前而造成自己App上这类商品的交易额降低;C1指大环境发生了变化,而造成自己的产品数据变化,比如我们可以猜想当微博兴起时,人人网的产品经理会发现DAU持续下降。

    因为大多数产品经理并非技术出身,所以技术上的问题往往是产品经理在分析数据时忽视的内容。比如A2,当我们的列表展示接口不够稳定时,会造成列表页点击率降低,进而交易额等等都接连降低。比如B2,当2015.5.28,携程因为系统故障而无法访问时,其他OTA网站的交易量可预见是提升的。C2情况相对少见,比如2014.1.21,国内所有通用顶级域的根服务器出现异常,而当日国内大部分网站的数据毫无疑问应该是异常的。

    用户层面,当用户整体特征逐渐变化时,产品数据也会逐渐变化。对于A3和B3情况,我们假设有一类产品,最初培养的一群用户是学生,消费能力有限。如果这个产品黏性够强,当这批学生逐渐步入社会,客单价可能会持续增长。C3情况,每年到11月,各OTA网站的DAU和交易额整体就会降低,而三亚地区的交易额逆势上升,这就是大环境下旅游淡旺季的原因造成的。

    对于需要支付的产品来说,所有运营活动都能影响市场的大小以及市场份额的分布,比如滴滴和快的在培育市场阶段,任何一方的大额促销都会提升自己的市场份额并侵占竞对的市场份额(A4和B4),而当滴滴快滴合并之后红包额度的减少,必然会造成App叫车用户数量的降低(C4)。

     


    小心求证


     

     

    前面讲了大胆设想的方法,如果只是停留个这个层面,那这个分析是没有说服力的,下面还有一个重要的步骤是小心求证。小心求证是找到直接或间接的证据来证明你的猜想。对于大环境维度的数据异常原因猜测,一般可以获取一些能够反映大市场的数据来证明,比如OTA网站DAU在某月降低幅度很大,我们猜测是因为旅游淡季开始,这时候可以去百度指数看看“酒店”或“酒店预订”搜索热度的变化,或者查查往年此时的旅游消费数据,就可以验证我们的猜测是否准确。

    而对于自身产品和竞对产品维度的求证,不二法宝就是细分,下面介绍一些常见的细分维度及其案例。

    分步:假设某产品的转化率数据出现降低的情况,而这个转化率是多步漏斗转化的最终转化,我们可以细分每一步的转化情况,查清是否因为某一步出了问题。比如微信支付服务器的故障会造成下单到支付的转化降低从而造成转化率降低,列表加载速度增加造成列表到详情转化率降低影响整体转化等等。

    分平台/版本:假设某产品列表页到详情页的转化提升,我们猜测是iOS新版本中优化列表布局方式,我们需要分iOS和Android以及分iOS新版老版对比这个转化数据来证明我们的猜测。

    分区域/城市:假设某年8月31日某OTA的交易额呈现大幅增长,我们猜测是因为大学生开学造成酒店需求增加,这时我们可以选取部分高校较多的城市如北京、武汉、西安等城市的数据来对比其他城市来侧面验证我们的猜测。

    分时间:假设某日某产品转化率数据下降,我们猜测是10:00-11:00支付服务器故障造成的,那我们只需要分时间段和上一个波动周期同期的数据对比,如果当日这个时间段转化率确实下降很大,就可以证明我们的猜想。

    分用户群体:假设某App新版上线之后新版转化率低于旧版,经过用户分析发现新版新用户比例较大,我们猜测新用户转化率会比老用户转化率低,这个时候我们只需要看一下新老客户的转化率区别就能知道我们是否蒙对了。

    分场景(本/异地):假设某App在某假期内转化率降低,已知异地用户转化率低于本地用户转化率,猜测假期转化率降低是因为异地用户较活跃造成的,这个时候,我们只要需要去看看本异地用户占比的变化就可以验证猜测了。

    分Item:假设某OTA转化率在某段时间内明显提升,而这个时间段恰好是竞对较少补贴促销活动的时间,我们猜测是竞对促销活动终止对产品转化率造成了正面影响,如果我们查看数据证实那些被竞对取消促销的Item转化率提升明显,那说明我们的猜测是对的。

    关于如何做细分分析,这里没有办法穷举,可以细分分析的维度实在太多了,但是我们需要记住这种分析方式,当猜测是某种原因造成数据异常时,只要找到该原因所代表的细分对立面做对比,就可以证明或证伪我们的猜测。当然,在分析的过程中,我们需要了解一些基本的统计学知识,这个将会在下周的推送中详细介绍,敬请期待。


     

    小结



    当发现数据异常时或者接到数据异常分析任务时,我们可以联系产品相关的信息,在范围维度(自身、竞对、大环境)和内容维度(产品、技术、用户、运营)结合给出合理的猜测,然后通过查看一些大环境变化数据或者细分的产品数据来验证我们的猜测。遵照这个流程,一般能够找到数据异常的深层原因,当然,着需要花费大量的时间和足够的耐心,但它能够让我们更深更全面的了解自己负责的产品的相关信息,并为未来的产品决策提供指导。对我们自己,这也能加强数据敏感度,让我们能够发现更多机会和问题,形成一个良性循环,成为一个能玩转数据的产品经理。

     

    本文转自APP运营之家


    展开全文
  • 某超市本月付费用户较上月下降了 10%,老板非常担心,希望数据分析团队能够针对该问题进行深入分析,定位到问题所在,如果你是该团队中的一员,接下来...结合时间周期以及上下游指标进行交叉分析,综合来看数据异常的原

    某超市本月付费用户较上月下降了 10%,老板非常担心,希望数据分析团队能够针对该问题进行深入分析,定位到问题所在,如果你是该团队中的一员,接下来你该如何进行分析,请把分析思路及拆解指标进行详细描述和展示。

    • 首先,排查数据准确性,确认是否是因为数据错误导致,对容易出现错误的数据进行排查,确认是否取数错误、指标口径不一致等,若没有问题初步可以确认属于数据异常;
    • 拉长时间周期,进行纵向分析,判断是否属于周期性或季节性波动,确认是否受季节或淡旺季影响;
    • 结合时间周期以及上下游指标进行交叉分析,综合来看数据异常的原因。
      在这里插入图片描述
    展开全文
  • Solr4.3数据异常分析

    千次阅读 2014-09-17 15:35:49
    solr4.3本地数据提交异常分析 给出几种缺少包导致的异常及相关解决 异常一: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/NoHttpResponseException Caused by: java.lang....

    Solr在使用的过程中会出现比较多的问题,这里参考solr4.3本地数据提交异常分析给出几种缺少包导致的异常及相关解决

    异常一:

    Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/NoHttpResponseException
    Caused by: java.lang.ClassNotFoundException: org.apache.http.NoHttpResponseException

    这个异常在整个项目中没有错误提示,在运行时报错,导致这个异常的原因是项目工程中缺少 httpcore-4.X.X.jar 包,具体jar版本由自己决定,建议使用最新的jar包。将此jar包导入项目中,再次运行问题解决,若报告该jar包,依然报错,请检查包放置的路径是否正确。

    异常二:

    Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/client/methods/HttpRequestBase
    Caused by: java.lang.ClassNotFoundException: org.apache.http.client.methods.HttpRequestBase

    异常二中的报错现象,同一类似,也是因为缺少jar包造成的,将 httpclient-4.X.X.jar包导入到项目中即可。

    异常三:

    Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/entity/mime/content/ContentBody
    Caused by: java.lang.ClassNotFoundException: org.apache.http.entity.mime.content.ContentBody

    这个异常是我本人在项目中忘记导入httpmime-4.X.X.jar包导致的,导入这个包即可解决问题

    异常四:

    Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory
    Caused by: java.lang.ClassNotFoundException: org.slf4j.LoggerFactory

    缺少slf4j-api-1.6.6.jar包

    异常五:

    SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
    SLF4J: Defaulting to no-operation (NOP) logger implementation
    SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
    Exception in thread "main" org.apache.solr.client.solrj.beans.BindingException: class: class com.ered.entry.Item does not define any fields.

    针对异常四中的jar包,一般都会伴随 slf4j-log4j12-1.6.6.jar 包共同使用,此处异常就是因为缺少slf4j-log4j12-1.6.6.jar 包造成,将jar包导入工程中问题解决。

    提供一个下载相关jar包的连接,solr相关jar包,这个是我项目中使用的相关jar包,需要的可以拿去。

    展开全文
  • 异常订单分析 商务数据分析 01 CONTENTS 02 异常订单分析 订单取消原因分析 退换货订单原因分析 订单取消原因分析 对订单取消的原因进行分析可以知道潜在的客户是因为什么原因与你失之交臂左图是某网店订单取消的...
  • 来源:python数据分析和机器学习对于一枚数据分析师而言,监控日常指标数据是必不可少的工作之一,数据异常分析是数据分析工作中最常见且重要的分析主题。一般来说,这些数据都有固定的波动周期...
  • 对于异常数据分析,相信每位数据分析师都不陌生,对于业务部门来说同样很希望了解数据分析的思路。去年同期也写过类似的一篇异常数据分析文章,过了一年后有了更进一步的思路和想法,因此再次分享一下,对于数据...
  • 要处理数据异常,我们要先知道什么是数据异常。首先要有数据,才能知道什么是“异常”,百度百科的解释是:指非正常的,不同于平常的。比方如突然的涨,突如其来的跌。数据涨跌是我们在日常工作中,最容易被发现的...
  • Python数据分析与机器学习-交易数据异常检测; Python数据分析与机器学习-交易数据异常检测
  • 数据异常分析原因分析: 1. 数据有问题 • 将时间轴拉长,看数据是近期异常还是历史异常,对比近三个月数据。 • 查看和该指标关联的其他核心指标是否也异常,如果异常,也要一并查看。 • 核查埋点是否有问题, ...
  • 数据分析异常分析

    千次阅读 2018-09-02 08:08:19
    异常分析又分连续异常值,离散异常值,和知识异常值。 一.连续异常值  Q3,Q2,Q1分别为上四分位数,中位数和下四分位数 如图上下界之间的为正常值,那么上下界以外的就是异常值了,由此可见,异常值的测定...
  • 要处理数据异常,我们要先知道什么是数据异常。首先要有数据,才能知道什么是“异常”,百度百科的解释是:指非正常的,不同于平常的。比方如突然的涨,突如其来的跌。 数据涨跌是我们在日常工作中,最容易被发现的...
  • 用电信息采集系统每天都需要采集大量的数据,采集系统通过...本文介绍了用户用电信息采集系统的概念和存在的问题即数据处理问题,通过对电能计量装置的异常分析数据的异常,对电能计量数据异常的特征进行了有关分析。
  • 作者:时之沙全文共 2164 字 4 图,阅读需要 5 分钟———— / BEGIN / ————数据异常分析,是数据分析工作中最常见且重要的分析主题,通过一次次的异常分...
  • (2)指标缺失属于异常波动,那么先将该指标进行拆解,然后分析它的成分指标的异常情况,得出指标初步的异常原因 (3)对(2)中得到的原因进行数据验证 下面是两个分析实例 例1:某家餐馆的线上收入下降了,要怎么...
  • 数据分析-数据异常的排查方法 数据异常主要从两个大方向进行排查:①数据是否有问题?②业务是否有问题? 第一个方向:数据是否有问题,即数据是否是真的异常? (1)亲自查看数据准确性,不要人云亦云 (2)时间轴...
  • 【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702为好友后入群。新开招聘微信群,请关注【与数据同行】公众号,后台回...
  • 单变量数据异常识别2.1 简单统计量分析2.2 三倍标准差2.3 box-cox转化+3倍标准差基本介绍基本公式Box-Cox优势python 实现2.4 箱线图3. 时间序列数据异常识别3.1 设置恒定阈值3.2 设置动态阈值-移动平均法3.3 STL...
  • 聚类分析是一种数据分析技术,可以帮助法务会计师有效地检测复杂金融数据集中的异常情况。 本文介绍了聚类分析,讨论了如何实施聚类分析以检测数据中的异常,并通过使用 Tableau 软件的工作示例说明其用法。
  • 异常分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分析中剔除。重视异常值的出现,分析其产生的原因,常常成为发现新问题进而改进决策的契机。 从...
  • 本篇文章主要是解决单变量数据集中的异常分析,本代码中对异常数据的处理方式为删除,剔除异常数据,也可以适当修改,对异常数据进行自己需要的操作。 1. 四分位法 原理介绍: 首先计算出第一四分位数(Q1)、中位...
  • 数据分析异常分析

    万次阅读 2018-04-11 14:20:24
    箱型图分析:(1)分位值 分位值...分位值(数)在统计学中也有很多应用,比如在一般的数据分析当中,需要我们计算25分位(下四分位),50分位(中位),75分位(上四分位)值。下面介绍一个例子具体说明什么是分位值:(1)23...
  • 写下公寓耗电异常分析过程,希望可以帮助租户对异常耗电进行溯源。找到省电办法,或者找到电表异常。 问题 在广州上月用电27度(实际12度+公摊15度),来深圳后用电飙升到183度。惊讶之余,尝试找到高耗电根源,以解决...
  • 首先运用的是pandas数据分析模块和matplotlib数据绘图模块 下面简单处理和操作 import pandas as pd #使用pandas读取数据import matplotlib.pyplot as pl#导入图像库url="D:\python数据挖掘\图书配套数据、代码\...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,062
精华内容 4,424
关键字:

数据异常分析