精华内容
下载资源
问答
  • 数据分析业务逻辑
    千次阅读
    2021-03-14 22:22:06

    在一个企业的运营过程中沉淀了大量的生产经营数据,在这些数据中蕴涵着无尽的信息资源,通过对这些数据的挖掘整理,合理分析可以得到对企业整个的生产运营具有指导意义的有效数据,使企业的运营过程更具理性的发展,数据仓库、数据挖掘及各种数据分析技术的产生使数据深度分析变得不再复杂。

    数据分析通过分析数据,发现业务问题,洞察商业机会点,为业务增长提供合理建议及参考依据,并输出数据报告。而现实当中,很多业务场景都可由数据体现出来。数据分析经常有种说法叫做:不懂业务,分析就只是取数。就是在说理解业务对于数据分析的重要性。所以如果不想仅仅成为取数的工具,就得好好的把理解业务这件事情做好。

    1、理解业务对数据分析的重要性

    首先业务逻辑先于数据逻辑,其次数据逻辑高于业务逻辑,并指导业务逻辑的优化与调整。这是理论来源于实践,理论指导实践的基本逻辑。离开业务的数据分析只是工具与方法的运用,没有意义与载体。

    总的来说,我们不能脱离业务去看“数据”,而是要时刻从业务角度去理解数据、分析数据。也可以说,没有业务指导的数据分析是无意义的。这一点对于刚刚入门数据分析的新手来说,甚是需要注重和积累培养的。

    了解业务痛点,多理解业务流程,才可能有机会分析出来符合业务场景中存在的问题。

    了解相应的业务阶段侧重的关注点是什么,才可能设计出更符合业务视角的数据指标监控体系,通过相应的专题分析,解答出现异常的状况。

    了解行业内相应业务流程和规则,才可以使数据分析的结论和建议更加符合实际,精准落地。

    了解相应业务中所有角色KPI以及如何协作,才可以快速有序的推进数据工作。

    2、理解什么是业务

    之所以有“业务”的说法,是和“技术”相对的。传统的说法里,业务泛指非技术类所有工作,是企业销售、营销、风控、运营工作的笼统称呼,这些都是直面B端/C端用户,为企业挣钱的活。技术,则对应着财务、IT、法务、人力、研发等支撑性专业,这些不直面客户,在背后支持业务运作。在咨询公司、第三方数据公司、广告公司等等少数卖数据的公司里,数据是作为产品直接销售给客户的,数据地位更贴近业务。在其他大部分企业里,数据就是支撑部门,因此要懂业务、服务业务。

    要懂业务,本质上是因为:数据从业务中来,要用回业务里去

    3、懂业务,首先得懂数据怎么来

    从业务中来,有三层含义:

    1、数据产生于业务流程。

    有了门店、销售队伍,才有线下成交数据

    建了微商城、APP,才有线上成交数据

    搞了微商城、APP埋点,才有互动数据

    业务流程如何做,分几步做,做得能不能记录,决定了有啥数据可以分析

    2、业务动作会改变数据。

    为了赶时间上线,不埋点,就没有互动数据

    为了提高注册转化率,不收集基础信息,用户画像就缺一堆字段

    销售自己搞了会员卡,客人不主动提就扫到自己卡上,数据就不真实

    业务怎么做,直接关系到数据质量和数量

    3、数据结果会影响业务动作。

    销售业绩不达标,业务猛冲一波,月底业绩就大涨

    销售业绩已达标,业务藏一波单,月底业绩就平着走

    活跃人数不够,业务直接买流量,砸活动,数据刷的呱呱好看

    因为很多企业建立了数据考核制度,因此当KPI/OKR不达标的时候,业务部门就开始各种骚操作,这些骚操作又会反向影响数据结果。

    因此,如果不了解业务情况,只是就数论数的话,就很难做出有深度的分析。了解业务情况,就能读出数字背后的含义。

    想系统化梳理业务,可以以一个具体业务流程为目标,进行梳理

    业务流:业务具体如何做,分几步,先干什么后干什么,谁来干

    数据流:业务流程里,哪些环节有数据记录,记录了什么样数据,数据质量如何

    管理流:业务部门看什么数据,背什么量化KPI指标,用什么手段影响数据结果

    4、懂业务,还得懂数据怎么用

    除非直接卖数据,否则数据是无法直接变现的。想要变现,就得结合业务动作。这就得考虑:到底现在业务需要的是什么?

    如果业务不了解现状,就给现状描述

    如果业务不会下判断,就给标准建议

    如果业务不清晰趋势,就给未来预测

    如果业务不知道原因,就给原因分析

    如果业务分不清主次,就给综合评估

    总之,具体到一个公司的一个部门的一个岗位,具体到他到底在想什么问题,才能知道到底要输出什么结论。针对性越强,输出得越准确。

    所以,如果不懂业务,给出的数据结论针对性不高,就必然面对灵魂三问:

    你分析了啥?

    你分析的有啥用?

    你说的我早知道了!

    5、如何从不懂到懂

    注意:业务不是一成不变的,具体到销售、营销、运营、生产、风控等具体领域以后,你会发现虽然每个领域有一些经典理论,但具体的做法却是日新月异。互联网的不断创新,还在贡献更多新玩法。因此:**在业务问题上,没有懂王!**掌握理解业务的方法才是关键。

    • 1、理解业务本质,即知道特定的业务是怎样赚钱的。
    • 2、了解不同阶段下业务的问题点都有哪些?能够解答老板还未“开口”的需求。
    • 3、在面对业务需求之前,对于业务需要有足够的数据意识。
    • 4、给业务方取数的时候是不是可以多问一句,为什么要这个数?这样一来二往,他不就把业务给你讲清楚了?
    • 5、做分析的时候千万不要闭门造车,一定要拉着业务的同学及时同步,让他们帮你看看你的数据有没有问题,你的思路是不是正确,方向对不对?
    • 6、抓住机会和业务的同学打成一片,本来数据分析就是紧贴业务的工作,和业务搞好关系,自然而然就好交流了,熟悉业务就快了。

    **总之,亲近业务才是了解业务的最佳方式!**亲近业务可以学到很多东西,有时候线上的数据是远远不够的,线下人的想法,用户的想法,还有很多的实际情况,甚至天气的变化,光是在后台想是不够的。亲近业务之后,用数据语言描绘出来,只要这个数据有价值。

    更多相关内容
  • 数据分析业务思维逻辑

    千次阅读 2019-12-30 19:48:56
    我们经常说’’ 数据分析要懂业务’’,但是很少有人知道什么才是真正的业务思维. 其实业务思维的内容只有两点: 把业务需求当做数据分析的七点 分析过程中关注业务环境和逻辑 举个简单例子,如果某个电商网站的日货...

    (一) 业务思维

    我们经常说’’ 数据分析要懂业务’’,但是很少有人知道什么才是真正的业务思维.

    其实业务思维的内容只有两点:

    • 把业务需求当做数据分析的七点
    • 分析过程中关注业务环境和逻辑

    举个简单例子,如果某个电商网站的日货出现明显的下降趋势,如果你不懂业务,你可能把PV,UV等数据作同比,环比

    最后提出加大广告投入的结论,但是对于业务人员来说根本就是废话.

    1. 如果你拥有业务思维,你应该首先了解业务需求的关注点究竟是什么,是让你单纯的分析流量吗?肯定不是,业务最关心的问题的可能是成交用户的数量,也有可能是销售量,也有可能是转化率

      也就是说,我们要先了解业务想通过数据实现什么需求,再对照需求分析数据的来源,口径等,评估数据和分析目的是否匹配.

    2. 了解业务需求才能对症下药,这时候很多人就会直接套用各种分析方法和模型,比如漏斗模型,RFM模型,矩阵模型,但是却忘记了考虑业务模式

      也就是说在分析过程中,你既要关注数据,也要关注外部环境,不能仅仅盯着数据模型和方法不放,也要去关注业务的需求变化和逻辑,这样才能让业务肯定你的工作.

    怎么结合业务思维进行分析?

    业务分析的流程一般是这样的:

    吃透业务的分许需求,系统性的引导业务分析

    建立分析体系,不完整的地方,有业务帮忙补充

    了解业务逻辑和模式,补充业务知识

    分析结论和成果要有明确的业务指向

    1. 吃透业务分析需求

      1. 所谓吃透分析需求,就是对业务的需求进行深入理解,一方面看需求是否合理,另一方面是对需求的全面思考
      2. 先想清楚,业务的需求真的需要解决吗? 真的重要? 是否有价值?所以要对业务提出进行深度挖掘,知道需求有价值
      3. 其次,业务的需求往往是某个具体问题,零散而片面,所以我们要进行系统化的,全面的需求分析,从全局角度引导业务分析的需求
    2. 建立分析体系

      1. 过程如下:

        1. 确定分析指标,首先是指标先行,梳理出你需要的指标,建立起指标库,原则是要确定核心指标,剔除虚荣指标,竟可能简化指标

        2. 生成需求指标,很多指标可能并不直接就有的,比如重度访问用户的占比,就需要组合访问时长和UV两个指标,形成一个新指标

          建立分析框架:原则是要从指标的角度出发,从业务的角度出发,从流程的角度出发

    3. 了解业务逻辑

      ​ 把分析体系搭建起来后,与业务部分一碰撞,发现还是不能满足需求,这种问题,本质上业务逻辑,却是有三部分组成:

      1. 假设: 业务放对问题的猜想
      2. 证据:能支撑猜想的论据,包括数据,事实,逻辑推理等等
      3. 结论: 基于假设+证据 论证产生业务结论

      当明确了分析什么样的指标、满足业务什么样的需求后,我们就要考虑整个业务的模式和逻辑,要关注用户角色、运营角色、信息、渠道等,以及他们之间的流转关系,以求用最高效的方式满足户需求。比如微信解决用户的社交需求,其产品定位是社交APP ,所以在它的产品形态上主页即是与好友的消息列表,可以方便地与好友进行互动。

    4. 分析结论和成果要有明确的业务指向

      ​ 业务人员看你的分析结论,是要能够马上采取行动的.这才是数据分析的根本目的,因此你的分析结论切勿罗列数据结果,一定要有明确的指向性.

      ​ 就拿报表需求来说,你的报表需求分析没有任何的逻辑,没有回答业务的疑问,没有加入业务的思考,就完全是一张废纸而已,业务想要的其实只有一句话:‘我该怎么办?’

      ​ 所以做数据分析,要从具体问题出发,到一个指向业务的行动结束,想要超出业务期望,当然需要了解具业务期望是什么,解答他们的问题,帮他们发现更深层的问题.

    所以做数据分析,要从具体问题出发,到一个指向业务的行动结束,想要超出业务期望,当然需要了解具业务期望是什么,解答他们的问题,帮他们发现更深层的问题.

    展开全文
  • 数据分析面试:业务

    千次阅读 2022-03-11 11:48:12
    数据分析面试:业务

    0. 相关概念

    • UV:Unique Visitor 独立访问
    • PV:Page View 页面访问量
    • 漏斗分析:Funnel Analysis
    • CR:Conversion Rate 转化率
    • CRV:Click Value Rate 点击率
    • GMV:Gross Merchandise Volume 商品交易总额
    • DAU :Daily Active User 日活用户
    • MAU Monthly Active User 月活用户
    • ARPU:Average Revenue Per User 用户用户收入
    • 留存率
    • 复购率
    • 埋点
    • 同比:环比增长速度 = (本期数 - 上期数)/ 上期数 * 100%,会受季节影响
    • 环比:环比增长速度 = (本期数 - 同期数)/ 同期数 * 100%,可以排除季节影响
    • 相关性:变量之间相互相关,没有先后顺序(比如:y=0.5x)
    • 因果性:两个事件的发生有严格的先后顺序(变化可能延迟)

    1. 你怎么理解数据分析的?数据分析的主要流程是什么?

    数据分析是基于对业务的理解,发现业务中的问题或潜在的增长点形成分析思路,并利用数据分析工具进行分析,给出结论和解决方案,并协调各方推动方案落地,解决问题,回到业务中去的完整闭环。

    数据分析的主要流程

    • 观察现状
    • 发现问题
    • 寻找原因
    • 预测未来
    • 生成决策
    • 推动落地
    • 复盘

    2. 指标的异常波动变化(例如日活下跌),你会如何分析?

    分为以下几个部分:

    • ① 核查数据是否可靠;确定指标计算口径是否一致;确定是否是市场的整体趋势
    • 描述并分析变化是否合理
    • ③ 多维度拆解分析,相关分析等等方法进行分析,寻找造成变化的相关因素
    • ④ 进行回归分析/预测,还会持续多久?最坏到什么程度?
    • 风险/损失评估,下跌对产品的核心KPI有什么影响
    • 制定策略,挽回损失/避免下次发生

    2.1 电商GMV下降该如何分析?

    在这里插入图片描述

    2.2 某APP DAU 增长的原因

    在这里插入图片描述

    3. 什么是A/B Test?其核心逻辑是什么?

    A/B Test是基于小样本的后验方法,通过设置对照组和实验组,对变量进行试验,通过假设检验对不同的结果进行检验,以检验变量是否对结果造成显著影响,从而选取最合理的方法。

    其核心逻辑是通过随机合理分流,设置对照组和实验组,通过控制变量法,在保证两组用户除待验证变量不同外,其他变量分布均一致。

    使用A/B Test评估算法效果

    在这里插入图片描述

    在这里插入图片描述

    使用A/B Test 做效果评估

    在这里插入图片描述

    4. 如何理解漏斗分析?有哪些需要注意的点?

    核心逻辑:分解和评估,将业务流程分解为关键环节形成漏斗,通过相邻环节的转化率定位问题环节。

    常见漏斗有电商漏斗:首页-详情页-购物车-支付;还有用户生命周期AARRR;用户行为周期AIDMA
    在这里插入图片描述
    注意点:漏斗的各个环节一定是连续的,对应连续的业务流程
    一般以上一环节为基准,计算相邻两个环节的转化率,1-转化率即为流失率,但并不意味着最低的环节就是问题环节。

    5. 你认为数据分析的价值如何体现

    (价值不在与数据,而在于业务,以及背后的原因一家优化方向)

    数据分析不是数据统计,不能仅仅停留在输出一份报告,给出一些数字,要给出结论,讲清楚数据背后的业务含义,数字的大小正负说明业务是好是坏,有多好多坏。

    除明确数字背后的业务含义外,还要给出背后的原因,好的方面是否可以复用拓展,坏的方面原因是什么,应对方案是什么?要把方案推动落地到业务中执行,并且跟进执行的效果和复盘,螺旋上升,不断迭代优化。

    6. 什么是描述性统计?

    描述性统计,是指运行图形以及概括性数据来描述数据特征。描述性统计主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

    • 频数分析:在数据预处理部分可以检验异常值
    • 数据集中趋势分析:反应数据的一般水平,常用的有平均值、中位数和众数等
    • 数据的离散程度分析:反应数据之间的差异程度,主要有方差和标准差
    • 数据的分布:在统计分析中,通常要假设样本所属总体的分布属于正态分布,需要用到偏度和峰度两个指标来检查样本数据是否符合正态分布。
    • 绘制统计图:用图形的方式来表达数据,比用文字表达更清晰、更简明。

    7. 什么是分类?有哪些分类算法?

    分类:学习已有分类样本的特征,对新特征进行划分,是一种有监督的机器学习算法。
    场景分类算法:

    常见分类算:

    • 逻辑回归
    • SVM
    • 贝叶斯
    • 决策树
    • KNN
    • XGBoost

    8. 什么是聚类?有哪些聚类算法?

    聚类:对数据的特征进行抽象,通过算法将特征相似的对象划归为一类,是一种无监督机器学习算法。

    关键:

    • 如何确定分类对的数量
    • 特征如何选择

    常用聚类算法:

    • K-menas
    • DBSCAN

    应用场景:

    • 互联网金融用户等级分类
    • 垃圾邮箱分类

    9. 什么是回归?有哪些回归算法和应用场景?

    回归分析:使用线性回归方程对两个或多个变量之间的关系进行建模的一种分析方法。

    本质:找到一条最合适的“平均线”或者”超平面“,使得这条线或者这个面两边的点分布均匀。

    应用场景:

    • 运营推广中,是不是花的钱越多,买的流量越多,品类越丰富,用户活跃度越高,那么,多到什么程度、大道到什么程度、丰富到什么程度、用户的活跃度最高,留存最高
    • 智慧城市的交通,预测交通通塞程度:自变量:时间段、商业指数,住宅指数、城区指数、道路指数;因变量:两个连续信号灯之间道路的通行时间
      (联想到费米问题)

    常见回归算法:

    • 线性回归
    • lasso回归(拉索回归)
    • ridge回归(岭回归)

    10. 如何评估一场活动的效果

    具体可以展开来讲,可以从以下几个方面来讲:

    1、活动关键指标达成分析
    2、活动关键流程漏斗分析
    3、活动的渠道、用户分析
    4、活动策略、节奏分析

    在这里插入图片描述

    参考:数据分析星球(小红书)

    展开全文
  • 全网最全数据分析师面试干货-业务逻辑篇 首发于胖熊酱的数据分析分享 全网最全数据分析师面试干货-业务逻辑篇 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1eYUrBG5-1621687444783)(…...

    全网最全数据分析师面试干货-业务逻辑篇

    首发于胖熊酱的数据分析分享
    在这里插入图片描述

    全网最全数据分析师面试干货-业务逻辑篇

    以下内容如有借鉴,均在文章末尾附上原文章链接。

    1. 不用任何公开参考资料,估算今年新生儿出生数量?

    采用两层模型(人群画像x人群转化):

    新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率(两层模型,具有两个层面的模型。)。

    从数字到数字:根据前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测。

    找关联指标,如婴儿类用品新增用户是新生儿出生的关联指标。

    新生儿出生数=某宝平台的婴儿类用品的新增活跃用户数量*新生儿家庭转化率。

    可以根据平台往年数据推算出新生儿家庭转换率,最后得出新生儿出生数。

    1. 如果次日用户留存率下降了 5%该怎么分析?

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210605150108271.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pjamlj,size_16,color_FFFFFF,t_70

    首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,

    然后分别计算每个维度下不同用户的次日留存率。

    通过这种方法定位到导致留存率下降的用户群体是谁。

    对于目标群体次日留存下降问题,具体分析可以采用“内部-外部”因素考虑。

    a. 内部因素分为获客(渠道质量低、活动获取非目标用户)、

    满足需求(新功能改动引发某类用户不满)、

    提活手段(签到等提活手段没达成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);

    b. 外部因素采用PEST分析(宏观经济环境分析),

    政治(政策影响)、

    经济(短期内主要是竞争环境,如对竞争对手的活动)、

    社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化)、

    技术(创新解决方案的出现、分销渠道变化等)。

    1. 卖玉米如何提高收益?价格提高多少才能获取最大收益?

    收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销量。

      • 提高单位溢价的方法:
        品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;
        加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉();
      • 重定位商品,如礼品化等;
        价格歧视,根据价格敏感度对不同用户采用不同定价。
    • 销售量=流量x转化率,上述提高单位溢价的方法可能对流量产生影响,也可能对转化率产生影响。

    • 收益 = 单价x流量x转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等。

    1. 类比到头条的收益,头条放多少广告可以获得最大收益?

    收益 = 出价x流量x点击率x有效转化率,放广告的数量会提高流量,但会降低匹配程度,因此降低点击率。

    最大收益是找到这个乘积的最大值,是一个有约束条件的最优化问题。
    同时参考价格歧视方案,可以对不同的用户投放不同数量的广告。

    5.APP激活量的来源渠道很多,怎样对来源渠道变化大的进行预警?

    • 如果渠道使用时间较长,认为渠道的app激活量满足一个分布,比较可能是正态分布。求平均值和标准差,对于今日数值与均值差大于3/2/1个标准差的渠道进行预警。
    • 对于短期的新渠道,直接与均值进行对比。

    6.用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少?

    • 采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:

    技术接受模型提出了两个主要的决定因素:
    1)感知的有用性(perceived usefulness),反映一个人认为使用一个具体的系统对他工作业绩提高的程度;
    2)感知的易用性(perceived ease of use),反映一个人认为容易使用一个具体的系统的程度。
    感知有用性:文案告知用户选择属性能给用户带来的好处
    感知易用性:
    a. 关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择。
    b. 交互性做好。
    3)使用者态度:用户对填写信息的态度
    a. 这里需要允许用户跳过,后续再提醒用户填写
    b. 告知用户填写的信息会受到很好的保护
    4)行为意图:用户使用APP的目的性,难以控制
    5)外部变量:如操作时间、操作环境等,这里难以控制

    7.如何识别作弊用户(爬虫程序, 或者渠道伪造的假用户)

    • 分类问题可以用机器学习的方法去解决,下面是我目前想到的特征:
      (1)渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
      (2)环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
      (3)用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机)
      (4)异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等

    8.怎么做恶意刷单检测?

    分类问题用机器学习方法建模解决,我想到的特征有:
    1)商家特征:商家历史销量、信用、产品类别、发货快递公司等
    2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
    3)环境特征(主要是避免机器刷单):地区、ip、手机型号等
    4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等
    5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征
    6)图片相似度检测:同理,刷单可能重复利用图片进行评论

    9.一个网站销售额变低,你从哪几个方面去考量?

    • 首先要定位到现象真正发生的位置,到底是谁的销售额变低了?这里划分的维度有:
      a. 用户(画像、来源地区、新老、渠道等)
      b. 产品或栏目
      c. 访问时段
    • 定位到发生未知后,进行问题拆解,关注目标群体中哪个指标下降导致网站销售额下降:
      a. 销售额=入站流量x下单率x客单价
      b. 入站流量 = Σ各来源流量x转化率
      c. 下单率 = 页面访问量x转化率
      d. 客单价 = 商品数量x商品价格
    • 确定问题源头后,对问题原因进行分析,如采用内外部框架:
      a. 内部:网站改版、产品更新、广告投放
      b. 外部:用户偏好变化、媒体新闻、经济坏境、竞品行为等.

    10.用户流失的分析,新用户流失和老用户流失有什么不同?
    1)用户流失分析:

    • 两层模型:细分用户、产品、渠道,看到底是哪里用户流失了。注意由于是用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。(用户生命周期:引入,成长,成熟,休眠,流失。)
    • 指标拆解:用户流失数量 = 该群体用户数量*流失率。拆解,看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高
    • 内外部分析:
      a. 内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等
      b. 外部:市场、竞争对手、社会环境、节假日等

    2)新用户流失和老用户流失有什么不同:

    新用户流失:原因可能有非目标用户(刚性流失)、产品不满足需求(自然流失)、产品难以上手(受挫流失)和竞争产品影响(市场流失)。
    新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失,并如何对有效的新用户进行挽回。

    老用户流失:原因可能有到达用户生命周期衰退期(自然流失)、过度拉升arpu导致低端用户驱逐(刚性流失)、社交蒸发难以满足前期用户需求(受挫流失)和竞争产品影响(市场流失)。
    老用户有较多的数据,更容易进行流失用户识别,做好防止用户流失更重要。当用户流失后,要考虑用户生命周期剩余价值,是否需要进行挽回。

    11.GMV升了20%怎么分析?

    应该先估算一下数字有没有问题。

    同样的套路:
    1)两层模型:进行用户群体、产品、渠道细分,发现到底是谁的GMV提升了
    2)指标拆解:将GMV拆解成乘法模型,如GMV=广告投放数量广告点击率产品浏览量放入购物车率交易成功率*客单价,检查哪一步有显著变化导致了GMV上升
    3)内外部分析:
    a. 内部:网站、产品、广告投放、活动等
    b. 外部:套PEST等框架也行,或者直接分析也行,注意MEMC即可

    这一题要注意,GMV流水包括取消的订单金额和退货/拒收的订单金额,还有一种原因是商家刷单然后退货,虽然GMV上去了,但是实际成交量并没有那么多。

    12.如果现在有个情景,我们有一款游戏收入下降了,你怎么分析?

    • 两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了
    • 指标拆解:收入 = 玩家数量 * 活跃占比 * 付费转化率 * 付费次数 * 客单价
      进一步细分,如玩家数量 = 老玩家数量 * 活跃度 + 新玩家数量 * 留存率等。然后对各个指标与以往的数据进行对比,发现哪些环节导致收入下降
    • 原因分析:
      a. 内部:产品变化、促活活动、拉新活动、定价策略、运营策略、服务器故障等
      b. 外部:用户偏好变化、市场环境变化、舆论环境变化、竞争对手行为、外部渠道变化等
    • 如何提高:基于乘法模型,可以采用上限分析,从前往后依次将指标提升到投入足够精力(假设优先分配人力、经费与渠道)后的上限,然后分析“收入”指标的数值提升。找到数值提升最快的那个阶段,就是我们提高收入的关键任务。

    13.现在有一个游戏测试的环节,游戏测试结束后需要根据数据提交一份PPT,这个PPT你会如何安排?包括什么内容?
    这里可以套AARRR模型:
    获取用户(Acquisition)
    提高活跃度(Activation)
    提高留存率(Retention)
    获取收入(Revenue)
    自传播(Refer)

    • 获取:我们的用户是谁?用户规模多大?
      a. 用户分层

    • 激活:游戏是否吸引玩家?哪个渠道获取的用户有质量(如次日留存高、首日停留时间长等)?

    • 留存:用户能否持续留存?哪些用户可以留存?

    • 转化:用户的游戏行为如何?能否进行转化?能否持续转化?

    • 自传播:用户是否会向他人推荐该游戏?哪种方式能有效鼓励用户推荐该游戏?传播k因子是否大于1?

    14.比如你对楼市不熟悉,现在要你去做一个像58同城之类的,卖房的中介,电商,你会如何进行分析。

    1)商业模式分析:中介做的是双边市场生意,通过解决市场信息不对称下的信息流动问题,降低买方和卖方的交易成本,从而创造盈利空间
    2)需求分析:
    a. 买方需求分析:低价买好房,对时间的需求有快的和慢的
    b. 卖方需求分析:房子卖高价,对时间的需求有快的和慢的
    3)进入条件分析(套SWOT分析法(态势分析法)也行):
    a. 自身条件
    b. 竞争对手
    c. 市场增长规模
    4)进入策略分析:
    a. 自身目标
    b. 目标拆解
    c. 分析目标达成的可能性,预估将来一段时间,好/正常/坏条件下的目标达成情况
    d. 得出结论:是否进入该市场

    1. 某业务部门在上周结束了为期一周的大促,作为业务对口分析师,需要你对活动进行一次评估,你会从哪几方面进行分析?

      1) 确定大促的目的:拉新?促活?清库存?
      2) 根据目的确定核心指标。
      3) 效果评估:
      a. 自身比较:活动前与活动中比较
      b. 与预定目标比
      c. 与同期其它活动比
      d. 与往期同类活动比
      4)持续监控:
      a. 检查活动后情况,避免透支消费情况发生
      b. 如果是拉新等活动,根据后续数据检验这批新客的质量

    16.作为一个数据分析师如何分析一次便利店推广活动的效果?需要分析哪些指标?

    17.你觉得使用 Excel 和 R /python进行数据可视化的差别是什么?

    18.对于化妆品行业你会从哪些指标进行数据分析?

    19.在笔试/面试中回答数据分析场景相关的问题?分三步走:

    第一步:明确你遇到的场景类型

    企业数据分析场景可分为以下几种:

    经营数据分析:指收入、销量等企业经营活动相关的数据分析;

    销售数据分析:指销售收入、销售额、销售单产等与销售活动直接相关的数据分析:与经营分析的区别是销售分析粒度更细,频次更密要求速度更快;

    客户数据分析:即CRM分析,指客户购买额、购买频次、购买偏好等客户产生的相关数据的分析;

    营销/市场数据分析:指企业营销/市场活动的投放、反馈、效果相关数据的分析,运营分析可归入这一类,也可归入产品类;

    产品数据分析:单个产品的数据分析,包括实物产品和服务产品(互联网产品也归入服务产品类);

    确定场景后,进入第二步:明确分析目标

    对于不同的场景,分析目标是不一致的:

    经营数据分析:监控企业的运行情况,目标是发现企业经营活动中的问题,主要关注点是销量/销售额总体时序变化、地区分布、总体

    单个点变化原因;

    销售数据分析:目标是保证完成销售任务,监测销售效率低的原因,提出解决办法,主要关注时序进度、落后原因、销售单产情况等;

    客户数据分析:目标是深入理解客户,典型方法是RFM模型;

    营销/市场数据分析:目标是了解投放效果,优化投放计划,提升投放效率,关注点主要集中在ROI相关的指标;

    产品数据分析:综合了前边几类分析的内容,分析目标则集中在某个产品上;

    目标明确以后,最后一步:搭建分析体系

    每一个场景里的内容看似复杂,但记住两个核心,即可推导出所有的分析点:

    核心一:绝大多数分析都是针对人(内部人员和客户)、财(收入,支出)、物(产品,服务)三个对象进行的,所有的基础分析指标

    由单个对象或对象间的组合推导出来。

    核心二:做分析时处理指标记住八个字:变化、分布、对比、预测

    变化:指标随时间的变动,表现为增幅(同比、环比等);

    分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;

    对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因;数据分析培训

    预测:根据现有情况,估计下个分析时段的指标值。

    将两个核心的内容叠加到一起,分析体系基本就建立了。

    20.京东商城销量增长了20%,怎么进行分析

    21.设计一个未来汽车,你会设计一些什么功能

    22.100的阶乘有多少个0

    100的阶乘有24个结尾0。具体算bai法如下:

    一、du首先确定5因子有多少:

    在100内,因子是zhi5的数有5, 10, 15, 20, 25… 总共有20个。但是25, 50, 75, 100都包含了2个5作为dao因子(25=55, 50=25*5),对于这些数,需要多数一次。所以总共有24个5因子。从公式角度: 5因子的数目 = 100/5 + 100/(5^2) + 100/(5^3) + … = 24 (必须是整数)

    二、确定2的因子有多少:

    2, 4, 6, 8, 10, … 总共有100/2=50个2因子,100/4=25个4因子(要多计数一次),100/8=12个8因子(要多计数一次)所以2因子的数目 = 100/2 + 100/(2^2) + 100/(2^3) + 100/(2^4) + 100/(2^5) + 100/(2^6) + 100/(2^7) + … = 97综上所述,共有24个5因子 和 97个2因子,所以能凑24 个 (2,5) 对。综上所述100的阶乘也就有24个结尾零。

    23.问了一个怎么计算通勤天数的题目(根据共享单车在各个时间点返回的对应经纬度)

    24.为商家设计电子菜单,个性化推荐菜单可以用一些什么特征

    25.单纯按照销量来推荐热门菜会出现什么问题

    26.利用美团点评平台的所有数据,为一个准备开店的人做出策略

    27.一个果农种西瓜有100亩地。有一个卖肥料地推销他的肥料,说可以提高30%产量。

    果农第一年在10亩地中试验,的确可以达到30%的提升。第二年全量使用,结果只有5%的提升,这是什么原因导致的?想出一个方法评估这一个肥料真实提高。

    28.果农拉西瓜出去卖。拉100斤西瓜,然后每斤成本5元,卖10元一斤,卖完了所有的西瓜,赚了500元。请问果农怎么提高收入?(每天都只有100斤西瓜的供应量)

    29.提高单价,会导致销量降低。假设,销量与单价之间满足销量y=a*单价x+b的函数。果农最大收益是多少?果农要用什么策略来提高价格?

    30.抖音要现在有两个新功能,直播跟私信。你怎么利用这两个功能的现状来评估,应该重点推广哪一个功能(面试官有提示,这两个功能类型不同之类的)你推广了这个功能之后,怎么评估推广的效果

    31.对这两个功能做abtest(可能我自己挖坑说了abtest),怎么控制实验组,对照组的人数(目前假设抖音日活1.5亿人)

    32.17年,12月抖音,IOS用户的平均停留时长翻倍。已经发现:1.机型越新的用户,涨幅越大;2.安卓用户没有发生这个情况;3.这期间没有运营活动。分析这一现象的原因。

    33.订单量下降什么因素影响?

    A:基于对业务的理解。

    内部原因:经营问题,设计问题;

    外部原因:天气原因,整个大环境影响,其他竞争对手采取行动等

    34.根据已有数据如何判断用户的一些未来行为?

    A:基于对业务数据的理解,脑洞要大。

    35.京东商城要打5-6线渠道,PPT上放什么怎么放?对接人是CXO

    36.怎么向小孩子解释正态分布(考虑到小孩子的智力水平)?

    37.有一份分析报告,周一已定好框架,周五给老板,因为种种原因没能按时完成,怎么办?

    1. 业务的定义和分类?

    什么是业务,借用某个大V的定义,就是把产品,以合理的方式,通过渠道,卖给用户,赚取利润。所以业务基本就分为这几类:产品、运营、渠道、用户、利润。

    1. 产品

    1)设计前

    需要一些宏观数据

    2)设计中

    确定需要收集哪些用户信息,我们能收集哪些,做一个埋点上的设计。

    3)设计后

    主要是产品迭代,更多是关注用户的使用情况。没有一个产品刚出来就是完美无缺的。产品迭代需要三个方面的数据支持:用户量、客群结构、功能点使用情况。

    4)怎么进一步了解产品

    第一, 亲自使用产品、卖点、用户、各个功能特别熟悉——意向行业、公司

    第二, 产品配套的营销、运营推广——经典文章、资深人士的意见——搜一下意向的公司

    第三, 产品优化通用的指标——数据如何指导产品优化——网上有很多文章

    1. 运营

    1)定义

    能够接触到用户的地方就会接触到运营

    2)种类

    内容、提升业绩、服务类

    3)内容运营

    各种push啊、公众号、微博、品牌方。主要目的是:通知用户某些事情、唤醒用户、与用户互动、做活动

    4)提升业绩运营

    目的:促进消费

    有哪些方式:促销活动、新品试用、节日纪念日活动(京东618、淘宝双11)

    41.服务类运营

    针对用户的主动行为去做出反应。

    1. 运营的关注点

    接触用户的渠道有哪些?哪种渠道最好?

    关注时机:热点

    运营方式和运营目的:

    传递信息:关注文案、包装、希望用户如何回应

    提升业绩:方式、后续效果怎样

    服务:哪种方式最受用户喜爱、能解决问题

    43.运营的考核指标

    内容类:到达率、相应度

    业绩:短期、长期、成本控制、ROI

    服务用户:用户量、使用率、满意度

    54.怎么进一步了解运营

    1)归纳每一类的运营方式:常用的内容运营方式、常用的拉动业绩方式、会员管理方式、等等

    2)归纳每类情况业务部门会关注什么指标,为什么?

    1. 渠道

    1)定义

    就是把产品暴露在用户面前

    2)作用

    拉新和销售。

    线上:拉新和接触客户、产品推销、交易、跟进。主要途径:网络广告、应用商店、短信、电话。

    线下:门店、传统企业包括加盟、代理——销售、拉新(地推)

    搜索推广效果转化漏斗

    3)关注点

    关注业绩相关指标,包括客单价、成交量、订单付、新增客户、渠道成本(获客成本、获客质量)等等

    4)怎么进一步了解渠道

    了解常见的关于业绩/拉新的相关指标

    大致了解常见的销售方式、销售流程、特点

    观察我们遇到的销售是怎么做的

    46.、 用户

    1)用户的作用

    存在就是一种价值。互动、活跃、存在过

    带来消费。分为直接消费和促进消费

    转介绍、带来流量。分享有奖、微信转发到朋友圈免费领取课程、个人影响力 大V、主播

    1. 常见的用户分层角度

    做用户分析,最根本也是最重要的就是用户数据。

    用户画像:根据用户的静态信息、行为等等对用户进行分类、分层。

    切入点非常重要

    1. 用户价值 RFM

    最近一次消费(Recency)

    消费频率(Frequency)

    消费金额(Monetary)

    参考这个链接http://wiki.mbalib.com/wiki/RFM%E6%A8%A1%E5%9E%8B

    写的非常清楚,里面还有实例分析。

    47.用户生命周期 AARRR

    1. 获取用户 Acquisition

    如何低成本的获客、怎么打动用户、抓住用户的吸引力

    1. 激活 Activation

    如何避免注册多、打开少,让用户称为产品真正的使用者

    用户的激活路径是怎样的?用户在哪一步流失?怎么提升转化率?

    配合一些策略:补贴、发push唤醒用户

    1. 留存 Retention

    让用户养成使用产品的习惯,对于用户的生命周期有不同的策略

    1. 变现 Revenue

    根据商业模式的不同,创造收益的方式也不同。

    今日头条:通过创造广告位、雇佣写手创造更多内容

    电商:直接购买

    需要重视的是,夹点。指的是用户损失潜在收益的地方,比如电商购买付费的路径,分析用户在哪一步停止付钱。

    1. 推荐 Reference
    1. 用户活跃度

    月活、周活、日活、沉默、高活、低活

    49 业务相关维度

    婚恋网站和支付宝

    1. 如何进一步了解用户

    了解行业内常见的用户数据,具体就是指,行业内到底能够收集到哪些数据。

    不同维度的用户分层

    不同维度的用户标签

    知乎上很多这种文章,运营会画很多思维导图

    1. 盈利

    利润=收入-成本

    成本包括:产品、推广、人力、渠道、运转、新客,收入则取决于企业的盈利模式。

    盈利模式包括以下几种:

    To B

    To C

    To B & To C

    1. 企业的组织架构

    互联网的企业组织架构基本包括:

    管理层、产品、技术、运营、市场

    产品包括设计、落地、优化,类似于项目经理的岗位。

    技术包括前端、后端

    运营分为产品、内容、活动三个方面

    市场包括品牌推广、销售

    面试业务知识技巧

    举例1 重大波动问题

    面试官:哎呀,我们最近业绩很不好,怎么办?

    第一步,询问相关背景:具体指哪些指标、原来多少、现在多少?具体下降了多少?一步步咨询

    面试官:我们那个销售额下降了90%。

    结合行业背景来看,问题是不是真的很严重。有些行业下降90%也是很正常的,比如节假日、旅游

    询问得到,不是行业背景问题,业绩确实下滑这么多,而且问题很严重

    核查数据是否准确,数据是否错误、遗漏,因为重大问题是小概率事件,很多情况下是数据出了问题

    数据没有错误,最近是否有重大事件出现

    迅速做出反应,能用的方法都用上,因为事已至此,只能尽力挽救。

    举例2 普通的上升下降问题(用户量、活跃度、新增、销量减小)

    面试官:我们最近用户量突然下降了

    用户指注册用户吗?具体是哪些指标,原来多少、现在多少

    面试官:日活注册量下降10%

    是否行业规律

    不是行业规律,继续拆分问题

    时间维度:什么时候下降

    新用户/老用户问题

    新用户:哪些渠道

    老用户:长期用户、短期用户、没有需求还是哪里体验不好

    衡量改善成本和效果

    定位到地推的新增用户少了

    54.假设Y公司预计一年内要采购1万台服务器,目前有两种采购策略:1.在一季度一次性完成采购;2.划分为4个季度逐步完成全年采购。试分析两种采购的优缺点,以及你选择哪一种采购方案,说明决策理由。

    我给你举几个例子吧

    1)考虑财报因素

    一次性采购会产生大量固定成本和应付(若非现结,且假设一次性大批量采购折扣更优惠)导致当月净利润率低,后续的成本来自折旧。

    服务器一般为直线折旧,所以不存在用的多折旧快的情况

    2)考虑需求和成本

    若一次性采购立马可以full capacity运行,那分批显然不可取;而若需求不固定,则分批采购能更好的控制成本,按需花钱嘛;分批采购时,比如,Q1固定成本2500,Q2固定成本2500+Q1的折旧费用,假设500,就是3000,但这时候很可能Q1的2500已经产生了收益,那Q2

    多出来的这部分成本可以cover,以此类推,虽然支出在增加,但收益也应随着应用增加

    另外,硬件会降价(摩尔定律)到最后Q4,可能原型号服务器已经降价,或者市面上有更好的新型号服务器出售,性价比更优,那选择起来更灵活

    3)实施部署

    一次性10000台意味着空间+人力+电力+调试测试等大量开支,服务器后续仍然需要有人员维护,这笔开支会比较庞大;分批次部署,1是积累部署经验,锻炼运维团队,2是可以以较少的人员(max部署和运维人员数量,方案2小于方案1)完成部署

    4)回收报废

    一次性10000台采购,意味着报废的时候也是10000台(接近这个数字),分批则每季度报废一批,显然后者操作更灵活,对业务冲击和影响更小(比如数据库迁移等)

    5)业务适配性

    一次性10000台,如果是在量上相对需求有溢出的,则无形中增加了业务转型的成本,划不来

    6)一次性投入10000台和分批2500的,前者资金占用量大,资金成本高,分期付款,占用资金小(资金成本可以按年化8%-10%来算)

    借鉴来源:

    image-20210319201649534
    • 以抖音为例聊聊数据分析常见的业务指标

    • 鸭哥刚入门的时候其实还不知道数据分析是干嘛的,后来看到了这些数据指标的含义,就知道数据分析师就是从数据当中找出有用的指标出来进行分析。

    • 记住数据指标的名词可以在各大场合进行装X,亲测有效

    在这里插入图片描述

    • 1.1 用户数据指标

    • 用户数据 [性别 年龄 地区]

    • 行为数据 [点击某个菜单的次数 分享量 收藏数]

    • 产品数据 [文章标题 日期 阅读量]
      在这里插入图片描述

    • 1.2 行为数据指标

    在这里插入图片描述

    • 1.3 产品数据指标

    • 1.4 付费推广指标:

    • 1.展示位,按展示次数付费

    • 2.搜索广告,按点击次数付费

    • 3.信息流广告,按点击次数付费或按投放的实际效果付费 CPD(按APP下载次数付费往往在推荐新产品的时候使用) CPI(按照APP激活数付费) CPS(按照购买的用户数或者销售额付费)

    • 1.5 好的数据指标是比率

    • 核心指标:Instagram 照片分享率

    • facebook 月活跃用户率

    • 喜马拉雅 用户收听市场

    • 2.1 抖音为例子分析指标

    • 引用艾瑞咨询的两张图

    在这里插入图片描述

    在这里插入图片描述

    • 我们可以得出结论:抖音的主体用户在2 3 4 5线城市开始增加,对于这样一个下沉市场,用户对内容的选择更加的多样,组成的群体也非常丰富。所以这促进了抖音产品根本逻辑的形成,通过增长内容浏览量促进用户在抖音内社交行为以此增加APP粘性,利用拍摄工具,橱窗工具,直播工具诱导客户最终产生交易行为。

    • 接下来鸭哥根据以上这个结论进行分析:

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    • 通过以上的指标,大家其实可以清晰的看清楚抖音每个模块想要达到的效果,最终都是达到交易类的目的

    • 7道常见的数据分析面试题

    • 作为实力检测的一部分,笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。我出了几道简单的题,你不妨来看下。

    • 问答题

    • 1、用一种编程语言,实现 1+2+3+4+5+…+100。

    • 这道题考察的就是语言基础,你可以用自己熟悉的语言完成这道题,比如 Python、Java、PHP、C++ 等。这里我用 Python 举例:sum = 0for number in range(1,101): sum = sum + numberprint(sum)

    在这里插入图片描述

    • 2、如何理解过拟合?

    • 过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。

    • 欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。

    • 3、为什么说朴素贝叶斯是“朴素”的?

    • 朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

    • 4、SVM 最重要的思想是什么?

    • SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。

    • 5、K-Means 和 KNN 算法的区别是什么?

    • 首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

    • 动手题

    • 1、我给你一组数据,如果要你做数据清洗,你会怎么做?

    在这里插入图片描述

    • 实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2 次,张飞的数学成绩缺失。

    • 针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。

    • 在「数据科学家 80% 时间都花费在了这些清洗任务上?」的文章里,结合案例,我着重讲解了数据清洗具体方法,我将数据清洗规则总结为以下 4 个关键点,统一起来叫“完全合一”,下面我来解释下。

    • 1、整性:单条数据是否存在空值,统计的字段是否完善。

    • 2、面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。

    • 3、法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符,性别存在了未知,年龄超过了 150 岁等。

    • 4、唯性:数据是否存在重复记录,因为数据通常来自不同渠道的汇总,重复的情况是常见的。行数据、列数据都需要是唯一的,比如一个人不能重复记录多次,且一个人的体重也不能在列指标中重复记录多次。

    • 2、豆瓣电影数据集关联规则挖掘

    • 在数据分析领域,有一个很经典的案例,那就是“啤酒 + 尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。

    • 如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?

    1687444801)]

    • 实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2 次,张飞的数学成绩缺失。

    • 针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。

    • 在「数据科学家 80% 时间都花费在了这些清洗任务上?」的文章里,结合案例,我着重讲解了数据清洗具体方法,我将数据清洗规则总结为以下 4 个关键点,统一起来叫“完全合一”,下面我来解释下。

    • 1、整性:单条数据是否存在空值,统计的字段是否完善。

    • 2、面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。

    • 3、法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符,性别存在了未知,年龄超过了 150 岁等。

    • 4、唯性:数据是否存在重复记录,因为数据通常来自不同渠道的汇总,重复的情况是常见的。行数据、列数据都需要是唯一的,比如一个人不能重复记录多次,且一个人的体重也不能在列指标中重复记录多次。

    • 2、豆瓣电影数据集关联规则挖掘

    • 在数据分析领域,有一个很经典的案例,那就是“啤酒 + 尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。

    • 如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?

    展开全文
  • 数据业务逻辑分离

    千次阅读 2018-03-22 11:23:31
    进行分析之前,我们先来复习一下面向对象。 对象是要进行研究的任何事物。 类是具有相同或相似性质的对象的抽象。 面向对象的要素:抽象,封装、继承、多态。 面向对象目的是:如何分配职责。 面向对象设计原则...
  • 数据分析分核心步骤分为:业务认知与数据探索、数据预处理、业务认知与数据探索等三个核心步骤。本文介绍第三个步骤:业务认知与数据探索,包括常见业务分析模型,如AB测试、RFM、AARRR、对比分析、来源分析、细分...
  • 数据分析-思维分析逻辑day01

    千次阅读 2022-03-12 22:47:04
    文章目录一、国企数据分析工作招聘解析常规工作专题分析软技能及面试技巧二、BAT企业数据分析工作数据异常排查专题分析1、特点:2、例子面试1、准备2、三个必问的问题3、三个必问的问题解答三、中小型企业数据分析...
  • web网站功能实现的业务逻辑分析

    千次阅读 2018-12-16 09:59:29
    业务逻辑:写代码前先要搞懂业务逻辑(最重要) 前端查看请求接口:需求分析 、接口中参数、要调用什么表、表之间关系、要返回什么数据、前端怎么接收。 后台java接收:响应前端请求接口、一层一层对应写出实现...
  • toB和toC业务数据分析怎么做?

    千次阅读 2022-04-11 01:07:47
    很多同学很疑惑:为什么我做的数据分析和别人讲的差别那么大???有一个重要的原因,是数据分析的问题场景不一样。不同的问题场景,意味着数据指标,分析逻辑,输出内容都不一样,有些场景差异之大,以至于不熟悉的...
  • 业务逻辑之终极分析

    千次阅读 2018-08-26 20:01:20
    细说业务逻辑     前言 记得几个月前,在一次北京博客园俱乐部的活动上,最后一个环节是话题自由讨论。就是提几个话题,然后大家各自加入感兴趣的话题小组,进行自由讨论。当时...
  • 数据分析面试业务问题整理

    千次阅读 2020-05-05 12:36:30
    业务:参考人人都是产品经理,精益数据分析 业务特征回答模板:基础+附加 基础:用户+商业变现 附加:产品具体特征(准备方向:电商、内容、游戏、风控) 细分业务模块指标表达 有清晰逻辑线 用户行为逻辑:判....
  • 从一个什么都不懂的小白,到现在字节跳动的数据分析师,我用了大概1年的时间,在这里想给大家分享一下我的转行经历,希望能有一些帮助。 出于隐私考虑,我就全部打码了。。。先说一下个人背景,本科是工科相关,非...
  • 1、大数据分析框架结构 2、数据、信息与数据分析 数据:是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。 ...
  • 数据分析的思维逻辑步骤

    千次阅读 2018-07-25 17:39:41
    背景:百度运营总监来公司开讲座,作为实习生...找全影响业务数据因子(从各个维度进行分析,少任何一个都可能造成后续分析问题不准确) 整体-->个体(横向纵向交叉分析) 定量(有效的比较,环比&a...
  • 企业业务逻辑常见风险

    千次阅读 2021-01-12 15:06:07
    业务逻辑漏洞主要是开发人员业务流程设计的缺陷,不仅限于网络层、系统层、代码层等,如登录认证绕过、事务数据篡改、恶意接口调用(文件上传调用后台API)等都是业务逻辑漏洞。 测试流程 测试准备 准备阶段主要...
  • 浅谈数据分析和数据建模

    千次阅读 2019-11-26 15:43:02
    过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据,数据分析应用的领域集中在企业内部经营和财务分析。 数字时代到来之后,企业经营的各个阶段都可以被...
  • 本文将分享针对某一项业务比如采购、比如销售、比如运营,如何切入数据分析来解决问题,以什么样的思考方式。 以采购这一项业务为例。在采购过程中,数据分析具有极其重要的战略意义,是优化供应链和采购决策的核心...
  • 如何对业务场景做数据分析

    千次阅读 多人点赞 2017-05-31 09:37:07
    企业的数据分析是个很复杂的工程,需要业务和分析技术两块知识。这里从业务的角度切入,谈谈如何对业务分析,文章参考帆软软件的零售业数据管理方案。首先,企业的分析主要分为管理分析和经营业务分析,分析整体的...
  • 什么是业务逻辑

    万次阅读 多人点赞 2018-09-04 20:32:07
    不同的项目有不同的功能,不同的功能需要...“一个人了解的业务逻辑越多越细,他就是越好的需求分析师。” 难题:什么是业务逻辑?   业务是指一个实体单元向另一个实体单元提供的服务。 逻辑是指根据已有的信...
  • PM之数据分析逻辑能力

    千次阅读 2016-07-26 17:01:43
    这是本人在看了众多PM的数据分析文章,整合在一起的一篇炒鸡长的文章,但是全是干货,希望大家有所成长。感谢众位作者的分享贡献
  • 业务逻辑详解

    万次阅读 多人点赞 2018-01-02 13:51:48
    “一个人了解的业务逻辑越多越细,他就是越好的需求分析师。”难题:什么是业务逻辑?业务是指一个实体单元向另一个实体单元提供的服务。逻辑是指根据已有的信息推出合理的结论的规律。业务逻辑是指
  • 在学习数据分析的过程中,我们可能经常只关注于数据本身,却忽略了数据背后的业务需求,常常是自己埋头苦干做出的分析结果,却被业务一句话给否掉:“你这个结果不符合业务逻辑!” 比如领导让你分析一下最近业绩...
  • (为了与数据分析场景中建模的概念区分,本文的数据建模可以理解为 数据库建模。) 数据建模是什么? 数据建模是一个过程,是对业务现实各类数据进行抽象组织后,确定数据库范围、数据组织形式及实现数据库开发的...
  • 商业数据分析从入门到入职(1)商业数据分析综述

    千次阅读 多人点赞 2020-09-10 17:33:07
    商业数据分析的从业要求包括基础知识、工具、业务能力和软技能;在数据获取、数据处理等5个阶段有各自所需要的技能;评价一个事务需要从多个角度衡量,基本的分析流程包括理解商业问题、准备阶段、数据分析和解释...
  • 电影自助售票系统业务逻辑分析

    千次阅读 2016-08-29 15:09:47
    一站式自助票务系统业务逻辑分析: 一站式自助票务系统包含三部分:售票-->打票--->验票 通过售票按钮购买售票中活动的票,根据个人需求购票。 打票:选择我们所购买活动,同步数据,加载来自各个渠道的全部订单...
  • 数据建模及数据分析浅析

    万次阅读 多人点赞 2018-08-31 10:53:20
    业务部门内部,对数据场景比较了解,容易找到数据变现的场景,数据分析师对业务提升帮助较大,容易出成绩。但是弊端是仅仅对自己部门的业务数据了解,分析只是局限独立的业务单元之内,在数据获取的效率上,数据...
  • 股票数据分析

    万次阅读 2021-11-02 14:59:32
    股票数据分析 前面我们介绍了Spark 和 Spark SQL,今天我们就使用 Spark SQL来分析一下我们的数据,今天我们主要分析一下股票数据 数据准备 交易数据 我们拿到了最近几年的交易数据 下面是具体的数据格式,csv 文件...
  • 无论你是产品人还是运营人,只要与业务相关、与产品相关,你就少不了和数据分析打交道。一套优良的数据分析方法能够高效解决很多问题,并在产品决策/产品运营遇到瓶颈时提供优秀的解决方案。数据分析...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 391,573
精华内容 156,629
关键字:

数据分析业务逻辑