精华内容
下载资源
问答
  • 什么是商业数据分析师?

    千次阅读 2019-07-27 16:33:13
    现在显然已经是数据智能时代了,传统商业和智能商业的本质区别可以用一个字来概括:“活的闭环”。 数据是“活”的,用户的每一次行为都转化为新的数据汇入数据的大海,而每一个新数据的汇入都实时 引发各个数据集的...

    前言背景

    现在显然已经是数据智能时代了,传统商业和智能商业的本质区别可以用一个字来概括:“活的闭环”。数据是“活”的,用户的每一次行为
    都转化为新的数据汇入数据的大海,而每一个新数据的汇入都实时引发各个数据集的连锁反应;算法是“活”的,用户对产品、服务的每一
    次体验,都成为算法迭代成长的养分,使算法越来越聪明地反映商业本质;反馈闭环是“活”的,在其中, 产品在迭代,数据在流动,算法
    在成长;最终,我们所熟悉的工业时代的机械逻辑——预先设定一切——将被彻底颠覆,取而代之的将会是一个全新的商业生态系统和商
    业形态。
    图片来源网络

    1.点线面体的思维模式

    在这里插入图片描述

    用一个例子开篇

    举个例子:
    有一对双胞胎,在2011年一起大学毕业,一个加入腾讯,一个进入报社。7年之后,去腾讯的那位已经是年薪百万,而且满街都是挖他的猎头。投资人也在挖他,只要出来创业就给钱。去报社的那位,因为报社沉沦了,他曾经寄托理想的整个产业都没有了,一切都需要重来。
    这里不是说双胞胎的素质或者能力有多大差异,也不是说他们分别跟随的领导的能力或者个人操守有问题。
    敲黑板!!!核心问题是——这两个单位所附着的经济体,一个在快速崛起,一个在快速崩溃。
    这就是我们要谈的点线面体。其实我们都有体会,努力工作的工资收益,远远不如2013年以前买了腾讯的股票,或者2010年以前买了北上广的房子。
    为什么?
    因为你再努力工作,你还是一个点。一个月或一年的工资,只是一个点的努力成果。但是腾讯股票与北上广房子的收益,是因为这个点附着于一个快速崛起的经济体,这是一个线性周期的结果。对于做投资来说,你需要首先选择某个正在崛起的大型经济体,接着去找一个领域,投它的成长周期。所以你会发现很多投资人,会投资一个赛道上所有的产业。为什么呢?因为他不赌单点,而是整个周期的收益。
    有一个经典的悲催人生警示:
    悲催的人生,就是在一个常态的面上,做一个勤奋的点。
    更悲催的人生,就是在一个看上去常态的面上,做一个勤奋的点,你每天都在想着未来,但其实这个面正在下沉。
    最悲催的人生,就是在一个看上去常态的面上,做一个勤奋的点,其实这个面附着的经济体正在下沉。

    上面就是我以这个案例给大家开篇的目的所在,在社会大环境下要找准自己的定位,顺势而为,及时做出改变。

    2.DT时代

    许多互联网大拿都说过,我们现在所处的时代是:ABC=DT时代
    在这里插入图片描述
    从移动互联网时代迈入数据技术时代,数据技术造就了优秀的互联网公司,如阿里、头条。人工智能尝试应用多个领域,如无人驾驶、无人机、医疗诊断等。区块链和虚拟货币的大火背后也是数据技术的驱动。可以说数据技术给很多公司带来以往达不到的增长收益。

    3.商业数据分析师:从BI到AI

    在这里插入图片描述
    BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。而随着深度学习技术的突破,是的人工智能又能跟进一步。在海量数据的今天,传统方法已经难以支撑企业的正常需求,现在很多数据达到了PB级。这么海量的数据需要更强大的计算资源,需要强大的挖掘算法等才能给我们挖掘出更多的价值。

    自动化打开效率之门
    借助BI,用户可以访问大量数据,但必须提出适当的问题才能获得正确的洞察。对于没有BI经验的用户来说,这证明是有问题的,他们可能不知道什么样的请求会得到最有价值的信息。AI是打破这一门槛的关键,它可以有效消除预先确定问题的需要。AI中的自动化功能让计算机能够通过确定数据点之间的关系,处理BI数据分析,以生成相关洞察,甚至是用户不知道的必要洞察。发现这些关键业务关系后,解决方案会自动生成仪表板,形象地呈现发现的问题。
    以制造业为例,AI和BI可以帮助追踪之前的机器故障,并收集导致这些故障的详细信息,例如繁重的工作流程或机器老化。然后这些信息可以应用到现有机器上,机器根据类似的情况,当需要维护时自动发出警报。最终,制造商将能够防患于未然,降低维修时间和成本,最终提高效率。

    AI和BI结合使用,实现更高准确性
    结合使用AI和BI不仅可以让更多人能够使用这些解决方案,还可以增加可被分析的数据量。机器学习技术分析大数据集的速度比人类更快,这让每次决策能够考虑更多信息,同时减少检查这些信息的时间,最终提高使用BI的效率和准确性。
    这在零售业尤其有效,特别是传统企业,由于当今电商巨头的出现,它们正在经历巨大的变化。传统零售商必须采用智能技术才能保持领先,通过结合AI和BI,零售商可以根据过去六年(而不是过去六个月)的销售量数据做出库存决策。这会让零售商更准确地了解消费者偏好,保证在正确的时间提供正确的产品,从而在每次决策时都能将消费者摆在重要位置。

    下面用思维导图的方式展现给大家-从BI到AI过度的过程中会经历哪几个阶段,分别有哪些特点。
    在这里插入图片描述
    上面这张图从BI到AI发展的过程会遇到的四个阶段,以及各个阶段的业务要求,阶段特点。希望通过他,大家对BI到AI发展的原因和会遇到的一些瓶颈有所理解了。

    4.我该如何成为商业数据分析师呢?

    商业数据分析师要做什么?
    商业分析师负责利用数据分析将IT技术和商业联系起来,通过数据分析帮助企业优化生产流程,产品,服务和软件,评估生产流程,确定产品需求并向管理层和投资者提供数据驱动的建议和报告。
    敏锐的分析师们填补了技术与商业之间的鸿沟,提高生产效率并实现技术的商业价值。
    国际商业分析协会(IIBA),定义商业分析师是“变革的推动者”,他们认为商业分析“是一种为组织引入和管理变革的规范方法,无论他们是营利性企业,政府或非营利组织。“
    商业分析师需要兼具硬软技能。商业分析师需要知道如何获取,分析和报告数据趋势,并能够与其他人分享这些信息并将其运用于商业之中。并非所有的商业分析师都需要IT方面的背景知识,只要他们对信息系统,产品和工具的工作方式有一个基础的了解即可。另外,还有一些商业分析师是具有强大的IT背景但较少的商业经验,他们也有兴趣从IT技术岗位转型到这种混合角色

    作为一个合格的商业分析师,我们需要什么能力?

    1.统计相关的数学知识

    在这里插入图片描述
    我们在之后的专栏当中会给大家逐个讲解在解决业务分析的过程中会用到的一些统计学知识。
    例如:我们专栏安排中有以下内容
    2.5.1:统计学入门
    (1)描述统计学基础
    (2)概率
    (3)正态分布
    (4)中心极限定理
    (5)Python应用
    2.5.2:统计学进阶
    (1)推论统计学基础
    (2)置信区间
    (3)假设检验
    (4)线性回归
    (5)多元线性回归
    (6)逻辑回归
    我相信通过这些学习,我们会掌握一些统计学在数据分析中的应用。

    2.趁手的工具和分析思维

    Excel SQL
    Python 业务理解能力
    社交和咨询技能分析思维和解决问题的能力 口头和书面沟通技巧
    成本收益分析 利益相关者分析

    那么,到现在为止。我想大家应该对商业数据分析师有了一个大致的概念了。但是在这里要强调的是,这不是单纯的商业分析师,也不是单纯的数据分析师,而是综合的复合型人才,既要有商业的一些分析方法和对业务的理解,又要会数理统计的一些分析方法,只有这样才能更好的适应从BI到AI的过度升级。
    商业分析师的分析方法和模型其实有很多很多,关键是要熟练掌握一部分方法,再结合业务、结合公司情况去分析。之后我们也会加大家如何利用所学技能去分析业务的各个环节并实现用户增长的方案。
    下面举例几种方法:
    1、KANO分析模型
    2、5W2H分析模型
    3、逻辑树分析模型
    4、战略钟分析模型
    5、RFM客户价值模型

    而作为数据分析的硬核技能,我们有需要掌握一些处理数据的工具,包括一些统计学的方法,并会建模分析,能够做预测分析,再结合商业分析的方法和业务的一些情况,我们才能做的更好。
    作为一名数据分析师,如果你能够站在业务领导的高度,主动的思考问题并提出解决方案,有很好的表达技巧说服业务人员接受你的观点,并能够全程推动和监控方案的落地实施,那么你一定能够通过数据来推动业务的持续发展。这几点看似很难,但只要你能够明确方向,一点一点的推进,你一定会惊喜的发现,原来通过数据影响业务并没有那么困难,随着业务对于数据依赖的不断加强,你的价值也会不断凸显,升职加薪自然水到渠成。

    接下来很长一段时间,我将会和另外一名数据挖掘工程师和大家一起探讨怎么能把商业数据分析师应知应会的方法理解透彻,并且能够很好的和业务衔接起来,期待您的阅读。

    展开全文
  • 数据分析是从数据中提取、转换、加载、建模、绘制结论,最终为决策提供支持的过程。根据不同工作流程所处阶段和分析需求角度出发,分析可被划分为描述性分析(Descriptive analysis)、诊断性分析(Diagnostic ...
  • 1.商业分析是什么 2.商业分析的能力要求 3.商业分析师三大技能项之懂业务 4.商业分析师三大技能项之会拆解 5.商业分析师三大技能项之重指标 ...

    1.商业分析是什么

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.商业分析的能力要求

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3.商业分析师三大技能项之懂业务

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    4.商业分析师三大技能项之会拆解

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.商业分析师三大技能项之重指标

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    6.问题诊断框架

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 在上一篇文章中,我们给大家介绍了传统的商业分析模式怎么被数据分析一步一步取代的,数据分析这种新型的分析方式使得传统的商业分析模式逐渐的走向死亡,那么数据分析和传统的商业分析中有什么优点呢?...
        
    13825820-64d80085a6de7075.jpg

    在上一篇文章中,我们给大家介绍了传统的商业分析模式是怎么被数据分析一步一步取代的,数据分析这种新型的分析方式使得传统的商业分析模式逐渐的走向死亡,那么数据分析和传统的商业分析中有什么优点呢?下面就由小编为大家解答一下这个问题,希望这篇文章能够给大家带来帮助。

    数据分析中有计算引擎上的编译器和多样化的数据清洗。我们先来说一说计算引擎上的编译器。一般来说,新鲜的数据分析往往采用以下两种方式:预处理和分析引擎。分析引擎负责执行所需的计算,以回答关于存在于业务数据中的关键问题。而现在又出现了一个新的竞争者:分析编译器。分析编译器可以灵活地将计算部署到不同的基础设施。分析编译器的例子包括现在热门的TensorFlow,它可以将计算部署到GPU或CPU,Drill和Quasar、Analytics。但是编译器比引擎更加灵活,因为编译器可以采取数字处理的方法,并将它们转换为运行在不同的基础架构(数据库,Spark,GPU等)。理论上,编译器也可以生成工作流,其运行速度比任何采用解释器执行的引擎都要快。即使Spark一致寻求添加基本的编译组件,但是保留编译器的信号已经很明确了,并且最终可能会迭代出一个纯粹的计算引擎。与此可见,数据分析行业中东西都是不断的被取代,结果却走向更好。

    然后给大家说一说多样化的数据清洗。依据英文首字母进行的缩写词会极大地增加“ETL”的工作难度和压力,会导致抽取转换装载不完整、重复和不相关。而ETL是智能化,效率和数据驱动的对立面。ETL意味着无限复制的数据,无数的延迟和高昂的费用。这通常还意味着无法回答最重要的问题。

    数据分析师为了使ETL更加灵活,业界开发了多种替代方案,目前VC积极参与其中。这些解决方案的范围很广,从使ETL更容易进入Hadoop或数据仓库的高级ETL工具,到流式ETL解决方案,到利用机器学习交叉引用和重复数据删除的ETL解决方案等等。技术类别包括Dremio和Xcalar等工具,它们将ETL重新设计为提取负载转换。实质上,它们将转换一推到底并使其变得简单化,因此用户不必进行任何前期提取,加载或转换。从历史上看,ELT的发展一直很慢,但是这些下一代解决方案通过动态重塑,索引和缓存常见转换来使ELT更快速。这为您提供了传统ETL的性能,以及后期转换的灵活性。

    通过上面的内容,我们不难发现数据分析行业中存在了很多的内容,这些内容就是使得数据分析行业不断进步的过程,所以,我们要顺应这个时代的发展,才能够立于不败之地。

    展开全文
  • 商业数据分析入门 1.1 什么是数据分析 数据分析:根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策制定。 这个定义从两个层面来解释数据分析: ...

    商业数据分析入门

    1.1 什么是数据分析

    数据分析:根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策制定。

    这个定义是从两个层面来解释数据分析:

    • 它具体是在做什么?
    • 它能产生什么样的价值?

    “全流程”的数据项目流程:业务问题的界定 → 数据收集与清晰 → 分析与模型

    数据分析的价值最终体现在业务

    数据分析工作的作用:为企业盈利,为企业的生存与发展建立基础。

    数据分析是怎么提高企业盈利的?

    传统的零售企业中,

    盈利 = 销售所产生的收入 - 外部市场和内部经营所产生的成本和损失

    销售所产生的收入(提高收入):

    1. 更低成本获取顾客
    2. 提高现有顾客购买金额
    3. 让购买中低端产品的顾客购买更高价、利润更高的产品

    外部市场和内部经营所产生的成本和损失(成本和风险控制):

    1. 帮助企业预测市场走向
    2. 减少产品滞销和畅销产品断货的几率
    3. 优化内部经营的效率
    案例:互联网企业 ——领英

    他们的商业模式意味着用户的数量和活跃度是获取融资直到实现盈利前的生存基础

    **关注的数据:**注册数量、每日活跃用户数、客户留存比率

    数据分析:

    • 帮助企业提升用户从注册到活跃的比例
    • 辅助降低用户流失的数量,保证客户的数量和粘度

    领英对用户数据深度挖掘,推出了“你也可能认识的人”的功能,强化了用户的关系粘度,实现了用户网络的爆炸式增长。

    数据分析的重要性

    数据增长,用户创造了大量的数据。

    在许多新兴技术支持上,上网浏览的许多细节都会被记录下来。比如点击、滚动、悬浮、视频播放的暂停、快进等。

    信息本身可能占用的空间不大,但由于用户基数众多,也形成了巨大的数据量

    市场环境,数据的存储与计算能力不断提升,使我们可以服务千万个用户

    硬件软件各方面成本的下降 → 企业可以存储更大更丰富的数据

    持续迭代优化的算法模型 → 计算能力可以逐渐满足实时的计算需求

    在大数据环境下,基于分析所进行的各种场景优化,都可以进行数据采纳和验证,使数据分析的价值可以量化

    以前在营销领域有句名言:“我知道自己50%的广告费是浪费了,但是我不知道是哪个50%”,而在如今丰富的数据源和强大的计算能力下,我们可以明确的知道那浪费50%的广告费的是哪些媒介与渠道。

    数据分析的人才需求

    数据分析人员的两个重要能力要求:

    • 与人沟通协作的能力:与非技术人员明确业务问题,将数据分析结果沟通给其他成员
    • 与机器工作的能力:向机器提供数据,模型与算法,并分析机器所给出的结论

    覆盖以下几个领域:

    • 从关系型数据库中查询,收集和整理数据的能力 ---- SQL语言
    • 对数据进行清洗,整理,分析和模型的能力 ---- Python
    • 对数据探索和分析结果进行可视化展示的能力 ---- Tableau和Excel

    1.2 数据分析工作流程

    1. 定义问题:
    • 定义所需分析的业务问题,确定相对应的数据分析计划和交付物
    • 三个常见的业务问题类型:what、why和how
    • 和业务方一起用数据驱动问题,将原本简单是what需求背后的why和how问题挖出来,是界定问题工作的重点
    2. 数据收集与评估
    • 根据问题确定所需的内部和外部数据源,汇总成分析数据集,并进行初步数据质量的评估
    3. 数据整理与清洗
    • 检查数据中可能存在的问题,对有错误或有问题的数据进行清洗,并将数据整理成命名规范,取值格式统一的形式
    4. 数据探索与可视化
    • 进行初步的数据探索分析,在可视化工具的帮助下,找到数据的底层结构和规律以及能帮助解决问题的关键因素
    5. 数据分析模型
    • 将变量信息输入到分析模型中,经过模型的选择和调整,最终给出能部署到业务中的数据分析结果

    当然,并非所有工作都是严格按顺序进行的。

    • 在定义业务问题时,大部分情况下已经对企业所拥有的数据有所了解,而不是在确定问题之后再去了解数据

    • 数据整理与清晰和探索与可视化之间,没有绝对划清的界限,数据探索可能会发现在清洗过程中没有注意到的数据问题

    • 不一定需要更复杂的模型工作才能算是数据分析项目的完结

    案例:宜家

    宜家是依靠会员体系进行客户运营的商业模式,可以说是数据分析能发挥最大价值的场景之一

    宜家的挑战:

    • 行业角度:
      • 宜家是开创以平实价格销售,自行组装家具的领导品牌
      • 但是国内市场良莠不齐,宜家品牌优势受到冲击
    • 消费者角度:
      • 不同顾客群体的购买习惯和关注产品差异很大了
      • 价格敏感度决定了他们是否认可宜家的品牌定位

    能够用数据深度理解客户的态度和行为成了重要的竞争优势

    以宜家为代表的实体零售是最早累积数据的领域,如POS机、早期IT系统,累积了每个交易的细节,如购买时间、购买产品、相关折扣和最终销售金额等。

    宜家从创立之初就建立了会员体系,已经拥有了1800万的注册会员,顾客在商店和微信端都可以免费注册,享受相关的会员购买和餐饮方面的优惠,这些注册时的手机号和姓名等,都可以和公司内部以及第三方数据进行打通。

    线下门店和线上会员运营的O2O结合

    为宜家这样的企业转型为新零售模式提供了坚实的数据基础

    1.3 界定分析问题

    提出了一个好的问题可以说把问题解决了一半

    像宜家这样规模庞大的企业,拥有丰富的用户,交易,门店和产品数据,如何更好的定义问题,以提升数据分析工作的落地价值?

    分析问题大体可以分为下面三类问题:

    • what 什么发生了?
      • what类问题通常围绕企业所关注的重点指标。如“我们这个月的收入和利润如何”、“每个顾客在我店里大概会花多少钱”、“家具类产品里面是沙发卖的好还是桌子好”
      • 不仅要观测这些指标的当前值,还要监控他们本周、本月、本年的表现,也要比较这类数据与上个月或者上个季度或者去年同期的数据
      • 对于总体业务稳定的企业,要将重要指标汇总到报表中,让系统可以自动化的定期更新,帮助业务方和决策者可以随时了解企业的经营状况
    • why 为什么会发生?
      • why类问题关注的是业务现状背后的原因,如“为什么顾客购买的平均单价在下降”,这里可能涉及的原因有:经济、市场和其他因素,对宜家来说,直接原因就是顾客没有花钱在价格高的商品上
    • how 我们能做什么?
      • 在很多带给数据分析人员的why类问题,都有着来自于业务方面关于how的需求,比如刚刚的“顾客花钱少的问题”,业务方和企业管理层想要知道的是“我们怎么能让他们在宜家店里多花钱”
      • 这时候对于传统零售企业可能会采用“全场打折”这种老套路,但是对于宜家这种数据驱动的企业,会采用“精准营销”,这时候,业务问题就是“识别高价值顾客,实施针对性的营销方案,发放专属优惠券促进顾客购买
      • 我们可以将这句话拆分成两个部分:
        • 定义高价值顾客,并从数据中识别高价值顾客的具体特征。(将客户分成若干个群组,并从中找到可以定义为高价值的人群,再根据这个群组对应特征描述,为下一步的营销方案制定策略)
        • 选择那些在收到优惠券之后使用的顾客,并跟踪分析后续的使用和购买情况

    业务人员往往带着what问题而来,我们需要用数据引导他们走向why/how的问题层

    这里采用逐步分拆的方法,从宜家整体收入的变化,分拆到各个价位的产品和销售情况,找到what原因,针对性的提出why/how

    高价值用户的识别问题,可以依靠用户分群类的统计分析、回归模型的方法。

    最后,明确衡量分析项目成功的标准。

    在实际选择发放优惠券的客群中,通常会在模型所选客群之外,随机选择一部分顾客作为对比测试,这部分顾客也会收到优惠券,在活动之后,会对比两组人使用优惠券的情况。

    解决方法
    what 以在数据库中抽取,拼接,聚合为主 Excel或者Tableau可视化报表
    how 从数据中找出洞见,在what呈现的报表基础上做简单的数据探索和分析 以PPT或者文档方式攥写结论报告
    why 提出对应的分析模型解决 模型结论和实施方案

    1.4 数据收集与评估

    基于前面所设定的数据分析问题和计划,在此步骤中,将收集后续分析所需的原始数据,并进行基本的数据质量评估

    • 在收集过程中,注意各数据源的格式以及相关关系
    • 在评估过程中,注意数据的完整性,准确性和及时性
    分析数据的收集
    广义的数据收集

    企业将有关自身利益的各类内部和外部数据纳入到数据库的系统流程,在法律允许的范围之内,充分的收集用户社会,行为,消费信息,对于扩展分析维度会有很好的帮助

    侠义的数据收集

    从数据库的多个数据表中进行抽取、拼接、聚合的工作,以形成解决问题所需的数据集的过程。

    这个情况下面对的大多是关系型数据库,这里的关系是指由行和列组成的二维表格。

    1. 数据收取

    从工作的效率考虑:

    • 对数据进行随机抽样以节省数据探索和分析时间
    • 在分析结论和模型验证通过后,再部署到全量数据
    2.数据拼接

    这里要注意表和表之间的关联关系,关联关系大体分为三种:一对一,一对多,多对多。

    拼接过程中一般避免多对多的关联关系

    3.数据聚合

    用户每次在网站或者APP上所停留的时间可以聚合为用户最近一个月平均访问时长。这是因为单次访问时间可长可短,但是选取最近一个月的时间,并进行平均处理,就是比较稳定的反应用户的粘度信息。

    固化在SQL代码中,形成强有力的标签化工具。

    如”用户最近一个月平均访问时长“,按照该指标的大小,将用户区贴上”高粘度“、”中粘度“、”低粘度“的标签,这些标签容易被业务人员理解,安排营销活动就可以有的放矢。

    从原始访问时间数据,到生成用户粘度标签,也被称为”衍生变量

    在做数据探索时,发现的新的有价值的衍生变量,也应该反馈到这一步中。

    在数据收集过程前,要评估各个数据源的完整性和及时性

    • 完整性检查:原始数据不存在和已知业务常识之间的明显差距

    • 及时性检查:确保各数据源都反应的是相同时间窗口数据,这对依靠第三方公司来管理营销活动的企业来说尤其重要

    **在分析数据集后,**需要评估汇总数据的准确性和一致性,经过SQL语言的抽样和聚合处理,注意分析数据和原始数据的差异。

    对于关键的数据可以进行简单的统计查询,如用户年龄的最大最小值,订单金额的最大值最小值和分布,此类方式可以快速排除在收集数据中因为SQL语句所产生的问题。

    总结:根据所需解决的数据分析问题 → 完成从多个数据表中拼接聚合数据的过程 → 确认数据在收集前后完整而且准确后 → 对数据质量进行变量级别的清洗与整理

    1.5 数据清洗与整理

    • 清洗:将有问题的数据排除出去
      • 涉及对数据缺失、异常和其他问题的处理
      • 清洗环节被认为最需要时间和精力的环节,通常会占据到整个数据分析项目中60%-80%的时间
    • 整理:将数据转化成更有助于后续分析的样式,如将实际年龄转换成80后、90后、00后这样有业务意义的分组

    一定程度是数据确实,在现实项目中可以说是司空见惯

    数据缺失问题:
    • 缺失的信息来自于哪个数据表?在原表中它们也是缺失的吗?

      • 这两个问题可以排除在数据抽取和拼接过程中所产生的错误
    • 如果在原表也缺失,那么是否有收集信息的疏漏?

      • 从业务角度上,性别或者收入这类较为敏感的信息,很有可能是因为在注册时就拒绝填写而产生。可以考虑在注册时,提供一定的激励手段,鼓励用户提供此类信息。
      • 如果业务团队反馈数据当时的收集过的,那么说明底层数据的录入有问题
    • 缺失信息的比例是多少?

      • 在排除了系统和流程问题之后,才会考虑技术处理的方法
      • 当缺失比例超过90%的时候,我们认为改变量无法提供有用的信息,可以进行删除
      • 当缺失比例较低时,可以采用均值、中位数或者回归方式填充
    数据异常问题(三种主要的类型)
    • 数据有明显违背常识的错误

    为什么这个问题没有在数据质量评估的时候被发现呢?

    在数据收集时,更多的看的是汇总层面的数据,几百万用户产生几千万的销售额,我们要看的是收集处理前后还是几千万

    • 数据的离群值 —— outlier

      • 离群值是指与其他数据差异较大,会对数据分析结果产生影响的观测值
      • 先检查同一客户原表是否是同样的数值 → 再检查此数据是如何收集而来 → 从技术角度评估是否是离群以及如何对这个离群值进行处理
    • 特殊数字

      • 某些数据仓库系统的表格不允许出现留空,IT人员可能会以99999这样的特殊数字来标注”缺失值“
      • 在理想情况下,我们会有完善的数据字典可以查询。如果没有,也可以和相关团队沟通证实此类问题。

    早期在美国的数据分析行业,流传过一个段子。

    在斯克内克塔迪这样一个不为人知的小镇,贡献了美国很多企业30%以上的用户,而这个镇的人口也不过7万人。这是为什么呢?

    原来这个小镇的邮政编码是12345,很多用户在注册信息时,为了不泄露自己个人信息,都随手填了这个邮政编码。

    这个真实存在,却又很可能错误的邮政编码,就有待我们数据分析人员来解决了。

    数据的整理

    清洗掉数据中的缺失和错误,对离群值等进行核实和调整

    主要有两个任务:

    • 对数据进行统一的格式化和命名规则处理
      • 数据命名或者取值的不规范会影响数据探索以及后续分析
      • 比如在城市字段里,会有:北京市 上海 内蒙 上海市。这里不规范的地方有:全名和简称的差异如上海和上海市其实是一个地方。内蒙作为省却被放入了城市这一栏里。
      • 由于不影响数据整体行数、列数,也不属于明显的数据异常,在数据质量检查和数据异常中都很难被发现
      • 一旦对用户进行区域画像,找出高价值用户的热门城市,就一定要对城市这以数据进行规范化标注。
    • 对某些信息进行重新编码以满足后续分析需求
      • 对数据重新编码,可以帮助挖掘新的信息
      • 比如交易时间 2019/02/20 15:26 ,我们可以重新编码为工作日 下午 2-4点时间段
      • 业务假设:工作日下午到宜家购物和在周末进店的客户是有一定区别的。
      • 我们可以将这两组用户的购买产品、金额等从数据库中拼接出来进行对比来验证假设,如果被验证了,那么这个重新编码是非常有意义的信息,应该反馈到最开始的数据收集过程中,直接固化为可以调取的标签

    对数据进行编码的需求来自数据的认识,而对数据的认识来自数据探索的阶段。

    1.6 数据探索与可视化

    主要目标:寻找数据现象的规律,提出初步的业务洞见,为解决问题提供关键变量。

    在这个阶段中,数据可视化将发挥巨大的作用。

    如何找到“高价值顾客”

    价值无法直接衡量和观测,因此需要先从现有信息中找到一个变量来间接反映价值,首先可以从“累计购买总额”这个变量来做分析

    如果6个月以内没有在宜家购买任何产品,则有可能流失到竞争对手,短期内不应该被视为高价值用户,曾经的高消费可能是一次性装修等产生的需求

    哪些用户更容易被优惠券打动而进店购买

    宜家的邮寄广告是重要的营销媒介,每年发行的居家指南号称是除了《圣经》之外最被广为散布的书籍。

    在收集数据过程中,提供了“优惠券兑换记录”这个标签,这个标签的创建规则是:

    • 收到邮寄广告后14天内进入店并且兑换优惠券的顾客,标签取值为1
    • 收到优惠券后并没有兑换使用的顾客,标签取值为0

    计算相关系数来研究是否兑换优惠券和其他变量之间的相关关系

    通过分析,与兑换优惠券关系最强的三个变量分别是:顾客注册时长、会员是否关注微信公众号、最近一次购买金额

    这些变量都不在原始表中,创建这些变量的过程常称为衍生变量,在机器学习领域也被称为特征工程

    多维度的衍生变量使得后续的分析模型更加准确,如何找到这些变量也依赖于对业务的理解。

    好的探索分析依赖于统计经验、可视化工具和业务知识。

    1.7 数据分析模型

    数据分析模型是将数据中的洞见转变成商业决策的关键步骤,也是所有数据分析工作中最终产生价值的环节,所谓数据分析模型,就是对数据分析中各种规律的抽象总结。

    本环节中要解决的问题:客户分群 & 预测分类

    客户分群

    在刚才的例子中,我们定义高价值顾客,并从数据中识别高价值顾客的具体特征。我们从销售贡献和最近购买时间入手,其实已经找到了两个X,这个切分不具有完全的科学,且仅仅使用两个变量也损失了其他很多有价值的信息。

    我们能否将所有的变量都纳入到分析中,让机器计算出最佳的分组呢?

    在找到高价值用户的特征时,我们用了聚类分析来进行客群的设定。如果“累积销售金额”就是顾客价值的体现,那我们可以直接使用回归模型建立Y=AX+B的模型。

    回归模型和分类模型不同的就是,回归预测的是诸如销售额、股票价格、GDP这样的数字型变量。当我们把模型建立出来的时候,其实就是达到了和聚类分析类似的目的。

    宜家高价值客户的三类人群:顾客平均的5倍以上花费

    • 城市新居住者:购买店面发生改变,送货地址发生改变,购买产品为生活日用类为主,注册手机号与所购买城市不同
    • 新婚家庭:顾客为男性为主,购买产品为家具类为主,双人床和衣柜等高价格家具关注度高于其他人群
    • 初为父母:顾客为女性为主,初次购买儿童/婴幼儿产品类型

    要获得好的分群效果,最重要的一点便是用于聚类的变量可以被认为不同的维度。

    RFM分析:

    RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过用户近期购买日期,购买频率和购买金额3项指标来描述该客户的价值状况。

    • 维度1:个人信息数据(年龄,性别)
    • 维度2:购买记录数据(频率、间隔周期、价值、产品偏好)
    • 维度3:需求和兴趣(网络浏览偏好、居住区域特征、生活习惯)

    缺陷:三个要素(近期购买日期,购买频率,购买金额)都是围绕用户的购买行为而来,非金钱类的行为特征

    预测分类

    在上面预测哪些用户会在收到优惠券后使用与购买中,这里的优惠券兑换是Y,在这种情况下,我们告诉计算机哪个变量是预测目标,这也被称为是“监督式学习”。这和前面讲到的以分群为代表的“非监督式学习”不同。

    展开全文
  • 数据分析是什么

    2018-10-18 19:25:09
    数据分析是指对海量的数据进行分析。大数据有4个显著的特点, 海量数据、急速、种类繁多、数据真实。大数据被称为当今最有潜质的IT词汇,接踵而来的的数据挖掘、数据安全、数据分析、数据存储等等围绕大数据的商业...
  • 这些系统的统一特点都:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。 ...
  • 取决于行业,数据分析师可能有不同的头衔(比如:商业分析师,商业智能分析师,业务/运营分析师,数据分析师)不管头衔是什么数据分析师是一个能适应不同角色和团队的多面手以帮助别人做出更好的数据驱动的决策。...
  • 本人于明年毕业于英国诺丁汉大学的商业数据分析专业,目前在一家CRM公司的数据分析岗位实习。在这我愿意分享和总结我的学习和工作经历,帮助有意愿从事这一行业的同学在数据分析的道路上少走弯路~ (先发布系统的从零...
  • 其实并不是这样的,数据分析和传统的商业分析都有各自的优点的,下面就由小编为大家好好讲述一下数据分析和传统的商业分析。 就现在而言,传统的商业模式有很多的内容,这些内容的质量良莠不齐,虽然市场巨大...
  • 商业数据分析(1)

    2020-02-12 11:30:30
    什么是商业数据分析?2. 所需技能3. 数据的质量与形式(1)质量(2)形式 第1章 商业数据分析综述 1. 什么是商业数据分析? 从业要求 = 基础知识 + 工具 + 业务知识 + 软技能 基于数据,通过分析手段,挖掘出商业...
  • 1、商业分析是什么 2、商业分析师在做什么 3、为什么要学习商业分析 4、商业分析师的能力要求 商业分析的过程: 1、商业分析的产生 历史上的商业分析:草船借箭 案例:盒马鲜生中的商业分析 “吃-...
  • 本人于明年毕业于英国诺丁汉大学的商业数据分析专业,目前在一家CRM公司的数据分析岗位实习。在这我愿意分享和总结我的学习和工作经历,帮助有意愿从事这一行业的同学在数据分析的道路上少走弯路~ (先发布系统的从零...
  • 时下,随着中国企业数据整合应用的意识不断提高,power BI 商业数据分析的应用驶入飞速发展的“快车道”。power BI 商业智能利用数据分析技术与业务场景联系起来,通过一系列思维方法、指标体系及工具模型来支持市场...
  • 一、数据分析的框架 思维逻辑,宏观视野、中观方法论、微观...① 问题是什么,业务方需求是什么 ② 过往经验,整合问题(之前有没有做过),提高效率。明确问题轻重点 第二阶段:解决问题;建模、处理和分析数据(...
  • 商业数据分析流程

    2019-05-12 15:10:00
    数据分析大体上的分析结构如下所示(分析流程图如下所示): 首先,需要对现状和预期有一个很好的把握。其次,弄清现状和预期之间的差距,并调查导致差距产生的关键因素,即发现问题。这样的因素可能很多,所以要...
  • 1. 数据分析是根据分析目的,用适当的分析方法及工具,对数据进行分析,提取有价值的信息,形成有效结论的过程。 2. 数据分析的作用: 通过观察数据知道当前发生l什么 通过具体的数据拆解,理解为什么发生 预测...
  • 其实我们平时所说的商业分析,数据分析商业感觉到底是神马,它并不是什么很高深的理论或者别人捉摸不透的玩意。不是具体的结果,而是我们的分析的思维方式。  我们应该都听过「数据分析师不是数羊」的故事,如果...
  • 这两种事物使得数据分析有了极大的发展,但是数据分析不仅仅靠这个发展的,还有很多更优质的内容,就是数据分析中有开放的数据孤岛和落地的机器学习技术。这四种的有机结合使得数据发展有了很快的发展。 首先给...
  • 数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。  大数据作为时下最火热的IT行业的词汇,随之而来的...
  • 从事大数据工作的职位可称之为大数据工程师,“大数据工程师”往往不是一个人,而是一个团队,它意味着从数据的收集、整理展现、分析商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、...
  • 不了解BI的企业经常会有这样的疑问:别人家的报表分析为什么分分钟便能做出可视化的效果?看着也就就几张图表啊...且不论企业选用了何种BI产品,为什么很多看似简单的数据分析报表做起来却很难?为什么企业的BI方案...
  • 商业数据分析第一记

    2019-06-13 11:25:00
    什么是商业数据分析? ●从业要求=基础知识+工具+业务能力+软技能●基于数据通过分析手段挖掘出商业价值,解决商业问题 所需技能 首先就是数学知识,数学知识从小到大一直在学的,虽然很枯燥,但是它必不可少...
  • 对于企业而言,运用数据的...那么,商业数据分析的层次和进行的步骤是什么呢,下面我将展开说明。 商业数据分析的层次 1.描述性分析 描述性分析主要是对已经发生的事实用数据做出准确的描述。目前的BI分析基本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,543
精华内容 617
关键字:

商业数据分析是什么