精华内容
下载资源
问答
  • 商业数据分析

    2018-06-12 22:42:00
    。。。。。。 转载于:https://www.cnblogs.com/xyp666/p/9175436.html

    。。。。。。

    转载于:https://www.cnblogs.com/xyp666/p/9175436.html

    展开全文
  • 商业数据分析的课程是电子商务等专业开设的,这是 第二章:商业数据收集,主要从数据如何收集角度进行讲授。具体内容可以购买我编写的商业数据分析教材。
  • 商业数据分析从入门到入职(1)商业数据分析综述

    千次阅读 多人点赞 2020-09-10 17:33:07
    商业数据分析的从业要求包括基础知识、工具、业务能力和软技能;在数据获取、数据处理等5个阶段有各自所需要的技能;评价一个事务需要从多个角度衡量,基本的分析流程包括理解商业问题、准备阶段、数据分析和解释...

    一、商业数据分析概念

    1.商业数据分析引入

    先列举几个案例:
    (1)请估计一下2020年八月份在北京卖出有多少双鞋子?
    显然,这是一个很开放的问题,并不像在学校里的题目都有标准答案,是需要经过自己的思考、定义和分析的。

    (2)Corley主营在网上卖手机壳,根据销售数据,发现8月份比7月份购买手机壳的顾客数量下降了10%,怎么回事?
    这也是一个开放的问题,可以从内部和外部两方面来思考问题:

    • 外部
      是手机销售量下降了还是同行业竞争对手出现了,或者经济不景气?物流延迟?
    • 内部
      销售环节出了问题?哪一类用户下降?

    重点需要分析背后的原因,因此需要分析问题的能力。
    很多时候我们觉得学校学到的东西都没用,那只是因为我们没有将学校的知识与实际应用结合起来。

    2.什么是商业数据分析?

    商业数据分析从业要求:

    • 基础知识
    • 工具
    • 业务能力
    • 软技能

    举一个例子,拿学武功来说,武功秘籍就是基础知识,宝剑就是工具,在实际练武过程中就得到了面对不同武功和不同对手所需要的方法和技巧,慢慢培养出了业务能力,出神入化之后形成了自己的软技能。

    基于数据通过分析手段挖掘出商业价值,解决商业问题,并通过分析商业问题建立相应的分析模型。
    上面的几个案例都可以通过数据分析的手段得出结论。

    3.所需技能

    数据分析大致分为5个阶段:数据获取、数据处理、数据分析与建模、数据解释与呈现、验证及优化。
    这五个阶段在上述的基础知识、工具和业务能力方面又有不同的要求,具体如下:
    所需技能

    4.基本分析流程和供应链各个环节

    再举一个案例:
    (3)Corley卖鞋,2020年9月前10天就完成了本月计划的80%,业绩是好还是不好?

    可能有人会觉得好,毕竟三分之一的时间就卖出了大部分,但是实际上并不一定好:
    要看整个月的销售情况,如果前10天销量处于上升趋势,剩下的时间处于快速下降并保持很低的水平,有可能是完成不了计划的;
    还好看以前的销售情况,比如说同比销售额,是不是可能比现在还好;
    和其他竞争对手相比,是否比他们好。

    销量好或者不好需要从多个维度进行衡量,而不是单纯地给出一个答案;
    每个行业不同,相应的分析方法和思路也千差万别。

    一个基本的分析流程如下:

    • 理解商业问题
      根据具体的商业场景理解商业问题。
    • 准备阶段
      根据相应的商业场景进行计划和准备,需要哪些数据、怎么进行分析。
    • 数据分析
    • 解释结果

    供应链的各个环节如下:

    原材料供应商
    生产商
    经销商
    销售商
    终端客户

    分析时,不仅要从销售价格来分析,也要从源头即成本进行分析,处于供应链的哪个位置;
    找整个商业供应链出现问题的主要环节,找出问题。

    5.商业理解

    对于一个事件,会有很多因素,可能都会影响到结果。

    在商业数据分析中,需要进行多维度思考,包括产品、位置、时间等角度,比如零售业中有人、货、场的概念,如下:
    多维度思考

    从点、线、面的角度评价销售业绩:
    分析自己9月份业绩即为点;
    分析与去年同期相比即为线;
    与其他人相比即为面。

    获取知识的金字塔DIKW如下:
    DIKW

    从原始数据中提取出信息,并通过总结得到知识,逐渐积累成为智慧。

    6.需要用到的工具

    (1)Excel是最普及的数据处理和分析工具,作为Office三件套之一,受到各行业广泛的使用,也很容易上手。

    (2)思维导图工具,如XMind、Mind Master等,可以整理知识体系、梳理思维。

    (3)专业的Python数据分析工具Anaconda,可以进行Python基础编程、数据分析、建模计算等,自带了很多包,可以直接点击加QQ群 Python极客部落963624318 在群文件夹Python相关安装包中下载安装。

    (4)关系型数据库软件MySQL,是最常见的的数据库之一,个人一般直接使用社区版即可,可以到MySQL官网https://dev.mysql.com/downloads/mysql/中下载,由于官网下载较慢也点击加QQ群 Python极客部落963624318 在群文件夹数据库软件中下载,然后解压并执行安装配置即可,具体可参考https://www.cnblogs.com/zhangkanghui/p/9613844.html

    除此之外,还可以充分利用Github开源平台https://github.com/,可以查询一些开源项目、查看源码,是一个学习的平台。

    二、数据特性

    1.数据粒度

    数据存在特定的特点,其中之一为粒度
    较标准的定义为:
    数据粒度是指数据仓库中数据的细化和综合程度
    根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。

    很多时候得到的数据为汇总的数据,比如对于电商来说,得到了每个月的销售情况,要预测每天的销售情况是不现实的;
    汇总数据可以获取整体趋势。

    而对于原始数据,可以为每一种商业模式确定相应的指标KPI,比如电商行业的常见指标如下:
    电商指标

    并且可以使用杜邦分析法评价指标组合进而确定经营业绩,示意如下:
    杜邦分析法

    对于Leader来说,很重要的一个要求是用户体验好,好的用户体验好主要包括以下方面:
    好的用户体验

    分析流程可以进一步细分如下:

    • 目标
      比如设定PV、DAU(日活)等指标。
    • 收集数据
      根据需求、按照指定的方法获取数据,并过滤掉无用的信息。
    • 数据探索
      发现收集到的数据的特点、分布特征,并探索数据间的关系。
    • 特征工程
      数据中哪些重要。
    • 开发计算
      进行建模计算、并产生结果,如线性回归、逻辑回归。
    • 评估

    假如有一个JSON格式的电影评分数据如下:
    计算相似性

    现在需要计算谁和谁更相似,对两部电影建立坐标系如下:
    电影坐标系

    每个人的评分都以坐标的形式体现出来,可以通过两者之间的距离计算出来,距离越近则相似度越高,最简单的方式是通过勾股定理计算;
    有多部电影则计算多维距离。

    2.数据质量与形式

    数据有一个很重要的特性是数据质量。
    根据定义,数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

    比如说,调查问卷因为设计不好而导致收集到的结果有失客观性,这就是数据质量有问题。

    衡量数据质量有一定的衡量指标:

    • 重复
      数据重复是否有意义。
    • 完整
      数据探索时判断数据是否完整。
    • 一致
      数据之间是否一致,比如问卷数据前后部分是否符合。
    • 时效
      数据一般在某个时间区间内有效。

    数据还有一个特性是数据形式,主要包括:

    • 结构数据
      具有一定结构的数据,如MySQL数据库中的数据,对数据类型有一定的限制。
    • 半结构数据
      具有特定的格式,如之前的json数据就是半结构数据,一般来自网站。
    • 非结构数据
      文本、图片等文件,没有特定的结构,不能使用常规方法分析。
      对于图片文件,图都是有由像素组成的点阵,每一个像素点由RGB值确定,组成一个矩阵进行处理。

    不同格式的数据也有不同的来源。

    3.数据隐性

    可以从数据中挖掘出信息和价值。

    再举一个案例:
    (4)对于电商行业,怎么分析客户的男女比例:
    假如有一个客户叫孙悦,昵称是小悦悦,最近老是频繁登录公司的APP,并且总是浏览美妆产品,而且最近三个月购买了大量女鞋和美妆。
    那么孙悦是男还是女呢?

    要判断一个客户是男性还是女性,可以从以下指标出发:
    性别判断指标

    最简单的方法:

    男性概率=姓名倒数第一个字男性概率×权重1+姓名倒数第二个男性概率×权重2
    女性=1–男性概率

    这个模型只是依据姓名来判断的,较为单一。

    更进一步的分析:
    在姓名判断性别概率的基础上,再依据消费行为(如购买剃须刀)的特征判断性别概率,并确定权重计算加权概率。
    这是一个分类问题。

    进行数据分析的好处:

    • 搞清事实
      分析事情的好坏。
    • 接近真相
      可以发现真相的可能情况。
    • 预测未知
      比如预测消费曲线。
    • 帮助决策
      如智能投顾。

    三、数据分析类型、可视化与数据驱动开发团队

    1.不同类型的分析

    不同类型分析的复杂度和价值如下:
    不同类型的分析

    其中,描述性分析用于描述当前情况,比如分布、曲线等;
    诊断分析主要分析问题原因,可能需要进行可视化;
    预测分析主要预测未知,包括自动化推荐系统、销量预测;
    指导分析用于指导行动。

    随着难度的加大,所需要的数据也越来越多工具越来越复杂

    常见的分析框架如下:
    数据分析框架

    具体包括SVM、决策树、逻辑回归、神经网络、线性回归、K-means、分层聚类等理论模型。

    2.数据可视化

    有了分析的结果,需要进行报告,其中可视化不可缺少,需要将结果呈现出来。
    同时在数据探索时,数据可视化可以让我们更加直观地了解数据所呈现出的特点。

    一个图表示意如下:
    数据可视化反面示例

    显然,左右两部分都是有问题的:
    标题不规范;
    刻度不一致,不协调;
    坐标轴起点;
    两个表的差距感觉不同,但实际上差别是一样的。

    3.数据驱动开发团队

    一个典型的数据驱动开发团队的成员如下:
    典型数据驱动开发团队
    左侧负责数据分析,右侧负责项目开发,需要相互协调和配合。

    展开全文
  • 阐述商业数据分析

    2019-09-27 01:06:26
    商业数据分析是指以商业理论为基础,从数据分析出发,依靠统计工具,以决策优化为目的,洞察数据背后的规律,为商业创造最大价值。其主要运用在: 监控异常数据,如信用欺诈; 建立模型并预测,如产品分析; 关键...
        
    13825820-f4984de94f31f1d5.jpg

    一.定义及运用

    商业数据分析是指以商业理论为基础,从数据分析出发,依靠统计工具,以决策优化为目的,洞察数据背后的规律,为商业创造最大价值。其主要运用在:

    监控异常数据,如信用欺诈;

    建立模型并预测,如产品分析;

    关键变量分析并预测,如潜在客户分析;

    预测性分析,如客户流失预测等。

    商业数据分析不仅仅是向管理层提供各种数据,它需要更深入的方法来记录,分析和提炼数据,并以易于理解的格式呈现结果。简单地说,商业数据分析能让领导知道面临的问题,并以有效的方式去解决问题。数据本身仅仅是事实和数字。数据分析师通过寻找数据规律,将数据呈现结合业务问题的有用信息。然后,决策者可以利用这种背景采取行动,以提高生产力和业务收益。

    二.在业务上的地位

    数据分析的好处几乎无法计算,其中一些最有益的好处包括为您的企业获取正确的信息,创建更有效的营销活动,更好地了解客户,提高生产力和收入。通过商业数据分析,您将能够为公司提供更多关键领域的决策洞察力。

    13825820-c921c212227c3e97.jpg

    CDA数据分析研究院把商业数据分析的责任定义为协助业务经理做出明智的决策,提高效率,增加利润和实现组织目标。

    三.商业数据分析的步骤

    虽然每家公司都有自己的数据要求和目标,但有七个步骤在各组织及其数据分析过程中保持一致:

    确定目标 - 确定数据科学团队的目标,以制定可量化的方法来确定业务是否朝着目标前进;

    确定业务杠杆 -为数据分析提供范围和重点,意味着企业应该愿意做出改变以改进其关键指标并实现其目标;

    数据收集 - 尽可能多地收集不同来源的数据,以便构建更好的模型并获得更全面的见解;

    数据清理 - 提高数据质量以产生正确的结果,避免得出错误的结论;

    培养数据科学团队 –将专注于数据建模和预测,以及基础设施、软件开发等;

    迭代优化 - 完善您的数据分析模型,以便您可以重复该过程以生成准确的预测,实现目标,并始终如一地监控和报告。

    CDA数据分析研究院认为商业数据分析应为以下四个层次:

    13825820-439942633f57d48a.jpg

    描述性分析-发生了什么?

    诊断性分析-为什么会发生?

    预测性分析-可能会发生什么?

    处方性分析-该做些什么?

    四.面临的挑战

    处理和呈现所有数据是数据分析中最具挑战性的两个方面。传统的体系结构和基础架构处理当前生成的大量数据比较困难,同时还面临着数据开放与隐私的权衡、数据缺乏完善的管理技术和架构、企业内部数据孤岛严重等问题。

    展开全文
  • 纽约社区商业数据分析实战,贯穿数据获取,数据清晰,数据分析,数据可视化等全过程,代码用python完成
  • 商业数据分析入门 1.1 什么是数据分析 数据分析:根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策制定。 这个定义是从两个层面来解释数据分析: ...

    商业数据分析入门

    1.1 什么是数据分析

    数据分析:根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策制定。

    这个定义是从两个层面来解释数据分析:

    • 它具体是在做什么?
    • 它能产生什么样的价值?

    “全流程”的数据项目流程:业务问题的界定 → 数据收集与清晰 → 分析与模型

    数据分析的价值最终体现在业务

    数据分析工作的作用:为企业盈利,为企业的生存与发展建立基础。

    数据分析是怎么提高企业盈利的?

    传统的零售企业中,

    盈利 = 销售所产生的收入 - 外部市场和内部经营所产生的成本和损失

    销售所产生的收入(提高收入):

    1. 更低成本获取顾客
    2. 提高现有顾客购买金额
    3. 让购买中低端产品的顾客购买更高价、利润更高的产品

    外部市场和内部经营所产生的成本和损失(成本和风险控制):

    1. 帮助企业预测市场走向
    2. 减少产品滞销和畅销产品断货的几率
    3. 优化内部经营的效率
    案例:互联网企业 ——领英

    他们的商业模式意味着用户的数量和活跃度是获取融资直到实现盈利前的生存基础

    **关注的数据:**注册数量、每日活跃用户数、客户留存比率

    数据分析:

    • 帮助企业提升用户从注册到活跃的比例
    • 辅助降低用户流失的数量,保证客户的数量和粘度

    领英对用户数据深度挖掘,推出了“你也可能认识的人”的功能,强化了用户的关系粘度,实现了用户网络的爆炸式增长。

    数据分析的重要性

    数据增长,用户创造了大量的数据。

    在许多新兴技术支持上,上网浏览的许多细节都会被记录下来。比如点击、滚动、悬浮、视频播放的暂停、快进等。

    信息本身可能占用的空间不大,但由于用户基数众多,也形成了巨大的数据量

    市场环境,数据的存储与计算能力不断提升,使我们可以服务千万个用户

    硬件软件各方面成本的下降 → 企业可以存储更大更丰富的数据

    持续迭代优化的算法模型 → 计算能力可以逐渐满足实时的计算需求

    在大数据环境下,基于分析所进行的各种场景优化,都可以进行数据采纳和验证,使数据分析的价值可以量化

    以前在营销领域有句名言:“我知道自己50%的广告费是浪费了,但是我不知道是哪个50%”,而在如今丰富的数据源和强大的计算能力下,我们可以明确的知道那浪费50%的广告费的是哪些媒介与渠道。

    数据分析的人才需求

    数据分析人员的两个重要能力要求:

    • 与人沟通协作的能力:与非技术人员明确业务问题,将数据分析结果沟通给其他成员
    • 与机器工作的能力:向机器提供数据,模型与算法,并分析机器所给出的结论

    覆盖以下几个领域:

    • 从关系型数据库中查询,收集和整理数据的能力 ---- SQL语言
    • 对数据进行清洗,整理,分析和模型的能力 ---- Python
    • 对数据探索和分析结果进行可视化展示的能力 ---- Tableau和Excel

    1.2 数据分析工作流程

    1. 定义问题:
    • 定义所需分析的业务问题,确定相对应的数据分析计划和交付物
    • 三个常见的业务问题类型:what、why和how
    • 和业务方一起用数据驱动问题,将原本简单是what需求背后的why和how问题挖出来,是界定问题工作的重点
    2. 数据收集与评估
    • 根据问题确定所需的内部和外部数据源,汇总成分析数据集,并进行初步数据质量的评估
    3. 数据整理与清洗
    • 检查数据中可能存在的问题,对有错误或有问题的数据进行清洗,并将数据整理成命名规范,取值格式统一的形式
    4. 数据探索与可视化
    • 进行初步的数据探索分析,在可视化工具的帮助下,找到数据的底层结构和规律以及能帮助解决问题的关键因素
    5. 数据分析模型
    • 将变量信息输入到分析模型中,经过模型的选择和调整,最终给出能部署到业务中的数据分析结果

    当然,并非所有工作都是严格按顺序进行的。

    • 在定义业务问题时,大部分情况下已经对企业所拥有的数据有所了解,而不是在确定问题之后再去了解数据

    • 数据整理与清晰和探索与可视化之间,没有绝对划清的界限,数据探索可能会发现在清洗过程中没有注意到的数据问题

    • 不一定需要更复杂的模型工作才能算是数据分析项目的完结

    案例:宜家

    宜家是依靠会员体系进行客户运营的商业模式,可以说是数据分析能发挥最大价值的场景之一

    宜家的挑战:

    • 行业角度:
      • 宜家是开创以平实价格销售,自行组装家具的领导品牌
      • 但是国内市场良莠不齐,宜家品牌优势受到冲击
    • 消费者角度:
      • 不同顾客群体的购买习惯和关注产品差异很大了
      • 价格敏感度决定了他们是否认可宜家的品牌定位

    能够用数据深度理解客户的态度和行为成了重要的竞争优势

    以宜家为代表的实体零售是最早累积数据的领域,如POS机、早期IT系统,累积了每个交易的细节,如购买时间、购买产品、相关折扣和最终销售金额等。

    宜家从创立之初就建立了会员体系,已经拥有了1800万的注册会员,顾客在商店和微信端都可以免费注册,享受相关的会员购买和餐饮方面的优惠,这些注册时的手机号和姓名等,都可以和公司内部以及第三方数据进行打通。

    线下门店和线上会员运营的O2O结合

    为宜家这样的企业转型为新零售模式提供了坚实的数据基础

    1.3 界定分析问题

    提出了一个好的问题可以说把问题解决了一半

    像宜家这样规模庞大的企业,拥有丰富的用户,交易,门店和产品数据,如何更好的定义问题,以提升数据分析工作的落地价值?

    分析问题大体可以分为下面三类问题:

    • what 什么发生了?
      • what类问题通常围绕企业所关注的重点指标。如“我们这个月的收入和利润如何”、“每个顾客在我店里大概会花多少钱”、“家具类产品里面是沙发卖的好还是桌子好”
      • 不仅要观测这些指标的当前值,还要监控他们本周、本月、本年的表现,也要比较这类数据与上个月或者上个季度或者去年同期的数据
      • 对于总体业务稳定的企业,要将重要指标汇总到报表中,让系统可以自动化的定期更新,帮助业务方和决策者可以随时了解企业的经营状况
    • why 为什么会发生?
      • why类问题关注的是业务现状背后的原因,如“为什么顾客购买的平均单价在下降”,这里可能涉及的原因有:经济、市场和其他因素,对宜家来说,直接原因就是顾客没有花钱在价格高的商品上
    • how 我们能做什么?
      • 在很多带给数据分析人员的why类问题,都有着来自于业务方面关于how的需求,比如刚刚的“顾客花钱少的问题”,业务方和企业管理层想要知道的是“我们怎么能让他们在宜家店里多花钱”
      • 这时候对于传统零售企业可能会采用“全场打折”这种老套路,但是对于宜家这种数据驱动的企业,会采用“精准营销”,这时候,业务问题就是“识别高价值顾客,实施针对性的营销方案,发放专属优惠券促进顾客购买
      • 我们可以将这句话拆分成两个部分:
        • 定义高价值顾客,并从数据中识别高价值顾客的具体特征。(将客户分成若干个群组,并从中找到可以定义为高价值的人群,再根据这个群组对应特征描述,为下一步的营销方案制定策略)
        • 选择那些在收到优惠券之后使用的顾客,并跟踪分析后续的使用和购买情况

    业务人员往往带着what问题而来,我们需要用数据引导他们走向why/how的问题层

    这里采用逐步分拆的方法,从宜家整体收入的变化,分拆到各个价位的产品和销售情况,找到what原因,针对性的提出why/how

    高价值用户的识别问题,可以依靠用户分群类的统计分析、回归模型的方法。

    最后,明确衡量分析项目成功的标准。

    在实际选择发放优惠券的客群中,通常会在模型所选客群之外,随机选择一部分顾客作为对比测试,这部分顾客也会收到优惠券,在活动之后,会对比两组人使用优惠券的情况。

    解决方法
    what 以在数据库中抽取,拼接,聚合为主 Excel或者Tableau可视化报表
    how 从数据中找出洞见,在what呈现的报表基础上做简单的数据探索和分析 以PPT或者文档方式攥写结论报告
    why 提出对应的分析模型解决 模型结论和实施方案

    1.4 数据收集与评估

    基于前面所设定的数据分析问题和计划,在此步骤中,将收集后续分析所需的原始数据,并进行基本的数据质量评估

    • 在收集过程中,注意各数据源的格式以及相关关系
    • 在评估过程中,注意数据的完整性,准确性和及时性
    分析数据的收集
    广义的数据收集

    企业将有关自身利益的各类内部和外部数据纳入到数据库的系统流程,在法律允许的范围之内,充分的收集用户社会,行为,消费信息,对于扩展分析维度会有很好的帮助

    侠义的数据收集

    从数据库的多个数据表中进行抽取、拼接、聚合的工作,以形成解决问题所需的数据集的过程。

    这个情况下面对的大多是关系型数据库,这里的关系是指由行和列组成的二维表格。

    1. 数据收取

    从工作的效率考虑:

    • 对数据进行随机抽样以节省数据探索和分析时间
    • 在分析结论和模型验证通过后,再部署到全量数据
    2.数据拼接

    这里要注意表和表之间的关联关系,关联关系大体分为三种:一对一,一对多,多对多。

    拼接过程中一般避免多对多的关联关系

    3.数据聚合

    用户每次在网站或者APP上所停留的时间可以聚合为用户最近一个月平均访问时长。这是因为单次访问时间可长可短,但是选取最近一个月的时间,并进行平均处理,就是比较稳定的反应用户的粘度信息。

    固化在SQL代码中,形成强有力的标签化工具。

    如”用户最近一个月平均访问时长“,按照该指标的大小,将用户区贴上”高粘度“、”中粘度“、”低粘度“的标签,这些标签容易被业务人员理解,安排营销活动就可以有的放矢。

    从原始访问时间数据,到生成用户粘度标签,也被称为”衍生变量

    在做数据探索时,发现的新的有价值的衍生变量,也应该反馈到这一步中。

    在数据收集过程前,要评估各个数据源的完整性和及时性

    • 完整性检查:原始数据不存在和已知业务常识之间的明显差距

    • 及时性检查:确保各数据源都反应的是相同时间窗口数据,这对依靠第三方公司来管理营销活动的企业来说尤其重要

    **在分析数据集后,**需要评估汇总数据的准确性和一致性,经过SQL语言的抽样和聚合处理,注意分析数据和原始数据的差异。

    对于关键的数据可以进行简单的统计查询,如用户年龄的最大最小值,订单金额的最大值最小值和分布,此类方式可以快速排除在收集数据中因为SQL语句所产生的问题。

    总结:根据所需解决的数据分析问题 → 完成从多个数据表中拼接聚合数据的过程 → 确认数据在收集前后完整而且准确后 → 对数据质量进行变量级别的清洗与整理

    1.5 数据清洗与整理

    • 清洗:将有问题的数据排除出去
      • 涉及对数据缺失、异常和其他问题的处理
      • 清洗环节被认为最需要时间和精力的环节,通常会占据到整个数据分析项目中60%-80%的时间
    • 整理:将数据转化成更有助于后续分析的样式,如将实际年龄转换成80后、90后、00后这样有业务意义的分组

    一定程度是数据确实,在现实项目中可以说是司空见惯

    数据缺失问题:
    • 缺失的信息来自于哪个数据表?在原表中它们也是缺失的吗?

      • 这两个问题可以排除在数据抽取和拼接过程中所产生的错误
    • 如果在原表也缺失,那么是否有收集信息的疏漏?

      • 从业务角度上,性别或者收入这类较为敏感的信息,很有可能是因为在注册时就拒绝填写而产生。可以考虑在注册时,提供一定的激励手段,鼓励用户提供此类信息。
      • 如果业务团队反馈数据当时的收集过的,那么说明底层数据的录入有问题
    • 缺失信息的比例是多少?

      • 在排除了系统和流程问题之后,才会考虑技术处理的方法
      • 当缺失比例超过90%的时候,我们认为改变量无法提供有用的信息,可以进行删除
      • 当缺失比例较低时,可以采用均值、中位数或者回归方式填充
    数据异常问题(三种主要的类型)
    • 数据有明显违背常识的错误

    为什么这个问题没有在数据质量评估的时候被发现呢?

    在数据收集时,更多的看的是汇总层面的数据,几百万用户产生几千万的销售额,我们要看的是收集处理前后还是几千万

    • 数据的离群值 —— outlier

      • 离群值是指与其他数据差异较大,会对数据分析结果产生影响的观测值
      • 先检查同一客户原表是否是同样的数值 → 再检查此数据是如何收集而来 → 从技术角度评估是否是离群以及如何对这个离群值进行处理
    • 特殊数字

      • 某些数据仓库系统的表格不允许出现留空,IT人员可能会以99999这样的特殊数字来标注”缺失值“
      • 在理想情况下,我们会有完善的数据字典可以查询。如果没有,也可以和相关团队沟通证实此类问题。

    早期在美国的数据分析行业,流传过一个段子。

    在斯克内克塔迪这样一个不为人知的小镇,贡献了美国很多企业30%以上的用户,而这个镇的人口也不过7万人。这是为什么呢?

    原来这个小镇的邮政编码是12345,很多用户在注册信息时,为了不泄露自己个人信息,都随手填了这个邮政编码。

    这个真实存在,却又很可能错误的邮政编码,就有待我们数据分析人员来解决了。

    数据的整理

    清洗掉数据中的缺失和错误,对离群值等进行核实和调整

    主要有两个任务:

    • 对数据进行统一的格式化和命名规则处理
      • 数据命名或者取值的不规范会影响数据探索以及后续分析
      • 比如在城市字段里,会有:北京市 上海 内蒙 上海市。这里不规范的地方有:全名和简称的差异如上海和上海市其实是一个地方。内蒙作为省却被放入了城市这一栏里。
      • 由于不影响数据整体行数、列数,也不属于明显的数据异常,在数据质量检查和数据异常中都很难被发现
      • 一旦对用户进行区域画像,找出高价值用户的热门城市,就一定要对城市这以数据进行规范化标注。
    • 对某些信息进行重新编码以满足后续分析需求
      • 对数据重新编码,可以帮助挖掘新的信息
      • 比如交易时间 2019/02/20 15:26 ,我们可以重新编码为工作日 下午 2-4点时间段
      • 业务假设:工作日下午到宜家购物和在周末进店的客户是有一定区别的。
      • 我们可以将这两组用户的购买产品、金额等从数据库中拼接出来进行对比来验证假设,如果被验证了,那么这个重新编码是非常有意义的信息,应该反馈到最开始的数据收集过程中,直接固化为可以调取的标签

    对数据进行编码的需求来自数据的认识,而对数据的认识来自数据探索的阶段。

    1.6 数据探索与可视化

    主要目标:寻找数据现象的规律,提出初步的业务洞见,为解决问题提供关键变量。

    在这个阶段中,数据可视化将发挥巨大的作用。

    如何找到“高价值顾客”

    价值无法直接衡量和观测,因此需要先从现有信息中找到一个变量来间接反映价值,首先可以从“累计购买总额”这个变量来做分析

    如果6个月以内没有在宜家购买任何产品,则有可能流失到竞争对手,短期内不应该被视为高价值用户,曾经的高消费可能是一次性装修等产生的需求

    哪些用户更容易被优惠券打动而进店购买

    宜家的邮寄广告是重要的营销媒介,每年发行的居家指南号称是除了《圣经》之外最被广为散布的书籍。

    在收集数据过程中,提供了“优惠券兑换记录”这个标签,这个标签的创建规则是:

    • 收到邮寄广告后14天内进入店并且兑换优惠券的顾客,标签取值为1
    • 收到优惠券后并没有兑换使用的顾客,标签取值为0

    计算相关系数来研究是否兑换优惠券和其他变量之间的相关关系

    通过分析,与兑换优惠券关系最强的三个变量分别是:顾客注册时长、会员是否关注微信公众号、最近一次购买金额

    这些变量都不在原始表中,创建这些变量的过程常称为衍生变量,在机器学习领域也被称为特征工程

    多维度的衍生变量使得后续的分析模型更加准确,如何找到这些变量也依赖于对业务的理解。

    好的探索分析依赖于统计经验、可视化工具和业务知识。

    1.7 数据分析模型

    数据分析模型是将数据中的洞见转变成商业决策的关键步骤,也是所有数据分析工作中最终产生价值的环节,所谓数据分析模型,就是对数据分析中各种规律的抽象总结。

    本环节中要解决的问题:客户分群 & 预测分类

    客户分群

    在刚才的例子中,我们定义高价值顾客,并从数据中识别高价值顾客的具体特征。我们从销售贡献和最近购买时间入手,其实已经找到了两个X,这个切分不具有完全的科学,且仅仅使用两个变量也损失了其他很多有价值的信息。

    我们能否将所有的变量都纳入到分析中,让机器计算出最佳的分组呢?

    在找到高价值用户的特征时,我们用了聚类分析来进行客群的设定。如果“累积销售金额”就是顾客价值的体现,那我们可以直接使用回归模型建立Y=AX+B的模型。

    回归模型和分类模型不同的就是,回归预测的是诸如销售额、股票价格、GDP这样的数字型变量。当我们把模型建立出来的时候,其实就是达到了和聚类分析类似的目的。

    宜家高价值客户的三类人群:顾客平均的5倍以上花费

    • 城市新居住者:购买店面发生改变,送货地址发生改变,购买产品为生活日用类为主,注册手机号与所购买城市不同
    • 新婚家庭:顾客为男性为主,购买产品为家具类为主,双人床和衣柜等高价格家具关注度高于其他人群
    • 初为父母:顾客为女性为主,初次购买儿童/婴幼儿产品类型

    要获得好的分群效果,最重要的一点便是用于聚类的变量可以被认为不同的维度。

    RFM分析:

    RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过用户近期购买日期,购买频率和购买金额3项指标来描述该客户的价值状况。

    • 维度1:个人信息数据(年龄,性别)
    • 维度2:购买记录数据(频率、间隔周期、价值、产品偏好)
    • 维度3:需求和兴趣(网络浏览偏好、居住区域特征、生活习惯)

    缺陷:三个要素(近期购买日期,购买频率,购买金额)都是围绕用户的购买行为而来,非金钱类的行为特征

    预测分类

    在上面预测哪些用户会在收到优惠券后使用与购买中,这里的优惠券兑换是Y,在这种情况下,我们告诉计算机哪个变量是预测目标,这也被称为是“监督式学习”。这和前面讲到的以分群为代表的“非监督式学习”不同。

    展开全文
  • 商业数据分析,共包含39页ppt。对商业数据的计算、建模,可解释性,以及应用场景做了广泛的分析。欢迎感兴趣的研究者一起学习。
  • 商业数据分析powerpoint演示文稿模板素材 分析powerpoint演示文稿模板、商业演示文稿模板素材、数据分析、竞品分析
  • 商业数据分析(1)

    2020-02-12 11:30:30
    商业数据分析(1)第1章 商业数据分析综述1. 什么是商业数据分析?2. 所需技能3. 数据的质量与形式(1)质量(2)形式 第1章 商业数据分析综述 1. 什么是商业数据分析? 从业要求 = 基础知识 + 工具 + 业务知识 + 软...
  • 商业数据分析产生的随笔 前言 今天晚上在群里看到有以为大佬发了一篇博客,于是感兴趣点了进去,发现内容不错。碰巧自己对数据分析感兴趣,也想入手数据分析。于是梳理一下自己对数据分析的认识。 今天晚上看到的...
  • 大数据时代的商业数据分析管理; 直面挑战 ;培训收益 ;课程大纲 ; 2.2 基于指标\总体统计数据的运营现状探索维度方法 2.3如何通过指标数据验证商业理解阶段的分析思路 2.4 如何定义数据分析对象(如群体) 2.5和老师...
  • 数据分析,无外乎是收集数据,统计数据,分析数据,分享结果,前面大家把商业数据分析的原因、目的和方法说得都很清楚了,在这里可以增加一点,就是分享结果,商业数据分析的可视化。毕竟商业数据分析,本身就是在...
  • 2019商业数据分析软件有哪些

    千次阅读 2019-03-26 09:32:38
    2019年商业数据分析软件有哪些呢?本文列出了市面上最主要的几款数据分析软件。 1.FineBI 目前国内数据分析的佼佼者。FineBI是新一代自助式BI工具,企业客户多、服务范围广, 多维OLAP分析是BI工具分析功能的集中...
  • 商业数据分析实战(酒卷隆志/里洋平)——第二章商业数据分析流程 一、数据分析的5个流程 现状和预期->发现问题->数据的收集和加工->数据分析->解决对策 二、现状和预期的整理 现状和预期结果有了...
  • 商业数据分析师:任重道远 我为什么这么说呢?商业世界和数据世界之间有一个桥梁,这个桥梁需要商业数据分析师来连接。 也就是说: 商业 数据 感性 理性 需要在两者之间实现转义和应用。...
  • Microsoft Office Excel 2003实用技巧之四——商业数据分析与决策
  • 商业数据分析第一记

    2019-06-13 11:25:00
    什么是商业数据分析? ●从业要求=基础知识+工具+业务能力+软技能●基于数据通过分析手段挖掘出商业价值,解决商业问题 所需技能 首先就是数学知识,数学知识是从小到大一直在学的,虽然很枯燥,但是它必不可少...
  • 商业数据分析学习第一天 1.基础知识+工具+业务能力+软技能 2.数据源–数据处理–数据分析及建模–数据解释与呈现–验证及优化 3.理解商业问题–准备阶段–数据分析–解释结果 4.描述分析–诊断分析–预测分析–指导...
  • 对于企业而言,运用数据的同时,也需要了解数据背后的变化规律,做到心中有数,商业数据分析就是针对企业的这一需求。可以洞察数据背后的规律。基于商业数据分析的特点,企业可以借此来制定决策方案,并采取相应的...
  • 1.商业分析是什么 2.商业分析的能力要求 3.商业分析师三大技能项之懂业务 4.商业分析师三大技能项之会拆解 5.商业分析师三大技能项之重指标 ...
  • 商业数据分析的根本目的就是要洞察数据背后的规律,基于此,企业可以制订决策、并采取相应措施和行动,进而达成想要的结果。这是商业数据分析的最大价值所在。 那么如何才能洞察数据背后的规律,以给企业的决策提供...
  • 那么,商业数据分析的层次和进行的步骤是什么呢?  商业数据分析的层次  1.描述性分析  描述性分析主要是对已经发生的事实用数据做出准确的描述。目前的BI分析基本上是在这个层面上,不管是大屏分析还是...
  • 商业数据分析概述 越来越多的公司在收集数据,并不仅仅局限于金融业和零售业等。 什么是商业分析?使用应用数学,统计学和计算机科学分析数据,洞察商业表现并采取行动。 商业分析包括金融分析、人力资源分析、...
  • 但同时也逼自己要冷静下来思考,对于商业数据分析,我觉得需要从这3方面去下功夫: 1. 业务流程:数据是从业务中来,由业务动作产生的,所以不能仅仅只是看数据,还需要洞察数据背后的商业含义,联系上业务动作再来...
  • 商业数据分析》读书笔记(一)

    千次阅读 2019-01-07 11:10:24
    这本书重点在于讲解商业数据分析背后的重点原则。帮助人形成一套科学的应用数据分析的流程。 对于有数据分析基础知识的人来说,可以作为一种融会贯通的思维练习。 前言 1.介绍:数据分析思考 数据机会的普遍...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,280
精华内容 5,712
关键字:

商业数据分析