精华内容
下载资源
问答
  • 一组数据可以直接做相关分析
    千次阅读
    2021-04-22 03:05:43

    我们在统计数据处理时,经常计算一个样本的概率密度估计,也就是说给出一组统计数据,要求你绘制出它的概率分布曲线,matlab的统计工具箱中有直接的函数  就是:Ksdensity核心平滑密度估计

    [f,xi] = ksdensity(x)

    计算样本向量x的概率密度估计,返回在xi点的概率密度f,此时我们使用plot(xi,f)就可以绘制出概率密度曲线。该函数,首先统计样本x在各个区间的概率(与hist有些相似),再自动选择xi,计算对应的xi点的概率密度

    f = ksdensity(x,xi)

    与上面的相似,只是这时xi我们帮Matlab选定了,ksdesity直接计算对应点的概率密度

    1.   %by dynamic

    2.   %see also http://www.matlabsky.com

    3.   %contact me matlabsky@gmail.com

    4.   09.2.21

    5.   %

    6.   %给一个随机样本

    7.   x=[randn(30,1); 5+randn(30,1)];

    8.   %计算出各点的概率密度

    9.   [f,xi]=ksdensity(x);

    10.  %绘制图形

    11.  subplot(211)

    12.  plot(x)

    13.  title('样本数据(Sample Data)')

    14.  subplot(212)

    15.  plot(xi,f)

    16.  title('概率密度分布(PDF)')

    更多相关内容
  • 手把手教你使用Python做数据分析

    千次阅读 多人点赞 2021-05-20 11:00:53
    数据分析是什么 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用,使得数据的价值最大化 二、数据分析什么的 数据...

    一、数据分析是什么

    数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用,使得数据的价值最大化

    二、数据分析是做什么的

    数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。

    • 分析用户的消费行为
      • 制定促销活动的方案
      • 制定促销时间和粒度
      • 计算用户的活跃度
      • 分析产品的回购力度
    • 分析广告点击率
      • 决定投放时间
      • 制定广告定向人群方案
      • 决定相关平台的投放

    数据分析使用适当的方法对收集来的大量数据进行分析,帮助人们做出判断,以便采取适当的行动

    • 保险公司从大量赔付申请数据中判断哪些为骗保的可能
    • 支付宝通过从大量的用户消费记录和行为自动调整花呗的额度
    • 短视频平台通过用户的点击和观看行为数据针对性的给用户推送喜欢的视频

    三、为什么学习数据分析

    • 岗位的需求
    • 是 Python 数据科学的基础
    • 是机器学习的基础

    四、数据分析实现流程

    • 提出问题
    • 准备数据
    • 分析数据
    • 获得结论
    • 成果可视化

    五、数据分析环境的搭建

    1. Anaconda

    • 官网:https://www.anaconda.com 下载安装对应安装包即可

    • 注意: 安装目录不可以有中文和特殊符号

    Anaconda集成好了数据分析和机器学习中所需要的全部环境

    2. Jupyter

    • Jupyter就是Anaconda提供的一个基于Web的可视化开发工具

    3. Jupyter的基本使用

    • 启动: 在终端中输入:jupyter notebook,按下回车即可

    • 新建文件: New -->> python3

    • Cell(代码块)有两种模式

      • code: 编写代码
      • markdown: 编写笔记
    • 快捷键

      • 添加cell:ab

      • 删除:x

      • 修改cell的模式

        • 修改成markdown模式:m
        • 修改成code模式:y
      • 执行cell内代码:shift+enter

      • 自动补全:tab

      • 打开帮助文档:shift+tab

    六、如何用Python进行数据分析

    在Python中我们数据分析离不开以下三剑客

    • Numpy
    • Pandas
    • Matplotlib

    Numpy模块

    • Numpy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分 Python 科学计算库的基础,多用于在大型、多维数组上执行的数值运算。

    1. Numpy的创建

    • 使用 array()创建一个一维数组

    在这里插入图片描述

    • 使用 array() 创建一个多维数组

    在这里插入图片描述

    • 使用 zero() 创建一个多维数组

    在这里插入图片描述

    • 使用 ones() 创建一个多维数组

    在这里插入图片描述

    • 使用 linspace() 创建一维的等差数列数组

    在这里插入图片描述

    • 使用 arange() 创建一维的等差数列数组

    在这里插入图片描述

    • 使用 random.randint() 创建随机的多维数组

    在这里插入图片描述

    2. Numpy的常用属性

    • shape
    • ndim
    • size
    • dtype

    在这里插入图片描述

    3. Numpy的索引和切片

    • 索引操作和列表同理

    在这里插入图片描述

    • 切片操作

    在这里插入图片描述

    4. Numpy的矩阵操作

    • 矩阵变形

    在这里插入图片描述

    • 级联操作

      • 将多个 Numpy 数组进行横向或者纵向的拼接
      • axis轴向参数
        • 0:列
        • 1:行

    在这里插入图片描述

    • 常用的聚合操作

      • sum, max, min, mean

    在这里插入图片描述

    • 常用的统计函数

      • 标准差:一组数据平均值分散程度的一种度量
      • 方差:统计中的方差是每个样本值与全体样本值的平均数之差的平方值的平均数,即 mean((x-x.mean())**2。换句话说,标准差就是方差的平方根。

    在这里插入图片描述

    Pandas模块

    1. 为什么学习Pandas

    Numpy能够帮助我们处理的是数值型的数据,而Pandas可以帮我们处理除数值型以外的其他类型数据,

    2. Pandas的数据结构

    • Series
      • 是一种类似于一维数组的对象,由下面两个部分组成:
        • values:一组数据(ndarray类型)
        • index:相关的数据索引标签
    • DataFrame
      • 是一个表格型的数据结构。其既有行索引,也有列索引。
        • 行索引:index
        • 列索引:columns
        • 值:values

    3. Series操作

    3.1 Series的创建

    在这里插入图片描述

    index用来指定显式索引,可以增强Series的可读性。

    在这里插入图片描述

    也可以使用字典作为数据源。

    在这里插入图片描述

    3.2 Series的索引和切片

    在这里插入图片描述

    3.3 Series的常用属性
    • shape
    • size
    • index
    • values
    • dtypes
      在这里插入图片描述
    3.4 Series的常用方法
    • head(), tail()
    • unique()
    • isnull(), notnull()

    在这里插入图片描述

    3.5 Series的算数运算

    索引一致的元素进行算数运算否则补空

    在这里插入图片描述

    4. DataFrame操作

    4.1 DataFrame的创建

    在这里插入图片描述

    可使用 ndarray 创建。

    在这里插入图片描述

    也可以使用字典作为数据源。

    在这里插入图片描述

    index 用来指定显式索引,可以增强 DataFrame 的可读性。

    在这里插入图片描述

    4.2 DataFrame索引和切片
    • iloc: 通过隐式索引取行

    • loc: 通过显式索引取行

    • 对行进行切片

    • 对列进行切片

    在这里插入图片描述

    4.3 DataFrame常用属性
    • shape
    • values
    • columns
    • index

    在这里插入图片描述

    4.4 DataFrame的常用方法

    同Series

    4.5 DataFrame的算数运算

    同Series

    4.6 DataFrame的级联和合并

    级联操作

    • pd.concat
    • pd.append

    接下来我们伪造两组DataFrame数据。

    在这里插入图片描述

    使用pd.concat()

    在这里插入图片描述

    • 匹配级联
      • 横向级联
    • 不匹配级联
      • 不匹配指的是级联的维度和索引不一致。例如纵向级联时列索引不一致,横向级联时行索引不一致。
      • 有两种连接方式
        • 外连接:补NaN(默认模式)
        • 内连接:只连接匹配的项

    PS:如果想要保留数据的完整性必须使用参数 join='outer'(外连接)

    使用 pd.append()

    • 只能纵向级联,并且只能外级联,不可以内级联(一般不用)。

    在这里插入图片描述

    合并操作

    pd.merge()

    • mergeconcat 的区别在于,merge 需要依据某一共同列来进行合并。
    • 使用 pd.merge() 合并时,会自动根据两者相同 column 名称的那一列作为 key 来进行合并。
    • 注意:每一列元素的顺序不要求一致

    一对一合并

    首先我们来伪造两组 DataFrame。

    在这里插入图片描述

    使用 pd.merge()

    在这里插入图片描述

    一对多合并

    首先我们来伪造两组 DataFrame。

    在这里插入图片描述

    使用 pd.merge()

    在这里插入图片描述

    多对多合并

    首先我们来伪造两组 DataFrame。

    在这里插入图片描述

    使用 pd.merge()

    在这里插入图片描述

    merge()方法还可以使用left_on参数和right_on参数哦,how这个参数也可以指定不同的连接方式。

    5. 基于Pandas的数据清洗

    5.1 为什么需要做数据清洗
    • 原始数据中可能存在缺失值(空值)
      • 这些值是没有意义的,并且会干扰我们分析结果的产生
    • 重复值
      • 重复值是没有必要多次分析和处理的
    • 异常值
      • 由于数据采集手段不同等,数据中可能会产生异常值,异常值同样会干扰我们分析结果的产生
    5.2 处理缺失值
    • 有两种缺失值:
      • None
      • np.nan(NaN)
    • 两种缺失值的区别
      • None:None对象类型
      • np.nan:浮点型

    为什么在数据分析中需要用到浮点类型的空而不是对象类型的?

    • None+1会报 TypeError,而 np.nan+1 结果是 nan。它不会干扰或者中断运算。
    • NaN可以参与运算
    • None不可以参与运算

    在Pandas中如果数据中遇到了None形式的空值则Pandas会将其强转成NaN的类型。

    缺失值处理操作

    我们来伪造一组带有缺失值的数据。

    在这里插入图片描述

    • 方法1:对缺失值进行过滤(删除空所在的行数据)

      • isnull() 搭配 any()

    在这里插入图片描述

    • notnull() 搭配 all()

    在这里插入图片描述

    • 使用 dropna()可以直接将缺失的行或者列数据进行删除

    在这里插入图片描述

    • 方法2:fillna() 对缺失值进行填充

    在这里插入图片描述

    5.3 处理重复数据

    我们来伪造一组带有重复值的数据。

    在这里插入图片描述

    • 使用drop_duplicates()

    在这里插入图片描述

    5.4 处理异常值

    异常值是什么?

    • 异常值指的是可能会对具有实质性意义的估计产生偏见或影响,并且会增加误差方差的值。

    接下来我们伪造一组带有异常值的数据。

    在这里插入图片描述

    然后我们来实现异常值的清洗。

    在这里插入图片描述

    6. Pandas高级操作

    6.1 替换操作
    • 替换操作可以同步作用于Series和DataFrame中
    • 单值替换
      • 普通替换:替换所有符合要求的元素
        • to_replace=15, value='value'
      • 按列指定单值替换
        • to_replace={列标签: 替换值}, value='value'
    • 多值替换
      • 列表替换
        • to_replace=[], value=[]
      • 字典替换(推荐)
        • to_replace={to_replace: value, to_replace: value}

    首先我们来伪造一组DataFrame。

    在这里插入图片描述

    使用 replace()

    在这里插入图片描述

    6.2 映射操作
    • 概念:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)
    • map是Series的方法,只能被Series调用

    首先我们来伪造一组DataFrame。

    在这里插入图片描述

    使用 map()

    在这里插入图片描述

    例:超过3000部分的薪资缴纳50%的税,计算每个人的税后薪资

    在这里插入图片描述

    6.3 分组聚合操作
    • 数据分类处理的核心:
      • groupby() 函数
      • groups 属性查看分组情况

    分组

    接下里我们伪造一组DataFrame。

    在这里插入图片描述

    使用 groupby()groups

    在这里插入图片描述

    聚合

    在这里插入图片描述

    高级数据聚合

    • 使用 groupby() 分组后,也可以使用 transform()apply() 提供自定义函数实现更多的运算
    • df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
    • transform()apply() 都会进行运算,在 transform() 或者 apply() 中传入函数即可
    • transform()apply() 也可以传入一个 lambda 表达式

    在这里插入图片描述

    6.4 数据加载
    • 读取csv文件数据

    在这里插入图片描述

    • 读取数据库中的数据
      在这里插入图片描述

    matplotlib模块

    • matplotlib模块可以帮助我们轻松的将数据制成图表可视化展示。

    首先我们倒入全局的模块

    在这里插入图片描述

    1. 绘制线形图

    1.1 绘制单条和多条线形图

    在这里插入图片描述

    1.2 设置坐标系的比例

    在这里插入图片描述

    1.3 设置图例

    在这里插入图片描述

    1.4 设置轴的标识

    在这里插入图片描述

    1.5 图例保存

    在这里插入图片描述

    1.6 曲线的样式和风格

    在这里插入图片描述

    还有其他多种参数的样式哦,详情请见库的源代码。

    2. 绘制柱状图

    在这里插入图片描述

    其余用法和线形图类似。

    3. 绘制直方图

    • 是一个特殊的柱状图,又叫做密度图。
    • plt.hist()的参数
      • bins:可以是一个bin数量的整数值,也可以是表示bin的一个序列。默认值为10
      • normed:如果值为True,直方图的值将进行归一化处理,形成概率密度,默认值为False
      • color:指定直方图的颜色。可以是单一颜色值或颜色的序列。如果指定了多个数据集合,例如DataFrame对象,颜色序列将会设置为相同顺序。如果未指定,将会使用一个默认的线条颜色
      • orientation:通过设置 orientationhorizontal 创建水平直方图。默认值为 vertical

    在这里插入图片描述

    其余用法和线形图类似。

    4. 绘制饼图

    • pie(),饼图也只有一个参数 x
    • 饼图适合展示各部分占总体的比例,条形图适合比较各部分的大小

    在这里插入图片描述

    其余用法和线形图类似。

    5. 散点图

    • scatter(), 因变量随自变量而变化的大致趋势

    在这里插入图片描述

    其余用法和线形图类似。



    PS:欢迎提出宝贵意见,如想询问技术问题可以留言区留言或加开发人员的微信(微信号:x118422)进行咨询~

    展开全文
  • 如何判断一组数据是否符合正态分布呢?

    万次阅读 多人点赞 2021-03-04 14:21:28
    在很多模型及假设检验中都需要满足个假设条件:数据需服从正态分布。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。 描述统计方法 描述统计就是用描述的数字或...
    • 在很多模型及假设检验中都需要满足一个假设条件:数据需服从正态分布。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。

    描述统计方法

    • 描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图、茎叶图。

    Q-Q图

    • Q是quantile的缩写,即分位数。 分位数就是将数据从小到大排序,然后切成100份,看不同位置处的值。比如中位数,就是中间位置的值。Q-Q图的x轴为分位数,y轴为分位数对应的样本值。x-y是散点图的形式,通过散点图可以拟合出一条直线, 如果这条直线的斜率为标准差,截距为均值.,则可以判断数据符合正态分布,否则则不可以。
      在这里插入图片描述
    • 拟合出来的这条直线和正态分布之间有什么关系呢?为什么可以根据这条直线来判断数据是否符合正态分布呢?我们先来想一下正态分布的特征,正态分布的x轴为样本值,从左到右x是逐渐增大的,y轴是每个样本值对应的出现的概率。概率值先上升后下降,且在中间位置达到最高。可以把Q-Q图中的y轴理解成正态分布中的x轴, 如果拟合出来的直线是45度,可以保证中位数两边的数值分布是一样的,即正态分布中基于中位数左右对称。

    P-P图

    • P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布,则代表样本数据的点应当基本在代表理论分布的对角线上。
    • P-P图的检验原理与Q-Q图基本相同,只是Q-Q图用的是分布的分位数来做检验,而P-P图是用分布的累计比。和Q-Q图一样,如果数据为正态分布,则在P-P正态分布图中,数据点应基本在图中对角线上。

    直方图

    • 直方图分为两种,一种是频率分布直方图,一种是频数分布直方图。频数就是样本值出现的次数,频率是某个值出现的次数与所有样本值出现总次数的比值。从直方图我们可以很直观的看出这组数据是否符合正态分布。
      在这里插入图片描述

    茎叶图

    • 茎叶图的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。
    • 茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。
      在这里插入图片描述

    统计检验方法

    • 讲完了描述统计的方法,我们来看一下统计检验的方法。统计检验的方法主要有SW检验、KS检验、AD检验、W检验。

    SW检验

    • SW检验中的S就是偏度,W就是峰度。
    • 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。包括右偏分布(也叫正偏分布,其偏度>0),正态分布(偏度=0),左偏分布(也叫负偏分布,其偏度<0)。在定义上,偏度是样本的三阶标准化矩:在这里插入图片描述
    • 峰度(kurtosis),表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度,计算方法为随机变量的四阶中心矩与方差平方的比值。公式上就是把偏度计算公式里的幂次改为4即可。峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)。公式可表示如下:
      在这里插入图片描述
    • 在Python的scipy包中scipy.stats.normaltest(x, axis=0, nan_policy=‘propagate’)的原理就是基于数据的偏度和峰度,该方法是专门做正态性检验的。x:待检验的数据;axis:默认为0,表示在0轴上检验,即对数据的每一行做正态性检验,我们可以设置为 axis = None 来对整个数据做检验;nan_policy:当输入的数据中有空值时的处理办法。默认为 ‘propagate’,返回空值;设置为 ‘raise’ 时,抛出错误;设置为 ‘omit’ 时,在计算中忽略空值。

    KS检验

    • KS检验是基于样本累积分布函数来进行判断的。可以用于判断某个样本集是否符合某个已知分布,也可以用于检验两个样本之间的显著性差异。如果是判断某个样本是否符合某个已知分布,比如正态分布,则需要先计算出标准正态分布的累计分布函数,然后计算样本集的累计分布函数。两个函数之间在不同的取值处会有不同的差值。我们只需要找出来差值最大的那个点D。然后基于样本集的样本数和显著性水平找到差值边界值(类似于t检验的边界值)。判断边界值和D的关系, 如果D小于边界值,则可以认为样本的分布符合已知分布,否则不可以。
      在这里插入图片描述
    • 在Python中可通过scipy包直接进行KS检验:scipy.stats.kstest(x,cdf = “norm”);x表示待检验的样本集,cdf用来指明要判断的已知分布类型:‘norm’, ’expon’, ’logistic’, ’gumbel’, ’gumbel_l’, gumbel_r’,其中norm表示正态分布检验。返回两个值:D和对应的p_value值。

    AD检验

    • AD检验是在KS基础上进行改造的,KS检验只考虑了两个分布之间差值最大的那个点,但是这容易受异常值的影响。 AD检验考虑了分布上每个点处的差值。
    • 在Python中可通过scipy包直接进行KS检验:scipy.stats.anderson(x, dist= ‘norm’),x为待检验的样本集,dist用来指明已知分布的类型,可选值与ks检验中可选值一致。返回三个结果: 第一个为统计值,第二个为评判值,第三个为每个评判值对应的显著性水平。

    W检验

    • W检验(Shapiro-Wilk的简称)是基于两个分布的相关性来进行判断,会得出一个类似于皮尔逊相关系数的值。 值越大,说明两个分布越相关,越符合某个分布。
    • 在Python中可通过scipy包直接进行W检验:scipy.stats.shapiro(x),x为待检验的样本集,上面的代码会返回两个结果:W值和其对应的p_value。shapiro是专门用于正态性检验的,所以不需要指明分布类型。且 shapiro 不适合做样本数>5000的正态性检验。

    判断完后,若数据不符合正态分布又当如何呢?后续小编将继续总结将非正态分布数据转换为正态分布的方法。

    展开全文
  • 今天给大家分享数据分析案例:线下连锁水果店销售数据分析案例,分析过程我也会以类动图的方式呈现给大家,真正意义上做到收藏即学会。 目录1 案例背景2 问题确认与指标拆解题3 问题解决思路4 案例实操4.1 利用...

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

    感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。


    今天给大家分享一个数据分析案例:线下连锁水果店销售数据分析案例,分析过程我也会以类动图的方式呈现给大家,真正意义上做到收藏即学会。

    1 案例背景

    果多吃水果连锁超市是华北地区的热门线下水果超市。该超市覆盖华北5个省份,且在京津冀地区门店超过90家;与其他动辄SKU过百的水果连锁超市相比,公司专供60种热门水果,其中由果多吃自建供应链的具有自主商标的高品质产品在数量上逐年增加,为企业提供了丰厚利润。自2015至2018年,其年净利润涨幅保持在10%以上,其中2018年的净利润额达7835万。
    在这里插入图片描述
    作为一家线下连锁水果超市,果多吃通过直营+加盟的模式铺开连锁网络。通过标准化的储存方式、仓库的创新设计、高效能的设备以及与供应商的同步数据来确保物美价廉。

    其长期的稳定盈利,一方面得益于有针对性的店面规划和商品规划,另一方面得益于完备的会员制度和有效的会员激励方案。公司设计了一套商品分配系统,能够依据各个地区的商品销售特点自动划分该地区的水果供应配比,而总公司一般只需要按照整体需求安排水果采购即可;

    2019年,公司发现季度利润有下降趋势,下图是近年来的企业季度利润表现。从图中可以看出,2019年Q1和Q2的利润同比都为负数。连续两个季度无法维持利润增长,如果保持现有利润增幅,将无法满足公司董事会设定的利润目标,企业领导十分着急。
    在这里插入图片描述
    所以现在,老板该咱定了个目标:对比去年达到5%的年净利润增长。

    按照前几年的Q1Q2季度利润占比和近年的实际利润情况,估计全年利润为7600万左右,如果需要对去年保持5%的利润增长,则需要达到约8200万利润(7835万 * (1+5%)),还需要填补600万的利润缺口。按去年的季度利润占比,第三季度的利润平均占全年的28%,第四季度占全年的18%,我们预估第四季度的利润提高难度要大于第三季度。所以我们给第三季度分配400万利润提高额,给第四季度分配200万利润提高额。

    在这里插入图片描述

    2 问题确认与指标拆解题

    已知利润=收入-成本,那我们可以主要从增加收入和减少成本两大方面入手,具体如下。

    在这里插入图片描述

    3 问题解决思路

    在这里插入图片描述
    **方案1:**未盈利店铺Q3承担100万毛利额增长额

    我们通过店铺的盈利状况,发现接近有23家店铺未盈利(约占92家店面的25%)。我们将25%的毛利额增长任务分配至这25%的未盈利店铺,利用部分商品打折促销的营销推广方式,让店铺增加客流量,提高打折水果销量,同时也提高非打折水果的销售概率。以这个方式来达到店铺毛利额增长的目标;

    通过25%的毛利额增长任务拆解单店的日均毛利额增长任务:

    • 亏损店铺本季度承担毛利额增长总额为:400万 * 25% = 100万
    • 每店铺平均每日承担的毛利额增长额为:100万 / 90天 / 23店铺数 = 483元
    • 为了将目标设置得稍微高一些,我们将目标从483元 提高到了 500元

    **方案2:**利用高销量高利润商品带来300万毛利额增长额

    我们将75%的毛利额增长任务分配至所有店铺,分析热销水果,预测水果的销量变动趋势,改变不同水果的进货配比,从而达到增加毛利额的目标;

    通过75%的毛利额增长任务拆解单店的日均毛利额增长任务:

    • 所有店铺本季度承担毛利额增长总额为:400万 * 75% = 300万
    • 每店铺平均每日承担的毛利额增长额为:300万 / 90天 / 92店铺数 = 360元

    4 案例实操

    在这里插入图片描述

    4.1 利用分组分析找到亏损店铺做营销优化,实验验证结论

    我们在本阶段完成以下几个任务:

    1.拆分出亏损店铺

    其中亏损店铺的划分为:日毛利额小于4000的店铺;

    关于我们日毛利额4000的标准,我们的计算标准如下:

    • 租金成本:我们水果店铺单店的面积在80㎡左右,按每平米8元的日租金,每日租金为:640元
    • 人员成本:水果店单店的员工数平均8人,每人每月平均工资4000元,折合每日工资为:1067元
    • 税:水果店的单店税收平均到每天约为:1000元
    • 水电及其他成本,每日约为:300元
    • 装修及设备分摊成本,每日约为:1000元

    2.从亏损店铺中抽取部分店铺做精细化销售方案实验

    其中精细化销售方案指线下店铺常用的部分商品打折促销的活动

    3.分析实验效果,前后对比,确定是否将该方案推广到其他亏损店铺

    数据介绍

    92家店铺 店铺ID 日均销量等4个维度(每个字段的介绍)
    在这里插入图片描述
    分组分析介绍
    在这里插入图片描述
    分析结果

    三店平均日均净利润增长额:1176元

    23号店铺:净利润增额205元(未达目标)

    39号店铺:净利润增额2262元

    64号店铺:净利润增额1061元
    在这里插入图片描述
    数据处理: 统计(excel 工具实现)

    1. 对店铺亏损程度排序,查看大致亏损情况–按日均毛利升序排序

    在这里插入图片描述

    1. 找出日均毛利小于4000元(亏损店铺)–筛选出日均毛利小于4000的店铺

    在这里插入图片描述

    1. 抽取3个样例店铺(id 为23 ,39, 64) 进行推广实验并与之对比,数据如下

    在这里插入图片描述

    1. 计算推广前后的利润对比
      1. 对比日均毛利额是否增长
      2. 每日每斤平均利润 = 日均毛利额度/日均销量

    在这里插入图片描述

    1. 23号店是否关店决策

    按现有日均毛利额增长速度,23号店预计未来3个月都无法达成盈利的状态,可以考虑关店;
    3个月后预估的毛利 = 日均毛利*(1 + 增长幅度)

    在这里插入图片描述

    4.2 运用对比分析法解决哪类产品销售好的问题?

    • 拆分出不同销量的水果,尝试对水果做销量对比
    • 使用对比分析方法完成任务

    数据介绍

    数据为一具体店铺17天抽样的507条销售记录,数据维度包括销售日期 产品ID 折扣 数量等10个维度。

    在这里插入图片描述
    对比分析介绍

    在这里插入图片描述
    分析结果
    通过对比销量分析,发现葡萄和荔枝的销量明显高于其他品类;

    为了进一步分析销量和利润的综合效果,需要结合利润维度做矩阵关联分析;

    同时为了决策进货量,需要进一步进行趋势分析。

    数据处理:统计(excel 工具实现)

    1. 【数据】–>【高级筛选】–>选择“将筛选结果复制到其他位置”,列表区域选中D列,指定复制到的位置,勾选“选择不重复记录”。

    在这里插入图片描述

    1. 统计各品类的总销售量(sumif(范围,条件,求和项)

    在这里插入图片描述

    1. 设施统计表格格式(字体,背景色等)

    在这里插入图片描述
    数据分析: 对比分析(图表更直接----可视化)

    1. 选中左侧所有数据 -->【插入】–> 图表区域选择柱形图。

    在这里插入图片描述

    1. 选中图表右键添加数据标签(Excel 右侧可以设置图标样式)。

    在这里插入图片描述

    4.3 利用矩阵关联法找到销量好和利润高的品类

    拆分出不同销量和利润的水果,为接下来的进货量调整做准备。(使用矩阵关联分析方法完成任务)

    1. 利润高 :平均利润高(因为水果每次进价不一样,售价也不一样)
    2. 平均利润 = 总利润/总销量
    3. 总销量 = 数量的总和
    4. 总利润 = 利润的总和
    5. 求利润 = 销售额 - 成本 * 数量
    6. 销售额 = 单价 * 数量 * 折扣

    矩阵分析法

    是指将事物的两个重要指标作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。

    只要两个指标之间线性无关且放在一起有意义都可以用象限分析 。如:转化率和客单价, 售罄率和单款产出 , 单款库存深度(数量)和 上新款数。

    1. 每次营销活动的点击率和转化率

    在这里插入图片描述

    1. 各类服装库存与销量

    在这里插入图片描述

    1. 用户对产品重要性与满意度

    在这里插入图片描述
    作用:将有相同特征的事件进行归因分析,总结其中的共性原因;建立分组优化策略。

    在这里插入图片描述
    销量高和平均利润都高:重点对待

    销量高但是平均利润少:一般保持

    销量低但是平均利润高:重点发展

    销量和平均利润双低:需要查明原因或减少进货量的品类

    分析结果

    1. 处在重点对待象限的品类是荔枝,可以增加进货量
    2. 处于需要查明原因或减少进货量的品类是芒果,可以减少进货量

    数据处理: 统计(excel 工具实现)

    1. excel 去重筛选所有品类 数据菜单–高级筛选
    2. 统计销量(sumif)

    在这里插入图片描述

    1. 统计总利润(sumif)

    在这里插入图片描述

    1. 统计总销量(sumif)

    在这里插入图片描述

    1. 计算平均利润

    在这里插入图片描述

    数据分析: 象限分析(图表更直接----可视化)

    知识点:象限图(散点图改进)

    1. 选中销量和平均利润数据绘制散点图

    在这里插入图片描述

    1. 计算销量与平均利润的平均值

    在这里插入图片描述

    1. 调整散点图的X,Y轴交叉点为销量和利润的均值,之变为矩阵图

    在这里插入图片描述

    1. 去掉散点图的X,Y轴刻度

    在这里插入图片描述

    1. 选中横纵网格线,按下“del”键删除网格
    2. 添加坐标轴的标题,便于区分各象限的含义

    在这里插入图片描述

    1. 设置数据标签
      a. 选中图表右键"添加数据标签"
      b. 选中标签右键“数据标签选项”–选中单元格的值并框选所有产品类目,去掉Y值

    在这里插入图片描述

    1. 最终展现结果如下

    在这里插入图片描述

    1. 可以看出芒果的销量、利润都不高,可以将精力放到其他水果的销量上

    4.4 运用趋势分析法分析水果总需求如何?

    • 挑选出毛利额较高的品类和毛利额较低的品类,预测两者的后续销量趋势

      • 使用趋势分析法预测销量趋势
    • 根据预测的销量趋势判断是否需要增加进货量或者减少进货量,并判断为了完成利润目标需要增加多少进货量

    • 趋势分析法
      趋势是市场表现的方向,趋势分析可以帮助我们把握市场大方向,不犯原则性错误。
      趋势有三种方式:上升,下降和平稳
      纵向分析:不同时间的段指标进行比较

    在这里插入图片描述

    分析结果

    荔枝的趋势预测小幅上升,说明顾客对于荔枝的需求正在增长,可以提高荔枝进货量。

    同样,利润较低的芒果趋势预测小幅下降,说明顾客对于芒果需求正在降低,可以减少芒果进货量。

    数据处理

    1. 数据量少的情况下,我们选择时间粒度为日。excel 去重筛选所有时间段
      【数据】–>【高级筛选】–> 列表区域选择日期列

    在这里插入图片描述

    1. 统计每天荔枝的销售量并设置表格式 (sumifs(求和项,范围1,条件1,,范围2,条件2,…))

    在这里插入图片描述

    数据分析: 趋势分析(图表更直接----可视化)-- 时间段趋势用折线图表示

    1. 【插入】–>【图表区】–> 选择“带数据标记折线图”(时间段少时用)

    在这里插入图片描述

    1. 选中图表对象,增加趋势线并对图表进行美化

    在这里插入图片描述

    1. 设置标记点

    在这里插入图片描述

    1. 以同样的方式绘制芒果销量趋势图

    在这里插入图片描述#pic_center

    5 结论分析报告

    1.各店的精细化销售方案能将亏损店铺日均毛利额提高1176元

    • 通过三店的精细化销售推广,23号店日均毛利额提升205元,提升幅度达23.85%;39号店铺日均毛利额提升2262元,提升幅度68.17%;64号店铺日均毛利额提升1061元,提升幅度30.07%;三店铺日均毛利额提高1176元
    • 按三店的最低提升幅度23.85%估计23家亏损店铺的整体日均利润提升额为1.6万,平均每个店铺712元,大于目标500元
    • 后续可以对24个亏损店铺推广,按每个店铺712元的毛利提升,预计整体一个季度可以提升143万利润。可完成36.8%毛利额增长目标

    在这里插入图片描述

    2.调整水果进货后能将店铺的日均毛利额提高

    • 通过矩阵关联法,分析出荔枝属于高销量高利润商品、芒果属于低销量低利润商品;
    • 通过预测两者销量趋势,可以预测到荔枝销量呈上升趋势,芒果销量呈下降趋势。我们决定增加荔枝进货量,减少芒果进货量。结合矩阵关联法,可以看出,这种调整组合可以有效提高店面整体毛利额;
    • 假设我们的进货调整方案为:
      荔 枝 调 整 进 货 量 = ( 目 标 利 润 + ( 芒 果 利 润 ∗ 芒 果 下 降 销 量 ) ) / 荔 枝 利 润 荔枝调整进货量=(目标利润+(芒果利润*芒果下降销量))/ 荔枝利润 =(+()/

    可以计算得出需要增加荔枝量在230斤到330斤之间

    • 后续可按相同方式预测其他水果销量,可以综合地提高其他品类的进货量,而非单一提高一个品类的进货量,从而使我们达到目标的策略更加稳妥可行

    在这里插入图片描述
    在这里插入图片描述

    推荐关注的专栏

    👨‍👩‍👦‍👦 机器学习:分享机器学习理论基础和常用模型讲解
    👨‍👩‍👦‍👦 数据分析:分享数据分析实战项目和常用技能整理


    关注我,了解更多相关知识!

    CSDN@报告,今天也有好好学习

    展开全文
  • 数据分析入门:15种EXCEL数据分析功能

    千次阅读 多人点赞 2021-03-17 17:27:56
    如果你曾经使用过Excel,那么你可能已经经历了选择不正确的公式来分析数据集的痛苦。也许你花了几个小时来...CONCATENATE是进行数据分析时最容易学习但功能最强大的公式之。将多个单元格中的文本,数字,日期和更多
  • 数据分析统计学基础之数据的趋势

    千次阅读 2019-05-15 18:01:25
    它是一组数据的代表值.数据的集中趋势就是一组数据向数据的中心值靠拢的程度。   集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。 1.1平均数   平均数为集中趋势的最常用测度值,目的...
  • 数据分析与可视化()1.1 数据分析1.1.1数据、信息与数据分析 1.1 数据分析 1.1.1数据、信息与数据分析 数据数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的...
  • 浅谈数据分析数据建模

    千次阅读 2019-11-26 15:43:02
    过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据数据分析应用的领域集中在企业内部经营和财务分析。 数字时代到来之后,企业经营的各个阶段都可以被...
  • 一文看懂怎么用 Python 做数据分析

    万次阅读 多人点赞 2019-04-16 17:18:38
    作者 | 蓝鲸网站分析博客来源|http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-ex...
  • 创业公司做数据分析)开篇

    万次阅读 多人点赞 2016-12-01 23:14:06
    作为系列文章的第篇,本文采用“WHY->WHAT->HOW”的思考方式来介绍三点:1. 创业公司为什么需要做数据分析?2. 创业公司做数据分析,需要哪些事情?3. 如何实现这些数据上的需求?
  • 数据分析数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    概述:简介、思路、发展...数据分析方法:描述统计、假设检验、信度分析相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等; 数据可视化:Excel、PowerBI、Tableau、Python;
  • 大数据时代,我竟然在用Excel和SPSS做数据分析,真香!

    千次阅读 多人点赞 2020-06-06 12:25:39
    本篇文章介绍的是基于Excel和SPSS的数据分析数据可视化操作.大数据时代,我们每天接受的数据量是巨大的,只有分析数据之间的联系进而才可能得到商机和"钱"途,本篇文章将从最基础的概念入手到实际的对数据分析实战,...
  • 分享个超详细的数据分析案例【Python】附ABTest详细介绍
  • 数据分析入门()

    千次阅读 多人点赞 2020-02-29 11:17:19
    1.数据分析概念 1.1数据分析 是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。 1.2数据分析包括 描述性数据分析(初级数据分析)...
  • 商品销售数据分析报告

    千次阅读 2021-11-16 20:52:20
    将基于电商用户的销售数据进行数据分析,探索用户消费行为概况和特点,寻找高价值客户,为精准营销与精细化运营提供数据支撑,从而帮助平台/商家实现营收增长。
  • 商业数据分析从入门到入职(1)商业数据分析综述

    千次阅读 多人点赞 2020-09-10 17:33:07
    评价个事务需要从多个角度衡量,基本的分析流程包括理解商业问题、准备阶段、数据分析和解释结果,找整个供应链出现问题的主要环节;从点、线、面角度评价业绩;需要用到Excel、Python、MySQL等工具。数据粒度是指...
  • Tableau数据分析-Chapter08数据分层、数据分组、数据集 本专栏将使用tableau来进行数据分析,Tableau数据分析-Chapter08数据分层、数据分组、数据集,记录所得所学,作者:北山啦 文章目录Tableau数据分析-...
  • 1、大数据分析框架结构 2、数据、信息与数据分析 数据:是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。 ...
  • Aitchison认识到关于组成成分的每个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统计学家和研究人员广泛接受,...
  • 豆瓣电影数据分析案例

    千次阅读 多人点赞 2020-06-11 10:31:02
    现在我们有一组从2006年到2016年1000部最流行的电影数据,需要进行分析 数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data 分析方向为: 问题1:我们想知道这些电影数据中评分的平均分,导演的人数等...
  • 相信不少人在实验或者嵌入式软件测试的时候会遇到需要利用FFT进行频谱分析的情况,我们通过Simulink仿真可以快速地进行简单的频谱分析可以省去写堆代码(当然用matlab代码实现也利于我们理解FFT相关原理、...
  • 数据分析数据质量分析

    千次阅读 2018-11-19 11:03:35
    数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析数据。脏数据包括以下内容: 1、缺省值 2、异常值 3、不一致的值 4、重复数据以及含有特殊符号(如#...
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2018-05-28 13:58:14
    数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...
  • Python数据分析实战(1)数据分析概述

    千次阅读 多人点赞 2020-08-23 21:51:03
    数据分析师的任务是分析了、预测未来和优化选择;成为数据分析师必须具备多种技能,利用好Python等工具。Python有多个版本;根据不同系统安装;需要添加环境变量;需要安装pip;可以选择PyCharm开发。Anaconda是科学...
  • 数据建模及数据分析浅析

    万次阅读 多人点赞 2018-08-31 10:53:20
    数据分析项实践性很强的工作,涉及到很多交叉学科,需要不同的岗位和角色,来实现不同的性质的工作。 数据分析师中的角色和职责 数据分析团队师应该在科技部门内部还在业务部门内部一直存在争议。在业务...
  • 芯片数据分析笔记【01】 | 基因芯片的基本原理芯片数据分析笔记【02】 | 芯片数据库GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI...
  • 数据挖掘:探索性数据分析(EDA)

    千次阅读 多人点赞 2020-02-21 15:48:22
    数据挖掘:探索性数据分析
  • 基于Python的数据分析

    万次阅读 多人点赞 2019-02-25 15:50:02
    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用 Python进行数据分析的学习方法...在此背景下,数据分析成为数据科学领域中个全新的研究 课题。...
  • Excel+Access做数据分析和报表分析

    万次阅读 2015-07-15 17:33:37
    目录前言 设计思路 一切从简单开始 深入解剖 三分之Excel引用外部数据源 使用外部数据创建透视表透视图 使用外部数据创建图 ...使用ODBC导入数据前言在写这遍文章之前啰嗦一下,最近公司在BI分析,突然有一下想法,
  • 有时候多组数据需要分析其关联性(是否有正向/反向线性关联关系),这个时候就可以借助关联性分析了。如果只是两组线性数据比较,那只要比出来个关联度就好了。但是如果是两个表格(多对多组数据,两两比较,就...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 880,551
精华内容 352,220
关键字:

一组数据可以直接做相关分析