精华内容
下载资源
问答
  • 常用的不确定性分析方法有哪些
    千次阅读
    2021-12-06 14:39:17


    一、 概述

    人工智能经典三大基本技术为:知识表示、推理、搜索策略。推理是人类求解
    问题的主要思维方法。

    无论是人类智能还是人工智能,都离不开不确定性的处理。
    可以说,智能主要反映在求解不确定性问题的能力上。
    因此,不确定性推理模型是人工智能和专家系统的一个核心研究课题。

    为方便记忆和回顾,根据个人学习,总结人工智能基础知识和思维导图形成系列。

    二、 重点内容

    • 不确定性推理的概念及分类
    • 不确定性推理中的基本问题
    • 概率方法及贝叶斯公式
    • 可信度方法
    • 模糊推理

    三、 思维导图

    人工智能导论(4)——不确定性推理

    四、 重点知识笔记

    1. 不确定性推理概述

    1.1 概念

    不确定性推理是指从不确定性的初始证据出发,通过运用不确定性的知识
    推出具有一定程度的不确定性但却合理或近乎合理的结论的思维过程。

    不精确性是科学认识中的重要规律,也是进行机器智能推理的主要工具之一。

    1.2 分类

    不确定性推理方法主要分为控制方法和模型方法两类。

    • 模型方法
      • 数值模型方法
        • 基于概率
          • 概率方法(纯概率法应用受限)
          • 贝叶斯方法
          • 可信度方法
          • 证据理论
        • 基于模糊理论
          • 模糊方法
      • 非数值模型方法
        • 发生率计算方法
    • 控制方法
      • 尚没有统一模型。相关性指导、机缘控制、启发式搜索、随机过程控制等

    控制方法

    控制方法没有处理不确定性的统一模型,其效果极大地依赖于控制策略。

    不确定性推理的控制方法主要取决于控制策略,包括相关性指导、机缘控制、启发式
    搜索、随机过程控制等。

    模型方法

    模型方法具体可分为数值模型方法和非数值模型方法两类。按其依据的理论不同,
    数值模型方法主要有基于概率的方法和基于模糊理论的推理方法。

    纯概率方法虽然有严格的理论依据,但通常要求给出事件的先验概率和条件概率,
    而这些数据又不易获得,因此使其应用受到限制。在概率论的基础上提出了一些
    理论和方法,主要有可信度方法、证据理论、基于概率的贝叶斯推理方法等。

    目前,在人工智能中,处理不确定性问题的主要数学工具有概率论和模糊数学。

    目前常用的不确定性推理的数学方法主要有基于概率的似然推理(Plausible Reasoning)、基于模糊数学的模糊推理(FuzzyReasoning)、可信度方法,
    以及使用人工神经网络算法、遗传算法的计算推理等。

    1.3 基本问题

    所有的不确定性推理方法都必须解决3个问题:

    (1)表示问题

    表示问题指的是采用什么方法描述不确定性。

    在专家系统中,“知识不确定性”一般分为两类:一是规则的不确定性,二是证据的不确定性。

    • 一般用(E→H, f(H,E))来表示规则的不确定性,f(H,E)即相应规则的不确定性程度,称为规则强度。
    • 一般用(命题E, C(E))表示证据的不确定性,C(E)通常是一个数值,代表相应证据的不确定性程度,称为动态强度。

    规则和证据不确定性的程度常用可信度来表示。

    在专家系统MYCIN 中,可信度表示规则及证据的不确定性,取值范围为[−1, 1]

    • 当可信度取大于零时,其数值越大,表示相应的规则或证据越接近于“真”;
    • 当可信度小于零时,其数值越小,表示相应的规则或证据越接近于“假”。

    (2)语义问题

    语义问题指上述表示和计算的含义是什么,即对它们进行解释。即需要对规则和证据的
    不确定性给出度量。

    • 对于证据的不确定性度量C(E),需要定义在下述3种典型情况下的取值:
      • E为真,C(E)=?
      • E为假,C(E)=?
      • 对E一无所知,C(E)=?
    • 规则的不确定性度量f(H,E),需要定义在下述3种典型情况下的取值:
      • 若E为真,则H为真,这时f(H,E)=?
      • 若E为真,则H为假,这时f(H,E)=?
      • E对H没有影响,这时f(H,E)=?

    (3)计算问题

    计算问题主要指不确定性的传播和更新。即计算问题定义了一组函数,求解结论的
    不确定性度量。

    主要包括3方面:

    • 不确定性的传递算法
      • 已知前提E的不确定性C(E)和规则强度f(H,E)求结论H的不确定性
      • 即定义函数f1,使得C(H)=f1(C(E),f(H,E))
    • 结论不确定性合成
      • 由两个独立的证据E1和E2求得的假设H的不确定性C1(H)和C2(H),求证据E1和E2的组合导致的假设H的不确定性
      • 即定义函数C(H)=f2(C1(H),C2(H))
    • 组合证据的不确定性算法
      • 已知证据E1和E2的不确定性C1(E)和C2(E),求证据E1和E2的析取和合取的不确定性
      • 即定义函数C(E1∧E1)=f3(C(E1),C(E2));C(E1∨E2)=f4(C(E1),C(E2))

    组合证据的不确定性的计算已经提出了多种算法,用得最多的是如下3种:

    • 最大最小法
      • C(E1∧E2) = min{C(E1),C(E2)}
      • C(E1∨E2) = max{C(E1),C(E2)}
    • 概率方法
      • C(E1∧E2) = C(E1)×C(E2)
      • C(E1∨E2) = C(E1)+C(E2)−C(E1)×C(E2)
    • 有界方法
      • C(E1∧E2) = max{0, C(E1)+C(E2)−1}
      • C(E1∨E2) = min{1, C(E1)+C(E2)}

    2. 概率方法

    有完善的理论,被最早用于不确定性知识的表示和处理。但因条件概率不易给出、计算量
    大等原因,应用受了限制。

    2.1 基础知识

    (1)条件概率定义

    P(B|A)=P(AB)/P(A)称为事件A发生的条件下事件B的条件概率

    (2)全概率公式

    设事件A1,A2,…,An互不相容,其和为全集。则对于任何事件B:P(B)=Σ(P(Ai)×P(B|Ai))

    一般的,如果一个集合含有我们所研究问题中涉及的所有元素,那么就称这个集合为
    全集,通常记作U。

    (3) 贝叶斯公式

    设事件A1,A2,…,An互不相容,其和为全集。则对于任何事件B:
    P(Ai|B)=P(Ai)×P(B|Ai)/P(B)

    贝叶斯公式可以用条件概率公式证明:

    推导:
    P(Ai|B) = P(AiB)/P(B)         #条件概率公式
            = P(Ai)×P(B|Ai)/P(B)  #分子代入条件概率公式
    
    证明:
    P(Ai|B) = P(Ai)×P(B|Ai)/P(B)
            = P(AiB)/P(B)         #分子代入条件概率公式
            = P(Ai|B)             #条件概率公式
    

    用全概率公式代入贝叶斯公式,可以得到贝叶斯公式的另一种形式:

    P ( A i ∣ B ) = P ( A i )   P ( B ∣ A i ) Σ i [ P ( A i ) P ( B ∣ A i ) ] P(A_i|B)=\frac{P(A_i)\ P(B|A_i)}{\Sigma_i [P(A_i)P(B|A_i)]} P(AiB)=Σi[P(Ai)P(BAi)]P(Ai) P(BAi)

    其中:

    • P(Ai)是事件Ai的先验概率
    • P(B|Ai)是在事件Ai发生条件下事件B的条件概率
    • P(Ai|B)是在事件B发生条件下事件Ai的后验概率。
    • 先验概率是指根据以往经验和分析得到的概率。
    • 后验概率指某件事已经发生,计算这件事发生的原因是由某个因素引起的概率(根据结果求原因的概率)。

    2.2 经典概率方法

    (1)单条件

    • 设有产生式规则:IF E THEN Hi (其中,E为前提条件,Hi为结论)
    • 用条件概率:P(Hi|E) 表示证据E条件下,Hi成立的确定性程度

    (2)复合条件

    • 对于复合条件: E = E1 AND E2 AND … AND Em
    • 用条件概率:P(Hi|E1,E2,…,Em) 表示E1,E2,…,Em出现时,结论Hi的确定性程度

    2.3 逆概率方法

    在实际中,求条件E出现情况下结论Hi的条件概率P(Hi|E)非常困难。
    但是求逆概率P(E|Hi)要容易的多。

    比如:E 代表咳嗽,以Hi代表支气管炎

    • P(Hi|E),咳嗽的人中有多少是患支气管炎,统计工作量较大
    • P(E|Hi),患支气管炎的人有多少咳嗽,统计就容易多了

    如果前提条件E表示,用Hi表示结论,用贝叶斯公式就可得到:

    P ( H i ∣ E ) = P ( H i )   P ( E ∣ H i ) Σ i [ P ( H i ) P ( E ∣ H i ) ] P(H_i|E)=\frac{P(H_i)\ P(E|H_i)}{\Sigma_i [P(H_i)P(E|H_i)]} P(HiE)=Σi[P(Hi)P(EHi)]P(Hi) P(EHi)

    当已知Hi的先验概率,结论Hi成立时E的条件概率P(E|Hi)就可以求Hi的条件概率。

    多个证据E1,E2,…,Em和多个结论H1,H2,…,Hn,则可以进一步扩充为:

    P ( H i ∣ E 1 , E 2 , . . . , E m ) = P ( H i ) P ( E 1 ∣ H i ) P ( E 2 ∣ H i ) . . . P ( E m ∣ H i ) Σ [ P ( H i ) P ( E 1 ∣ H i ) P ( E 2 ∣ H i ) . . . P ( E m ∣ H i ) ] P(H_i|E_1,E_2,...,E_m) = \frac{P(H_i)P(E_1|H_i)P(E_2|H_i)...P(E_m|H_i)}{Σ[P(H_i)P(E_1|H_i)P(E_2|H_i)...P(E_m|H_i)]} P(HiE1,E2,...,Em)=Σ[P(Hi)P(E1Hi)P(E2Hi)...P(EmHi)]P(Hi)P(E1Hi)P(E2Hi)...P(EmHi)

    3. 可信度方法

    可信度是指人们根据以往的经验对某个事物或现象为真的程度的一个判断,或者说是人们对某个事物或现象为真的相信程度。

    3.1 可信度的基本概念

    3.1.1 可信度的定义

    可信度最初定义为信任与不信任的差。

    CF(H,E) = MB(H,E)-MD(H,E)

    CF(Certainty Factor,确定性因子)是由证据E得到假设H的可信度。

    MB(Measure Belief)称为信任增长度,表示E的出现使结论H为真的信任值增长程度。

    • MB(H,E) = 1 当P(H)=1时
    • MB(H,E) =(max(P(H|E),P(H)}-P(H))/(1-P(H)) 其他情况

    MD(Measure Disbelief)称为不信任增长度

    • MD(H,E)=1 当P(H)=0时
    • MD(H,E) =(min(P(H|E),P(H)}-P(H))/(-P(H)) 其他情况

    根据以上定义,可以得到:

    • CF(H,E)=MB(H,E)-0 当P(H|E)>P(H)时
    • CF(H,E)=0 P(H|E)=P(H)时
    • CF(H,E)=0-MD(H,E) 当P(H|E)<P(H)时

    ** 3.1.2 可信度的性质**

    (1)互斥性

    • 当MB(H,E)>0时, MD(H,E)=0
    • 当MD(H,E)>0时, MB(H,E)=0

    (2)值域

    • 0≤MB(H,E)≤1
    • 0≤MD(H,E)≤1
    • -1≤CF(H,E)≤1

    (3)典型值

    • CF(H,E)=1时,P(H|E)=1, MB(H,E)=1, MD(H,E)=0
    • CF(H,E)=-1时,P(H|E)=0, MB(H,E)=0, MD(H,E)=1
    • CF(H,E)=0时,P(H|E)=P(H),MB(H,E)=0, MD(H,E)=0,表示E对H无影响

    (4)H的信任增长度等于非H的不信任增长度

    • MB(H,E) = MD(¬H,E)
    • MD(H,E) = MB(¬H,E)

    (5)H的可信度对非H的可信度之和等于0

    • CF(H,E)+CF(¬H,E) = 0

    (6)可信度与概率的区别

    • 概率:P(H)+P(¬H)=1 且 0≤P(H),P(¬H)≤1
    • 可信度:-1≤CF(H,E)≤1

    **(7)对于同一前提E,若支持多个不同的结论Hi,则

    • ΣCF(Hi,E) ≤1

    实际应用中,P(H)和 P(H|E)的值很难获得,因此CF(H,E)的值由领域专家给出。

    3.2 可信度模型

    3.2.1 规则的不确定性的表示

    可信度(CF)模型中,规则用产生式规则表示:

    IF E THEN H (CF(H,E))
    

    3.2.2 证据的不确定性表示

    可信度(CF)模型中,证据E的不确定性也用可信度因子CF表示,取值范围为[-1,1],典型值为:

    • 证据E肯定为真: CF(E)=1
    • 证据E肯定为假: CF(E)=-1
    • 证据E一无所知: CF(E)=0

    3.2.3 组合证据的不确定性的计算

    • E=E1 AND E2 AND … AND En
      • CF(E) = min({CF(E1),CF(E2),…,CF(En)}’
    • E=E1 OR E2 OR … OR En
      • CF(E) = max({CF(E1),CF(E2),…,CF(En)}

    3.2.4 否定证据的不确定性计算

    • CF(¬E) = -CF(E)

    3.2.5 不确定性推理

    1. 证据肯定存在,即CF(E)=1时,则CF(H)=CF(H,E)
    2. CF(E)≠1时,则CF(H)=CF(H,E)×max{0,CF(E)}
      • CF(E)<0时,CF(H)=0
    3. 多条相互独立的规则分别推出相同结论,结论合成综合可信度算法
      • 分别对每个规则用第二步公式求出CF,即CF1(H),CF2(H)…
      • 对E1、E2求综合可信度
        • CF(H) = CF1(H)+CF2(H)-CF1(H)×CF2(H) 当CF1,CF2≥0时
        • CF(H) = CF1(H)+CF2(H)+CF1(H)×CF2(H) 当CF1,CF2<0时
        • CF(H) = CF1(H)+CF2(H) 当CF1,CF2异号时
      • 对于多条规则,依次合成,直到结束。

    可信度模型的特点:

    • 简洁、直观、容易理解
    • 可能和条件概率得出的值相反、计算的累积可能导致一个规则和多个规则计算结果不同、组合规则顺序不同可能结果不同

    4. 模糊推理

    4.1 模糊数学的基本知识

    4.1.1 模糊集合

    (1)定义

    集合元素对集合的隶属程度称为隶属度,用 µ 表示。

    • µ=1,表示元素属于集合
    • µ=0,表示元素不属于集合

    模糊集合用“隶属度/元素”的形式来记:
    A = µ 1 / x 1 + µ 2 / x 2 + . . . + µ n / x n = ∫ μ A ( x ) / x A = µ1/x1 + µ2/x2 + ... + µn/xn =\int μA(x)/x A=µ1/x1+µ2/x2+...+µn/xn=μA(x)/x

    (2)模糊集合相等

    A=B,当且仅当:∀x,μA(x)=μB(x)

    (3)模糊集合包含

    B包含A,当且仅当:∀x∈U,μA(x)≤μB(x)

    A,B均是论域U上的模糊集合,即A,B中的元素∈U,下同

    (4)模糊集合并、交、补

    • µ(A∪B)(x) = max(µA(x), µB(x)) ∀x∈U
      • 也记为:µA(x) ∨ μB(x) ∨表示取极大
    • µ(A∩B)(x) = min(µA(x), µB(x)) ∀x∈U
      • 也记为:µA(x) ∧ μB(x) ∧表示取极小
    • µ(¬A)(x) = 1-(µA(x) ∀x∈U

    (5)模糊集合的积

    A、B分别是论域U、V上的模糊集合。即A中的元素为x∈U,B中的元素为y∈V

    • A×B = ∫(μA(x) ∧ μA(y))/(x,y)

    相乘之后元素变为(x,y)值对

    4.1.2 模糊关系及运算

    (1)模糊关系定义

    论域U到V上的模糊关系R:指U×V上的一个模糊集合:

    • 集合元素为有序对<x,y>
    • 集合隶属函数为μR(x,y)

    模糊关系 R 通常用矩阵表示:

    以U=V={1,2,3}为例:

    x\y123
    100.10.6
    2000.1
    3000
    模糊关系矩阵
    R=[[0, 0.1, 0.6],
       [0,   0,  0.1],
       [0,   0,   0]]
    

    (2)模糊关系的合成

    • R 是 U×V 上的模糊关系
    • S 是 V×W 上的模糊关系
    • U×W(叉积)上的模糊关系T=R৹S

    模糊关系T的隶属函数为:

    T=∪(μR(x,y) ∧ μS(y,z))

    示例:

     R=[0.3, 0.7, 0.2]    #1x3
     S=[0.2,
        0.6,
        0.9]              #3x1
     
     T=(0.30.2)(0.70.6)(0.20.9) = 0.6 
    

    4.2 模糊假言推理

    4.2.1 模糊规则的表示

    模糊命题的一般形式:x is A 或者 x is A(CF)

    模糊规则产生式的一般形式: IF E THEN R(CF,λ)

    • E:用模糊命题表示的模糊条件
    • R:用模糊命题表示的模糊结论
    • CF:该产生式规则所表示的知识的可信度因子,由领域专家在给出规则时同时给出
    • λ:阈值,用于指出相应知识在什么情况下可被应用

    模糊规则示例:

    IF x is A THEN y is B(λ)
    IF x is A THEN y is B(CF, λ)
    IF x1 is A1 AND x2 is A2 THEN y is B(λ)
    IF x1 is A1 AND x2 is A2 AND x3 is A3 THEN y is B(CF, λ)
    

    4.2.2 证据的模糊匹配

    规则的前提条件中的 A 与证据中的 A′ 不一定完全相同,推理时需要先考虑他们的相似程度是否大于某个预先设定的阈值λ。

    贴近度是一种表示接近程度的计算方法。A,B的贴近度定义为:

    (A,B) = 0.5[ A·B + (1-A⊙B) ]
    其中:
    A·B = ∨( μA(xi) ∧ μA(xi))
    A⊙B = ∧( μA(xi) ∨ μA(xi))
    
    “∧”表示取极小,“∨”表示取极大
    

    4.2.3 简单模糊推理

    模型:

    • IF x is A THEN y is B(λ)
    • 证据:x is A’ 且(A,A’)≥λ
    • 结论:y is B’

    推理步骤:

    1. 构造A、B之间的模糊关系R
      • R的典型构造方法扎德法
    2. 合成R与前提,B’=A’৹R
    3. 得出结论

    个人总结,部分内容进行了简单的处理和归纳,如有谬误,希望大家指出,持续修订更新中。

    修订历史版本见:https://github.com/hustlei/AI_Learning_MindMap

    更多相关内容
  • 常用的统计分析方法

    千次阅读 2020-12-27 12:53:30
    分析方法 频率分析 主要用于查看数据基本分布特征,数据清晰,各种统计量、基本报告数据源等 数据探索 探索性分析主要是从统计的角度查看统计量来评估数据分布,主要用于异常值侦测、正态分布检验、数据分段、分位点...

    分析方法

    频率分析

    主要用于查看数据基本分布特征,数据清晰,各种统计量、基本报告数据源等

    数据探索

    探索性分析主要是从统计的角度查看统计量来评估数据分布,主要用于异常值侦测、正态分布检验、数据分段、分位点测算等

    交叉表分析

    交叉分析、是市场研究的主要工作,大部分研究分析均使用,主要用于分析报告和分析数据源,各种图表等,当然其中也有卡方检验和T检验,寻找差异

    表(Table)分析

    类似于Excel的数据透视表,连续数据和离散数据均可使用,也可以用作卡方检验和T检验

    卡方检验

    它属于非参数检验的范畴,主要是比较两个以及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数实际频数的吻合程度或拟合优度问题

    T检验

    假设检验方法,主要用于比较两个总体均值的差异是否显著

    方差分析

    超过两个总体的均值检验,也经常用于实验设计后的检验问题

    相关分析

    线性相关性,只有变量呈现相关我们呢才能进行影响关系的研究,但是记住主要是线性相关,不相关不代表没有关系

    变量处理

    在这里插入图片描述

    相关性分析

    研究不同变量间是否有关系,以及关系密切程度的一种常用的统计方法

    适用场景

    发现数据间的关系,发现市场上决定性的或显著的属性,例如对于选择不同品牌的重要和有显著区别的属性
    在这里插入图片描述

    回归分析

    回归分析是确定两种或者两种以上变量间相互依赖的定量关系的一种统计分析方法。相关分析研究的是现象之间是否相关,一般不区别自变量或者因变量,而回归分析要分析现象之间相关的具体形式,确定其因果关系,并且用数据模型来表现其具体关系。应用于满意度研究、消费者研究、市场预测以及一些专业技术研究等方面。在实际应用中,回归分析根据变量的数目划分为二元变量回归和多元变量回归,回归的形式包括线性回归和非线性回归等。

    • 通常,线性回归是常用的一种方法,二元线性回归的方程表示为:Y = C + bx + e
    • 多元线性回归方程与线性回归相似,但是有更多的独立变量,其线性方程表示为:Y = c + b1x1 + b2x2 + b3x3 +…+ e
      在这里插入图片描述
      在这里插入图片描述

    聚类分析

    是指把具有某种类似相似特征的物体或者事物归为一类的方法和技巧。目的在于辨别在某些特性上相似的事物,并且按照这些特性将样本划分为若干类(群),使得在同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。

    聚类分析主要用于

    • 进行市场细分
    • 定量用户画像
    • 流失用户分群
    • 为市场测试确定相匹配的城市
    • 在市场结构分析中识别竞争者
    • 对产品进行分类
    • 确定分层抽样的层次

    因子分析

    其基本目的就是用少数几个因子去描述许多指标或因素之间的联系(即抽象和降维)。常用其他技术联合使用,应用于满意度研究,市场细分研究中

    • 目前因子分析包括探索性因子分析(Exploratory Factor Ana-lysis, EFA)和验证性因子分析(Confirmatory Factor Analysis, CFA)
    • 在实际应用中,通过因子得分可以得出不同因子的重要性指标,而管理者则根据这些指标的重要性决策需要首先解决的市场问题或者产品问题

    判别分析

    这种分析方法能够依据样本某种特性,以判别样本所属类型。与聚类分析不同的是,判别分析是在已知研究对象可用某种方法分成若干类的前提下,建立判别函数,用以判定未知对象属性已知分类中的哪一类

    • 在市场研究中,判别分析主要用于对一个企业进行市场细分,以选择目标市场,有针对性地进行广告、促销等活动。
    • 判别分析的普通公式为:Z = b1 * X1 + b2 * X2 + b3 *X3 + …+bn * Xn其中,Z为判别值;b为判断系数,x为自变量

    对应分析

    这是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示技术,也是强有力的市场研究分析技术。

    • 对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示
    • 它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而且又明了的表示出来,具有直观性
    • 对应分析应用在市场细分,产品定位等场景
    • 对应分析可以分为简单对应分析和多重对应分析
    • 当研究设计的分类变量类别比较多的时候,可以得到更加精确,更加全面的分类变量间关联的结果

    路径分析

    路径分析是探索和分析事物内部复杂的因果关系的一种统计方法。多元回归分析将所有自变量置于相同的位置,其假设过于简单,不能揭示事物之间的复杂因果关系,例如自变量和因变量之间相互影响关系的情况
    在这里插入图片描述

    结构方程

    结构方程模型是一种建立、估计和检验因果关系模型的方法。模型中既包含有可观测的因变量,也可能包含无法直接观测的潜在变量,能够同时处理多个因变量。结构方程模型可以代替多重回归、通径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标间的相互关系

    • 使用Amos或者LISRAL来完成,可以用来分析复杂的变量关系

    应用场景

    • 用户满意度模型指标的建立
    • 产品使用驱动力研究
    • 流失用户影响因素分析
      在这里插入图片描述

    应用场景总结

    在这里插入图片描述

    分析路线指导图

    在这里插入图片描述

    展开全文
  • 由于我目前还没有熟练掌握SPSS,Python等高级一点的工具,而且描述性分析过于简单,所以本文将介绍如何用Excel实现描述性分析。 一、描述性分析基本概念 描述分析(描述性统计分析)就是用来概括、描述数据的整体...

    由于我目前还没有熟练掌握SPSS,Python等高级一点的工具,而且描述性分析过于简单,所以本文将介绍如何用Excel实现描述性分析。

    一、描述性分析基本概念

    描述分析(描述性统计分析)就是用来概括、描述数据的整体状况以及数据各特征的统计方法。

    描述的内容分为:

    1. 集中趋势:平均数,众数、中位数、四分位数
    2. 离散程度:方差、标准差、极差、变异系数、四分位差
    3. 分布形态:偏度、峰度

    其中峰度和偏度是用来测量数据正态分布特性的两个指标。

    拓展:一般在工作中还会使用环比和同比来进行描述性分析。

    环比增长率=(本期数-上期数) / 上期数 * 100% 

    如:(2019年10月销量-2019年9月销量 )/2019年9月销量*100%

    同比增长率=(本期数-上一同期数) / |上一同期数| *100%

    如:(2019年10月销量-2018年10月销量)/2018年10月销量*100%

    拓展:标准化及归一化

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。

    1、标准化:

    公式:  x*=\frac{x-\mu }{\sigma }(其中μ为所有样本数据的均值,σ为所有样本数据的标准差)

    结果:数值的均值为0,标准差为1的正态分布

    应用:(1)数据不稳定,存在异常值和噪音的时候(2)距离计算,PCA降维,数据不符合正态分布的时候

    2、归一化:

    公式:x*=\frac{x-min}{max-min}

    结果:把数据变成[0,1]区间的数值

    应用:(1)输出结果范围有限定(2)数据稳定,不存在极端的最大值或最小值(3)数据符合正态分布

    二、用Excel的函数实现描述性分析

    1、平均数:从上图可以看出:老用户的平均消费额比新用户的平均消费额高;

    2、四分位数:

    用QUARTILE函数来返回一组数据的四分位数。

    语法:QUARTILE(array,quart)

    QUARTILE 函数语法具有下列参数:

    array:要求得四分位数值的数组或数字型单元格区域。

    quart:指定返回哪一个值。

    quart值QUARTILE()函数返回

    0

    最小值

    1第一个四分位数(25%处)
    2中位数(50%处)
    3第三个四分位数(75%处)
    4最大值

    3、标准差

    用STDEVP 函数来计算参数给定的整个总体计算标准偏差。

    语法:STDEVP(number1,[number2],...)

    从上图可以看出:新用户标准差比一班的要低,说明新用户的销售额分布比较分散。

    4、箱线图

    箱线图的作用:

    1. 直观明了地识别数据批中的异常值
    2. 利用箱线图可以判断数据批的偏态和尾重
    3. 利用箱线图可以同时比较几批数据的形状

    三、用Excel自带的分析工具库完成描述分析

    1、首先判断是否已经加载分析工具库,如果你的Excel中有如下菜单,说明已经启用:

    2、如果未启用,请按如下方法启用:

    a、点击 [文件] > [选项]菜单

    b、选择左侧“加载项”,并在右侧底部管理位置,选择"Excel加载项",点击“转到”

    c、选择“分析工具库” 和 “分析工具库 - VBA”,确定完成

    d、完成上述步骤,Excel工具库加载完成

    3、开始分析工作

    点击“数据分析”后,步骤如下图,

     

     So easy~

    Excel自带的数据分析工具可以最快速地帮助我们完成描述性分析的工作,但是分析的结论需要我们数据分析师自己总结归纳,数据分析的核心不是软件的使用技能,而是业务能力,切记切记。

     

    展开全文
  • 9种常用的数据分析方法

    万次阅读 2020-08-17 11:09:23
    我们知道孤立的数据没有意义,对比才差异。比如在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配...

    一、公式拆解

    所谓公式拆解法就是针对某个指标,用公式层层分解该指标的影响因素。
    举例:分析某产品的销售额较低的原因,用公式法分解

     

    图片.png

    二、对比分析

    对比法就是用两组或两组以上的数据进行比较,是最通用的方法。

    我们知道孤立的数据没有意义,有对比才有差异。比如在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。

    下图的AB公司销售额对比,虽然A公司销售额总体上涨且高于B公司,但是B公司的增速迅猛,高于A公司,即使后期增速下降了,最后的销售额还是赶超。

     

    图片.png

    三、A/Btest

    A/Btest,是将Web或App界面或流程的两个或多个版本,在同一时间维度,分别让类似访客群组来访问,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。A/Btest的流程如下:

    (1)现状分析并建立假设:分析业务数据,确定当前最关键的改进点,作出优化改进的假设,提出优化建议;比如说我们发现用户的转化率不高,我们假设是因为推广的着陆页面带来的转化率太低,下面就要想办法来进行改进了

    (2)设定目标,制定方案:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。

    (3)设计与开发:制作2个或多个优化版本的设计原型并完成技术实现。

    (4)分配流量:确定每个线上测试版本的分流比例,初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。

    (5)采集并分析数据:收集实验数据,进行有效性和效果判断:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。

    (6)最后:根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。
    流程图如下:

     

    image.png

    四、象限分析

    通过对两种及以上维度的划分,运用坐标的方式表达出想要的价值。由价值直接转变为策略,从而进行一些落地的推动。象限法是一种策略驱动的思维,常与产品分析、市场分析、客户管理、商品管理等。比如,下图是一个广告点击的四象限分布,X轴从左到右表示从低到高,Y轴从下到上表示从低到高。

     

    image.png

     

    高点击率高转化的广告,说明人群相对精准,是一个高效率的广告。高点击率低转化的广告,说明点击进来的人大多被广告吸引了,转化低说明广告内容针对的人群和产品实际受众有些不符。高转化低点击的广告,说明广告内容针对的人群和产品实际受众符合程度较高,但需要优化广告内容,吸引更多人点击。低点击率低转化的广告,可以放弃了。还有经典的RFM模型,把客户按最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)三个维度分成八个象限。

     

    image.png


    象限法的优势:
    (1)找到问题的共性原因

    通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如上面广告的案例中,第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;

    (2)建立分组优化策略
    针对投放的象限分析法可以针对不同象限建立优化策略,例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源,比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品,或一些优惠措施来吸引他们回归。

    五、帕累托分析

    帕累托法则,源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系,排在前20%的才算是有效数据。二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果。

    一般地,会用在产品分类上,去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些SKU是重要的呢,这就是在业务运营中分清主次的问题。

    常见的做法是将产品SKU作为维度,并将对应的销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。

    百分比在 70%(含)以内,划分为 A 类。百分比在 70~90%(含)以内,划分为 B 类。百分比在 90~100%(含)以内,划分为 C 类。以上百分比也可以根据自己的实际情况调整。

    ABC分析模型,不光可以用来划分产品和销售额,还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些,占比多少。假设有20%,那么在资源有限的情况下,就知道要重点维护这20%类客户。

    image.png

    六、漏斗分析

    漏斗法即是漏斗图,有点像倒金字塔,是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。

     

    image.png

    上图是经典的营销漏斗,形象展示了从获取用户到最终转化成购买这整个流程中的一个个子环节。相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤,然后用转化率来衡量每一个步骤的表现,最后通过异常的数据指标找出有问题的环节,从而解决问题,优化该步骤,最终达到提升整体购买转化率的目的。

    整体漏斗模型的核心思想其实可以归为分解和量化。比如分析电商的转化,我们要做的就是监控每个层级上的用户转化,寻找每个层级的可优化点。对于没有按照流程操作的用户,专门绘制他们的转化模型,缩短路径提升用户体验。

    还有经典的黑客增长模型,AARRR模型,指Acquisition、Activation、Retention、Revenue、Referral,即用户获取、用户激活、用户留存、用户收益以及用户传播。这是产品运营中比较常见的一个模型,结合产品本身的特点以及产品的生命周期位置,来关注不同的数据指标,最终制定不同的运营策略。

    从下面这幅AARRR模型图中,能够比较明显的看出来整个用户的生命周期是呈现逐渐递减趋势的。通过拆解和量化整个用户生命周期各环节,可以进行数据的横向和纵向对比,从而发现对应的问题,最终进行不断的优化迭代。

     

    image.png

    七、路径分析

    用户路径分析追踪用户从某个开始事件直到结束事件的行为路径,即对用户流向进行监测,可以用来衡量网站优化的效果或营销推广的效果,以及了解用户行为偏好,其最终目的是达成业务目标,引导用户更高效地完成产品的最优路径,最终促使用户付费。如何进行用户行为路径分析?

    (1)计算用户使用网站或APP时的每个第一步,然后依次计算每一步的流向和转化,通过数据,真实地再现用户从打开APP到离开的整个过程。
    (2)查看用户在使用产品时的路径分布情况。例如:在访问了某个电商产品首页的用户后,有多大比例的用户进行了搜索,有多大比例的用户访问了分类页,有多大比例的用户直接访问的商品详情页。
    (3)进行路径优化分析。例如:哪条路径是用户最多访问的;走到哪一步时,用户最容易流失。
    (4)通过路径识别用户行为特征。例如:分析用户是用完即走的目标导向型,还是无目的浏览型。
    (5)对用户进行细分。通常按照APP的使用目的来对用户进行分类。如汽车APP的用户可以细分为关注型、意向型、购买型用户,并对每类用户进行不同访问任务的路径分析,比如意向型的用户,他进行不同车型的比较都有哪些路径,存在什么问题。还有一种方法是利用算法,基于用户所有访问路径进行聚类分析,依据访问路径的相似性对用户进行分类,再对每类用户进行分析。

    以电商为例,买家从登录网站/APP到支付成功要经过首页浏览、搜索商品、加入购物车、提交订单、支付订单等过程。而在用户真实的选购过程是一个交缠反复的过程,例如提交订单后,用户可能会返回首页继续搜索商品,也可能去取消订单,每一个路径背后都有不同的动机。与其他分析模型配合进行深入分析后,能为找到快速用户动机,从而引领用户走向最优路径或者期望中的路径。
    用户行为路径图示例:

     

    image.png

    八、留存分析

    用户留存指的是新会员/用户在经过一定时间之后,仍然具有访问、登录、使用或转化等特定属性和行为,留存用户占当时新用户的比例就是留存率。留存率按照不同的周期分为三类,以登录行为认定的留存为例:
    第一种 日留存,日留存又可以细分为以下几种:
    (1)次日留存率:(当天新增的用户中,第2天还登录的用户数)/第一天新增总用户数
    (2)第3日留存率:(第一天新增用户中,第3天还有登录的用户数)/第一天新增总用户数
    (3)第7日留存率:(第一天新增用户中,第7天还有登录的用户数)/第一天新增总用户数
    (4)第14日留存率:(第一天新增用户中,第14天还有登录的用户数)/第一天新增总用户数
    (5)第30日留存率:(第一天新增用户中,第30天还有登录的用户数)/第一天新增总用户数

    第二种 周留存,以周度为单位的留存率,指的是每个周相对于第一个周的新增用户中,仍然还有登录的用户数。

    第三种 月留存,以月度为单位的留存率,指的是每个月相对于第一个周的新增用户中,仍然还有登录的用户数。留存率是针对新用户的,其结果是一个矩阵式半面报告(只有一半有数据),每个数据记录行是日期、列为对应的不同时间周期下的留存率。正常情况下,留存率会随着时间周期的推移而逐渐降低。下面以月留存为例生成的月用户留存曲线:

     

    image.png

    九、聚类分析

    聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。

    常见的聚类方法有不少,比如K均值(K-Means),谱聚类(Spectral Clustering),层次聚类(Hierarchical Clustering)。以最为常见的K-means为例,如下图:

    image.png

    可以看到,数据可以被分到红蓝绿三个不同的簇(cluster)中,每个簇应有其特有的性质。显然,聚类分析是一种无监督学习,是在缺乏标签的前提下的一种分类模型。当我们对数据进行聚类后并得到簇后,一般会单独对每个簇进行深入分析,从而得到更加细致的结果。



    作者:数据蝉
    链接:https://www.jianshu.com/p/d27563e492a0
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    展开全文
  • 工程经济—技术方案不确定性分析

    千次阅读 2019-06-15 21:20:12
    1Z101030、技术方案不确定性分析 1Z101031、不确定性分析 一、不确定性分析 是指研究和分析当影响技术方案经济效果的各项主要因素发生变化时,拟实施技术方案的经济效果会发生什么样的变化,以便为正确决策服务...
  • 生活中很多不确定的事情, 如何用一个有效的模型和有效的算法来量化这些不确定性, 便是我们要考虑的问题。 大体上来说, 我们可以将不确定性分为两类:Aleatory uncertainty 和 epistemic uncertainty。 前者指的...
  • 16种常用的数据统计分析方法汇总

    万次阅读 多人点赞 2019-04-24 16:43:00
    经常会朋友问到一个朋友,数据分析常用分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 (注:这些统计分析方法基本都是统计学的方法...
  • 16种常用的数据分析方法-相关分析

    万次阅读 2020-05-26 21:13:17
    相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法。可以分析包括变量间的关系情况以及关系强弱程度等。 如:身高和体重的相关性;降水量与河流水位的相关性;工作压力与心理健康的相关性等。 ...
  • 常用的四种大数据分析方法

    万次阅读 多人点赞 2017-09-19 09:32:13
    本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。
  • 16种常用的数据分析方法-聚类分析

    千次阅读 2021-11-25 14:02:34
    聚类(Clustering)就是一种寻找...目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(相关的)。组内相似越大,组间差距越大,说明聚类效果越好。 聚类效果的好坏依赖于两个因素:1...
  • 摘录自《流域水文模型参数不确定性量化理论方法与应用》第4章。 概述 敏感性分析最常遇到的问题: 计算消耗问题:采用代理模型技术(对于复杂模型而言)或筛选方法(对于多维参数而言) 输入参数的相关性问题:没有...
  • 16种常用的数据分析方法汇总

    万次阅读 多人点赞 2017-04-04 16:16:33
    经常会朋友问到一个朋友,数据分析常用分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述统计是指运用制表和...
  • 作者:阿平@zhihu来源:知乎一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描...
  • 常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。 1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将...
  • 1.2聚类分析按研究方法分类 1.系统聚类法:由N类–1类 2.分解法:由1类—N类 3.K-均值法:事先在聚类过程中确定在K类,适用于数据量大的数据 4.有序样品的聚类:N个样品排序,次序相邻的样品聚成一类 5.模糊聚类法:...
  • (原论文:On Calibration of Modern Neural Networks,论文中一些基本的校准方法,包括温度缩放Temperature Scaling) 在大多情况下,我们只关心类别的预测 多准,根本 care 置信度是怎样的。然而,在一些...
  • 5种常用的相关分析方法

    万次阅读 多人点赞 2018-09-09 15:32:50
    相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中...本篇文章将介绍5种常用分析方法。在开始介绍相关分析之前,需要特别说明的是...
  • 不确定性分析

    千次阅读 2017-05-09 15:02:42
    变化情况 处理方法 变化一定范围 盈亏平衡分析 敏感性分析 变化遵循统计规律 概率分析 变化既无范围又无规律 准则分析
  • 不确定性语义分割论文、代码汇总

    千次阅读 2022-03-26 13:18:37
    在此基础上,我们提出了一种基于不确定性分析和图卷积网络的分割细化方法。我们利用卷积网络在特定输入量中的不确定性水平来建立一个半监督的图学习问题,该问题通过训练一个图卷积网络来解决。为了测试我们的方法,...
  • ⑴神经网络方法   神经网络由于本身良好的鲁棒、自组织自适应、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、...
  • 10种常用数据分析方法

    万次阅读 2018-12-07 16:15:57
    道家强调四个字,叫“道、法、术、器”。   层次区别:   “器”是指物品或工具,在数据分析...“法”是指选择的方法句话说“选择比努力重要”;   “道”是指方向,是指导思想,是战略。   在数...
  • 【参数不确定】敏感性分析(sensitivity analysis)

    万次阅读 多人点赞 2020-04-22 20:17:41
    【运筹学】灵敏性分析
  • 相关分析-5种常用相关分析方法

    万次阅读 2016-11-02 10:57:26
    相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的...本篇文章将介绍5种常用分析方法。在开始介绍相关分析之前,需要特别说明的是相关关系等于因果关系。
  • 数据分析方法论(6种方法,8个思路)

    万次阅读 多人点赞 2020-02-26 17:23:05
    在介绍数据分析方法论和思路之前,我们还是先不厌其烦地看一下数据分析的流程,简单来说分为以下六个步骤: 1、明确分析的目的,提出问题。只有弄清楚了分析的目的是什么,才能准确定位分析因子,提出价值的问题...
  • 【数据分析】最常用的数据分析方法(干货)

    万次阅读 多人点赞 2018-09-25 11:51:54
    数据分析方法论 1、PEST分析法 2、SWOT分析法 3、5W2H分析法 4、4P理论 5、AARRR 数据分析的七个方法 1、趋势分析 2、多维分解 3、用户分群 4、用户细查 5、漏斗分析 6、留存分析 7、A/B测试与A/A测试 ...
  • 软件工程需求分析方法

    千次阅读 2019-11-28 17:12:02
    详细介绍软件工程需求分析方法,转载自别处,
  • 7大需求分析方法与5大分析过程

    万次阅读 2020-06-15 18:09:49
    以下就是为大家推荐的8大类需求分析方法: 流程图 原型 用例图 用户故事(3C原则) 词汇表 实体关系图ERD 分解图 下面着重介绍最常见的3种方法:流程图、原型、用例图方法:...
  • 常用大数据分析方法

    千次阅读 2019-01-09 09:25:03
    四类分析方法 数据挖掘分析,可以被分为四类核心方法: 描述型分析:发生了什么? 是最常见的数据分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。 例如:每月的营收和损失账单。数据分析...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 262,134
精华内容 104,853
热门标签
关键字:

常用的不确定性分析方法有哪些