精华内容
下载资源
问答
  • 数学建模常用模型13 :相关性分析

    万次阅读 多人点赞 2018-08-20 12:48:45
    相关分析研究的是两个变量的相关性,但你研究的两个变量必须是有关联的,如果你把历年人口总量和你历年的身高做相关性分析,分析结果会呈现显著地相关,但它没有实际的意义,因为人口总量和你的身高都是逐步增加的,从数据...

    给大家安利一款朋友开发的自研国产数据分析基础工具,一键式自动分析,自动生成分析模板,5分钟掌握主流61个统计类数学模型(几乎涵盖SPSS绝大部分功能),以及23个有监督机器学习(包括随机森林,SVM,XGBoost等)

    PS:巨方便简单上手,貌似现在是免费

    官网:www.mpaidata.com   mpai数据科学平台

     

     

    相关分析研究的是两个变量的相关性,但你研究的两个变量必须是有关联的,如果你把历年人口总量和你历年的身高做相关性分析,分析结果会呈现显著地相关,但它没有实际的意义,因为人口总量和你的身高都是逐步增加的,从数据上来说是有一致性,但他们没有现实意义。

    相关性分析和聚类分析一样,比较简单,数学建模中经常用,但是每次都只用一小步,或者只是对数据进行一下分析,根据分析的结果确定使用的方法,所以这些方法不要掌握的特别深,能会用SPSS实现就行。相关性分析可以是简单的理解为各个变量之间的相关程度。

    相关性分析的SPSS操作不在演示,比较简单,大家可以参考下面链接操作一下。

    https://jingyan.baidu.com/article/22a299b5f4d17e9e18376a60.html

    一般这样认为:

    0.8-1.0 极强相关

    0.6-0.8 强相关

    0.4-0.6 中等程度相关

    0.2-0.4 弱相关

    0.0-0.2 极弱相关或无相关

     

    Sperman或kendall等级相关分析

    Person相关(样本点的个数比较多)//一般常用皮尔逊相关

    Copula相关(比较难,金融数学,概率密度)

    典型相关分析(因变量组Y1234,自变量组X1234,各自变量组相关性比较强,问哪一个因变量与哪一个自变量关系比较紧密?)

     

    下面是一个典型相关性分析的MATLAB的程序,想看的可以看一下

    例 满意度典型相关分析

    某调查公司从一个大型零售公司随机调查了 784 人,测量了 5 个职业特性指标和 7个职业满意变量,有关的变量见表 1讨论两组指标之间是否相联系。

    表1 指标变量表

    X组

    X1—用户反馈,X2—任务重要性,X3—任务多样性,X4—任务特殊性

    X5—自主性

    Y组

    Y1—主管满意度,Y2—事业前景满意度,Y3—财政满意度,Y4—工作强度满意度,Y5—公司地位满意度, Y6—工作满意度,Y7—总体满意度

    相关系数矩阵数据见表 2

    表2 相关系数矩阵数据

     

    X1

    X2

    X3

    X4

    X5

    Y1

    Y2

    Y3

    Y4

    Y5

    Y6

    Y7

    X1

    1.00

    0.49

    0.53

    0.49

    0.51

    0.33

    0.32

    0.20

    0.19

    0.30

    0.37

    0.21

    X2

    0.49

    1.00

    0.57

    0.46

    0.53

    0.30

    0.21

    0.16

    0.08

    0.27

    0.35

    0.20

    X3

    0.53

    0.57

    1.00

    0.48

    0.57

    0.31

    0.23

    0.14

    0.07

    0.24

    0.37

    0.18

    X4

    0.49

    0.46

    0.48

    1.00

    0.57

    0.24

    0.22

    0.12

    0.19

    0.21

    0.29

    0.16

    X5

    0.51

    0.53

    0.57

    0.57

    1.00

    0.38

    0.32

    0.17

    0.23

    0.32

    0.36

    0.27

    Y1

    0.33

    0.30

    0.31

    0.24

    0.38

    1.00

    0.43

    0.27

    0.24

    0.34

    0.37

    0.40

    Y2

    0.32

    0.21

    0.23

    0.22

    0.32

    0.43

    1.00

    0.33

    0.26

    0.54

    0.32

    0.58

    Y3

    0.20

    0.16

    0.14

    0.12

    0.17

    0.27

    0.33

    1.00

    0.25

    0.46

    0.29

    0.45

    Y4

    0.19

    0.08

    0.07

    0.19

    0.23

    0.24

    0.26

    0.25

    1.00

    0.28

    0.30

    0.27

    Y5

    0.30

    0.27

    0.24

    0.21

    0.32

    0.34

    0.54

    0.46

    0.28

    1.00

    0.35

    0.59

    Y6

    0.37

    0.35

    0.37

    0.29

    0.36

    0.37

    0.32

    0.29

    0.30

    0.35

    1.00

    0.31

    Y7

    0.21

    0.20

    0.18

    0.16

    0.27

    0.40

    0.58

    0.45

    0.27

    0.59

    0.31

    1.00

     

    一些计算结果的数据见下面的表格。

    表3 的典型变量

     

    u1

    u2

    u3

    u4

    u5

    X1

    0.421704

    -0.34285

    0.857665

    -0.78841

    0.030843

    X2

    0.195106

    0.668299

    -0.44343

    -0.26913

    0.983229

    X3

    0.167613

    0.853156

    0.259213

    0.468757

    -0.91414

    X4

    -0.02289

    -0.35607

    0.423106

    1.042324

    0.524367

    X5

    0.459656

    -0.72872

    -0.97991

    -0.16817

    -0.43924

    表 4原始变量与本组典型变量之间的相关系数

     

    u1

    u2

    u3

    u4

    u5

    X1

    0.829349

    -0.10934

    0.48534

    -0.24687

    0.061056

    X2

    0.730368

    0.436584

    -0.20014

    0.002084

    0.485692

    X3

    0.753343

    0.466088

    0.105568

    0.301958

    -0.33603

    X4

    0.615952

    -0.22251

    0.205263

    0.661353

    0.302609

    X5

    0.860623

    -0.26604

    -0.38859

    0.148424

    -0.12457

     

     

    V1

    V2

    V3

    V4

    V5

    Y1

    0.756411

    0.044607

    0.339474

    0.129367

    -0.33702

    Y2

    0.643884

    0.358163

    -0.17172

    0.352983

    -0.33353

    Y3

    0.387242

    0.037277

    -0.17673

    0.53477

    0.414847

    Y4

    0.377162

    0.791935

    -0.00536

    -0.28865

    0.334077

    Y5

    0.653234

    0.108391

    0.209182

    0.437648

    0.434613

    Y6

    0.803986

    -0.2416

    -0.23477

    -0.40522

    0.196419

    Y7

    0.502422

    0.162848

    0.4933

    0.188958

    0.067761

    表 5原始变量与对应组典型变量之间的相关系数

     

    V1

    V2

    V3

    V4

    V5

    X1

    0.459216

    0.025848

    -0.05785

    0.017831

    0.003497

    X2

    0.404409

    -0.10321

    0.023854

    -0.00015

    0.027816

    X3

    0.417131

    -0.11019

    -0.01258

    -0.02181

    -0.01924

    X4

    0.341056

    0.052602

    -0.02446

    -0.04777

    0.01733

    X5

    0.476532

    0.062893

    0.046315

    -0.01072

    -0.00713

     

     

    u1

    u2

    u3

    u4

    u5

    Y1

    0.41883

    -0.01055

    -0.04046

    -0.00934

    -0.0193

    Y2

    0.356523

    -0.08467

    0.020466

    -0.0255

    -0.0191

    Y3

    0.214418

    -0.00881

    0.021064

    -0.03863

    0.023758

    Y4

    0.208837

    -0.18722

    0.000639

    0.020849

    0.019133

    Y5

    0.3617

    -0.02562

    -0.02493

    -0.03161

    0.02489

    Y6

    0.445172

    0.057116

    0.027981

    0.029268

    0.011249

    Y7

    0.278194

    -0.0385

    -0.05879

    -0.01365

    0.003881

    表6 典型相关系数

    1

    2

    3

    4

    5

    0.5537

    0.2364

    0.1192

    0.0722

    0.0573

     

    MATLAB源代码:

    clc,clear
    load r.txt %原始的相关系数矩阵保存在纯文本文件r.txt中
    n1=5;n2=7;num=min(n1,n2);
    s1=r(1:n1,1:n1); %提出X与X的相关系数
    s12=r(1:n1,n1+1:end); %提出X与Y的相关系数
    s21=s12'; %提出Y与X的相关系数
    s2=r(n1+1:end,n1+1:end); %提出Y与Y的相关系数
    m1=inv(s1)*s12*inv(s2)*s21; %计算矩阵M1
    m2=inv(s2)*s21*inv(s1)*s12; %计算矩阵M2
    [vec1,val1]=eig(m1); %求M1的特征向量和特征值
    for i=1:n1
        vec1(:,i)=vec1(:,i)/sqrt(vec1(:,i)'*s1*vec1(:,i)); %特征向量归一化,满足a's1a=1
        vec1(:,i)=vec1(:,i)/sign(sum(vec1(:,i))); %特征向量乘以1或-1,保证所有分量和为正
    end
    val1=sqrt(diag(val1)); %计算特征值的平方根
    [val1,ind1]=sort(val1,'descend'); %按照从大到小排列
    a=vec1(:,ind1(1:num)) %取出X组的系数阵
    dcoef1=val1(1:num) %提出典型相关系数
    [vec2,val2]=eig(m2);
    for i=1:n2
        vec2(:,i)=vec2(:,i)/sqrt(vec2(:,i)'*s2*vec2(:,i)); %特征向量归一化,满足b's2b=1
        vec2(:,i)=vec2(:,i)/sign(sum(vec2(:,i))); %特征向量乘以1或-1,保证所有分量和为正
    end
    val2=sqrt(diag(val2)); %计算特征值的平方根
    [val2,ind2]=sort(val2,'descend'); %按照从大到小排列
    b=vec2(:,ind2(1:num)) %取出Y组的系数阵
    dcoef2=val2(1:num) %提出典型相关系数
    x_u_r=s1*a %x,u的相关系数
    y_v_r=s2*b %y,v的相关系数
    x_v_r=s12*b %x,v的相关系数
    y_u_r=s21*a %y,u的相关系数
    mu=sum(x_u_r.^2)/n1 %x组原始变量被u_i解释的方差比例
    mv=sum(x_v_r.^2)/n1 %x组原始变量被v_i解释的方差比例
    nu=sum(y_u_r.^2)/n2 %y组原始变量被u_i解释的方差比例
    nv=sum(y_v_r.^2)/n2 %y组原始变量被v_i解释的方差比例
    fprintf('X组的原始变量被u1~u%d解释的比例为%f\n',num,sum(mu));
    fprintf('Y组的原始变量被v1~v%d解释的比例为%f\n',num,sum(nv));
    

    可以看出,所有五个表示职业特性的变量与有大致相同的相关系数,视为形容职业特性的指标。第一对典型变量的第二个成员V1与Y1,Y2,Y5,Y6有较大的相关系数,说明V1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而U1和V1之间的相关系数0.5537。

    u1和v1解释的本组原始变量的比率:

    {m_{{u_1}}} = 0.5818 ,{n_{{v_1}}} = 0.3721

    X组的原始变量被到解释了100%, Y 组的原始变量被到解释了80.3%。

    展开全文
  • 【数据相关性分析】数据相关性分析理论基础

    万次阅读 多人点赞 2018-07-18 17:24:38
    思考如何进行相关性分析相关性分析的方法有哪些?说出你的想法 相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全...

     

     

    数据库开发草案中有这样一个要求:

    学生成绩情况与学生个人发展之间的关系分析,

    以此为例。思考如何进行相关性分析,

    相关性分析的方法有哪些?说出你的想法

     

    相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测

     

    1,图表相关分析(折线图及散点图)

     

    学生成绩情况有明显的时间维度,首先可采用图表法,但是学生个人发展的数据不明确,需确立具体的发展方向

     

    第一种相关分析方法是将数据进行可视化处理,简单的说就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。

    对于有明显时间维度的数据,我们选择使用折线图。

     

     

     

     

     

    为了更清晰的对比这两组数据的变化和趋势,我们使用双坐标轴折线图,其中主坐标轴用来绘制广告曝光量数据,次坐标轴用来绘制费用成本的数据。通过折线图可以发现,费用成本和广告曝光量两组数据的变化和趋势大致相同,从整体的大趋势来看,费用成本和广告曝光量两组数据都呈现增长趋势。从规律性来看费用成本和广告曝光量数据每次的最低点都出现在同一天。从细节来看,两组数据的短期趋势的变化也基本一致。

     

     

    比折线图更直观的是散点图。散点图去除了时间维度的影响,只关注广告曝光量和费用成本这里两组数据间的关系。在绘制散点图之前,我们将费用成本标识为X,也就是自变量,将广告曝光量标识为y,也就是因变量。下面是一张根据每一天中广告曝光量和费用成本数据绘制的散点图,X轴是自变量费用成本数据,Y轴是因变量广告曝光量数据。从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当费用成本的增加后,广告曝光量也随之增加。

     

    折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系,优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。并且当数据超过两组时也无法完成各组数据间的相关分析

     

    2,协方差及协方差矩阵

     

    第二种相关分析方法是计算协方差。协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。以下是协方差的计算公式

    下面是广告曝光量和费用成本间协方差的计算过程和结果,经过计算,我们得到了一个很大的正值,因此可以说明两组数据间是正相关的。广告曝光量随着费用成本的增长而增长

    协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。下面是三组数据x,y,z,的协方差矩阵计算公式。

     

    协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数

     

    3,相关系数

    第三个相关分析方法是相关系数。相关系数(Correlation coefficient)是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。以下是相关系数的计算公式。

    其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。

    Sxy样本协方差计算公式:

    Sx样本标准差计算公式:

    Sy样本标准差计算公式:

    下面是计算相关系数的过程,在表中我们分别计算了x,y变量的协方差以及各自的标准差,并求得相关系数值为0.93。0.93大于0说明两个变量间正相关,同时0.93非常接近于1,说明两个变量间高度相关。

    在实际工作中,不需要上面这么复杂的计算过程,在Excel的数据分析模块中选择相关系数功能,设置好x,y变量后可以自动求得相关系数的值。在下面的结果中可以看到,广告曝光量和费用成本的相关系数与我们手动求的结果一致。

    相关系数的优点是可以通过数字对变量的关系进行度量,并且带有方向性,1表示正相关,-1表示负相关,可以对变量关系的强弱进行度量,越靠近0相关性越弱。缺点是无法利用这种关系对数据进行预测,简单的说就是没有对变量间的关系进行提炼和固化,形成模型。要利用变量间的关系进行预测,需要使用到下一种相关分析方法,回归分析

     

    4,一元回归及多元回归

    第四种相关分析方法是回归分析。回归分析(regression analysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上变量使用多元回归。进行回归分析之前有两个准备工作,第一确定变量的数量。第二确定自变量和因变量。我们的数据中只包含广告曝光量和费用成本两个变量,因此使用一元回归。根据经验广告曝光量是随着费用成本的变化而改变的,因此将费用成本设置为自变量x,广告曝光量设置为因变量y。

    以下是一元回归方程,其中y表示广告曝光量,x表示费用成本。b0为方程的截距,b1为斜率,同时也表示了两个变量间的关系。我们的目标就是b0和b1的值,知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。

    这是b1的计算公式,我们通过已知的费用成本x和广告曝光量y来计算b1的值。

    以下是通过最小二乘法计算b1值的具体计算过程和结果,经计算,b1的值为5.84。同时我们也获得了自变量和因变量的均值。通过这三个值可以计算出b0的值。

    以下是b0的计算公式,在已知b1和自变量与因变量均值的情况下,b0的值很容易计算。

    将自变量和因变量的均值以及斜率b1代入到公式中,求出一元回归方程截距b0的值为374。这里b1我们保留两位小数,取值5.84。

    在实际的工作中不需要进行如此繁琐的计算,Excel可以帮我们自动完成并给出结果。在Excel中使用数据分析中的回归功能,输入自变量和因变量的范围后可以自动获得b0(Intercept)的值362.15和b1的值5.84。这里的b0和之前手动计算获得的值有一些差异,因为前面用于计算的b1值只保留了两位小数。

    这里还要单独说明下R Square的值0.87。这个值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高

    将截距b0和斜率b1代入到一元回归方程中就获得了自变量与因变量的关系。费用成本每增加1元,广告曝光量会增加379.84次。通过这个关系我们可以根据成本预测广告曝光量数据。也可以根据转化所需的广告曝光量来反推投入的费用成本。获得这个方程还有一个更简单的方法,就是在Excel中对自变量和因变量生成散点图,然后选择添加趋势线,在添加趋势线的菜单中选中显示公式和显示R平方值即可。

    以上介绍的是两个变量的一元回归方法,如果有两个以上的变量使用Excel中的回归分析,选中相应的自变量和因变量范围即可。下面是多元回归方程。

     

    5,信息熵及互信息

    最后一种相关分析方法是信息熵与互信息。前面我们一直在围绕消费成本和广告曝光量两组数据展开分析。实际工作中影响最终效果的因素可能有很多,并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。

    度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据,只关注特征与状态的关系。

    回归方程可以对相关关系进行提炼,并生成模型用于预测,如何进行学生成绩情况与学生个人发展之间的关系分析,以回归分析为主,辅以图表分析,如果要对学生的个人情况进行更加深全面的预测,在情况比较复杂的情况下,需要用到信息熵与互信息

     

    展开全文
  • 基于HF Watterson模型的黄金代码性能相关性分析
  • 相关性分析

    千次阅读 2018-08-28 10:19:43
    而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。 相关性分析 顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多...

    目录



    “工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。

    相关性分析

    顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多个角度立体地剖析相关性分析有助于我们更立体地掌握相关性分析:

    从随机变量之间的关系角度

    • 线性相关(Pearson Spearman Rank Kendall Rank)
    • 非线性相关

    从随机变量自身的分布类型角度

    • 连续变量与连续变量(Pearson Spearman Rank Kendall Rank)

    • 连续变量与分类变量(Spearman Rank Kendall Rank)

    相关性检验

    Pearson(皮尔逊相关系数)

    皮尔逊相关系数适用于:

    • 两个变量之间是线性关系,都是连续数据;
    • 两个变量的总体是正态分布,或接近正态的单峰分布;
    • 两个变量的观测值是成对的,每对观测值之间相互独立。

    随机变量、的皮尔逊相关系数计算公式如下:

    ρX,Y=Cov(X,Y)σXσY

    Cov(X,Y)为随机变量XY的协方差,(σX,σY)分别表示随机变量XY的标准差,ρX,Y[0,1],越大代表随机相关性越强。

    Spearman(秩相关系数)

    Spearman秩相关系数适用于:

    • 随机变量是成对的有序分类变量;
    • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

    随机变量XY的Spearman秩相关系数ρS计算如下,对原始随机变量xiyi降序排序,记dixdiy为原始xiyi在排序后列表中的位置,dixdiy称为xiyi的秩次,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(极为Tx)或相持在变量Y上(记为Ty),秩次差di=dixdiy。Spearman秩相关系数为:

    • 没有相持等级
      ρS=16di2n(n21)
    • 有相持等级
      ρS=x2+y2di22x2y2,x2=N3N12Tx,y2=N3N12Ty

    举个例子:

    xi yi dix diy di
    4 7 5 6 1
    44 67 1 1 0
    15 9 4 5 1
    23 54 2 2 0
    18 21 3 4 1
    2 33 6 3 -3

    对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571

    Kendall Rank(肯德尔相关系数)

    肯德尔相关系数适用于:

    • 随机变量是成对的有序分类变量
    • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

    肯德尔系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。P为和谐对(变量大小顺序相同的样本观测值)的个数、Qf不和谐对(变量大小顺序相同的样本观测值),n为随机变量容量。一对观测值中,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(记为Tx)或相持在变量上Y(记为Ty ),因此公式可以表示为:

    • 没有相持等级

    τb=2(PQ)n(n1)

    • 有相持等级

    τb=PQ(P+Q+Tx)(P+Q+Ty)

    Kappa一致性系数

    Kappa一致性系数适用于:

    • 随机变量是成对的分类变量

    随机变量XYKappa一致性系数K计算公式如下:

    K=P(A)P(E)1P(E),P(A)=1NK(K1)i=1Nj=1mnij21K1,P(E)=j=1mPj2,Pj=CjNK,Cj=i=1Nnij

    N为随机变量容量,K为一致预测,nij为细格预测数,也可以表示为:

    K=p0pc1pc

    举例:

    预测\实际 A B C
    A 239 21 16
    B 16 73 4
    C 6 9 280

    p0=239+73+280664=0.8916,pc=261276+10393+300295664664=0.3883,K=0.89160.388310.3883

    卡方检验

    卡方检验适用于:

    • 随机变量是成对的分类变量;
    • 最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。

    卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:两个分类变量之间无关。

    χ2=i=1k(Ainpi)2npi, A_i为水平i的观察频数,n为总频数,pi为水平i的期望频率。k为单元格数。当n比较大时,χ2统计量近似服从个自由度k1的卡方分布。

    举例:

    组别 有效 无效 合计
    14(13.6) 20(21.9) 34
    16(16.4) 25(24.6) 41
    合计 30 45 75

    第1行1列: 34×30/75=13.6

    第1行2列: 34×45/75=21.9

    第2行1列: 41×30/75=16.4

    第2行2列: 41×45/75=24.6

    χ2=(1413.6)213.6+(2021.9)221.9+(1616.4)216.4+(2524.6)224.6=0.1929

    不能拒绝原假设,认为随机变量不相关。

    Fisher精确检验

    • 在卡方检验的基础上,如果样本量不足40,或者最小理论频数小于5;
    • 如果卡方检验的p值在0.05左右,使用Fisher精确检验。

    假设二分类变量,如下,值计算如下:

    性别 合计
    有效 a b a+b
    无效 c d c+d
    合计 a+c b+d a+b+c+d

    p=Ca+baCc+dcCna+c=(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n!

    Cochran-Mantel-Haenszel(简称CMH检验)

    • 与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析(One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验(Kruskal一Wallis Test)。
    • 对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish’s精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel-Haenszel Test)。
    展开全文
  • 以河南新郑矿区赵家寨井田为依托,通过试验和统计分析,建立了煤的工业分析指标与测井参数的相关关系及模型,揭示了煤质测井响应机制。研究结果表明,煤的工业分析指标与其测井参数之间存在明显的相关性,表现为:原煤水分...
  • 针对指标决策中不确定性问题,提出一种基于概率盒理论的指标相关性分析模型及融合算法。首先对指标采用Lucas模型进行相关性分析;然后对相关性的指标建立概率盒,并根据相关系数进行概率盒融合;最后利用重叠因子...
  • 应用SPSS软件进行多组分爆炸性混合气体对CH4爆炸极限影响的相关性研究,并且建立回归模型,为矿井可燃性气体的进一步研究提供一种简便、实用的数据分析和探究方法。
  • 以齿轮箱摩擦学系统为研究对象,通过分析齿轮摩擦学与动力学信息之间存在的异同性,建立了齿轮摩擦学与动力学信息故障诊断相关性分析模型。对模型中两类不同量纲的诊断信息采用对数化累积处理方法,并归一到同坐标下...
  • 基于相关性分析的混合Web服务推荐模型 ,胡阳,孙其博,传统的Web服务推荐方法在进行服务推荐时,没有考虑到情境因素,或缺乏对情境因素的具体分析与选取。为了提高Web服务推荐的准确率,
  • 一、逻辑树分析法 一、逻辑树分析法 定义:将一个复杂的大问题,拆解成一个个小的可以解决的子问题,就像一个大树一样,它有很多个分支,那每个分支就是一个子问题。 例:北京需要多少共享单车? 分为两个...

    目录

    一、逻辑树分析法

    二、多维度拆解分析法

    三、对比分析法

    四、假设检验法/归因分析法

    五、 相关性分析法

    六、 RFM分析模型

    七、 漏斗分析模型

    八、 AARRR模型


    一、逻辑树分析法

    定义:将一个复杂的大问题,拆解成一个个小的可以解决的子问题,就像一个大树一样,它有很多个分支,那每个分支就是一个子问题。

    例:北京需要多少共享单车?

    分为两个方向去讨论:

    1.北京市民日常使用需要多少共享单车?

    从需求分析

    接驳公共交通,包括接驳轨道交通与接驳地面公交两类;

    在共享单车出现前,地铁站点750米范围内的交通接驳比例,步行占75%,自行车占4%,公共交通约为15%,其他交通方式约6%。而据相关部门发布调查报告中显示,自共享单车出现后,约20%-30%左右的接驳轨道交通的出行依靠共享单车完成,替代了原来的黑摩的、部分地面公交、私人自行车、电动自行车及步行。根据估算,共享单车每日承担接驳轨道交通的总量约为235-352万次,按照每辆单车周转率为4次/日进行测算则每日接驳地铁约需要59-88万辆共享单车。通过共享单车接驳公共交通,每日约有21万辆的单车需求。

    完成门到门出行,以5公里以内的短距离为主。

    门对门出行方面,共享单车的出现改变了原来的交通方式。2014年北京市六环内5公里以内的短距离出行约为2448万次/日,其中,步行比例约为58%,自行车出行比例为15%,小汽车和公共交通出行比例分别为12.4%和11%。而根据《摩拜单车联合北京晚报权威发布的骑行大数据》中显示,自共享单车出现后,北京市自行车出行比例呈现翻番的特征,每日约有367万次的出行通过共享单车完成,除以单车周转率,则需要共享单车约92万辆。

    从满足市民出行需求的角度出发,得出现状单日北京市六环内市民对于共享单车的需求总量约172-201万辆。

     

    2.北京市内公共面积能存放多少共享单车?

    共享单车停放主要利用道路及其他公共空间停放,如道路隔离带、建筑前区、人行过街桥下空间、部分绿化空间等,一辆共享单车需要2米*0.6米的停放空间。

    在人行道上停放自行车后,五环内人行道宽度符合要求的道路总里程约625公里(双向),若考虑到由于树池、变电箱、机动车违章占用人行道停放等,实际能够用于自行车停放的道路长度仅约500公里(双向)。按照每辆车占用0.6米的宽度测算,则五环内人行道可容纳自行车约83-104万辆。

    考虑到其他公共空间的承载量,停车空间,实际道路空间内的停放能力要大于以上的估算数。但同时,道路内除承载共享单车外,还停放私人自行车及电动自行车,所以总体来说,停放共享单车空间非常紧张。

     

     

    二、多维度拆解分析法

    多维度拆解法顾名思义就是从多个角度进行分析

    例:公司上月总体销售额下降了,分析一下是什么原因?

    销售额 = 销售数量 × 单价

    1.首先使用逻辑树分析法,总体销售额下降就得分析是销售数量下降,还是单价下降了。

    若是销售数量下降,则要分析为什么,市场问题、产品问题、渠道问题;

    若是单价降低了,则要跟运营部门沟通是否有恶意竞价的现象;

    2.如果数量和单价变化的都不太明显,就要使用多维度拆解继续分析。

    第一个拆解总体销售额下降:按照品类拆解,是所有品类的销售额都下降了,还是个别品类。

    第二个拆解如果是某个品类销售额下降,则需要按照产品拆解,是这个品类下所有的商品的销售额都下降了,还是个别商品下降。

    假设我们发现是某三款商品存在销售额大幅度下降造成的总体销售额下降,那对于下降的商品再进行具体的原因分析,才更有针对性。

     

    三、对比分析法

    将两个事物进行比较,没有对比就没有好坏。这是我们用的最多的分析方法了,我们总是在不经意间使用对比。

    例:小时候身边总会有一个别人家的孩子,每当考试成绩下来有些父母总会说,你看别人家的孩子,怎么每科都九十分以上,你最高的一科才七十。(横向分析)同样的分数,有些父孩子的父母则会说,虽然你的成绩在班级当中不算高,但是相对于你的期中成绩来说,已经有了很大的进步,只要你不断努力,按照这个态势继续发展,一定可以超过他们。(纵向分析)

    • 横向对比:在同时间跟其他事物比。
    • 纵向对比:在时间维度跟自己比,随着时间的推移,他发生了哪些变化
    • 同比:2019年3月销售比2018年3月销售额增长10%
    • 环比:4月比3月的销售额下降了2%;某产品第二季度比第一季度的销量增长了8%

     

    四、假设检验法/归因分析法

    概念:针对某项问题,提出假设是这个原因造成的,然后搜集数据来证明自己的假设,最后得出结论,这种方法也叫归因分析。

    流程:提出问题-搜集证据-得出结论

    分析销量上升的原因,从4P营销理论去提出假设:

    • 产品(Product):假设新增用户喜欢的产品带来的销量上升
    • 价格(Price):假设降价带来的销量上升
    • 渠道(Place):假设渠道扩充导致产品宣传力度增大导致的销量上升
    • 宣传(Promotion):假设促销活动带来的销量上升

     

    五、 相关性分析法

    概念:相关分析在工作中经常用于判断哪些因素是影响某种现象的主要原因,例如影响销售额的因素当中,通过相关分析来判断哪些因素产生的影响最大,如果时间有限,则可选择影响最大的那个因素进行深入分析,这样才能快速的发现问题。

    注意事项:

    如果A和B相关,有至少五种可能性:A导致B、B导致A、C导致A和B、A和B互为因果、小样本引起的巧合。

    例:

    • 睡眠时间越短的人,收入越高?
    • 青少年越喜好重金属音乐,越会沾染酗酒吸毒等恶习
    • 游泳溺亡的人越多,雪糕卖的越好

    分析:

    • 收入越高的人,往往会花大量的时间用在工作上,因此睡眠时间相对较少,但是并不是睡的少就能收入高,关键是你的时间都花在哪了,如果24时都在打游戏,不仅收入不高还可能带来严重的健康问题。
    • 青少年越喜好重金属音乐,越会沾染酗酒吸毒等恶习这个案例可能会让人觉得无厘头,这两者之间能有什么关系?实际上这两者有很强的相关关系,喜好重金属音乐的青少年带有很强的逆反心理,他们标新立异个性张扬,渴望被人关注,恰好吸毒酗酒能够让他们看起来与众不同。
    • 因为天气炎热,所有游泳的人会增多,从而溺水的人也会增多,而天气炎热,买雪糕的人也会增多。

     

    六、 RFM分析模型

    用户分类模型,RFM是3个指标的缩写,最近一次消费时间间隔(Recency),消费频率(Frequency),消费金额(Monetary)。通过这3个指标对用户分类

    近度:Recency,最近一次消费到当前的时间间隔

    频度:Frequency,最近一段时间内的消费次数

    额度:Monetory,最近一段时间内的消费金额

    通过 RFM模型 将用户分为不同的类型,针对不同的用户提供不同的优惠策略,通过最小的成本,留住更多的用户。

    注意:不一定是八种类型,根据业务场景的不同,也许会分更多的类型,产生更多不同的策略。

    示例:美团外卖针对很久不用的用户,3块钱开一个月会员,8块钱一季度,激活那些潜在的流失用户。

     

    七、 漏斗分析模型

    用来分析从潜在用户到最终用户这个过程中用户数量的变化趋势,从而寻找到最佳的优化空间,这个方法被普遍用于产品各个关键流程的分析中。

    针对电商的漏斗示例:

    通过该模型可以直观的统计出网站每一流程之间的转化率,找到那些步骤之前转化率过低,更好的分析出问题出在那些地方,根据问题去分析方法,找到解决方案。

     

    八、 AARRR模型

    AARRR漏斗模型(也被称为海盗模型)是Dave McClure 在2007提出的客户生命周期模型,可以帮助我们更好地理解获客和维护客户的原理。其解释了实现用户增长的5个指标,分别是:

    要素 功用 相关指标
    Acquisition(获取用户) 通过各种各样的手段博取眼球,无论是免费或付费方式 流量、提及量、CPC(cost per click,每次点击费用)、搜索结果、用户获取成本、点开率
    Activation(提高活跃) 将获取的“过客”式访客转化为产品的真正参与者 注册人数、注册量、新手教程完成量、至少用过一次产品的人数、订阅量
    Retention(提高留存率) 说服用户再次光临,反复使用,表现出黏性行为 用户参与度、距上次登陆的时间、日/月活跃使用量,流失率
    Revenue(获取营收) 商业活动的产出(不同商业模式看中不同的产出,如购买量、广告点击量、内容产生量、订阅量等) 客户终生价值、(免费到付费)转化率、平均购物车大小、广告点入营收
    Referral(自传播) 已有用户对潜在用户的病毒式传播及口碑传播 邀请发送量、病毒式传播、病毒传播周期

    价值不仅直接源于客户购买行为(获取营收),还来自客户作为推销者(自传播)和内容产生者(留存率)所带来的营收。

    AARRR和RFM是非常经典的两个用户行为分析模型。这两个模型,一个俗称漏斗模型(AARRR),一个俗称客户价值分类模型(RFM)。AARRR模型常用来对用户从获取阶段(AARRR的第一个A,Acquisition)到传播阶段(AARRR的最后一个R,Referal)其间的流失率进行分析,以便于找到薄弱环节进行有效提升。RFM模型则按照最近访问日期(Recency),访问频率(Frequency)和平均消费金额(Monetary)把客户按价值进行分类,区分不同的客户进行促销、召回等活动。

    九、ABtest

    ABtest一个总的目的和意图是,判断哪种种UI或rerank策略更优,通过事实的依据( CTR或下单率)判断哪种策略更符合用户的习惯和需求。简单来说,就是为同一个目标制定两个方案(比如两个页面),让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下用户的使用情况,看哪个方案更符合设计目标。

     

     

    展开全文
  • 目录:分析方法&模型 一、 逻辑树分析法 二、 多维度拆解分析法 三、 对比分析法 四、 假设验证法 / 归因分析法 五、 相关性分析法 六、 RFM分析模型 七、 漏斗分析模型 八、 AARRR模型 一、 逻辑树分析法 定义: 将...
  • PIV技术在非饱和冻土冻胀模型试验中的实现与灰度相关性分析_刘振亚.caj
  • 针对恶劣海洋环境作用下,结构的耐久性与环境作用的相关关系问题,通过对实验数据的分析,研究了干湿交替、冻融循环、腐蚀疲劳恶劣海洋环境作用的相关理论模型.研究结果表明:环境效应作用具有时间特性、作用的相继性和...
  • 传统载荷-强度干涉模型适用于零件及系统的静态可靠性分析,并且模型中假设载荷与强度是 相互独立的。因为当考虑强度退化时,零件的剩余强度是载荷大小及载荷作用次数的函数,所以传统的载荷-强度干涉模型不能用于分析...
  • 首先给出全局坐标系下精确的3D-MIMO信道模型,为真实准确的信道相关性分析提供基础。接着推导了天线阵列沿不同方向摆放、电磁波水平和俯仰功率角度谱分布服从拉普拉斯分布情况下空间相关性的数学表达式,建立起空间...
  • 在对密码设备进行功耗分析攻击时,攻击者需要建立密钥或者与密钥关联的数据值与被攻击设备的功耗相关性模型,藉此通过对功耗的分析破解出敏感信息。从攻击者的角度对器件功耗物理特性分析的基础上,重构了汉明距离...
  • 在我们进行数据分析或者是机器学习模型建立的时候我们往往忽略数据处理的一个过程-----相关性分析。诚然,数据相互之间可能会存在一些联系,这些关系可能正相关,或者是负相关,也可能无关。 设X1,X2,X3,X4,X5为模型...
  • GoogleBERT预训练模型在深度学习、NLP领域的应用已经十分广泛了,在文本分类任务达到很好的效果。相比传统的词嵌入word2vec、golve,使用bert预训练得到的效果有更好地提升。这篇不会很深入复杂地分析bert的原理以及...
  • 汇率波动与国际收支变动相关性分析,陈英,李新义,本文对1994-2006年间人民币汇率对国际收支差额的影响进行了分析,分析中引入了虚拟变量,建立了计量经济学模型。研究结果表明,由于
  • 运用文献资料法、数理统计法、访谈法,对宁夏2000-2009年青少年田径比赛成绩的每个分项的相关数据进行累加生成数列后,采用一维灰色模型理论,进行了回归A-程分析,以期了解宁夏青少年田径运动近10a的发展态势,为...
  • 为探求时序数据问的相关性与灰色模型的模拟预测效果之间的关系,提出了先对时序数据进行自相关分析,在判断自相关程度高低的基础上,建立等维灰数递补动态模拟预测模型.并分别对渭河流域的林家村站和华县站1983-...
  • 相关性分析是量化不同因素间变动状况一致程度的重要指标。在样本数据降维(通过消元减少降低模型复杂度,提高模型泛化能力)、缺失值估计、异常值修正方面发挥着极其重要的作用,是机器学习样本数据预处理的核心工具...
  • 本文通过建立人口城市化率、非农业人口数量、产业非农化率、建成区面积关于产业结构的回归方程,分析了进入模型中的影响因素数量、主要影响因子及其影响系数,指出邯郸市在城市化进程中存在的问题,并提出具体的对策...
  • 近年来,在信息检索(IR)中对多维相关性进行建模已引起了广泛的关注。 但是,大多数现有研究是通过相对较小规模的用户研究进行的,这可能无法反映现实世界和自然搜索情况。 在本文中,我们建议研究大规模查询日志上...
  • 森林可燃物湿度变化一定程度上决定着森林火灾的形成,所以对可燃物湿度的研究劝预防火灾的形成有很大的帮助,通过研究影响可燃物湿度变化因素的相关性分析并充分考虑影响因素的时滞、拟合建立可燃物湿度变化模型,来对...
  • 情报检索系统用户相关性判断的层次分析模型 这是一篇不错的论文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,125
精华内容 850
关键字:

相关性分析模型