精华内容
下载资源
问答
  • 应用多元统计分析
  • 多元统计分析的教材,很清晰 应用多元统计分析 高惠璇
  • 应用多元统计分析》高惠璇 编著 主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的实例,同时还以国际上著名的统计分析软件SAS系统作为典型工具,通过实例介绍如何处理数据分析中的各种实际...
  • 高惠旋所著应用多元统计分析一书的SAS源程序
  • 高惠璇版的课后答案。想要的来。(应用多元统计分析课后习题答案详解第二章到第八章)
  • 课堂笔记:应用多元统计分析(1) python基础 import math dir(math)###查看函数dir() ####创建对象 list[]##列表 tuple()##元组 dict{}##字典 set ###example a1=[1,4,9] type(a1) a2=(2,5,8) type(a2) a3={...

    课堂笔记:应用多元统计分析(1)

    python基础

    import math
    dir(math)###查看函数dir()
    
    ####创建对象
    list[]##列表
    tuple()##元组
    dict{}##字典
    set    
    
    ###example
    a1=[1,4,9]
    type(a1)
    a2=(2,5,8)
    type(a2)
    a3={"john":170,"dick":180,"jane":165}
    type(a3)
    
    ##注:tuple中的元素不能更改,list中的元素可以更改。
    
    ###方法 是特定类关联的函数  区别 : 属性与方法
    #属性:介绍
    #方法:操作
    ##example
    a1=[1,4,9]
    type(a1)
    #属性
    a1._len_
    a1._str_
    a1._class_
    #方法
    a1.reverse()
    
    ###注意:区别函数与方法
    b1=np.array([1,2],[3,4])
    np.sum(b1)##函数
    b1.sum()##方法
    
    ##if 语句 example
    if:
    else:
    

    第一次作业

    ###    1. 运行 3+5
    3+5
    
    ###    2. 计算 cos(3) 的结果
    from math import *
    cos(3)
    
    ###    3. 分别创建一个列表,元组,字典
    a1=[1,4,9]
    a2=(2,5,8)
    a3={"john":170,"dick":180,"jane":165}
    
    ###    4. 分别给出列表,元组,字典的所有属性和方法
    type(a1)
    dir(a1)
    
    type(a2)
    dir(a2)
    
    type(a3)
    dir(a3)
    
    ###   5. 用 for 循环计算 1到 100的和
    sum=0
    for i in range(1,101):
        sum=sum+i
    print(sum)
    
    ###    6. 对一个数进行判断,大于等于0,给出其平方根,否则显示错误
    a=int(input('请输入一个数'))
    if a>=0:
        print(sqrt(a))
    else:
        print("False")
    
    ###   7.创建一个numpy中的一维array,分别用函数和方法计算它的和
    import numpy as np
    c=np.array((1,2,3))
    c.sum()
    np.sum(c)
    
    ###    8. 自定义阶乘函数
    def jiecheng(x):
        y=1
        i=1
        while i<=x:
            y=y*i
            i=i+1
        return(y)
    
    m=jiecheng(5);m
    
    
    展开全文
  • b站看【厦门大学MOOC】多元统计分析,因为老师很好看。 参考: 【厦门大学MOOC】多元统计分析 https://www.bilibili.com/video/BV1v7411E7PB 课程大纲: 一、多元统计分析概述 二、多元数据的描述与展示 三、多元...

    〇、前情提要

    b站看【厦门大学MOOC】多元统计分析,因为老师很好看。
    参考:

    1. 【厦门大学MOOC】多元统计分析
      https://www.bilibili.com/video/BV1v7411E7PB

    课程大纲:
    一、多元统计分析概述
    二、多元数据的描述与展示
    三、多元正态分布
    四、均值向量的检验
    五、判别分析和分类分析
    六、主成分分析
    七、因子分析
    八、聚类分析


    一、多元统计分析概述

    在这里插入图片描述


    1.1 多元分析的定义

    多元统计分析是什么?

    多元统计分析定义

    在这里插入图片描述

    多元数据

    在这里插入图片描述

    例子

    鸢尾花例子

    在这里插入图片描述
    行:样本 列:信息维度
    在这里插入图片描述
    ->研究变量之间的相关性、做回归

    购物网站例子

    在这里插入图片描述
    在这里插入图片描述
    -> 维度之间的关系
    -> 业务问题


    1.2 多元分析的方法简介

    在这里插入图片描述

    数据描述

    多元数据特征和可视化、多元正态分布

    1. 怎么从特征上面去描述:多元数据波动性、平均情况、变量与变量之间的相关性
    2. 怎么用图形表示
    3. 多元正态分布情况

    第二章、第三章

    统计推断

    多元数据的统计检验

    1. 假设检验(数理统计 一个变量时均值的检验、两样本t检验)

    第四章

    经典降维

    简化数据结构

    1. 具体怎么做

    第六章、第七章

    目标归类

    根据数据特征构造归类模式

    1. 特征 聚类问题
    2. 标签 分类 判别分析问题

    第八章、第五章


    在这里插入图片描述

    数据描述

    将从四个部分来讲(第二章)
    在这里插入图片描述
    数据都是有分布的,多元正态(第三章)
    二元正态
    在这里插入图片描述

    顾客满意度评分

    平均、波动性、相关性
    在这里插入图片描述

    微博活跃程度

    在这里插入图片描述

    统计推断

    μ=μ0的推广(第四章)
    在这里插入图片描述

    在这里插入图片描述

    经典降维

    在这里插入图片描述

    在这里插入图片描述
    不是所有的信息都有用
    用少数代替多数
    在这里插入图片描述

    主成分分析

    样本/个体之间差异 最大化方差

    因子分析

    综合指标/公共因子 变量与变量之间的相关性 有公共因素

    数据减肥

    在这里插入图片描述

    目标归类

    对新的样本分类
    在这里插入图片描述
    多种信息维度分类
    在这里插入图片描述

    监督学习-分类问题

    分类问题
    在这里插入图片描述
    第五章
    在这里插入图片描述

    无监督学习-聚类问题

    聚类问题
    在这里插入图片描述
    第八章
    在这里插入图片描述


    1.3 多元分析的应用领域

    用统计学原理,研究各种感兴趣领域的知识。
    在这里插入图片描述

    不同行业的应用

    聚类 分类 判别问题

    市场营销

    在这里插入图片描述

    银行业

    在这里插入图片描述

    金融行业

    在这里插入图片描述

    医疗行业

    在这里插入图片描述

    分子生物学

    在这里插入图片描述

    天文学

    在这里插入图片描述

    法务会计

    在这里插入图片描述

    如何使数据驱动价值

    有原始数据
    ->直观有效信息(二三章 可视化 波动性 平均情况 分布性)
    ->提取有用的知识(统计推断 显著)
    ->统计建模(回归 分类)
    在这里插入图片描述


    展开全文
  • Richard的经典书,对于统计和模式识别,都是必备的参考书。这是该书的第四版中文版,由清华的老师翻译,我看了,翻译的很好,基本没错。
  • 应用多元统计分析》王学民-书中例题习题数据及SAS代码
  • 原文是没有旋转的pdf,阅读非常不方便,使用工具旋转后另外保存,方便后来的学生阅读。
  • 在《多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)》当中,我们理解了K-均值聚类的原理,也简单的介绍了K-均值聚类的两个应用场景: 发现异常情况:如果不对数据进行任何形式的转换,只是经过中心标准...

    在《多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)》当中,我们理解了K-均值聚类的原理,也简单的介绍了K-均值聚类的两个应用场景:

    • 发现异常情况:如果不对数据进行任何形式的转换,只是经过中心标准化或级差标准化就进行快速聚类,会根据数据分布特征得到聚类结果。这种聚类会将极端数据单独聚为几类。这种方法适用于统计分析之前的异常值剔除,对异常行为的挖掘,比如监控银行账户是否有洗钱行为、监控POS机是有从事套现、监控某个终端是否是电话卡养卡客户等等。

    注:区别于单个维度的异常值:单个变量的异常值一般是离中心点位置超过3倍或者5倍的标准差。

    • 将个案数据做划分:出于客户细分目的的聚类分析一般希望聚类结果为大致平均的几大类(原始数据尽量服从正态分布,这样聚类出来的簇的样本点个数大致接近),因此需要将数据进行转换,比如使用原始变量的百分位秩、Turkey正态评分、对数转换等等。在这类分析中数据的具体数值并没有太多的意义,重要的是相对位置。这种方法适用场景包括客户消费行为聚类、客户积分使用行为聚类等等。

    以上两种场景的大致步骤如下:

    现在我们通过案例来分析这两个场景。

    案例:有一份电信用户的数据集,字段包括:

     1、导入数据

    数据样本大体如下:

    %matplotlib inline
    import pandas as pd
    import matplotlib.pyplot as plt
    import numpy as np
    
    profile_telecom = pd.read_csv('profile_telecom.csv')
    profile_telecom.head() 

    输出:

    2、变量的相关系数矩阵

    去除ID列,输出后四列的相关系数矩阵。

    profile_telecom.loc[: ,'cnt_call':].corr()

    输出:

    可以看出有些变量之间的相关系数还是比较高的。

    3、检测变量分布

    plt.figure(figsize=(8, 3))
    
    for i in range(4):
        plt.subplot(220 + i + 1)
        plt.hist(profile_telecom.iloc[:, i + 1], bins=20)
    
    plt.show()

    输出:

    可以看出,各变量都是一个右偏的分布,在实际工作当中,遇到最多的一般就是正态分布和右偏分布。

    4、场景一:检测异常情况——发现离群点

    4.1、变量归一化——学生标准化

    仅使用学生标准化进行预处理,不使用其它会改变数据分布形态的变换。

    from sklearn.preprocessing import scale
    from sklearn.cluster import KMeans
    from sklearn.decomposition import PCA
    
    tele_scaled = scale(profile_telecom.loc[:, 'cnt_call':])  #学生标准化
    tele_scaled

    输出:

    array([[-0.296453  ,  3.68086843,  0.85513907,  2.08171356],
           [-0.1905409 , -0.80292101, -0.59755491, -0.64747691],
           [-0.56879838,  0.31802635, -0.39579186, -0.08281681],
           ...,
           [ 0.24823778,  0.01231344,  3.2762957 ,  2.45815362],
           [-0.11488941,  0.01231344, -0.11332358, -0.08281681],
           [ 1.01988304, -0.80292101, -0.59755491, -0.64747691]])

    4.2、降维——主成分分析

    tele_pca = PCA(n_components=2)   #PCA降维(2维)
    tele_pca_score = tele_pca.fit_transform(tele_scaled)
    print('variance_ratio:', tele_pca.explained_variance_ratio_)

    输出:

    variance_ratio: [0.62510442 0.24620209]
    

    前两个主成分,方差占比之和为87%, 所以降到二维是比较合适的。

     4.3、K-means聚类

    k = 4
    tele_kmeans = KMeans(n_clusters=k, n_init=15).fit(tele_pca_score)  #聚成四类
    tele_kmeans.cluster_centers_    #输出质心

    输出:

    array([[ 5.10963437, -0.21710494],
           [ 1.30272379, -0.10395259],
           [-0.8669528 , -0.10911188],
           [-0.06943007,  4.0981177 ]])

     4.4、聚类特征分析

    4.4.1、轮廓系数

    from sklearn.metrics import silhouette_score
    silhouette_score(tele_pca_score, tele_kmeans.labels_)

    输出:

    0.5081846457150366

    4.4.2、降维之后聚类效果

    plt.figure(figsize=[4, 3])
    
    markers = 'xvo+*^dDhs|_<,.>'
    
    k = 4
    
    for cluster, marker in zip(range(k), markers[:k]):
        x_axis = tele_pca_score[:, 0][tele_kmeans.labels_ == cluster]
        y_axis = tele_pca_score[:, 1][tele_kmeans.labels_ == cluster]
        plt.scatter(x_axis, y_axis, marker=marker)
        
    plt.show()

    输出:

    在没有进行数据分布形态转换的情况之下,比较明显的看出红框中为疑似离群点。注意:k=4是我们随意选择的数字,k我们可以选大一些,如7、8、9...,这样异常点检测的效果越明显。聚类完成之后,可以对数据样本按聚类标签进行分组,查看每个标签下都有多少个样本,如下:

    4.4.3、聚类之后各类的数量

    pd.DataFrame(tele_pca_score).groupby(tele_kmeans.labels_).count()

    输出:

    我们会发现,有某些簇的样本量较小,即疑似异常值点。

    5、场景二:将个案数据做划分

    5.1、变量分布转换——取对数

    上面我们已经知道,原始变量都是呈右偏分布的。

    #  对变量取对数(也可取rank)
    log_telecom = np.log1p(profile_telecom.iloc[:, 1:]) #有很多0值,0值取对数是无意义的,所以+1之后取对数。
    plt.figure(figsize=(8, 3))
    for i in range(4):
        plt.subplot(220 + i + 1)
        plt.hist(log_telecom.iloc[:, i], bins=20)
    
    plt.show()

    输出:

    右偏分布的数据集为了让其尽量靠近正态,处理的方法一般是取对数。结合实际业务,变量中有很多是0值,我们先将其+1,因为对0取对数是没有意义的。 

    5.2、变量归一化——学生标准化

    log_telecom_scaled=scale(log_telecom)
    log_telecom_scaled

    输出:

    array([[ 0.04174954,  1.98292009,  1.26385741,  1.60145475],
           [ 0.19291257, -1.24657303, -1.11310713, -0.63398781],
           [-0.48397217,  0.76013283,  0.06635716,  0.40350962],
           ...,
           [ 0.6609339 ,  0.50039436,  1.89829497,  1.71268561],
           [ 0.28932817,  0.50039436,  0.57532607,  0.40350962],
           [ 1.18246098, -1.24657303, -1.11310713, -0.63398781]])

    注意,是否进行标准化,可以结合实际的业务场景,如本例题中,四个变量的量纲是一样的(单位都为“次数”) ,但是其各变量之间的方差差异是比较大的,所以需要进行标准化。否则后续的PCA效果可能不太好。

    不需要标准化是有两个先决条件的:1、量纲一致;2、方差相近。

    5.3、降维——主成分分析

    log_pca = PCA(n_components=2, whiten=True)
    log_pca_score = log_pca.fit_transform(log_telecom_scaled)
    print('variance_ratio:', log_pca.explained_variance_ratio_)

    输出:

    variance_ratio: [0.71197124 0.22755356]
    

     前两个主成分方差占比超过90%,取两个主成分正好。前两个主成分(各变量的权重)如下:

    components=log_pca.components_  #获得转换后的所有主成分
    components

    输出:

    array([[ 0.22077367,  0.54471581,  0.5687719 ,  0.57536266],
           [ 0.97202048, -0.19050882, -0.08855497, -0.10507422]])

    5.4、使用轮廓系数或者样本到类中心的距离和(离差平方和)确定聚类数量

    plt.figure(figsize=[8, 2])
    Ks = range(2, 10)
    rssds = []; silhs = []
    for k in Ks:
        model = KMeans(n_clusters=k, n_init=15)
        model.fit(log_pca_score)
        rssds.append(model.inertia_)
        silhs.append(silhouette_score(log_pca_score, model.labels_, sample_size=None))
         # 轮廓系数计算复杂度高,使用sample_size
        
    plt.subplot(121); plt.plot(Ks, rssds)
    plt.subplot(122); plt.plot(Ks, silhs)
    plt.show()

    输出:

    左边为样本到类中心的距离和(离差平方和),右边为轮廓系数,结合两个指标,我们确定聚成3类是最合适的。

    5.5、聚类特征分析

    5.5.1、轮廓系数

    k = 3
    log_pca_kmeans = KMeans(n_clusters=k, n_init=15).fit(log_pca_score)
    silhouette_score(log_pca_score, log_pca_kmeans.labels_)

    输出:

    0.4454977689225694
    

    轮廓系数0.445,效果还行。 

    5.5.2、降维之后聚类效果

    plt.figure(figsize=[4, 3])
    
    for cluster, marker in zip(range(k), markers[:k]):
        x_axis = log_pca_score[:, 0][log_pca_kmeans.labels_ == cluster]
        y_axis = log_pca_score[:, 1][log_pca_kmeans.labels_ == cluster]
        plt.scatter(x_axis, y_axis, marker=marker)
        
    plt.show()

    输出:

    我们发现3个簇之间,样本点相对是比较均匀的。可以根据聚类标签查看各类的样本数。

    5.5.3、聚类之后各类的数量

    pd.DataFrame(log_pca_score).groupby(log_pca_kmeans.labels_).count()

    输出:

    从上面可以看出,各类是相对均衡的。

    5.5.4、解释模型(特征分析)——使用原始数据

    结合聚类结果,根据簇的标签进行分组,看原始数据各簇的质心(平均值)。

    co = profile_telecom.iloc[:, 1:5].groupby(log_pca_kmeans.labels_).mean()
    co

    输出:

    由上面我们可知:第一类:打电话最多,其他项目很少;第二类:所有项目用的都不多;第三类:所有项目都有用,且处于正常水平。

    结合上面主成分分析输出的主成分:

    array([[ 0.22077367,  0.54471581,  0.5687719 ,  0.57536266],
           [ 0.97202048, -0.19050882, -0.08855497, -0.10507422]])

    第一个主成分,各变量的权重相对接近, 第二个主成分,第一个变量的权重较高。

    通过以下的可视化更加直观:

    co.T.plot(figsize=[4, 3])
    plt.show()

    输出:

    结论:在电信行业,打电话为基本业务,其他的为增值业务。第0簇:打电话较多,可进行语音包推荐;第1簇:所有项目都不多,属于低端用户,语音为刚性需求,可激活一些流量的需求,如闲时的流量包;第2簇:属于正常用户。

    注意:以上的根据“标签分组算平均值”的方法适用于变量少的情况,对于变量维度较多的,我们对聚类结果的特征分析时,可以运用到决策树,从上往下,探索各类用户最主要的特征,如下:

    关于决策树,详见《机器学习——有监督——决策树(分类树)相关原理及sklearn实现(信息熵、基尼系数、信息增益、特征重要程度的量化)》。

     


     

     

     

     

     

     

    展开全文
  • 多元统计分析

    千次阅读 2019-04-23 21:14:31
    多元正态分布 图表 聚类分析 判别分析 主成分分析 因子分析 对应分析 典型相关分析

    多元正态分布
    图表
    聚类分析
    判别分析
    主成分分析
    因子分析
    对应分析
    典型相关分析

    展开全文
  • 多元统计分析(简称多元分析)是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,它是一元统计学的推广.在实际间题中,很多随机现象涉及到的变量不是一个,而经常是多个变量,并且这些变量间又存在一定的...
  • 何晓群多元统计分析教材

    热门讨论 2013-10-14 18:35:09
    对于学统计的同学来说,或从事数据分析行业的来说很好的学习资料
  • 本课程讲授多元统计分析的基本原理及其应用,注重统计思想、知识的实用性及在社会经济领域中的应用。 借助于统计软件SAS,并适当结合JMP,通过大量的国内外经典案例介绍各种数据分析方法,使学生在掌握基础理 论和...
  • 多元统计分析】课程总结

    千次阅读 2020-11-11 17:28:38
    参考文献:《多元统计分析》高慧璇 编著 ,北京大学出版社 刚考完,做个总结,意在搭个学习《多元统计分析》的简单架子,方便日后复习,虽然只学了一点皮毛,但是架不住老年人的脑子(“好记性,不如烂blog”)。...
  • 一、基本信息 作者:汪冬华、马艳梅 出版社:华东理工大学出版社 二、思维导图(点击图放大)
  • 主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。 通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间...
  • 它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法 相比主成分分析,因子分析更倾向于描述原始变量之...
  • 鄙人学习笔记 文章目录判别分析判别分析的基本思想距离判别两总体情况多总体情况贝叶斯判别费歇判别逐步判别 判别分析 ...当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析...
  • 多元统计分析 (一):聚类分析

    万次阅读 多人点赞 2019-04-26 21:38:04
    多元分析(multivariate analyses)是多变量的统计分析方法,是数理统计中应用广 泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广 泛使用,并在使用中不断完善和创新。由于变量的...
  • 判别分析是用一种统计的方法根据已有的数据集去分析新的数据属于那一类的方法 适用于数据集较小的情况,因为数据量够大的话神经网络的准确率会比传统的判别分析高得多 距离判别法:  欧氏距离  简单的计算...
  • 文章目录聚类分析聚类分析的基本思想相似性度量类和类的特征系统聚类法K-均值聚类有序样本的聚类 聚类分析 聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使...
  • 多元统计分析实验-聚类分析

    千次阅读 2020-06-20 16:30:53
    通过本实验使学生能熟练应用python语言进行系统聚类分析相关软件的开发工作。 2、 实验内容 为比较10种红葡萄酒的质量,由5名品酒师对每种酒的颜色、香味、甜度、纯度和果味6项指标进行打分,最低分1分,最高分为...
  • 多元统计分析上机题之R语言实现(多元正态分布)

    万次阅读 多人点赞 2015-10-18 16:33:07
    引言本学期也开了一门多元统计分析课程,也趁机想把课后上机题实现一遍,以增强理解。教材使用的是约翰逊的《多元统计分析》第六版,中英文版教材、数据集、讲义见 还参考了王斌会老师的《多元统计分析及R语言建模...
  • 多元统计分析】12.逐步回归

    千次阅读 2020-11-05 20:54:23
    αin\alpha_{\rm in}αin​和向后剔除的水平 αout\alpha_{\rm out}αout​,为了保证筛选过程经过有限步停止,要求 αin≤αout\alpha_{\rm in}\le \alpha_{\rm out}αin​≤αout​,但在实际应用中,一般令 αin=...
  • 最重要的还是了解多元统计的思想和解决问题分析步骤。 因子分析也是一种降维技术,但是它跟主成分分析又有很大不同。主成分分析主要是将多个变量线性组合为少数几个变量来表示原来绝大部分信息。而因子分析主要是...
  • 引言主成分分析是一门降维的技术,即将多个...本节数据可从多元统计分析上机题之R语言实现(多元正态分布)下载。8.10data_8.10("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T8-4.DAT")
  • 应用多元分析(王学民)

    热门讨论 2010-08-03 16:29:43
     4.6 多个总体均值的比较检验/多元方差分析)  4.7 总体相关系数的推断 小结 附录4-1 SAS的应用 附录4-2 霍特林T2统计量的导出 附录4-3 威尔克斯Λ统计量的基本性质 习题 第五章 判别分析  5.1 引言  5.2 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,833
精华内容 7,533
关键字:

多元应用统计分析