精华内容
下载资源
问答
  • 应用多元统计分析
    2020-12-20 01:33:38

    应用多元统计分析课后答案

    第五章聚类分析

    5.1

    判别分析和聚类分析有何区别?

    答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有

    n

    个样本,对每

    个样本测得

    p

    项指标(变量)的数据,已知每个样本属于

    k

    个类别(或总体)中的某一类,

    通过找出一个最优的划分,

    使得不同类别的样本尽可能地区别开,

    并判别该样本属于哪个总

    体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知

    道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别

    分析是在已知有多少类及是什么类的情况下进行分类,

    而聚类分析是在不知道类的情况下进

    行分类。

    5.2

    试述系统聚类的基本思想。

    答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,

    过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

    5.3

    对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构

    造?

    答:

    对样品进行聚类分析时,

    用距离来测定样品之间的相似程度。

    因为我们把

    n

    个样本看作

    p

    维空间的

    n

    个点。点之间的距离即可代表样品间的相似度。常用的距离为

    更多相关内容
  • 应用多元统计分析课后答案_朱建平版
  • 厦门大学《应用多元统计分析》期末考试复习资料
  • 应用多元统计分析_课后答案.pdf
  • 应用多元统计分析》为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的应用实例,同时还以国际上著名的统计分析...
  • 应用多元统计分析》高惠璇 编著 主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的实例,同时还以国际上著名的统计分析软件SAS系统作为典型工具,通过实例介绍如何处理数据分析中的各种实际...
  • 应用多元统计分析.zip

    2019-06-09 21:07:19
    多元系统分析中定理原理的仿真,matlab代码,供理工科学生学习借鉴使用。配套的书籍为《应用多元统计分析》。代码供参考,还有程序说明以及附带资料。
  • 这是一般应用多元统计分析的教材,作者:Richard A.Johnson
  • 多元统计分析的教材,很清晰 应用多元统计分析 高惠璇
  • 统计方法判别分析: 判别分析在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据在此基础上根据某些准则建立判别式然后对未知类型的样品进行判别分类 距离判别法首先根据已知分类的数据分别计算...
  • 经典多元统计分析教材 中文版 Wolfgang著 多元统计分析
  • 高惠璇版的课后答案。想要的来。(应用多元统计分析课后习题答案详解第二章到第八章)
  • 本课程讲授多元统计分析的基本原理及其应用,注重统计思想、知识的实用性及在社会经济领域中的应用。 借助于统计软件SAS,并适当结合JMP,通过大量的国内外经典案例介绍各种数据分析方法,使学生在掌握基础理 论和...
  • 应用多元统计分析_课后答案文件.pdf
  • 原文是没有旋转的pdf,阅读非常不方便,使用工具旋转后另外保存,方便后来的学生阅读。
  • 应用多元统计分析
  • 厦门大学应用多元统计分析典型相关分析PPT课件.pptx
  • 应用多元统计分析

    千次阅读 2021-12-08 15:17:35
    目录 1. 多元正态分布&参数估计 ...随机向量:多元统计讨论的是多变量总体,即将p个随机变量放在一起形成的p维随机向量X=(X1,X2,...,Xp). 样品:对p个变量做一次观测得到观测值(x1,x2,...,xp

    目录

    简单介绍

    研究对象

    研究内容

    图示方法

    1. 多元正态分布&参数估计

    1.1 随机向量

    1.1.1 随即向量基本概念

    1.1.2 随机向量的数字特征

    1.2 多元正态分布

    1.2.1 多元正态分布的基本概念

    1.2.2 条件分布

    1.3 随机矩阵的正态分布

    1.4 多元正态分布的参数估计

    1.4.1 多元正态样本的数字特征

    1.4.2 参数的极大似然估计

    2. 多元正态总体参数的假设检验

    2.1 几个重要的统计量

    2.2 单总体均值向量的检验

    2.2.1假设检验

    2.2.2 通过似然比统计量进行假设检验

    2.2.3 置信域

    2.3 多总体均值向量的检验

    2.4 协方差阵的检验

    3. 回归分析

    4. 判别分析

    4.1 距离判别法

    4.1.1 距离的定义:

    4.1.2 距离判别

    4.2 贝叶斯判别法

    4.2.1 先验概率

    4.2.2 广义平方判别法

    4.2.3 后验概率

    4.2.4 贝叶斯判别准则

    4.3 费歇判别 Fisher

    5. 聚类分析

    5.1 距离

    5.2 系统聚类法

    5.2.1 系统聚类法的步骤

    5.2.2 类间距离的定义

    6. 主成分分析

    6.1 总体的主成分

    6.1.1 主成分的定义

    6.1.2 求主成分

    6.1.3 总体主成分的性质

    6.1.4 主成分的贡献率

    6.2 样本主成分

    6.2.1 主成分得分

    6.2.2 样本主成分性质

    7. 因子分析

    7.1 因子模型

    7.1.1 正交因子模型

    7.1.2 统计意义

    7.1.3 因子模型特性

    7.2 参数估计方法

    7.2.1 主成分法

    7.2.2 主因子法

    8. 对应分析方法

    9. 典型相关分析

    10. 偏最小二乘回归分析


    简单介绍

    研究对象:

    p个变量的n次观测组成的数据矩阵

    研究内容:

    (1) 降维问题(简化数据结构)

    比如因子分析、主成分分析等等

    (2) 归类问题(分类与判别)

    比如聚类分析、判别分析等等

    (3) 变量间的相互联系

    比如回归分析、典型相关分析等等

    (4) 多元数据的统计推断

    参数估计、协方差阵的假设检验问题。这里统计量巨多,每个统计量性质一大堆,麻烦死了。

    (5) 多元统计分析的理论基础

    如研究多维随机向量、多维正态随机向量的分布和性质等等。是整个多元统计的基础。

    图示方法:

    一维二维三维都可以画出来,但是更高维就难啦,因此可以选用其他作图方法。

    (1) 轮廓图

    横坐标为p个变量,纵坐标为变量的观测值大小,一条折线表示一组观测。如下:

    (2) 雷达图

    (3) 调和曲线图

    即将多维空间一个点对应于二维空间一条曲线。p维数据对应的曲线为:

    f_x(t)=\frac{x_1}{\sqrt{2}}+x_2sint+x_3cost+x_4sin2t+x_5cos2t+...(-\pi <t<\pi )

    (4) 散布图矩阵

    变量之间两两配对生成的散点图矩阵,如下:

    (6) 脸谱图

    1. 多元正态分布&参数估计

    多元正态分布在多元统计里面非常非常重要,一方面是很多统计量都服从或是在大样本的条件下近似服从正态分布,一方面是现在已经有了一套关于正态分布的统计推断方法。

    1.1 随机向量

    1.1.1 随即向量基本概念

    随机向量:多元统计讨论的多变量总体,即将p个随机变量放在一起形成的p维随机向量X=(X1,X2,...,Xp).

    样品:对p个变量做一次观测得到观测值(x1,x2,...,xp).

    样本数据阵:观测n次,n个样品构成一个样本。将样品排列成n*p矩阵,则构成了样本数据阵。在具体观测前,样本数据阵是一个随机阵。

    随机向量的联合分布:p维随机向量X=(X1,X2,...,Xp)'的联合分布为p元函数F(x1,x2,...,xp)=P{X1<=x1,X2<=x2,...,Xp<xp}。如果X为连续性随机向量,还对应存在联合概率密度函数 f(x1.x2,...,xp)。

    随机向量的边缘分布:随机向量X的部分分量的分布称作边缘分布。

    随机向量的条件分布:如对于2维随机向量X=(X1,X2),当给定X2时,称X1的分布为条件分布。同样,当X密度函数为f(x1,x2)时,给定X2时X1的条件密度函数为 f(x1|x2)=f(x1,x2)/f(x2),其中f(x2)为X2的密度函数。

    独立性:若F(x1,x2,...,xp)=F(x1)F(x2)...F(xp)

    1.1.2 随机向量的数字特征

    (1) 均值向量:

    称 E(X) = (E(X1)...E(Xp))' = (\mu _1...\mu _p)' 为随机向量X的均值向量(若E(Xi)均存在)。

    (2) 协方差矩阵:

    若随机变量Xi,Xj的协方差Cov(Xi,Xj)均存在,称D(X)=E[(X-E(X))(X-E(X))']为随机向量X的协方差阵。

    D(X)=\begin{pmatrix} Cov(X_1,X_1)& Cov(X_1,X_2)& ...Cov(X_1,X_p) & \\ Cov(X_2,X_1)& Cov(X_2,X_2) &...Cov(X_2,X_p) & \\ ... &... &... & \\ Cov(X_p,X_1)&Cov(X_p,X_2) &...Cov(X_p,X_p) & \end{pmatrix}=\Sigma=(\sigma _{ij})_{p\times p}

    (3) 随机向量X和Y的协方差阵:

    若Xi和Yj的协方差均存在,则称COV(Xi,Yj)=E[(X-E(X))(Y-E(Y))]为随机向量X与Y的协方差阵。若COV(X,Y)=O,则认为X,Y不相关

    随机向量X的相关阵:

    R=(r_{ij})_{p\times p}为相关阵,其中r_{ij}=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)}\sqrt{Var(X_j)}}=\frac{\sigma _{ij}}{\sqrt{\sigma_{ii} \sigma_{jj}}},而相关阵和协方差阵的关系可以如此表示——若记标准差矩阵为V^{1/2}=diag(\sqrt{\sigma _{11}},...,\sqrt{\sigma_{pp}}),则\Sigma =V^{1/2}RV^{1/2}

    均值向量与协方差阵的性质(E(X)与D(X)):与一维情况类似

    (4) 均值向量与协方差阵的性质

    a. 若A,B为常数矩阵,则

         E(AX)=AE(X),

         E(AXB)=AE(X)B,

         D(AX)=AD(X)A',

         COV(AX,BX)=ACOV(X,X)B'

    b. 若X,Y相互独立,则COV(X,Y)=O,即X,Y不相关;但反之不一定成立。

    c. 随机向量X的协方差阵D(X)是对称非负定矩阵。即 D(X)>=0 。

    d. \Sigma =L^2,其中L为非负定矩阵。

    因为 \Sigma \geq 0 ,可以利用线代中实对称矩阵的对角化定理,存在正交矩阵 \tau,使得

    \Sigma =\tau \begin{pmatrix} \sqrt{\lambda _1} & & \\ & ...& \\ & &\sqrt{\lambda _p} \end{pmatrix}\tau '\tau \begin{pmatrix} \sqrt{\lambda _1} & & \\ & ...& \\ & &\sqrt{\lambda _p} \end{pmatrix}\tau'=L\cdot L

    当 \Sigma >0 时,也就是说\Sigma 正定时,称L为\Sigma的平方根矩阵,记作L^{1/2},且此时存在非退化的p*p矩阵A,使得 \Sigma =AA',其中:

    A=\tau \bigl(\begin{smallmatrix} \sqrt{\lambda _1} & & \\ & ... & \\ & & \sqrt{\lambda _p} \end{smallmatrix}\bigr)

    但若\Sigma \geq 0,一定存在p*q的矩阵A1,使得\Sigma =A_1A_1',其中:

    A_1=\tau_1 \bigl(\begin{smallmatrix} \sqrt{\lambda _1} & & \\ & ... & \\ & & \sqrt{\lambda _q} \end{smallmatrix}\bigr),(q\leq p)\tau _1 为p*q正交阵 。\tau =(\tau _1\vdots \tau _2) 。

    1.2 多元正态分布

    1.2.1 多元正态分布的基本概念

    (1) p维正态随机向量定义:若U1,U2..Up为相互独立且均服从标准正态分布的随机变量,\mu 为p维常数向量,A为p*q维常数矩阵,U=(U1,U2,...,Up)。

    那么,称 X=AU+\mu 为p维正态随机向量,其分布为p维正态分布,记作 X\sim N_p(\mu,AA') 。

    (2) 性质1:若B为s*p常数矩阵,d为s维常数向量,X\sim N_p(\mu,AA')\Sigma =AA',那么Y=BX+d 是s维正态随机向量,记作:

     Y\sim N_s(d,B\Sigma B')

    (3) 性质2:若  X=\bigl(\begin{smallmatrix} X_{(1)} \\X_{(2)} \end{smallmatrix}\bigr)\mu =\bigl(\begin{smallmatrix} \mu_{(1)}\\ \mu{(2)} \end{smallmatrix}\bigr)\Sigma =\bigl(\begin{smallmatrix} \Sigma _{11} & \Sigma _{12}\\ \Sigma _{21} & \Sigma _{22} \end{smallmatrix}\bigr),则存在:

    X_{(1)}\sim N(\mu_{(1)},\Sigma _{11}),X_{(2)}\sim N(\mu_{(2)},\Sigma _{22})

    (4) 独立性:接上,当 \Sigma _{12}=0(即X_{(1)},X_{(2)}不相关) 是  X_{(1)},X_{(2)}  相互独立的充要条件。

    因此类似的,若 X\sim N(\mu,\Sigma ),其中 \Sigma 为对角矩阵,则X1,X2,...,Xp相互独立。

    (5) X的部分数字特征:

    a. 均值 E(X)=\mu

    b. 方差 D(X)=\Sigma

    (6) p维正态随机向量的联合分布

    f(X)=\frac{1}{(2\pi )^{p/2}|\Sigma |^{1/2}}exp[-\frac{1}{2}(X-\mu)'\Sigma^{-1} (X-\mu)]

    1.2.2 条件分布

    (1) 定义:若  X=\bigl(\begin{smallmatrix} X_{(1)} \\X_{(2)} \end{smallmatrix}\bigr)\mu =\bigl(\begin{smallmatrix} \mu_{(1)}\\ \mu{(2)} \end{smallmatrix}\bigr)\Sigma =\bigl(\begin{smallmatrix} \Sigma _{11} & \Sigma _{12}\\ \Sigma _{21} & \Sigma _{22} \end{smallmatrix}\bigr),则 X_{(2)} 给定时,X_{(1)} 的条件分布为:

    X_{(1)}'\sim N(\mu_{1\cdot 2},\Sigma _{11\cdot 2}),且若X_{(1)}为r维, X_{(2)}为p-r维,则此时 X_{(1)}' 是 r 维正态随机向量。

    其中, \mu_{1\cdot 2}=\mu_{(1)}+\Sigma _{12}\Sigma _{22}^{-1}(x_{(2)}-\mu_{(2)}),\Sigma _{11\cdot 2}=\Sigma _{11}-\Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}

    \mu_{1\cdot 2} 称作条件期望,\Sigma _{12}\Sigma _{22}^{-1} 为回归系数,\Sigma _{11\cdot 2} 称作条件协方差阵。

    (2) 性质1:

    E(E(h(Y)|X))=E(h(Y))

    (3) 性质2:

    条件协方差阵 \Sigma _{11\cdot 2} =(\sigma _{ij\cdot r+1,r+2,...,p})_{r\times r},其中 \sigma _{ij\cdot r+1,r+2,...,p} 称作 X_{(2)} 给定时 Xi和Xj的偏自相关系数。

    1.3 随机矩阵的正态分布

    (1) 随机矩阵 :X=\begin{pmatrix} X_{11} &X_{12} & ... &X_{1p} \\ X_{21} & X_{22} & ... & X_{2p}\\ ...& ... & ... &... \\ X_{n1} & X_{n2} &... & X_{np} \end{pmatrix}=\begin{pmatrix} X_{(1)}'\\ X_{(2)}'\\ ...\\ X_{(n)}' \end{pmatrix}=\begin{pmatrix} X_1 & X_2 & ... & X_p \end{pmatrix}

    其中,X_{(i)} 为一个样本,即p维向量一组观测值。

    (2) 拉直运算:Vec(X)=(x_{11},x_{21},...,x_{n1},x_{12},x_{22},...x_{n2},......,x_{1p},...x_{np}),即将矩阵X的列一个接一个拉成一个np维的长向量。如果想要将样品一个一个连起来,那么应该记作 Vec(X') 。

    注意:对称矩阵的拉直运算 S_{vec}(S) 是将矩阵拉直成 p(p+1)/2 维向量,因为对称矩阵里不是含p*p个随机向量而是含p(p+1)/2个。(即拉直对称矩阵的一个三角形区域。)

    (3) Kronecker积

    (4) 随机矩阵的正态分布

    设随机矩阵中的 X_{(i)}=(X_{i1},..,X_{ip}) 为p维随机向量的一个样品,易得 :

    Vec(X')\sim N_{np}(1_n \otimes \mu,1_n\otimes \Sigma )

    1.4 多元正态分布的参数估计

    1.4.1 多元正态样本的数字特征

    (1) 样本均值向量

    \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{(i)}=\begin{pmatrix} \overline{x}_1 & \overline{x}_2 & ... & \overline{x}_p \end{pmatrix}'=\frac{1}{n}X'1_n

    (2) 中心化数据阵

    \widetilde{X}=X-1_n\overline{X}'=\bigl(\begin{smallmatrix} x_{11}-\overline{x}_1 & ... & x_{1p}-\overline{x}_p\\ x_{21}-\overline{x}_1 & ... & x_{2p}-\overline{x}_p\\ ... & ... & ...\\ x_{n1}- \overline{x}_1& ... & x_{np}-\overline{x}_p & \end{smallmatrix}\bigr)

    (3) 样本离差阵

    A=\sum_{k=1}^{n}(X_{(k)}-\overline{X})(X_{(k)}-\overline{X})'=(a_{ij})_{p\times p}

    (4) 样本离差阵

    S=\frac{1}{n-1}A=(s_{ij})_{p\times p}  或者,S=\frac{1}{n}A=(s_{ij})_{p\times p}

    (5) 样本相关阵

    R=(r_{ij})_{p\times p},r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}

    1.4.2 参数的极大似然估计

    设 X_{(i)} 为p维正态总体 X\sim N(\mu,\Sigma ) 的随机样本,可以用极大似然法来求未知参数 \mu,\Sigma 。

    将随机数据阵X按行拉直,得到拉直矩阵Vec(X'),而拉直矩阵的联合密度函数(即样本的联合密度)可以看作关于 \mu,\Sigma的函数,称作X_{(i)} 的似然函数,记作 L(\mu,\Sigma ) 。我们要做的就是找出使得该联合密度函数最大的\mu,\Sigma 。

    经过一系列计算得到:

    Max In L(\mu,\Sigma )=In L(\overline{X},\frac{1}{n}A)

     性质:

    (1) \overline{X}\sim N(\mu,\frac{1}{n}\Sigma )

    (2) A=\sum_{k=1}^{n-1}Z_kZ_k',其中,Zk为独立的,且同标准正态分布。

    (3) \overline{X},A 相互独立

    (4) P\left \{ A>0 \right \}\Leftrightarrow n>p

    2. 多元正态总体参数的假设检验

    2.1 几个重要的统计量

    类似于一元正态总体参数的假设检验里面需要卡方分布、t分布、F分布一样,多元正态总体参数假设检验里面也需要利用一些分布。

    2.2 单总体均值向量的检验

    2.2.1假设检验

    关于正态总体均值的检验大致有以下三种,我们这里主要讨论第一种,即单总体均值向量的检验。

    (1) 当\Sigma =\Sigma _0 已知时

    因为已知 \overline{X}\sim N(\mu,\frac{1}{n}\Sigma _0) ,

    提出假设:原假设  H_0:\mu=\mu_0

    在原假设下构造统计量:

    T_0^2=(\overline{X}-\mu_0 )'(\frac{1}{n}\Sigma _0)^{-1}(\overline{X}-\mu_0)\sim \chi ^2(p)

    给定显著性水平α,进行检验:

    a. 法一:

    查表得到卡方统计量的临界值\lambda _\alpha,若 T_0^2>\lambda _\alpha 则拒绝原假设,认为\mu 和\mu_0 之间有显著差别。

    b. 法二:

    通过计算p值得到检验结果。如果通过样本计算得到 T_0^2 的值为d,则p值为 T_0^2>d 的概率。若p<α,则拒绝原假设。

    (2) 当 \Sigma 未知时

    提出假设:原假设  H_0:\mu=\mu_0

    在原假设下构造统计量:

     T^2=n(\overline{X}-\mu_0 )'(\frac{1}{n-1}A)^{-1}(\overline{X}-\mu_0)\sim T^2(p,n-1 )

    可以利用F分布和T2分布之间的关系:

    F=\frac{(n-1)-p+1}{(n-1)p}T^2=\frac{n-p}{(n-1)p}T^2=F(p,n-p)

    2.2.2 通过似然比统计量进行假设检验

    p维正态总体密度函数为 f(X,\theta ),其中,\theta为未知参数。

    提出假设:   H_0:\theta \in \Theta _0\leftrightarrow H_1:\theta \in \Theta /\Theta _0

    从总体中抽取n个样本 X_{(t)},(t=1,2,...,n),样本的联合密度函数  \prod_{t=1}^{n}f(X_{(t)};\theta ) 即称作样本的似然函数,记作  L(X;\theta ) 。

    构造统计量:

    \lambda =\frac{max_{\theta \in \Theta _0}L(X;\theta )}{max_{\theta \in \Theta }L(X;\theta )} ,显然,这是关于样本 X_{(t)},(t=1,2,...,n)的函数,称作似然比统计量。

    如果取值太小则说明原假设为真时观测到此样本的概率比不为真时观测到的概率小得多,因此应该拒绝原假设。

    拒绝域为:

    \left \{ \lambda (X_{(1)},X_{(2)},...,X_{(n)})<\lambda _\alpha \right \}

    有些 \lambda 存在精确分布,但有些分布还是未知的,那么未知的情况怎么办呢?

    经过前人不断实验,我们现在已知,在大样本下,有:

    -2ln \lambda\sim \chi ^2(f) ,其中,f 为 \Theta 的维度减去 \Theta _0 的维度。

    2.2.3 置信域

    当 \Sigma 未知时,原假设  H_0:\mu=\mu_0 下有统计量:

     T^2=n(\overline{X}-\mu )'(\frac{1}{n-1}A)^{-1}(\overline{X}-\mu)\sim T^2(p,n-1 )

    F分布和T2分布之间的关系:

    F=\frac{(n-1)-p+1}{(n-1)p}T^2=\frac{n-p}{(n-1)p}T^2=F(p,n-p)

    因此,均值向量 \mu 置信度为1-α的置信域为:

    T^2\leq \frac{(n-1)p}{n-p}F_\alpha

    即若 \mu _0 落入置信域,则可以在显著性水平为 α的情况下接受原假设。

    2.3 多总体均值向量的检验

    (1) 两总体的协方差矩阵相等但未知时

    设 X_{(i)},(i=1,2,...,n) 来自总体 X\sim N(\mu_{(1)},\Sigma ) 的样本;Y_{(j)},(j=1,2,...,m) 为来自总体 Y\sim N(\mu_{(2)},\Sigma ),X,Y相互独立。

    提出假设: H_0:\mu _{(1)}=\mu _{(2)}\leftrightarrow H_1:\mu _{(1)}\neq \mu _{(2)}

    构造统计量:

    T^2=\frac{nm}{n+m}(\overline{X}-\overline{Y})'(\frac{A_1+A_2}{n+m-2})^{-1}(\overline{X}-\overline{Y})\sim T^2(p,n+m-2)

    由F分布和T2分布的关系有:

    F=\frac{(n+m-2)-p+1}{(n+m-2)p}T^2\sim F(p,n+m-p-1)

    随后进行F检验即可啦。

    (2) 两总体协方差阵不相等时

    其实也没有啥好办法啦。

    a. 当样本个数m=n时,可以把样本作为成对数据处理。构造 Z_{(i)}=X_{(i)}-Y_{(i)},则回到了单总体均值假设检验问题。

    b. m和n不相等时,构造新总体Z的样本Z_{(i)} 如下:

    (3) 多个总体均值检验

    也称多元方差分析。

    a. p=1时

    设有k个一元正态总体 N(\mu^{(t)},\sigma ^2 ),(t=1,2...k) ,分别从k个总体中提取 n_t个样本:

    X_{(i)}^{(t)},(i=1,2,...,n_t)

    提出假设: H_0:\mu _{(1)}=\mu _{(2)}=...=\mu _{(k)}

    写出一些相关的样本均值:

    \overline{X}=\frac{1}{n}\sum_{t=1}^{k}\sum_{j=1}^{n_t}X_{(j)}^{(t)},\overline{X}^{(t)}=\frac{1}{n_t}\sum_{j=1}^{n_t}X_{j}^{(t)},(n=n_1+n_2+...+n_t)

    总偏差平方和:SST=\sum_{t=1}^{k}\sum_{j=1}^{n_t}(X_{(j)}^{(t)}-\overline{X})^2

    组内偏差平方和:SSE=\sum_{t=1}^{k}\sum_{j=1}^{n_t}(X_{(j)}^{(t)}-\overline{X}^{(t)})^2

    组间偏差平方和:SSA=\sum_{t=1}^{k}n_t(\overline{X}^{(t)}-\overline{X})^2

    SST不变的时候,如果原假设成立,那么组间偏差平方和应该比较小,也即SSA/SSE应该比较小。

    构造统计量:

    F=\frac{SSA/(k-1)}{SSE/(n-k)}\sim F(k-1,n-k)

    给定显著性水平α,若 F>F_\alpha ,则拒绝原假设。

    b. p>1时

    设有k个p元正态总体 N(\mu^{(t)},\Sigma ),(t=1,2...k) ,分别从k个总体中提取 n_t个样本:

    X_{(i)}^{(t)},(i=1,2,...,n_t)

    提出假设: H_0:\mu _{(1)}=\mu _{(2)}=...=\mu _{(k)}

    写出一些相关的样本均值:

    \overline{X}=\frac{1}{n}\sum_{t=1}^{k}\sum_{j=1}^{n_t}X_{(j)}^{(t)},\overline{X}^{(t)}=\frac{1}{n_t}\sum_{j=1}^{n_t}X_{j}^{(t)},(n=n_1+n_2+...+n_t)

    组内离差阵:A=\sum_{i=1}^{k}A_i

    组间离差阵:B=\sum_{i=1}^{k}n_i(\overline{X}^{(i)}-\overline{X})(\overline{X}^{(i)}-\overline{X})'

    总离差阵:T=A+B

    构造统计量:

    \Lambda =\frac{|A|}{|A+B|}=\frac{|A|}{|T|}\sim \Lambda (p,n-k,k-1,)

    给定显著性水平α,查表找到临界值\lambda _\alpha ,若 \Lambda < \lambda _\alpha,则拒绝原假设。

    2.4 协方差阵的检验

    设 X_{(t)},(t=1,2,...,n) 为p维正态总体 N(\mu,\Sigma )的随机样本。

    提出检验:H_0:\Sigma =\Sigma _0 (\Sigma _0为一已知协方差阵)

    (1) 当 \Sigma _0=I_p 时

    利用似然比原则构造检验统计量:

    \lambda _1=\frac{max_\mu L(\mu,I_p)}{max_{\mu,\Sigma>0 }L(\mu,\Sigma )}

    由之前的知识,不难得到:

    max_\mu L(\mu,I_p)=L(\overline{X},I_p),max_{\mu,\Sigma>0 }L(\mu,\Sigma )=L(\overline{X},\frac{1}{n}A)

    故分子的自由度为p,分母的自由度为p+(p+1)p/2,因此f=(p+1)p/2 。

    已知在大样本下:\xi =-2ln\lambda \sim \chi ^2((p+1)p/2)

    因此,在显著性水平α下,查表得到临界值 \chi ^2 _\alpha ,若 \xi >\chi^2 _\alpha ((p+1)p/2),则拒绝原假设。

    (2) 当\Sigma _0\neq I_p 时

    存在正定矩阵,使得 D\Sigma _0D'=I_p,令 Y_{(t)}=DX_{(t)},则 Y_{(t)}\sim N(\mu^*,I_p),对 Y_{(t)} 的协方差矩阵进行类似(1)的过程即可。

    3. 回归分析

    4. 判别分析

    用于判别样品属于哪个总体的问题。

    4.1 距离判别法

    思想:样本离哪个总体近,就判其属于哪个总体。

    4.1.1 距离的定义:

    (1) 用dij表示样品 X_{(i)} 和 X_{(j)} 之间的距离,应该满足:

    a. d_{ij}\geqslant 0,等号成立仅当 X_{(i)}=X_{(j)}

    b. d_{ij}=d_{ji}

    c. d_{ij}\geq d_{ik}+d_{kj}

    定义dij的方法有很多,考量优缺点之后我们选用马氏距离法。

    (2) 马氏距离:

    设总体G为m维总体,均值向量为 \mu=(\mu_1,\mu_2,...,\mu_m)',协方差阵为 \Sigma =(\sigma _{ij}),则样品与总体的马氏距离定义为:

    d^2(X,G)=(X-\mu)'\Sigma ^{-1}(X-\mu)

    当m=1时,d^2(x,G)=\frac{(x-\mu)^2}{\sigma ^2}

    4.1.2 距离判别

    设有k个总体Gi (i=1,2,...,k),来自总体Gi的训练样本为:

    X^{(i)}_{(t)}=(X^{(i)}_{(t1)},X^{(i)}_{(t2)},...,X^{(i)}_{(tm)}),(t=1,2,...,n_i),其中,ni为第i个总体Gi的样品个数。

    因此均值向量 \mu_i 的样本估计量为:

    \overline{X}^{(i)}=(\frac{1}{n}\sum_{t=1}^{n_i}X_{(t1)}^{(i)},\frac{1}{n}\sum_{t=1}^{n_i}X_{(t2)}^{(i)},...,\frac{1}{n}\sum_{t=1}^{n_i}X_{(tm)}^{(i)})'=(x^{(i)}_1,x^{(i)}_2,...,x^{(i)}_m)

    反映分散性的协方差阵 \Sigma _i 的样本估计量为:

    S_i=\frac{1}{n_i-1}A_i=(s _{lj}^{(i)})_{m\times m},也称作组内协方差阵,其中Ai称作组内离差阵。

    其中, s_{lj}^{(i)}=\frac{1}{n_i-1}\sum_{t=1}^{n_i}(x^{(i)}_{tl}-\overline{x}^{(i)}_l)(x^{(i)}_{tj}-\overline{x}^{(i)}_j)

    如果假定i个总体的协方差阵一样,则协方差阵的估计量为:

    S=\frac{1}{n-k}\sum_{i=1}^{k}A_i=(s_{lj})_{m\times m}

    其中,s_{lj}=\frac{1}{n-k}\sum_{i=1}^{k}\sum_{t=1}^{n_i}(x^{(i)}_{tl}-\overline{x}^{(i)}_{l})(x^{(i)}_{tj}-\overline{x}^{(i)}_j)

    (1) 两总体判别 (当协方差阵相等时)

    分别计算样品到两个总体的距离,离哪个总体近,则归属于哪个总体。

    简化马氏距离公式:

    d^2(X,G_i)=(X-\overline{X}^{(i)})'S^{-1}(X-\overline{X}^{(i)})=X'S^{-1}X-2[X'(S^{-1}\overline{X}^{(i)})-\frac{1}{2}(\overline{X}^{(i)})'S^{-1}\overline{X}^{(i)}]=X'S^{-1}X-2Y_i(X)

    因此,比较样品到各总体的马氏距离时,实际上只需要计算线性判别函数:

    Y_i(X)=X'(S^{-1}\overline{X}^{(i)})-\frac{1}{2}(\overline{X}^{(i)})'S^{-1}\overline{X}^{(i)}

    则按距离最近的判别原则,有:

    或者,也可以考察样品到两个总体的马氏距离之差,也称判别函数:

    W(X)=\frac{1}{2}(d_2^2(X)-d^2_1(X))=(X-\frac{1}{2}(\overline{X}^{(1)}+\overline{X}^{(2)}))'S^{-1}(\overline{X}^{(1)}-\overline{X}^{(2)})

    据此,判别准则也可以表示为:

    错判概率:

    P(1|2)=P(2|1)=1-\phi (\frac{\mu^{(1)}-\mu^{(2)}}{2\sigma })

    (2) 两总体判别 (当协方差阵不相等时)

    就分别算出样品到每个总体的马氏距离在比较大小即可,只不过和上面的差别是马氏距离不能化简了。

    (3) 多总体判别

    其实就类似于两总体判别,也可以分总体协方差相等和不等的两种情况。

    4.2 贝叶斯判别法

    距离判别法虽然简单方便,但是没考虑总体出现的机会即先验概率,以及错判会造成的损失,因此我们继续引出贝叶斯判别法。

    4.2.1 先验概率

    设有k个总体,在抽取样品作判别分析之前,已知这k个总体出现的概率分别为 q1,q2,...,qk,且q1+q2+...+qk=1 。而这组概率就称作先验概率,是一组权重。

    贝叶斯判别准则要求提供这组概率的值。

    赋值方法:

    (1) 利用历史资料and经验

    (2) 按照训练样本中各类样品所占比例 (要求随机抽样)

    (3) 假定 q1=q2=...=qk=1/k

    4.2.2 广义平方判别法

    在正态总体的假设下,按照贝叶斯判别的思想,且认为错判造成的损失相等,此时的判别方法称作广义平方判别法。

    其实就是马氏距离判别法在考虑先验概率以及协方差不等之后的推广。

    定义样品X到第t个总体Gt的距离为:

    D^2(X,G_t)=d^2(X,G_t)+g_1(t)+g_2(t)

    其中,d^2(X.G_t) 为马氏距离,

    当各总体的协方差均相等时g_1(t)为0,即:g_1(t)=\left\{\begin{matrix} ln|S_t|\\ 0 \end{matrix}\right.

    当各总体的先验概率均相等时g_2(t)为0,即:g_2(t)=\left\{\begin{matrix} -2ln|q_t|\\ 0 \end{matrix}\right.

    4.2.3 后验概率

    即条件概率,当样品X已知时,它属于总体Gt的概率,记为 P(Gt|X) 。

    如果Gt的密度函数为f_t(X),则有

     P(G_t|X)=\frac{q_tf_t(X)}{\sum_{t=1}^{k}q_tf_t(X)} 

    4.2.4 贝叶斯判别准则

    给空间一个划分D(即一个判别准则),如果通过这个划分来判别时平均损失最小,则称这个划分D为贝叶斯判别的解。进行时要求该处错判概率、错判损失。

    当错判损失相等时,广义平方判别法即为贝叶斯判别的解。

    扩展内容:

    4.3 费歇判别 Fisher

    思想:将k组m维数据投影到某一方向,使得组与组之间尽可能分开(可以用一元方差分析判断是否分开),利用方差分析导出判别函数。

    5. 聚类分析

    对样品或者指标进行分类。

    R型聚类分析:对指标进行分类。用处是可以了解变量之间的亲疏关系,对变量进行分类,在每一类中选出典型变量进行回归分析等等。

    Q型聚类分析:对样品进行分类。是本章节主要将讨论的问题。

    5.1 距离

    我们通常使用距离来描述样品之间的亲疏关系。

    对n个样品计算两两之间的距离dij后,可以排列成矩阵D:

    D=\begin{pmatrix} d_{11} & d_{12} & ... & d_{1n}\\ d_{21} & d_{22} & ... & d_{2n}\\ ... & ... & ... &... \\ d_{n1} &d_{n2} &... & d_{nn} \end{pmatrix}

    其中,dij越小,表明两个样品越接近。

    (1) 欧氏距离

    聚类分析中运用最多的。

    d_{ij}=\sqrt{\sum_{t=1}^{n}|x_{it}-x_{jt}|^2}

    5.2 系统聚类法

    设有n个样品,每个样品均有m个指标。

    5.2.1 系统聚类法的步骤

    数据预处理:对数据进行中心化变换等等。并选择要使用的定义样品间距离的方法,如欧氏距离,以及定义类与类之间距离的方法,如最短距离法。

    (1) 计算样品两两之间的距离,得到初始距离矩阵 D^{(0)} 。

    (2) 将n个样品各成一类,此时类间距离就是样品间距离,即D^{(1)}=D^{(0)} 。

    (3) 按照最小距离的原则,合并类间距离最小的两个为一个新类,得到新的类间距离 D^{(2)} 。

    (4) 重复步骤(3)知道类的个数为1.

    (5) 画出谱系聚类图。

    (6) 写出分类的个数以及对应类的成员。

    5.2.2 类间距离的定义

    (1) 最短距离法

    定义类的距离为两类中最近样品的距离;

    (2) 最长距离法

    定义类的距离为两类中最远样品的距离;

    (3) 中间距离法

    若将Gp和Gq合并为新类Gr之后,计算新类与其他类Gk的距离方法如下:

    D^2_{rk}=\frac{1}{2}(D^2_{pk}+D^2_{qk})+\beta D^2_{pq}

    常取 \beta =-1/4 。

    (4) 重心法

    每个类的重心即该类样品的均值。

    若将Gp和Gq合并为新类Gr之后,他们所包含的样品个数分别为 np,nq,nr,重心分别为 \overline{X}^{(p)},\overline{X}^{(q)},\overline{X}^{(r)}=\frac{1}{n_r}(n_p\overline{X}^{(p)}+n_q\overline{X}^{(q)})

    计算新类与其他类Gk的距离方法如下:

    D_{rk}=d\left \{ \overline{X}^{(r)},\overline{X}^{(k)}\right \}

    d(X1,X2)为计算样品间距离的方法。

    (5) 类平均法

    定义类间距离为两类样品两两之间的平均平方距离。

    D^2_{qp}=\frac{1}{n_pn_q}\sum_{i\in G_p,j\in G_q}^{}d^2_{ij}

    若将Gp和Gq合并为新类Gr之后,计算新类与其他类Gk的距离方法如下:

    D^2_{rk}=\frac{n_p}{n_r}D^2_{pk}+\frac{n_q}{n_r}D^2_{qk}

    (6) 可变类平均法

    D^2_{rk}=(1-\beta)\frac{n_p}{n_r}D^2_{pk}+(1-\beta)\frac{n_q}{n_r}D^2_{qk}+\beta D^2_{pq},\beta <1

    (7) 可变法

    即可变平均法中 np=nq 时。

    且当\beta =0 时,称作相似分析法MCQ。

    (8) 离差平方和法

    要求样品间距离为欧氏距离。

    统一的公式:

    D^2_{rk}=\alpha _pD^2_{pk}+\alpha _qD^2_{pk}+\beta D^2_{pq}+\gamma |D^2_{pk}-D^2_{qk}|

    6. 主成分分析

    思想:降维。即将多个指标重新组合为几个互不相关综合指标,尽可能多地反映原本信息。

    6.1 总体的主成分

    6.1.1 主成分的定义

    设有p维随机向量 X\sim N_p(\mu,\Sigma ),考虑其线性变量:Z_i=a_i'X,(i=1,2...p),其中ai为常数向量,a_i=(a_{1i},a_{2i},...,a_{pi})' 。 

    Var(Z_i)=a_i'\Sigma a_i,Cov(Z_i,Z_j)=a_i'\Sigma a_j

    (1) 第一主成分:

    若存在 a1'a1=1 使得Z1的方差达到最大,则称Z1为第一主成分。

    Z1的方差越大,表示Z1包含的信息越多,但是也需要一些限制,否则方差可能趋于无穷,而我们最常用的限制就是 a1'a1=1 。

    (2) 第二主成分:

    因为不希望载Z1中出现过的信息又出现在Z2里面,因此 Cov(Z_2,Z_1)=a_2'\Sigma a_1=0。此外,在a2'a2=1的限制下,使得 Var(Z_2) 最大的Z_2 称作第二主成分。

    类似可求其余主成分。

    (3) 主成分性质

    由于X是p维的,因此对应有p个主成分,每个主成分均是原变量的线性组合。

    不同主成分是正交的,即互不相关。

    6.1.2 求主成分

    求第一主成分主要就是求a1,这是条件极值问题,可以采用拉格朗日乘法

    即  \varphi (a_1)=a_1'\Sigma a_1-\lambda (a_1'a_1-1)=a_1'\Sigma a_1-\lambda (a_1'I_pa_1-1)

    因为a1不等于0,易得 |\Sigma -\lambda I_p|=0,于是又成了求特征根和特征向量的问题。

    \lambda = \lambda _1 为 \Sigma 最大特征根,则其对应的单位特征向量即为a1 。

    与此类似,若 \lambda _1>\lambda _2>...>\lambda _p,对应的正交单位特征根为 a1,a2,...,ap,因此第i个主成分为:

    Z_i=a_i'Xa_i,(i=1,2,...,p)。此时 Zi 的方差 Var(Z_i)=\lambda _i 。

    6.1.3 总体主成分的性质

    若Z=(Z1,Z2...Zp)',Z=AX,则其性质有:

    (1) D(Z)=\Lambda =diag\begin{pmatrix} \lambda _1 & & \\ & ... & \\ & & \lambda _p \end{pmatrix},D(Z_i)=\lambda _i

    (2)  \sum_{i=1}^{p}\sigma _{ii}=\sum_{j=1}^{p}\lambda _j,等号前面为原总体X的总方差。

    (3)主成分Zk和原变量Xi的相关系数(因子负荷量)

    \rho (Z_k,X_i)=\frac{\sqrt{\lambda _k}a_{ik}}{\sqrt{\sigma _{ii}}}

    (4) \sum_{k=1}^{p}\rho^2 (Z_k,X_i)=1

    (5) \sum_{i=1}^{p}\sigma _{ii}\rho^2 (Z_k,X_i)=\lambda _k

    6.1.4 主成分的贡献率

    (1) 贡献率:称 \frac{\lambda _k}{\sum_{i=1}^{p}\lambda _i} 为主成分 Zk 的贡献率

    (2) 累计贡献率:称\frac{\sum_{j=1}^{m}\lambda _j}{\sum_{i=1}^{p}\lambda _i} 为前m个主成分的累计贡献率。表示m个主成分提取了多少信息。

    一般累计贡献率需要达到百分之七八十即可。

    (3) 定义前m个主成分对变量Xi的贡献率v^{(m)}_i=\sum_{k=1}^{m}\rho^2 (Z_k,X_i)

    6.2 样本主成分

    通常协方差未知,需要通过样本估计。

    若样本协方差阵记为S,样本相关阵记为R,当每个变量的观测数据是均已标准化(均值为0),则S=R。

    6.2.1 主成分得分

    若第i个主成分为 Z_i=a_i'X ,则将第t个样品观测值代入Zi中,得到样品t第i个主成分的得分。记作:

    z_{ti}=a_i'X_{(t)}

    称 Z_{(t)}=(z_{t1},z_{t2},...,z_{tp}) 为样品t的主成分得分向量。

    n个样品构成主成分得分阵 Z 。

    6.2.2 样本主成分性质

    (1) 主成分得分阵的样本协方差阵

    S_Z=\frac{Z'Z}{n-1}=\Lambda

    (2) 样本主成分具有使残差平方和最小的优良性质

    (3) 样本贡献率

    因此有 \sum_{k=1}^{p}\lambda _k=1 ,故而累计贡献率为  f_m=\frac{\sum_{i=1}^{m}\lambda _i}{p}

    6.2.3 主成分个数

    (1) 累计贡献率达到一定程度。

    (2) 计算样本协方差阵特征根均值,取大于均值的那部分特征根对应的主成分。

    两个方法常常结合使用。

    7. 因子分析

    是主成分分析的推广,是一种降维的方法,将多个变量综合为少数几个因子,以再现原始变量和因子之间的相关关系。

    R型:研究变量之间的相关关系,用以对变量进行分类。

    Q型:研究样品之间相关关系,找出控制样品的几个主要变量。

    7.1 因子模型

    7.1.1 正交因子模型

    p维随机向量 X 为可观测的随机向量,且E(X)=\mu,D(X)=\Sigma ;

    m维随机向量 F 为不可观测的随机向量,且 E(F)=0,D(F)=I_m

    p维随机向量 \varepsilon与F相互独立,且  E(\varepsilon )=0,D(\varepsilon )=diag(\sigma _1^2,...,\sigma ^2_p)=D

    假定:

    (1) 公共因子Fi互不相关,且D(F)=I_m

    (2) 特殊因子互不相关,且 D(\varepsilon )=diag(\sigma _1^2,\sigma _2^2,...,\sigma _p^2)=D

    (3) 特殊因子与公共因子不相关。

    正交因子模型如下:

    \left\{\begin{matrix} X_1-\mu_1=a_{11}F_1+a_{12}F_2+...+a_{1m}F_m+\varepsilon_1 \\ ...\\ X_p-\mu_p=a_{p1}F_1+a_{p2}F_2+...+a_{pm}F_m+\varepsilon _p \end{matrix}\right.

    用矩阵表示为 X=AF+\varepsilon 。

    其中,F1,...,Fm称作X的公共因子,\varepsilon _1,...,\varepsilon _p称作X的特殊因子。公共因子对X每个分量均有作用,而特殊因子只对Xi有作用。

    A称作因子载荷矩阵,为待估的系数矩阵。aij称作第i个变量在第j个因子上的载荷,即因子载荷

    正交因子模型的协方差结构:

    \Sigma =D(X)=D(AF+\varepsilon )=E[(AF+\varepsilon )(AF+\varepsilon )']=AD(F)A'+D(\varepsilon )=AA'+D

    因此得到 \Sigma -D=AA'

    Cov(X,F)=E[(X-E(X))(F-E(F))']=E[(X-\mu)F']=E[(AF+\varepsilon )F']=AE(FF')=A

    因此得到 Cov(X,F)=A ,故A中元素aij可以解释Xi和Fj之间的相关性。

    称 \Sigma -D=AA'Cov(X,F)=A 为正交因子模型的协方差结构。

    因此,可以算出样本协方差,再根据样本协方差求出A,D,从而预测公共因子F1,F2...Fm。

    7.1.2 统计意义

    (1) 若数据经过了标准化处理,则 \rho _{ij}=a_{ij} 。

    因为 \rho _{ij}=\frac{Cov(X_i,F_j)}{\sqrt{Var(X_i)}\sqrt{Var(X_j)}}=a_{ij} 。此时aij就是第i个变量和第j个因子之间的相关系数。

    (2) 变量共同度

    Var(X_i)=Var(\sum_{j=1}^{m}a_{ij}F_j+\varepsilon _i)=\sum_{j=1}^{m}a^2_{ij}Var(F_j)+Var(\varepsilon _i)=h^2_{i}+\sigma _i^2

    即Xi的方差由两部分组成,一部分是公因子方差,一部分是特殊方差。如果公因子方差比较大则表明Xi对公因子的依赖程度较大。

    实际上,公因子方差即因子载荷矩阵A各行的元素平方和,也称作变量Xi的共同度,记作:

    h_i^2=\sum_{j=1}^{m}a_{ij}^2,(i=1,2...p)

    (3) 公共因子的方差贡献

    因子载荷矩阵A各列的元素平方和表示公共因子Fj对所有变量的总影响。可以衡量公共因子的重要性。

    q_{j}^2=\sum_{i=1}^{p}a_{ij}^2

    q_j^2 越大则表明因子Fj对X的贡献越大。

    7.1.3 因子模型特性

    (1) 不受量纲影响

    (2) 因子载荷矩阵A不唯一

    7.2 参数估计方法

    7.2.1 主成分法

    7.2.2 主因子法

    8. 对应分析方法

    9. 典型相关分析

    10. 偏最小二乘回归分析

    展开全文
  • 应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf
  • 高惠璇-应用多元统计分析,由网络上的双面扫描,处理成单面,600dpi精度。
  • 包括多种机器学习方法如聚类、因子分析等的spss实现,也包括原理讲解
  • 应用多元统计分析-1-5章 应用多元统计分析-1-5章 应用多元统计分析-1-5章
  • 应用多元统计分析》(第二版)数据与有关程序下载。 第2章 例2.3表2-1是五大钢铁公司反映经营状况的十大指标,为了比较国内钢铁公司与韩国蒲项钢铁公司的差距,下面做出韩国蒲项钢铁公司、宝钢、鞍钢、武钢、首钢五...
  • 应用多元统计分析课后答案朱建平版 1第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况, 的联12(,)pX合分布密度函数是一个 p 维的函数,而边际...

    应用多元统计分析课后答案朱建平版

    1第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况, 的联12(,)pX合分布密度函数是一个 p 维的函数,而边际分布讨论是 的子向量的概率12(,)p分布,其概率密度函数的维数小于 p。2.2 设二维随机向量 服从二元正态分布,写出其联合分布。12()X解:设 的均值向量为 ,协方差矩阵为 ,则其联合1212μ21分布密度函数为。1/2 12 21 1() exp()()f x μxμ2.3 已知随机向量 的联合密度函数为12()X121212[()()](,)dcxabxcaxcfxd其中 , 。求1ab2(1)随机变量 和 的边缘密度函数、均值和方差;X(2)随机变量 和 的协方差和相关系数;12(3)判断 和 是否相互独立。(1)解:随机变量 和 的边缘密度函数、均值和方差;1X221 12122[()()()]()dxcxabxcaxcf dd1221222)([()()]dc xbabac12 12 20()[()()]dcdcxtxtd1212 20()[()()]cdcabattbdba所以由于 服从均匀分布,则均值为 ,方差为 。1X2ba21同理,由于 服从均匀分布 ,则均值为 ,2 2 ,()0 xxcdfd其 它 2dc方差为 。21dc(2)解:随机变量 和 的协方差和相关系数;1X212cov(,)x 121212 12[()()()]dbca dcxabxcaxcx dd()36db12cov,x(3)解:判断 和 是否相互独立。1X2和 由于 ,所以不独立。1212(,)()xff2.4 设 服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互(,p3独立的随机变量。解: 因为 的密度函数为12(,)pX 1/ 11(,.)ex()()2pfxΣμΣx又由于212p221pΣ21221pΣ则 1(,.)pfx 211/22 21 2exp() ()1p p        ΣμΣxμ  2221 3112 ()()()1exp.p pxx     211()e().pii pii f 则其分量是相互独立。42.5 由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为 1ˆniiμX1ˆ()niii nΣX3560.2ˆ7.1μ2058.390.837250.-73680.39615ˆ7.119.-6-5-9   Σ注:利用 , S 其中 1pnX1()nnXI 01nI在 SPSS 中求样本均值向量的操作步骤如下:1. 选择菜单项 Analyze→Descriptive Statistics→Descriptives,打开 Descriptives 对话框。将待估计的四个变量移入右边的 Variables 列表框中,如图 2.1。图 2.1 Descriptives 对话框2. 单击 Options 按钮,打开 Options 子对话框。在对话框中选择 Mean 复选框,即计算样本均值向量,如图 2.2 所示。单击 Continue 按钮返回主对话框。5图 2.2 Options 子对话框3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表 2.1,即样本均值向量为(35.3333,12.3333,17.1667,1.5250E2) 。表 2.1 样本均值向量在 SPSS 中计算样本协差阵的步骤如下:1. 选择菜单项 Analyze→Correlate→Bivariate,打开Bivariate Correlations 对话框。将三个变量移入右边的 Variables 列表框中,如图2.3。图 2.3 Bivariate Correlations 对话框2. 单击 Options 按钮,打开 Options 子对话框。选择Cross-product deviations and covariances 复选框,即计算样本离差阵和样本协差阵,如图 2.4。单击 Continue 按钮,返回主对话框。6图 2.4 Options 子对话框3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出相关分析表,见表 2.2。表中 Covariance 给出样本协差阵。 (另外,Pearson Correlation 为皮尔逊相关系数矩阵,Sum of Squares and Cross-products 为样本离差阵。 )2.6 渐近无偏性、有效性和一致性;2.7 设总体服从正态分布, ,有样本 。由于 是相互独立的正态~(,)pNXμΣ12,.nXX分布随机向量之和,所以 也服从正态分布。又 111()nnni iii iEEμ22111()nnni ii i iDDΣXX所以 。~(,)pNμΣ72.8 方法 1: 1ˆ()niiiΣX1nii1ˆ()()niiEΣX1nii E。1(1)ni nΣΣ方法 2: 1()niiiSX-1((ni ii -μ)-μX)11()2()()nnii ii i n  X--μ)X1()()()niii-μXμ1()()niii nX-1()()()niiiEn   S-μXμ。1()()niii EX- Σ故 为 的无偏估计。SΣ2.9.设 是从多元正态分布 抽出的一个简单随机样本,试求(1)2()n,., ~(,)pNμ的分布。证明: 设8为一正交矩阵,即 。**()11ijnnΓ ΓI令 ,1212nΖ=(Ζ)=X ,34,iXΓ由 于 独 立 同 正 态 分 布 且 为 正 交 矩 阵所以 。且有12()n 独 立 同 正 态 分 布, , 。1nniiΖΧ1(()niiEnΖΧμ()VarnZΣ1())(,23,)naajEr 1najμ10najir1()()naajVrΖΧ2211nnajjajrΣ所以 独立同 分布。2nΖ (0,)N又因为 1()njjiSX1njj因为 11nni ini i XXZ9又因为 nnjj XX 212111212nnΓ 1212nZZ 所以原

    展开全文
  • 应用多元统计分析》pdf,第二版,沃尔夫冈·哈德勒,中文版,高清
  • 本课程讲授多元统计分析的基本原理及其应用,注重统计思想、知识的实用性及在社会经济领域中的应用。 借助于统计软件SAS,并适当结合JMP,通过大量的国内外经典案例介绍各种数据分析方法,使学生在掌握基础理 论和...
  • 应用多元统计分析习题集解答因子分析.doc
  • 应用多元统计分析_北京大学 数学院 概率统计系 高慧璇_数据及SAS源码程序(1) PS:共分4部分,不分先后次序。
  • 多元统计分析中的应用研究,摘要:许多实际问题往往需要对数据进行统计分析,建立合适的统计模型,过去一般采用SAS 、SPSS软件分析,本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab在聚类分析、判别分析...

    多元统计分析中的应用研究

    ,

    摘要:许多实际问题往往需要对数据进行统计分析,建立合适的统计模型,过去一般采用

    SAS 、SPSS软件分析,本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab在聚类分析、判别分析、主成份分析上的应用,文中均给以实例, 结果令人满意。

    关键词:Matlab软件;聚类分析;主成份分析

    Research for application of Multivariate Statistical Analysis

    Abstract:Many practice question sometimes need Statistical Analysis to data.,and establish appropriate Statistical model SAS and SPSS software were commonly used in foretime ,this paper give the application of Matlab software in Multivariate Statistical Analysis,mostly introduce the application of Matlab software in priciple component analysis and cluster analysis and differentiate analysis.The example are given in writing and the result are satisfaction.

    Key words: Matlab software; cluster analysis; priciple component analysis

    0 引言

    许多实际问题往往需要对数据进行多元统计分析, 建立合适的模型, 在多元统计分析方面, 常用的软件有SAS 、SPSS 、S-PLUS等 。我们在这里给出Matlab在多元统计分析上的应用, 在较早的版本中, 统计功能不那么强大, 而在Matlab6.x版本中, 仅在统计工具中的功能函数就达200多个, 功能 已 足 以 赶超任何其他专用的统计软件,在应用上Matlab具有其他软件不可比拟的操作简单,接口方便, 扩充能力强等优势, 再加上Matlab的应用范围广泛, 因此可以预见其在统计应用上越来越占有极其重要的地位,下面用实例给出Matlab在聚类分析、主成份分析上的应用。

    1 聚类分析

    聚类分析法是一门多元统计分类法,其目的是把分类对象按一定规则分成若干类,所分成的类是根据数据本身的特征确定的。聚类分析法根据变量(或样品或指标)的属性或特征的相似性,用数学方法把他们逐步地划类,最后得到一个能反映样品之间或指标之间亲疏关系的客观分类系统图, 称为谱系聚类图。

    聚类分析的步骤有:数据变换,计算n个样品的两两间的距离,先分为一类,在剩下的n-1个样品计算距离,按照不同距离最小的原则,增加分类的个数,减少所需要分类的样品的个数,循环进行下去,直到类的总个数为 1 时止。根据类之间的距离,画出谱系聚类图。

    我们对杭州所辖张家港市2005年七条河流中主要污染因子(指标)即CODmn,BOD5, 非离子氨,氨氮,挥发酚, 石油类共6个变量(资料见表1, 来源于张家港市2003年环境质量报告书) ,进行聚类分析。

    表1 港2005年七条河流主要污染因子

    河流CODmnBOD5非离子氮氨氮挥发酚石油类类型张家港河

    二干河

    东横河

    横套河

    四干河

    华妙河 盐铁塘3.14

    5.47

    3.1

    5.67

    6.81

    6.21

    4.878.41

    9.57

    4.31

    9.54

    9.05

    7.08

    8.9723.78

    26.48

    21.2

    10.23

    16.18

    21.05

    26.5425.79

    23.79

    22.48

    20.87

    24.56

    31.56

    34.564.17

    6.42

    5.34

    4.2

    5.2

    6.15

    5.586.47

    5.58

    6.54

    6.8

    5.45

    8.21

    8.073

    1

    3

    1

    1

    2

    2

    我们利用Matlab6.5中的cluster命令实现,具体程序如下

    3.14

    5.47

    3.1

    5.67

    6.81

    6.21

    4.878.41

    9.57

    4.31

    9.54

    展开全文
  • 应用多元统计分析课后答案第五章聚类分析5.1判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 25,903
精华内容 10,361
关键字:

应用多元统计分析