-
31.0.概率论与数理统计-矩、协方差矩阵、多元正态分布的性质
2021-01-17 18:21:32矩、协方差矩阵、多元正态分布的性质矩一元矩二元矩n元随机变量 X的数学期望(向量)n元随机变量 X~\widetilde{X}X的协方差矩阵n元正态随机变量的联合概率密度的矩阵表示n元正态随机变量的四条重要性质例1例2 ... -
概率论与数理统计学习笔记——第三十四讲——矩,协方差矩阵,多元正态分布的性质
2019-10-31 11:17:221. k阶(原点)矩和k阶中心矩的定义 ...4. n元随机变量的协方差矩阵的定义 5. n元正态随机变量的联合概率密度的矩阵表示 6. n元正态随机变量的四条重要性质 7. 示例 ...1. k阶(原点)矩和k阶中心矩的定义
2. k+l阶混合(原点)矩和k+l阶混合中心矩的定义
3. n元随机变量的数学期望(向量)的定义
4. n元随机变量的协方差矩阵的定义
5. n元正态随机变量的联合概率密度的矩阵表示
6. n元正态随机变量的四条重要性质
7. 示例
-
二维正态分布的最大似然估计_机器学习系列(二)多元正态分布
2021-03-07 11:11:14一元正态分布回顾如果随机变量 服从均值为 方差为 的正态分布 (Univariate normal distribution), ,则其概率密度函数为:整个分布可以仅用均值及...若 维随机变量 服从均值向量为 和协方差矩阵为 的多元正态分布 ...一元正态分布回顾
如果随机变量
服从均值为
方差为
的正态分布 (Univariate normal distribution),
,则其概率密度函数为:
整个分布可以仅用均值及方差来刻画
如果变量之间不相关,则它们相互独立
经典统计检验通常基于正态分布假设
正态分布可以模拟大量自然现象
多元正态分布
多元正态分布密度函数
类比于一元情况,若
维随机变量
服从均值向量为
和协方差矩阵为
的多元正态分布 (Multivariate normal distribution), 记为
,则密度函数为
当
时,
所以随机向量
服从二元正态分布 (Bivariate normal distribution):
,其密度函数为:
概率密度等高线
由于多元正态分布的密度函数为
其概率密度等高线可表示为:
,
为一常数。
根据矩阵谱分解(Spectral decomposition):
这里的
是协方差矩阵
的(正交)特征值-特征向量对。从而
概率密度等高线:
,可写为:
每条等高线都是以
为中心、以
为轴长的椭球。 这里的
, 是协方差矩阵
的特征值-特征向量。
二元正态分布概率密度等高线
同理,二元正态分布的概率密度等高线可以简化为 :
考虑
时的情况:
线性组合
向量
的线性组合的正态性:
• 假设
是一个常数向量,
相反地,如果所有的
的线性组合都服从一元正态分布,则
一定 是多元正态分布。即:
如果对于所有的
,有
,则
• 假设
是一个
且秩为
的常数矩阵,
为
维常数向 量,如果
则
分割
变量
的分割的正态性:
假设
以第
个元素为界进行分割如下:
这里
和
是
的,
是
的如果
, 则
特别地,
的第
个元素 服从一元正态分布:
正态向量 y的子向量的分布
假设
并且
。则对于其子向量y1和y2,
:回归系数矩阵
是关于
的线性方程,同时
不依赖
独立性
的子向量的独立性:
现考虑先前对
的分割,
1、假设
,则
和
独立,当且仅当
。
2、假设
, 则
和
独立,当且仅当
。
3、如果
, 且
与
相互独立,
则
求和与差
两个多元正态向量的和与差:
现考虑两个
维多元向量
和
,
如果
并且
与
相互独立,
则:
标准化向量
标准化多元正态向量:
对于任意以
为均值、
为协方差矩阵的向量
,我们可得到其标准化的向量
,以
为均值向量,以
为协方差矩阵.
对于任意以
为均值、
为协方差矩阵的向量
,其标准化的向量
,可以通过以下两个途径获得:
1、
,
这里
是
矩阵的 Cholesky 分解中的非奇异上三角阵,即:
.
2、
,
这里的
是
的 谱分解 (Spectral decomposition) 中的对称平方根矩阵,即:
根据矩阵谱分解:
经过标准化之后,
以
为均值向量,以
为协方差矩阵; 如果
,则
.
二次型
多元正态向量的二次型:
考虑前文所说的标准正态向量
。根据卡方分布的定义,
就构成了一个
随机变量。
由于
因此:
如果
则
多元正态极大似然函数
当总体服从多元正态分布时,对
和
的估计通常基于已观测向量
来最大化似然函数的方法:
给定独立同分布的n个样本
,其似然函数为:
最大化似然函数L来得到
和
的极大似然估计
首先考虑μ的极大似然估计。对数似然函数为:
得到:
考虑
的极大似然估计。代入
对数似然函数为:
对多元正态分布
和
的极大似然估计为:
作为
的估计量是无偏的,而
是有偏的
一元情形的回顾
基于服从正态分布
的总体的独立同分布样本
:
样本均值
服从:
样本方差
服从:
与
相互独立
非正态总体(多元中心极限定理)
设x1,x2,⋯,xn是来自总体x的一个样本,μ和Σ存在,则当n很大且n相对于p也很大时,
多元情形
类似于一元的情形,基于服从正态分布
总体的独立同分布样本
:
样本均值
服从:
样本方差
服从:
这里的
表示
个自由度的Wishart分布
与
相互独立
Wishart分布
Wishart 分布的定义:
假设
维向量
独立同分布且服从
,则:
服从自由度为n的p维非中心Wishart分布,记为
,其中
。
若
则称W为中心化的Wishart分布,记
假设两个
的随机矩阵
和
分别服从分布
且彼此独立,则:
如果
,
的常数矩阵,则有:
评估一元正态性
图像方法:直方图、QQ图
偏度和峰度
统计检验:
• Shapiro-Wilks 检验
• Kolmogorov-Smirnov 检验
• Cramer-von Mises 检验
• Anderson-Darling 检验
• ……
直方图
QQ图
根据QQ图的形状来判断正态性:
偏度和峰度
我们可以用偏度和峰度对正态性进行粗略的判断,它们应该在(0,3)左右
统计检验
图像方法的缺点:
• 图像方法对于小样本并不适用
• 图像方法以及偏度峰度法只提供了一个粗糙而不正式的检验方法,没 有一个明确的决定准则。
因此我们需要正式的统计检验,他们基于以下假设:
•
:数据来自正态分布
•
:数据不来自正态分布
Shapiro-Wilks 检验
Shapiro-Wilks 检验统计量为:
这里
是第
个样本次序统计量
是标准正态分布中第
个次序统计量标准化的期望值
实际数据与正态得分之间的相关系数
当
时,数据恰好完全是正态分布
“
显著小于1”则表明数据非正态
Kolmogorov-Smirnov 检验
Kolmogorov-Smirnov 检验的统计量为:
这里的
是数据的经验累积分布函数(cdf)
是与数据同均值、同方差的正态分布的累积分布函数
若
值很大,则拒绝原假设
.
Cramer-von Mises 检验的统计量为:
Anderson-Darling 检验的统计量为:
评估多元正态性
有三种方法来检验一个
维总体
的随机样本
是否来自于
多元正态分布:
1、检验向量的每一维是否都是一元正态分布
2、检验是否每一组二维散点图都没有线性趋势
3、根据QQ图,检验统计距离
是否距离
很远,其中统计距离定义为:
注意,这只是一种近似的方法。
例:在美国城市空气污染研究中,获取了关于美国41个城市的以下变量:
• SO2:空气中的二氧化硫含量(微克/立方米)
• temp:全年均温(华氏度)
• manu:拥有20名以上工人的制造企业数
• popul:1970年的人口规模(千人)
• wind:年度平均风速(英里/小时)
• precip:年均降水(英寸)
• predays:年平均降水天数
首先我们检查每一个变量的QQ图:
二氧化硫分布比较集中,降水以及降水天数背离了正态性;制造企业数和人口数存在很多异常值.绘制两两散点图矩阵
非线性部分显示了数据与多元 正态分布的偏离
进一步地,我们绘制整体QQ图
该图除了检验正态性这一用处外, 也可以用来发现可能的异常值
如果正态性不成立,可以采用一 些变量变换方法来获取正态性, 如Box-Cox 变换
思考
什么是多元正态分布?
怎样用几何的方式描绘密度函数?
多元正态向量有哪些性质?
和
的极大似然估计是什么?
样本均值向量和样本协方差矩阵的分布是什么?
怎样检验多元正态性?
-
python生成一组符合正态分布的数据_python numpy 生成一个服从多元正态分布的数组...
2020-12-02 14:31:13标准正态分布的概率密度公式正态分布概率密度公式多元正态分布的概率密度公式上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式。二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,...标准正态分布的概率密度公式
正态分布概率密度公式
多元正态分布的概率密度公式
上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式。
二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图
numpy生成一个服从多元正态分布的数组
multivariate_normal(mean, cov, size=None, check_valid=None, tol=None)
各参数含义:
mean:均值,维度为1,必选参数;
cov:协方差矩阵,必选参数;
size: 指定生成矩阵的维度,若size=(1, 1, 2),则输出的矩阵的 shape 即形状为 1X1X2XN(N为mean的长度);
check_valid:可取值 warn,raise以及ignore;
tol:检查协方差矩阵奇异值时的公差,float类型。
示例:
import numpy as np
import matplotlib.pyplot as plt
mean = (1, 1)
cov = np.array([[0.1, 0], [0, 1]])
x = np.random.multivariate_normal(mean, cov, (500,), 'raise') # nx2
plt.scatter(x[:, 0], x[:, 1])
plt.xlim(-3, 5)
plt.ylim(-3, 5)
plt.show()
运行结果:
参考资料
-
python 累积正态分布函数_机器学习系列(二)多元正态分布
2021-01-01 21:51:01一元正态分布回顾如果随机变量 服从均值为 方差为 的正态分布 (Univariate normal ...正态分布可以模拟大量自然现象多元正态分布多元正态分布密度函数类比于一元情况,若 维随机变量 服从均值向量为 和协方差矩阵为 ... -
给一堆数据后怎么用r处理成正态分布_多元正态分布函数的理解
2020-11-23 05:24:17对于 维的多元正态分布 ,其密度函数公式为: 当年学的时候只是强行记住了这个公式。但是协方差矩阵 怎么理解,归一化系数中 又是怎么来的,以及 的指数项为什么是 则一概不知。今天偶然遇到,发现可以从矩阵对角化... -
多元正态分布的条件概率分布(一)
2014-06-04 12:25:20多元正态分布的条件概率分布 假设分别有两个多维向量和 其中 那么的协方差矩阵为: 那么的协方差矩阵为: 那么的协方差矩阵为: 那么的协方差矩阵为... -
多元正态分布最大似然估计
2020-09-15 12:48:15多元正态分布的概率密度函数 N维随机向量 如果服从多变量正态分布,必须满足下面的三个等价条件: 任何线性组合 服 从正态分布。 存在随机向量 ( 它的每个元素服从独立标准正态分布),向量 及 矩阵A满足 存在 和一... -
多元正态分布
2014-06-03 09:32:15多元正态分布 先定义一个d元随机向量,这里用列向量来表示,每一个元素都是一个一元随机变量,如 ,其转置为 其中表示这个多元随机变量的第i个分量,它是一个一维的随机变量。 高斯分布主要是用均值和方差来... -
瑞利分布概率密度函数推导_多元正态分布函数的理解
2020-12-31 08:16:27对于 维的多元正态分布 ,其密度函数公式为: 当年学的时候只是强行记住了这个公式。但是协方差矩阵 怎么理解,归一化系数中 又是怎么来的,以及 的指数项为什么是 则一概不知。今天偶然遇到,发现可以从矩阵对角化... -
多元正态分布、多元t分布中的行列式求解 Java
2019-06-05 21:02:55在编写多元正太分布函数和多元t分布函数时,常遇到要求解,协方差矩阵对应行列式的值。 math3求解行列式的值 在math3中提供了求解行列式值的方法,下面将以一个具体案例,介绍其使用。 如下为Java代码: ... -
使用Python实现正态分布、正态分布采样
2021-01-02 12:56:47这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。 协方差矩阵 一般来说,协方差矩阵有三种形式,分别称为球形、对角和全... -
python实现正态分布_使用Python实现正态分布、正态分布采样
2020-12-04 07:19:38多元正态分布公式如下:这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。协方差矩阵一般来说,协方差矩阵有三种形式,... -
python 正态分布图像_使用Python实现正态分布、正态分布采样
2020-12-09 23:19:58多元正态分布公式如下:这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。协方差矩阵一般来说,协方差矩阵有三种形式,... -
多元正态分布的性质和定理
2018-04-11 22:38:56X_n]^T服从多元高斯分布,均值为μ∈Rnμ∈Rn\mu \in R^n(这里μμ\mu是一个n维向量),协方差矩阵为Σ∈S++nΣ∈S++n\Sigma \in {S_{++}}^n ,(S++nS++n{S_{++}}^n 是对称的正定矩阵),概率密度函数: p(x;μ,Σ)... -
python分片实现矩阵下采样_使用Python实现正态分布、正态分布采样
2021-03-05 22:43:09多元正态分布公式如下:这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。协方差矩阵一般来说,协方差矩阵有三种形式,... -
正态分布、正态分布采样及Python实现
2018-12-27 22:22:10正态分布、正态分布采样及Python实现多元正态分布(多元高斯分布)协方差矩阵协方差分解变量的线性变换(正态分布采样原理)python实现参考文献 多元正态分布(多元高斯分布) 直接从多元正态分布讲起。多元正态分布公式... -
【ML学习笔记】17:多元正态分布下极大似然估计最小错误率贝叶斯决策
2018-01-03 10:36:18即其分布可以由均值向量和对称的协方差矩阵 唯一确定。如果认为样本的特征向量在类内服从多元正态分布: 即对于每个类i,具有各自的类内的均值向量和协方差矩阵。如之前所学,最小错误率贝叶斯的判别函数的... -
《计算机视觉:模型、学习和推理》一3.7 多元正态分布
2017-09-07 13:13:00该分布由D×1维均值向量μ和D×D维协方差矩阵Σ定义,μ决定分布的均值,协方差矩阵Σ决定分布的形状。分布的等值线图是椭圆,椭圆的中心由μ决定,形状由Σ决定。该图描述了一个二元分布,其中协方差通过绘制其中一... -
机器学习(十六)——多元正态分布(The multivariate normal distribution)
2018-05-15 22:30:14原文:http://cs229.stanford.edu/notes/cs229-notes2.pdfn维的多元正态分布,也称为多元高斯分布,是用均值向量和协方差矩阵参数化的,其中Σ≥0是对称的和正半定的。也被写作,它的密度函数为在上面的方程中,“|... -
AI算法基础补完之多元正态分布
2015-01-23 08:36:391.多元正态分布的概率密度函数 多元是指样本以多个变量来描述,或具有多个属性,在此一般用d维特征向量表示,X=[x1,…,xd]T。d维特征向量的正态分布用下式表示 (2-32) 其中μ是X的均值向量,也是d维, ... -
(大数据分析学习)20、多元正态分布抽样与极大似然估计
2018-10-25 16:56:10是一个来自均值向量为μ和协方差矩阵为∑的多元正态总体的随机样本。由于X1,X2,…,X。是相互独立的,且每个为N。(μ,∑)分布,所有观测结果的联合密度函数是边缘正态密度之积: 似然函数 当可得到观测结果... -
R 正态分布与正态性检验
2020-12-07 10:44:24多元正态分布的密度函数 每一个分量都服从正态分布 分量的线性组合仍然是正态分布 如果协方差矩阵是对角阵,则分量是相互独立的、服从正态分布的随机变量(对于正态分布而言,不线性相关等价于独立)。 正态性的... -
python scipy.stats 正态分布_scipy.stats.multivariate_normal的使用
2020-12-17 10:37:05|Σ| 代表协方差矩阵的行列式二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图np.random.multivariate_normal生成一个服从多元正态分布的数组 【适用... -
方差协方差以及协方差矩阵
2020-02-21 17:20:09文章结构方差和协方差的定义从方差/协方差到协方差矩阵多元正态分布与线性变换协方差矩阵的特征值分解1. 方差和协方差的定义在统计学中,方差是用来度量单个随机变量的离散程度,而协方差则一般用来刻画两个随机变量... -
一种协方差矩阵的多尺度量子谐振子算法
2021-01-13 03:36:28所提算法改进了多元正态分布评估算法中的协方差矩阵生成方式,保留了之前采样点的记忆,加入动态迭代步长加快了新协方差矩阵的更新速度.实验结果表明,所提算法的性能远超原算法,与4种经典优化算法相比,在收敛精度、... -
如何直观地理解「协方差矩阵」?
2020-02-21 16:57:14如何直观地理解「协方差矩阵」?Xinyu ChenUrban Traffic Data Analytics372 人赞同了该文章协方差矩阵在统计学和机器...文章结构方差和协方差的定义从方差/协方差到协方差矩阵多元正态分布与线性变换协方差矩阵的特... -
散布矩阵(Scatter Matrix)及其与协方差矩阵(The Covariance Matrix)的关系
2020-09-17 22:37:49在多元统计和概率论中,散点矩阵是一种统计量,用来估计协方差矩阵,例如多元正态分布。 In multivariate statistics and probability theory, the scatter matrix is a statistic that is used to make estimates ... -
正态分布和椭圆、椭球
2007-11-19 20:24:00正态分布和椭圆、椭球2007.12.17修正了程序中的一个错误,椭圆恢复时的旋转矩阵应该是inv(V)。二元正态分布(高斯分布)的等概率曲线是一个...多元正态分布(multivariate normal distribution )的概率密度:很显然, -
协方差矩阵、大数定律、牛顿迭代法
2020-09-21 12:34:40方差与协方差 ...假设一个向量X服从均值向量为μ,协方差向量为,的多元正态分布,则概率密度函数表示为: 大数定律 辛钦大数定律:样本均值依概率收敛于期望值。 另一种切比雪夫定理的情况: ...