https://blog.csdn.net/qq_30374549/article/details/81044683
https://blog.csdn.net/hanjushi2/article/details/80052261
公式要理解,高要求,
如下所示:
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
from matplotlib import style
style.use('fivethirtyeight')
mu_params = [-1, 0, 1]
sd_params = [0.5, 1, 1.5]
x = np.linspace(-7, 7, 100)
f, ax = plt.subplots(len(mu_params), len(sd_params), sharex=True, sharey=True, figsize=(12,8))
for i in range(3):
for j in range(3):
mu = mu_params[i]
sd = sd_params[j]
y = stats.norm(mu, sd).pdf(x)
ax[i, j].plot(x, y)
ax[i, j].plot(0,0, label='mu={:3.2f}\nsigma={:3.2f}'.format(mu,sd), alpha=0)
ax[i, j].legend(fontsize=10)
ax[2,1].set_xlabel('x', fontsize=16)
ax[1,0].set_ylabel('pdf(x)', fontsize=16)
plt.suptitle('Gaussian PDF', fontsize=16)
plt.tight_layout()
plt.show()
以上这篇python高斯分布概率密度函数的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
高斯分布的概念
百科:
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为、方差为的正态分布,记为。其概率密度函数为正态分布的期望值决定了其位置,其标准差决定了分布的幅度。当时的正态分布是标准正态分布。
高斯分布相乘
假设 ~ ,~都是高斯分布
即:
和
他们的乘积是:
现在,我们对其做进一步化简,以期得到 的分布函数。
相乘后的高斯分布
上述公式指数部分为:
以x的幂项展开这两个二次方程得:
考虑到标准正态分布方程可以写成:
对比上式,我们将改写成如下形式:
化简得:
令
化简得:
代入方程(1)可得:
所以也是一个高斯分布函数:
其中
推论为本人学完第九周后自己推导得出,推论公式在文中下半部分。本来在word上编辑好了公式复制到博客上乱码了,所以有些公式是粘贴的图片,不影响观看。欢迎大家指正,交流。
在一般的高斯分布模型中,我们计算高斯分布概率密度函数p(x),回顾高斯分布的基本知识。通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为:
,其中,μ,σ2分别表示如下:
。
假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,很明显绿色的X 所代表的数据点很可能是异常值,但是其 p(x)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。
在一般的高斯分布模型中,我们计算 p(x)的方法是: 通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算p(x)。
我们首先计算所有特征的平均值,然后再计算协方差矩阵:
其中:
,
注:其中 μ 是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。Σ 表示的是协方差矩阵。最后我们计算多元高斯分布的p(x):
其中:|Σ|表示的是协方差矩阵Σ 的行列式 ; Σ(-1)表示的是协方差矩阵的逆。
下面通过一般高斯分布概率密度函数来推导上述多元的高斯分布概率密度函数:
一般高斯分布概率密度函数为:
展开后:p(x) =
而协方差矩阵Σ是关于方差的n*n的对角矩阵,即:
同时协方差矩阵Σ的伴随矩阵为:
..........(1)
这里:
.......................(2)
伴随矩阵和可逆矩阵关系有:
......................(3)
对于指数部分
通分后可写成如下形式:
....................(4)
对于式子(4)的分子部分完全可以写成向量形式了: (注:(X-U)是一个n*1维向量,其转置是1*n维向量)
综合(1)(2)(3)(4)式可知:
则整理之后可得:
证毕。
注:1. 上面公式不能直接由word粘贴到这里,所以都是截的图。
2. 对于高斯分布的概率密度函数必须要求m>n(m表示样本数目,n表示特征数目),要不然的话会导致协方差矩阵Σ不可逆,这里简单的证明一下,有兴趣的可以自行严格证明,假设A为nxm维矩阵,B为mxn维矩阵,m<n,故对于AB为nxn维矩阵的秩R(AB)<=R(A)<=m<n,说明AB不可逆。所以,要保证Σ可逆,必须保证要有m>n,实际更确切的讲,实际应用算法中,应当保证m>10n,即样本数至少要保证比样本特征数目多十倍。
欢迎指正、交流学习。
https://blog.csdn.net/qq_30374549/article/details/81044683
https://blog.csdn.net/hanjushi2/article/details/80052261
公式要理解,高要求,
转载于:https://www.cnblogs.com/pengzhi12345/p/11510563.html