精华内容
下载资源
问答
  • python二维正态分布

    千次阅读 2019-10-01 18:46:56
    维正态分布 " ) d = np.random.randn(100000, 2 ) mu, sigma, skew, kurtosis = calc_statistics(d) print ( ' 函数计算均值、标准差、偏度、峰度: ' , mu, sigma, skew, kurtosis) # 二维图像 N = ...
    #  -*- coding:utf-8 -*-
    import numpy as np
    from scipy import stats
    import math
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    from mpl_toolkits.mplot3d import Axes3D
    from matplotlib import cm
    
    def calc_statistics(x):
        n = x.shape[0] #样本个数
    
        m = 0#期望
        m2 = 0#平方的期望
        m3 = 0#三次方的期望
        m4 = 0#四次方的期望
        for t in x:
            #向量的加法
            m += t
            m2 += t*t
            m3 += t**3
            m4 += t**4
        m /= n
        m2 /= n
        m3 /= n
        m4 /= n
    
        #标准差 = E((X - E(X))^2) = E(X^2) - E(X)^2
        sigma = np.sqrt(m2-m*m)
        #求偏度  = E((X-E(X))^3) = (m3 - 3*m*m2 + 2*m**3) / sigma**3
        skew = (m3 - 3*m*sigma**2 - m**3) / sigma**3
        #求峰度
        kurtosis = m4 / sigma**4 - 3
        print('手动计算均值、标准差、偏度、峰度:', m, sigma, skew, kurtosis)
    
        #使用系统函数验证
        mu = np.mean(x,axis=0)
        sigma = np.std(x,axis=0)
        skew = stats.skew(x)
        kurtosis = stats.kurtosis(x)
        return mu,sigma,skew,kurtosis
    
    
    
    if __name__ == '__main__':
        # d = np.random.randn(100000)
        # print(d)
        # mu, sigma, skew, kurtosis = calc_statistics(d)
        # print('函数计算均值、标准差、偏度、峰度:', mu, sigma, skew, kurtosis)
        # # 一维直方图
        # mpl.rcParams[u'font.sans-serif'] = 'SimHei'
        # mpl.rcParams[u'axes.unicode_minus'] = False
        # #画出统计直方图
        # #bins直方图的条数
        # #density=True 画出趋势图
        # #y1:x1每个中每个值出现的次数的度量
        # #x1:d的值的范围
        # y1, x1, dummy = plt.hist(d, bins=50,density=True, color='g', alpha=0.75)
        # t = np.arange(x1.min(), x1.max(), 0.05)
        # #绘制标准正态分布的曲线
        # y = np.exp(-t ** 2 / 2) / math.sqrt(2 * math.pi)
        # plt.plot(t, y, 'r-', lw=2)
        # plt.title(u'高斯分布,样本个数:%d' % d.shape[0])
        # plt.grid(True)
        # plt.show()
    
        #二维
        print("二维正态分布")
        d = np.random.randn(100000, 2)
        mu, sigma, skew, kurtosis = calc_statistics(d)
        print('函数计算均值、标准差、偏度、峰度:', mu, sigma, skew, kurtosis)
        # 二维图像
        N = 50
        #density:edges中每个值出现的次数的度量
        density, edges = np.histogramdd(d, bins=[N, N])
        print('样本总数:', np.sum(density))
        density /= density.max()
        x = y = np.arange(N)
        t = np.meshgrid(x, y)
    
        fig = plt.figure(facecolor='gray')
        ax = fig.add_subplot(111, projection='3d')
        #x,y,z
        ax.scatter(t[0], t[1], density, c='r', s=15 * density, marker='o', depthshade=True)
        # ax.plot_surface(t[0], t[1], density, cmap=cm.Accent, rstride=2, cstride=2, alpha=0.9, lw=0.75)
        # ax.set_xlabel(u'X')
        # ax.set_ylabel(u'Y')
        # ax.set_zlabel(u'Z')
        # plt.title(u'二元高斯分布,样本个数:%d' % d.shape[0], fontsize=20)
        # plt.tight_layout(0.1)
        plt.show()
    #  -*- coding:utf-8 -*-
    import numpy as np
    from scipy import stats
    import math
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    from mpl_toolkits.mplot3d import Axes3D
    from matplotlib import cm
    
    def calc_statistics(x):
        n = x.shape[0] #样本个数
    
        m = 0#期望
        m2 = 0#平方的期望
        m3 = 0#三次方的期望
        m4 = 0#四次方的期望
        for t in x:
            #向量的加法
            m += t
            m2 += t*t
            m3 += t**3
            m4 += t**4
        m /= n
        m2 /= n
        m3 /= n
        m4 /= n
    
        #标准差 = E((X - E(X))^2) = E(X^2) - E(X)^2
        sigma = np.sqrt(m2-m*m)
        #求偏度  = E((X-E(X))^3) = (m3 - 3*m*m2 + 2*m**3) / sigma**3
        skew = (m3 - 3*m*sigma**2 - m**3) / sigma**3
        #求峰度
        kurtosis = m4 / sigma**4 - 3
        print('手动计算均值、标准差、偏度、峰度:', m, sigma, skew, kurtosis)
    
        #使用系统函数验证
        mu = np.mean(x,axis=0)
        sigma = np.std(x,axis=0)
        skew = stats.skew(x)
        kurtosis = stats.kurtosis(x)
        return mu,sigma,skew,kurtosis
    
    
    
    if __name__ == '__main__':
        # d = np.random.randn(100000)
        # print(d)
        # mu, sigma, skew, kurtosis = calc_statistics(d)
        # print('函数计算均值、标准差、偏度、峰度:', mu, sigma, skew, kurtosis)
        # # 一维直方图
        # mpl.rcParams[u'font.sans-serif'] = 'SimHei'
        # mpl.rcParams[u'axes.unicode_minus'] = False
        # #画出统计直方图
        # #bins直方图的条数
        # #density=True 画出趋势图
        # #y1:x1每个中每个值出现的次数的度量
        # #x1:d的值的范围
        # y1, x1, dummy = plt.hist(d, bins=50,density=True, color='g', alpha=0.75)
        # t = np.arange(x1.min(), x1.max(), 0.05)
        # #绘制标准正态分布的曲线
        # y = np.exp(-t ** 2 / 2) / math.sqrt(2 * math.pi)
        # plt.plot(t, y, 'r-', lw=2)
        # plt.title(u'高斯分布,样本个数:%d' % d.shape[0])
        # plt.grid(True)
        # plt.show()
    
        #二维
        print("二维正态分布")
        d = np.random.randn(100000, 2)
        mu, sigma, skew, kurtosis = calc_statistics(d)
        print('函数计算均值、标准差、偏度、峰度:', mu, sigma, skew, kurtosis)
        # 二维图像
        N = 50
        #density:edges中每个值出现的次数的度量
        density, edges = np.histogramdd(d, bins=[N, N])
        print('样本总数:', np.sum(density))
        density /= density.max()
        x = y = np.arange(N)
        t = np.meshgrid(x, y)
    
        fig = plt.figure(facecolor='gray')
        ax = fig.add_subplot(111, projection='3d')
        #x,y,z
        ax.scatter(t[0], t[1], density, c='r', s=15 * density, marker='o', depthshade=True)
        # ax.plot_surface(t[0], t[1], density, cmap=cm.Accent, rstride=2, cstride=2, alpha=0.9, lw=0.75)
        # ax.set_xlabel(u'X')
        # ax.set_ylabel(u'Y')
        # ax.set_zlabel(u'Z')
        # plt.title(u'二元高斯分布,样本个数:%d' % d.shape[0], fontsize=20)
        # plt.tight_layout(0.1)
        plt.show()

     

    转载于:https://www.cnblogs.com/xiaochi/p/11237009.html

    展开全文
  • title: 【概率论】5-10:二维正态分布(The Bivariate Normal Distributions) categories: - Mathematic - Probability keywords: - The Bivariate Normal Distributions toc: true date: 2018-04-05 22:03:55 ...

    原文地址1:https://www.face2ai.com/Math-Probability-5-10-The-Bivariate-Normal-Distributions转载请标明出处

    Abstract: 本文介绍第一个多变量连续分布——双变量正态分布(本篇内有未证明定理,需要后续要补充 )
    Keywords: The Bivariate Normal Distributions

    二维正态分布

    今天我们来研究双变量的正态分布,多变量,连续分布。
    对于某些研究者,可能用正态分布来非常好的描述某个随机变量,那么如果我们有两个随机变量,都可以用正态分布描述,而且他们之间存在关系,这时候我们就可以用一个双变量正态分布来描述了这两个变量之间的关系,并且这个二维分布的边缘分布,还是这两个随机变量单变量的分布。5.6中 我们介绍了某些有正态分布的独立随机变量的线性组合还是正态分布。但是双变量正态分布(联合分布)可以是相关的。

    二维正态分布的定义和来源 Definition and Derivation of Bivariate Normal Distributions

    Theorem Suppose that Z1Z_1 and Z2Z_2 are independent random variables,each of which has the standard normal distribution.Let μ1,μ2,σ1,σ2\mu_1,\mu_2,\sigma_1,\sigma_2 ,and ρ\rho be constants such that <μi<(i=1,2)-\infty<\mu_i<\infty(i=1,2) , σi>0(i=1,2)\sigma_i>0(i=1,2) ,and 1<ρ<1-1<\rho<1 . Define two new random variables X1X_1 and X2X_2 as follows:
    X1=σ1Z1+μ1X2=σ2[ρZ1+(1ρ2)12Z2]+μ2(5.10.1) X_1=\sigma_1Z_1+\mu_1\\ X_2=\sigma_2[\rho Z_1+(1-\rho^2)^{\frac{1}{2}}Z_2]+\mu_2 \tag{5.10.1}
    The joint p.d.f. of X1X_1 and X2X_2 is
    f(x1,x2)=12π(1ρ2)12σ1σ2e12(1ρ2)[(x1μ1σ1)22ρ(x1μ1σ1)(x2μ2σ2)+(x2μ2σ2)2](5.10.2) f(x_1,x_2)=\frac{1}{2\pi(1-\rho^2)^{\frac{1}{2}}\sigma_1\sigma_2}e^{-\frac{1}{2(1-\rho^2)}[(\frac{x_1-\mu_1}{\sigma_1})^2-2\rho(\frac{x_1-\mu_1}{\sigma_1})(\frac{x_2-\mu_2}{\sigma_2})+(\frac{x_2-\mu_2}{\sigma_2})^2]} \tag{5.10.2}

    上面这个定理的证明需要定理3.9.5 ,而定理3.9.5是个选证题,也就是说会在我们后面的高级课程中进行证明,所以这个定理也就没法证明了,在证明了3.9.5 以后,我们会对此定理进行证明。

    Theorem Suppose that X1X_1 and X2X_2 have the joint distribution whose p.d.f. is given by Eq.(5.10.2) Then there exist independent standard normal random variables Z1Z_1 and Z2Z_2 such that Eqs (5.10.1) hold .Also,the mean of XiX_i is μi\mu_i and the variance of XiX_i is σi2\sigma_i^2 for i=1,2i=1,2 .Furthermore the correlation between X1X_1 and X2X_2 is ρ\rho .Finally,the marginal distribution of XiX_i is the normal distribution with mean μi\mu_i and variance σi2\sigma_i^2 for i=1,2i=1,2

    此定理的证明也需要 3.9.5 的结论,所以我们目前只做不严谨的推理,两个联合分布如5.10.2,那么他们中的一个随机变量的分布(也就是联合变量的边缘分布)就是一个正态分布。均值和方差可求。

    Definition Bivariate Normal Distributions.When the joint p.d.f. of two random variables X1X_1 and X2X_2 is of the form in Eq(5.10.2),it is said that X1X_1 and X2X_2 have the bivariate normal distribution with mean μ1\mu_1 and μ2\mu_2 variance σ12\sigma_1^2 and σ22\sigma_2^2 ,and correlation ρ\rho

    以上就是第一部分要讲的内容,两个没证明的定理,和一个定义,这篇文章看起来有点水,确实是这样,但是如果没有知识又不完全,算是个占位符,但是双变量正态分布这个用途确实太多了,举个最简单的例子,我们的身高体重,就经常用双变量的正态分布来建模。

    二维正态分布的性质 Properties of Bivariate Normal Distributions

    接下来我们来研究一下双变量正态分布的性质

    Theorem Independence and Correlation.Two random variables X1X_1 and X2X_2 that have a bivariate normal distribution are independent if and only if they are uncorrelated.

    两个随机变量有一个双变量正态分布,那么他们独立的充分必要条件是他们不相关。
    来回忆一下独立性相关性,独立性是两个随机变量分布之间满足 f(x,y)=f1(x)f2(y)f(x,y)=f_1(x)f_2(y) 这时 X,YX,Y 独立,不相关是说 ρ(X,Y)=Cov(X,Y)σX2σY2=0\rho(X,Y)=\frac{Cov(X,Y)}{\sigma_X^2\sigma_Y^2}=0 的时候两个变量不相关,相关性(点击传送)的介绍中对于任何随机变量的分布,独立性都能推出不相关,但是不相关不能推出独立,所以为了证明本定理我们可以只证明,if过程,也就是不相关来推到独立,另一部分在相关性的文章中已经证明了。
    证明 if 过程:
    假设两个变量不相关,所以当 ρ=0\rho=0 从公式 5.10.2 中可以看出 f(x1,x2)f(x_1,x_2) 可以被分解成两个分布相乘的形式,所以,我们可以得到这两个边缘分布独立。
    证毕。
    双变量的正态分布,不相关就独立,独立就不相关,在别的分布下不一定成立!
    当相关性不为0的时候,我们会得到下面这个定理,就是一个变量再另一个变量给定情况下的分布。

    Theorem Conditional Distribution.Let X1X_1 and X2X_2 have the bivariate normal distribution whose p.d.f. is Eq.(5.10.2) .The conditional distribution of X2X_2 given that X1=x1X_1=x_1 is the normal distribution with mean and variance given by
    E(X2x1)=μ2+ρσ2(x1μ1σ1)Var(X2x1)=(1ρ2)σ22 \begin{aligned} E(X_2|x_1)&=\mu_2+\rho\sigma_2(\frac{x_1-\mu_1}{\sigma_1})\\ Var(X_2|x_1)&=(1-\rho^2)\sigma_2^2 \end{aligned}

    当两个变量的联合分布为双变量正态分布,并且他们相关的时候,已知一个变量怎么来计算条件分布呢?
    证明:

    1. 给定条件 X1=x1X_1=x_1 等价于给定 Z1=x1μ1σ1Z_1=\frac{x_1-\mu_1}{\sigma_1}
    2. 那么我们只需要证明给定条件 Z1=x1μ1σ1Z_1=\frac{x_1-\mu_1}{\sigma_1} 下的 X2X_2 的分布。
    3. 那么把 Z1=x1μ1σ1Z_1=\frac{x_1-\mu_1}{\sigma_1} 带入到式子 5.10.1中的第二个公式。
    4. 那么给定条件 X1=x1X_1=x_1 下的 X2X_2 的分布,等价于给定条件 Z1=(x1μ1)σ1Z_1=\frac{(x_1-\mu_1)}{\sigma_1} 下,以下关系式的分布:
      (1ρ2)1/2σ2Z2+μ2+ρσ2(x1μ1σ1)(5.10.7) (1-\rho^2)^{1/2}\sigma_2Z_2+\mu_2+\rho\sigma_2(\frac{x_1-\mu_1}{\sigma_1})\tag{5.10.7}
    5. 上式可见 Z2Z_2 是唯一的随机变量,并且 Z1Z_1Z2Z_2 是独立的,所以 X2X_2 在给定 X1=x1X_1=x_1 的条件下是 5.10.7 的边缘分布
    6. 所以条件期望和条件方差如 5.10.6 所写。
    7. 证毕

    同理可以证明,
    给定条件 X2=x2X_2=x_2X1X_1 的分布也是正态分布,并且其期望和方差如下
    E(X1x2)=μ1+ρσ1(x2μ2σ2)Var(X1x2)=(1ρ2)σ12 E(X_1|x_2)=\mu_1+\rho\sigma_1(\frac{x_2-\mu_2}{\sigma_2})\\ Var(X_1|x_2)=(1-\rho^2)\sigma_1^2

    上面这两个结论可以看出,当两个变量相关的 ρ0\rho\neq 0 时, E(X2x1)E(X_2|x_1)x1x_1 的线性函数,并且 ρ\rho 是斜率。并且此时条件方差是不依赖于条件的。条件方差比边缘概率的方差小,也就是说 Var(X1X2=x2)<σ2Var(X_1|X_2=x_2)< \sigma_2 .


    这里可以简单的给个🌰 的大概描述:
    在一群人中进行建模,得到一个身高和体重的二维联合分布,是正态分布。已知一个人的身高预测他的体重,和不知道身高预测体重,是完全不同的两个过程,一个是条件期望,一个是边缘分布的期望,因为两个随机变量相关,所以必然用条件期望更准确一些(误差更小一点)。


    Linear Combination

    线性组合我们只证明一个定理:

    Theorem Linear Combination of Bivariate Normals.Suppose that two random variables X1X_1 and X2X_2 have a bivariate normal distribution ,for which the p.d.f is specified by Eq.(5.10.2).Let Y=a1X1+a2X2+bY=a_1X_1+a_2X_2+b ,where a1,a2a_1,a_2 and bb are arbitrary given constants .Then YY has the normal distribution with mean a1μ1+a2μ2+ba_1\mu_1+a_2\mu_2+b and variance
    a12σ12+a22σ22+2a1a2ρσ1σ2 a_1^2\sigma_1^2+a_2^2\sigma_2^2+2a_1a_2\rho\sigma_1\sigma_2

    当两个变量的联合分布是双变量正态分布的时,其和是一个正态分布,并且期望和方差满足上述关系。

    证明:

    1. 依据双变量正态分布的定义,我们可以用 Z1Z_1Z2Z_2 的线性组合来表示 X1X_1X2X_2 的线性组合。
    2. Z1Z_1Z2Z_2 独立(已知条件)
    3. YY 可以表示成Z1Z_1Z2Z_2 的线性组合
    4. 根据5.6中推论 Y还是正态分布,并且期望为:
      E(Y)=a1E(X1)+a2E(X2)+b=a1μ1+a2μ2+b \begin{aligned} E(Y)&=a_1E(X_1)+a_2E(X_2)+b\\ &=a_1\mu_1+a_2\mu_2+b \end{aligned}
    5. 根据4.6 中的推论: Var(Y)=a12Var(X1)+a22Var(X2)+2a1a2Cov(X1,X2)Var(Y)=a_1^2 Var(X_1)+a_2^2 Var(X_2)+2a_1a_2 Cov(X_1,X_2)
    6. 证毕

    总结

    给出了两个变量的正态分布的定义(这个定理中给出了双变量正态分布的所有有用性质的根本),双变量正态分布的性质的证明主要用到这个定理(本篇第一个定理),所以本篇第一个定理是关键中的关键。

    展开全文
  • 多元正态分布公式如下:这就是多元正态分布定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。协方差矩阵一般来说,协方差矩阵有三种形式,...

    多元正态分布(多元高斯分布)

    直接从多元正态分布讲起。多元正态分布公式如下:

    这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。

    协方差矩阵

    一般来说,协方差矩阵有三种形式,分别称为球形、对角和全协方差。以二元为例:

    为了方便展示不同协方差矩阵的效果,我们以二维为例。(书上截的图,凑活着看吧,是在不想画图了)

    其实从这个图上可以很好的看出,协方差矩阵对正态分布的影响,也就很好明白了这三个协方差矩阵是哪里来的名字了。可以看出,球形协方差矩阵,会产生圆形(二维)或者球形(三维)的等高线,对角协方差矩阵和全协方差矩阵,会产生椭圆形的等高线。更一般地,在一个D维空间中,球形协方差矩阵,会产生一个D维球面等高线;对角协方差矩阵,会产生一个坐标轴对其的椭球型等高线;全协方差矩阵,会在任意位置产生一个坐标轴对其的椭球型等高线。

    当协方差矩阵是球形的或者是对角的,单独的变量之间是独立的

    协方差分解

    时间不足,具体解释以后再补

    下面是协方差分解的原理图

    变量的线性变换(正态分布采样原理)

    python实现

    多元正态分布在python的numpy库中有很方便一个函数:

    np.random.multivariate_normal(mean=mean, cov=conv, size=N)

    这个函数中,mean代表均值,是在每个维度中的均值。cov代表协方差矩阵,就像上面讲的那种形式,协方差矩阵值的大小将决定采样范围的大小。size代表需要采样生成的点数,此时输出大小为(N*D)的坐标矩阵。

    另外,其他参数包括:check_valid,这个参数用于决定当cov即协方差矩阵不是半正定矩阵时程序的处理方式,它一共有三个值:warn,raise以及ignore。当使用warn作为传入的参数时,如果cov不是半正定的程序会输出警告但仍旧会得到结果;当使用raise作为传入的参数时,如果cov不是半正定的程序会报错且不会计算出结果;当使用ignore时忽略这个问题即无论cov是否为半正定的都会计算出结果

    tol:检查协方差矩阵奇异值时的公差,float类型。

    下面是一个小demo

    import numpy as np

    import matplotlib.pyplot as plt

    mean = np.array([2,1]) # 均值

    conv = np.array([[0.5, 0.0], # 协方差矩阵

    [0.0, 0.5]])

    axis = np.random.multivariate_normal(mean=mean, cov=conv, size=200)

    x, y = np.random.multivariate_normal(mean=mean, cov=conv, size=1000).T

    # print(axis[:])

    plt.plot(axis[:, 0], axis[:, 1], 'ro')

    plt.show()

    plt.plot(x, y, 'ro')

    plt.show()

    注意,单独取出每个坐标轴的坐标数组时,需要在最后加上.T,否则会报错 效果展示:

    协方差值的大小对采样的影响:

    mean = np.array([2,1]) # 均值

    conv = np.array([[0.5, 0.0], # 协方差矩阵

    [0.0, 0.5]])

    conv2 = np.array([[10, 0.0], # 协方差矩阵

    [0.0, 10]])

    axis = np.random.multivariate_normal(mean=mean, cov=conv, size=200)

    x, y = np.random.multivariate_normal(mean=mean, cov=conv2, size=200).T

    # print(axis[:])

    plt.plot(axis[:, 0], axis[:, 1], 'ro')

    plt.show()

    plt.plot(x, y, 'ro')

    plt.show()

    效果如下:

    这里没有设定随机种子店,每次随机数会有所不同。

    以上这篇使用Python实现正态分布、正态分布采样就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持爱蒂网。

    展开全文
  • 这就是多元正态分布定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上形式较多。 协方差矩阵 一般来说,协方差矩阵有三种形式,分别称为球形、对角和全...
  •  当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。即:    而  因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上述公式即可得到需要的估计值。均值与...

    1、贝叶斯介绍

    我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。

          一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决定趁这个机会,写一系列关于算法的文章。这样做,主要是为了加强自己复习的效果,我想,如果能将复习的东西用自己的理解写成文章,势必比单纯的读书做题掌握的更牢固,也更能触发自己的思考。如果能有感兴趣的朋友从中有所收获,那自然更好。

          这个系列我将其命名为“算法杂货铺”,其原因就是这些文章一大特征就是“杂”,我不会专门讨论堆栈、链表、二叉树、查找、排序等任何一本数据结构教科书都会讲的基础内容,我会从一个“专题”出发,如概率算法、分类算法、NP问题、遗传算法等,然后做一个引申,可能会涉及到算法与数据结构、离散数学、概率论、统计学、运筹学、数据挖掘、形式语言与自动机等诸多方面,因此其内容结构就像一个杂货铺。当然,我会竭尽所能,尽量使内容“杂而不乱”。

    1.1、摘要

          贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。

    1.2、分类问题综述

          对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。

          从数学角度来说,分类问题可做如下定义:

          已知集合:,确定映射规则,使得任意有且仅有一个使得成立。(不考虑模糊数学里的模糊集情况)

          其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

          这里要着重强调,分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则,而是通过对经验数据的学习从而实现一定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类,分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。

          例如,医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。

    1.3、贝叶斯分类的基础——贝叶斯定理

          每次提到贝叶斯定理,我心中的崇敬之情都油然而生,倒不是因为这个定理多高深,而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:

          表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:

          贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。

          下面不加证明地直接给出贝叶斯定理:

          

    1.4、朴素贝叶斯分类

    1.4.1、朴素贝叶斯分类的原理与流程

          朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

          朴素贝叶斯分类的正式定义如下:

          1、设为一个待分类项,而每个a为x的一个特征属性。

          2、有类别集合

          3、计算

          4、如果,则

          那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:

          1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

          2、统计得到在各类别下各个特征属性的条件概率估计。即

          3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

          

          因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

          

          根据上述分析,朴素贝叶斯分类的流程可以由下图表示(暂时不考虑验证):

          可以看到,整个朴素贝叶斯分类分为三个阶段:

          第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

          第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。

          第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

    1.4.2、估计类别下特征属性划分的条件概率及Laplace校准

          这一节讨论P(a|y)的估计。

          由上文看出,计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤,当特征属性为离散值时,只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y),下面重点讨论特征属性是连续值的情况。

          当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。即:

          

          而

          因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上述公式即可得到需要的估计值。均值与标准差的计算在此不再赘述。

          另一个需要讨论的问题就是当P(a|y)=0怎么办,当某个类别下某个特征项划分没有出现时,就是产生这种现象,这会令分类器质量大大降低。为了解决这个问题,我们引入Laplace校准,它的思想非常简单,就是对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。

    1.4.3、朴素贝叶斯分类实例:检测SNS社区中不真实账号

          下面讨论一个使用朴素贝叶斯分类解决实际问题的例子,为了简单起见,对例子中的数据做了适当的简化。

          这个问题是这样的,对于SNS社区来说,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题,作为SNS社区的运营商,希望可以检测出这些不真实账号,从而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管。

          如果通过纯人工检测,需要耗费大量的人力,效率也十分低下,如能引入自动检测机制,必将大大提升工作效率。这个问题说白了,就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类,下面我们一步一步实现这个过程。

          首先设C=0表示真实账号,C=1表示不真实账号。

          1、确定特征属性及划分

          这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性,在实际应用中,特征属性的数量是很多的,划分也会比较细致,但这里为了简单起见,我们用少量的特征属性以及较粗的划分,并对数据做了修改。

          我们选择三个特征属性:a1:日志数量/注册天数,a2:好友数量/注册天数,a3:是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。

          下面给出划分:a1:{a<=0.05, 0.05<a<0.2, a>=0.2},a1:{a<=0.1, 0.1<a<0.8, a>=0.8},a3:{a=0(不是),a=1(是)}。

          2、获取训练样本

          这里使用运维人员曾经人工检测过的1万个账号作为训练样本。

          3、计算训练样本中每个类别的频率

          用训练样本中真实账号和不真实账号数量分别除以一万,得到:

          

          

          4、计算每个类别条件下各个特征属性划分的频率

          

          

          

          

          

          

          

          

          

          

          

          

          

          

          

          

          5、使用分类器进行鉴别

          下面我们使用上面训练得到的分类器鉴别一个账号,这个账号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2。

          

          

          可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个别属性的抗干扰性。

    1.5、分类器的评价

          虽然后续还会提到其它分类算法,不过这里我想先提一下如何评价分类器的质量。

          首先要定义,分类器的正确率指分类器正确分类的项目占所有被分类项目的比率。

          通常使用回归测试来评估分类器的准确率,最简单的方法是用构造完成的分类器对训练数据进行分类,然后根据结果给出正确率评估。但这不是一个好方法,因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观,所以一种更好的方法是在构造初期将训练数据一分为二,用一部分构造分类器,然后用另一部分检测分类器的准确率。


    2、MATLAB的程序代码:

    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    %By Shelley from NCUT,April 14th 2011
    %Email:just_for_h264@163.com
    %此程序利用贝叶斯分类算法,首先对两类样本进行训练,
    %进而可在屏幕上任意取点,程序可输出属于第一类,还是第二类
    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    clear;
    close all
     
    %读入两类训练样本数据
    load data
    %求两类训练样本的均值和方差
    u1=mean(Sample1);
    u2=mean(Sample2);
    sigm1=cov(Sample1); 
    sigm2=cov(Sample2);
    %计算两个样本的密度函数并显示
    x=-20:0.5:40;
    y= -20:0.5:20;
    [X,Y] = meshgrid(x,y);
    F1 = mvnpdf([X(:),Y(:)],u1,sigm1);
    F2 = mvnpdf([X(:),Y(:)],u2,sigm2);
    P1=reshape(F1,size(X));
    P2=reshape(F2,size(X));
    figure(2)
    surf(X,Y,P1)
    hold on
    surf(X,Y,P2)
    shading interp
    colorbar
    title('条件概率密度函数曲线');
    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    %以下为测试部分
    %利用ginput随机选取屏幕上的点(可连续取10个点)
    %程序可根据点的位置自动地显示出属于那个类
    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    pw1=0.4;pw2=0.6;
     
    figure(1)
    plot(Sample1(:,1),Sample1(:,2),'r.')
    hold on
    plot(Sample2(:,1),Sample2(:,2),'b.')
     
    for i=1:10
        [u,v]=ginput(1);
        plot(u,v,'m*');
        P1=pw1*mvnpdf([u,v],u1,sigm1);
        P2=pw2*mvnpdf([u,v],u2,sigm2);
        hold all
        if(P1>P2)
             disp('it belong to the first class');
        else
             disp('it belong to the second class');
        end;
    end
    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    其结果如下:




    3、MATLAB进行二维正太分布图

       为什么要介绍这个原因,是因为最小风险贝叶斯里面的那个P(X|Wi)是二维正态分布概率密度,其x轴是每个样本的属性,y轴是每个样本中属性对于的个数。其是程正态分布的,其中的期望值是所有属性对应个数加起来的平均值。则其二维正态分布概率密度公式是:


    clc
    clear
    close all
    
    mu=[0,0];% 均值向量
    Sigma=[1 0.8;0.8 1];% 协方差矩阵
    [X,Y]=meshgrid(-3:0.1:3,-3:0.1:3);%在XOY面上,产生网格数据
    p=mvnpdf([X(:) Y(:)],mu,Sigma);%求取联合概率密度,相当于Z轴
    p=reshape(p,size(X));%将Z值对应到相应的坐标上
    
    figure
    set(gcf,'Position',get(gcf,'Position').*[1 1 1.3 1])
    
    subplot(2,3,[1 2 4 5])
    surf(X,Y,p),axis tight,title('二维正态分布图')
    subplot(2,3,3)
    surf(X,Y,p),view(2),axis tight,title('在XOY面上的投影'


    3、最小风险贝叶斯分类器的构建

    其代码是:

    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    %功能:演示贝叶斯学习算法在计算机视觉中的应用
    %基于贝叶斯学习实现目标分类;
    %其是真实训练跟测试数据都是k_d-k_s=120-11=109
    %环境:Win7,Matlab2012b
    %Modi: NUDT-VAP
    %时间:2014-02-04
    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    close all
    clear all
    %加载背景和行人样本
    load human;
    load background;
    %随机划分训练样本和测试样本
    for j=1:10
    k_s=11;
    k_d=120;
    hm_tr(250,252)=0;    %这只初始化了一个元素
    hm_test(250,252)=0;
    % ceshi=ones(size(hm_test));
    [hm_tr,hm_test]=randQ(human);
    bg_tr(250,252)=0;
    bg_test(250,252)=0;
    [bg_tr,bg_test]=randQ(background);   %这里的测试数据值跟训练的数据值是不一样的,所以这里要使用区域范围来把测试数据归为训练数据
    %设计最小风险贝叶斯分类器
    M_hm=hm_tr(1,k_s:k_d);
    for i=2:250
    M_hm=M_hm+(hm_tr(i,k_s:k_d));  %每一列的数据进行累加
    end
    M_hm=M_hm/250;                 %累加求平均值
    M_bg=bg_tr(1,k_s:k_d);
    for i=2:250
    M_bg=M_bg+(bg_tr(i,k_s:k_d));
    end
    M_bg=M_bg/250; 
    E_hm(k_d-k_s+1,k_d-k_s+1)=0;
    E_bg(k_d-k_s+1,k_d-k_s+1)=0;
    for i=1:250
        E_hm=E_hm+(hm_tr(i,k_s:k_d)-M_hm)'*(hm_tr(i,k_s:k_d)-M_hm);
        E_bg=E_bg+(bg_tr(i,k_s:k_d)-M_bg)'*(bg_tr(i,k_s:k_d)-M_bg);
    end
    E_hm=E_hm/250;  %这里不是归一化
    E_bg=E_bg/250;
    
    %分类测试
    %设计判决函数并分类
    flag_hm(250)=0;
    flag_bg(250)=0;
    for i=1:250
        dk_hm=log(0.5)+log(0.95)-log(abs(det(E_bg)))/2-((hm_test(i,k_s:k_d)-M_bg)*inv(E_bg)*(hm_test(i,k_s:k_d)-M_bg)')/2;   %其中的0.5是背景判为行人的风险;1.5为行人判为背景的风险;出现背景的先验概率为0.95;出现行人的先验概率为0.05;
        dk_bg=log(1.5)+log(0.05)-log(abs(det(E_hm)))/2-((hm_test(i,k_s:k_d)-M_hm)*inv(E_hm)*(hm_test(i,k_s:k_d)-M_hm)')/2;
        if(dk_hm<=dk_bg)
            flag_hm(i)=1;
        else flag_hm(i)=0;
        end
    end
    s2_hm=sum(flag_hm);
    for i=1:250
        %因为只有方阵才有逆矩阵
        h=inv(E_bg);
        dk_hm=log(0.5)+log(0.95)-log(abs(det(E_bg)))/2-((bg_test(i,k_s:k_d)-M_bg)*inv(E_bg)*(bg_test(i,k_s:k_d)-M_bg)')/2;
        dk_bg=log(1.5)+log(0.05)-log(abs(det(E_hm)))/2-((bg_test(i,k_s:k_d)-M_hm)*inv(E_hm)*(bg_test(i,k_s:k_d)-M_hm)')/2;
        if(dk_hm>dk_bg)
            flag_bg(i)=1;
        else flag_bg(i)=0;
        end
    end
    %统计分类结果
    s2_bg=sum(flag_bg);
    err_hg(j)=(250-s2_hm)/250;
    err_gh(j)=(250-s2_bg)/250;
    end
    ERR_HG=0;
    ERR_GH=0;
    for j=1:10
        ERR_HG=ERR_HG+err_hg(j);
        ERR_GH=ERR_GH+err_gh(j);
    end
    ERR_HG=ERR_HG/10
    ERR_GH=ERR_GH/10
        
    
    




    1、贝叶斯分类器的matlab实现

    2、算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

    3、MATLAB二维正态分布图

    4、数据是正态分布的例子,有图


    展开全文
  • 在正式开始之前,还是把维基百科上面的科普拎出来过正态分布又名高斯分布,是个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。1. 正态分布定义如果对于任何实数a&...
  • 正态分布正态分布采样及Python实现多元正态分布(多元高斯分布)协方差矩阵协方差分解变量的线性变换(正态分布采样原理)python实现参考文献 多元正态分布(多元高斯分布) 直接从多元正态分布讲起。多元正态分布公式...
  • 连续型概率分布——正态分布(二

    万次阅读 多人点赞 2018-05-24 21:04:27
    1则称(X,Y)服从参数为μ1,μ2,σ1,σ2,ρ的二维正态分布。 记作(X,Y)~N(μ1,μ2,σ1²,σ2²,ρ) 二维正态分布的密度函数如下图 显然f(x,y)>=0 可以验证 2. 关于二维正态分布,需掌握如下...
  • 本节目录正态分布和相关定义一元正态分布的性质多元正态分布的性质正态分布和相关定义首先是个重要的积分, 即泊松积分, 它在求有关正态分布的一些量时往往有强大的作用. 引理4.1.1 设 , , 则 注记 (1). 特别地, 令...
  • 多维正态分布与图形识别

    千次阅读 2018-01-08 19:06:49
    什么是正态分布一维正态分布下的识别与匹配二维正态分布下的识别与匹配多维正态分布一个图形匹配实际问题 写在后面 多维正态分布与图形识别 对一维,二维,多维正态分布的理解从图形识别角度
  • 文章目录多元正态分布的四种定义一、标准定义二、使用步骤1.引入库2.读入数据总结 多元正态分布的四种定义 除标准定义外,还可以用特征函数、充要性质和标准正态分布性质来定义、标准定义 若ppp随机向量X=...
  • 【编者注】几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设中占有十分重要的作用,小编偶然间在我爱自然语嫣处理这个博客中发现了《正态分布前世今生》的系列文章,文章以...
  • 本文介绍了基础统计分布的重要特征,并说明了概率密度函数的重要性。本文是我们关于电气工程统计的系列文章的续篇。前两篇文章讨论了统计分析和统计性...在本文中,我们将介绍正态分布在电气工程中的位置,特别是在...
  • 正态分布

    2019-10-08 12:34:12
    功能:生成服从正态分布的随机数语法:R=normrnd(MU,SIGMA)R=normrnd(MU,SIGMA,m)R=normrnd(MU,SIGMA,m,n) 说 明:R=normrnd(MU,SIGMA):生成服从正态分布(MU参数代表均值,DELTA参数代表标准差)的随机数。输入...
  • 多元正态分布

    万次阅读 多人点赞 2014-06-03 09:32:15
    多元正态分布定义一个d元随机向量,这里用列向量来表示,每一个元素都是一个一元随机变量,如  ,其转置为  其中表示这个多元随机变量的第i个分量,它是一个一维的随机变量。 高斯分布主要是用均值和方差来...
  • 概率笔记12——多维正态分布的最大似然估计

    万次阅读 多人点赞 2019-08-19 19:33:18
    我们在前面的章节中见识过二维正态分布,(X,Y)服从参数为μ1, μ2, σ1, σ2, ρ的二维正态分布,记作(X, Y)~N(μ1, μ2, σ1, σ2, ρ),它的密度函数:  其中μ1是第1维度的均值,σ12是第1维度的方差,ρ是将...
  • Numpy创建正态分布和均匀分布

    千次阅读 2020-06-07 20:07:40
    正态分布 二、均匀分布
  • 正态分布及其性质

    万次阅读 多人点赞 2015-08-20 13:43:41
    正态分布也称为高斯分布。客观世界中很多变量都服从或近似服从正态分布,且正态分布具有很好的数学性质,所以正态分布也是人们研究最多的分布之。本文对正态分布的性质做归纳总结,方便日后查找。
  • 透彻理解多元正态分布

    千次阅读 多人点赞 2020-03-14 14:50:52
    多元正态分布就是含有多个变量的正态分布,为什么关于多元正态分布要专门写篇学习笔记?因为其具有重要意义,在理论研究或者实际应用中,我们常会首先考虑多元正态分布是否适用,如果不符,再考虑其他类型的分布。...
  • 本文总结多元正态分布的条件分布与边缘分布,证明不难,但都比较繁琐,故不做详细证明,有兴趣可以参考Pattern Recognition and Machine Learningy书。 1 正态分布的条件分布 对于联合正态分布变量x∼N(μ,Σ)x\...
  • 各种各样的分布函数-多维正态分布

    千次阅读 2020-04-04 21:07:32
    首先了解一下二维正态分布(没有学概率论正态分布了解限于高中知识) 二维正态分布 设(X,Y)设(X,Y)设(X,Y)~N(μ1,σ12;μ2,σ22;ρ)N(\mu_1,\sigma^2_1;\mu_2,\sigma^2_2;\rho)N(μ1​,σ12​;μ2​,σ22​;ρ) (1) ...
  • 【统计学】正态分布

    千次阅读 2018-10-22 14:14:05
    正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。高斯在研究测量误差时从另个角度导出了它。 正态曲线呈钟型,两头...
  • 生成一定相关性的二元正态分布

    千次阅读 2020-03-07 15:57:10
    生成一定相关性的二元正态分布二元正态分布二元正态分布概率密度函数二元正态分布随机数的生成程序实现多元正态分布的情况生成服从N(μ, Σ)N(\mathbf{\mu}, \, \Sigma)N(μ,Σ)的nnn 元正态分布多元情况的程序实现...
  • 一,设为p维随机向量,则X服从p元正态分布的充要条件是:对任一p维实向量a ,是一维正态随机变量。 (简单好用的定理,举反例证明的线性组合不服从正态分布,就可证明X不服从p元正态分布) 二,设为p维随机向量 ,...
  • 正态分布的前世今生 (上) 靳志辉 关键词:历史;正态分布 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差服从了正态分布。 — 创世纪—数理统计 1. 正态分布,熟悉的陌生人 学过...
  • 从π与e开始 理解正态分布

    千次阅读 2018-12-05 22:35:40
    出于数学太差的原因,这段时间要集中加强学习,突然发现正态分布这个东西很难理解,看书不起作用,强迫用...把积分号内的新式子看成f(x)我们就得到了1维正态分布的原形函数,只要同样用平移和缩放的坐标变换,我们...
  • 正态分布的前世今生

    千次阅读 2012-10-10 22:10:38
    正态分布的前世今生() 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差就服从了正态分布。 by rickjin 创世纪-数理统计 正态分布 学过基础统计学的同学大都对...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,742
精华内容 6,296
关键字:

一维正态分布的定义