精华内容
下载资源
问答
  • 六大常见聚类方法

    万次阅读 多人点赞 2018-12-06 17:03:54
    使用高斯混合模型(GMM)做聚类首先假设数据点是呈高斯分布的,相对应K-Means假设数据点是圆形的,高斯分布(椭圆形)给出了更多的可能性。我们有两个参数来描述簇的形状:均值和标准差。所以这些簇可以采取任何形状...
    版权声明:转载自https://blog.csdn.net/Katherine_hsr/article/details/79382249

    1. K-Means(K均值)聚类

    算法步骤:
    (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
    (2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。
    (3) 计算每一类中中心点作为新的中心点。
    (4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。
    下图演示了K-Means进行分类的过程:
    这里写图片描述
    优点:
    速度快,计算简便
    缺点:
    我们必须提前知道数据有多少类/组。
    K-Medians是K-Means的一种变体,是用数据集的中位数而不是均值来计算数据的中心点。
    K-Medians的优势是使用中位数来计算中心点不受异常值的影响;缺点是计算中位数时需要对数据集中的数据进行排序,速度相对于K-Means较慢。

    2. 均值漂移聚类

    均值漂移聚类是基于滑动窗口的算法,来找到数据点的密集区域。这是一个基于质心的算法,通过将中心点的候选点更新为滑动窗口内点的均值来完成,来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口进行去除,最终形成中心点集及相应的分组。
    具体步骤:
    1. 确定滑动窗口半径r,以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法,在每一次迭代中向密度更高的区域移动,直到收敛。
    2. 每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度。在每一次移动中,窗口会想密度更高的区域移动。
    3. 移动窗口,计算窗口内的中心点以及窗口内的密度,知道没有方向在窗口内可以容纳更多的点,即一直移动到圆内密度不再增加为止。
    4. 步骤一到三会产生很多个滑动窗口,当多个滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类。
    下图演示了均值漂移聚类的计算步骤:
    这里写图片描述
    下面显示了所有滑动窗口从头到尾的整个过程。每个黑点代表滑动窗口的质心,每个灰点代表一个数据点。
    这里写图片描述
    优点:(1)不同于K-Means算法,均值漂移聚类算法不需要我们知道有多少类/组。
    (2)基于密度的算法相比于K-Means受均值影响较小。
    缺点:(1)窗口半径r的选择可能是不重要的。

    3. 基于密度的聚类方法(DBSCAN)

    与均值漂移聚类类似,DBSCAN也是基于密度的聚类算法。
    具体步骤:
    1. 首先确定半径r和minPoints. 从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于minPoints,如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。
    2. 重复1的步骤,如果一个noise point存在于某个central point为半径的圆内,则这个点被标记为边缘点,反之仍为noise point。重复步骤1,知道所有的点都被访问过。
    优点:不需要知道簇的数量
    缺点:需要确定距离r和minPoints

    4. 用高斯混合模型(GMM)的最大期望(EM)聚类

    K-Means的缺点在于对聚类中心均值的简单使用。下面的图中的两个圆如果使用K-Means则不能作出正确的类的判断。同样的,如果数据集中的点类似下图中曲线的情况也是不能正确分类的。
    这里写图片描述
    使用高斯混合模型(GMM)做聚类首先假设数据点是呈高斯分布的,相对应K-Means假设数据点是圆形的,高斯分布(椭圆形)给出了更多的可能性。我们有两个参数来描述簇的形状:均值和标准差。所以这些簇可以采取任何形状的椭圆形,因为在x,y方向上都有标准差。因此,每个高斯分布被分配给单个簇。
    所以要做聚类首先应该找到数据集的均值和标准差,我们将采用一个叫做最大期望(EM)的优化算法。下图演示了使用GMMs进行最大期望的聚类过程。
    这里写图片描述
    具体步骤:
    1. 选择簇的数量(与K-Means类似)并随机初始化每个簇的高斯分布参数(均值和方差)。也可以先观察数据给出一个相对精确的均值和方差。
    2. 给定每个簇的高斯分布,计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。
    3. 基于这些概率我们计算高斯分布参数使得数据点的概率最大化,可以使用数据点概率的加权来计算这些新的参数,权重就是数据点属于该簇的概率。
    4. 重复迭代2和3直到在迭代中的变化不大。
    GMMs的优点:(1)GMMs使用均值和标准差,簇可以呈现出椭圆形而不是仅仅限制于圆形。K-Means是GMMs的一个特殊情况,是方差在所有维度上都接近于0时簇就会呈现出圆形。
    (2)GMMs是使用概率,所有一个数据点可以属于多个簇。例如数据点X可以有百分之20的概率属于A簇,百分之80的概率属于B簇。也就是说GMMs可以支持混合资格。

    5. 凝聚层次聚类

    层次聚类算法分为两类:自上而下和自下而上。凝聚层级聚类(HAC)是自下而上的一种聚类算法。HAC首先将每个数据点视为一个单一的簇,然后计算所有簇之间的距离来合并簇,知道所有的簇聚合成为一个簇为止。
    下图为凝聚层级聚类的一个实例:
    这里写图片描述
    具体步骤:
    1. 首先我们将每个数据点视为一个单一的簇,然后选择一个测量两个簇之间距离的度量标准。例如我们使用average linkage作为标准,它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。
    2. 在每次迭代中,我们将两个具有最小average linkage的簇合并成为一个簇。
    3. 重复步骤2知道所有的数据点合并成一个簇,然后选择我们需要多少个簇。
    层次聚类优点:(1)不需要知道有多少个簇
    (2)对于距离度量标准的选择并不敏感
    缺点:效率低

    6. 图团体检测(Graph Community Detection)

    当我们的数据可以被表示为网络或图是,可以使用图团体检测方法完成聚类。在这个算法中图团体(graph community)通常被定义为一种顶点(vertice)的子集,其中的顶点相对于网络的其他部分要连接的更加紧密。下图展示了一个简单的图,展示了最近浏览过的8个网站,根据他们的维基百科页面中的链接进行了连接。
    这里写图片描述
    模块性可以使用以下公式进行计算:
    M=12LNi,j=1(AijkiKj2L)δCi,CjM=12L∑i,j=1N(Aij−kiKj2L)δCi,Cj函数(Kronecker-delta function). 下面是其Python解释:

    def Kronecker_Delta(ci,cj):
        if ci==cj:
            return 1
        else:
            return 0
    • 1
    • 2
    • 3
    • 4
    • 5

    通过上述公式可以计算图的模块性,且模块性越高,该网络聚类成不同团体的程度越好,因此通过最优化方法寻找最大模块性就能发现聚类该网络的最佳方法。
    组合学告诉我们对于一个仅有8个顶点的网络,就存在4140种不同的聚类方式,16个顶点的网络的聚类方式将超过100亿种。32个顶点的网络的可能聚类方式更是将超过10^21种。因此,我们必须寻找一种启发式的方法使其不需要尝试每一种可能性。这种方法叫做Fast-Greedy Modularity-Maximization(快速贪婪模块性最大化)的算法,这种算法在一定程度上类似于上面描述的集聚层次聚类算法。只是这种算法不根据距离来融合团体,而是根据模块性的改变来对团体进行融合。
    具体步骤:
    1. 首先初始分配每个顶点到其自己的团体,然后计算整个网络的模块性 M。
    2. 第 1 步要求每个团体对(community pair)至少被一条单边链接,如果有两个团体融合到了一起,该算法就计算由此造成的模块性改变 ΔM。
    3. 第 2 步是取 ΔM 出现了最大增长的团体对,然后融合。然后为这个聚类计算新的模块性 M,并记录下来。
    4. 重复第 1 步和 第 2 步——每一次都融合团体对,这样最后得到 ΔM 的最大增益,然后记录新的聚类模式及其相应的模块性分数 M。
    5. 重复第 1 步和 第 2 步——每一次都融合团体对,这样最后得到 ΔM 的最大增益,然后记录新的聚类模式及其相应的模块性分数 M。

    展开全文
  • 常见六大聚类算法

    万次阅读 多人点赞 2018-03-01 17:35:06
    使用高斯混合模型(GMM)做聚类首先假设数据点是呈高斯分布的,相对应K-Means假设数据点是圆形的,高斯分布(椭圆形)给出了更多的可能性。我们有两个参数来描述簇的形状:均值和标准差。所以这些簇可以采取任何形状...

    1. K-Means(K均值)聚类

    算法步骤:
    (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
    (2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。
    (3) 计算每一类中中心点作为新的中心点。
    (4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。
    下图演示了K-Means进行分类的过程:
    这里写图片描述
    优点:
    速度快,计算简便
    缺点:
    我们必须提前知道数据有多少类/组。
    K-Medians是K-Means的一种变体,是用数据集的中位数而不是均值来计算数据的中心点。
    K-Medians的优势是使用中位数来计算中心点不受异常值的影响;缺点是计算中位数时需要对数据集中的数据进行排序,速度相对于K-Means较慢。

    2. 均值漂移聚类

    均值漂移聚类是基于滑动窗口的算法,来找到数据点的密集区域。这是一个基于质心的算法,通过将中心点的候选点更新为滑动窗口内点的均值来完成,来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口进行去除,最终形成中心点集及相应的分组。
    具体步骤:
    1. 确定滑动窗口半径r,以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法,在每一次迭代中向密度更高的区域移动,直到收敛。
    2. 每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度。在每一次移动中,窗口会想密度更高的区域移动。
    3. 移动窗口,计算窗口内的中心点以及窗口内的密度,知道没有方向在窗口内可以容纳更多的点,即一直移动到圆内密度不再增加为止。
    4. 步骤一到三会产生很多个滑动窗口,当多个滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类。
    下图演示了均值漂移聚类的计算步骤:
    这里写图片描述
    下面显示了所有滑动窗口从头到尾的整个过程。每个黑点代表滑动窗口的质心,每个灰点代表一个数据点。
    这里写图片描述
    优点:(1)不同于K-Means算法,均值漂移聚类算法不需要我们知道有多少类/组。
    (2)基于密度的算法相比于K-Means受均值影响较小。
    缺点:(1)窗口半径r的选择可能是不重要的。

    3. 基于密度的聚类方法(DBSCAN)

    与均值漂移聚类类似,DBSCAN也是基于密度的聚类算法。
    具体步骤:
    1. 首先确定半径r和minPoints. 从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于minPoints,如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。
    2. 重复1的步骤,如果一个noise point存在于某个central point为半径的圆内,则这个点被标记为边缘点,反之仍为noise point。重复步骤1,知道所有的点都被访问过。
    优点:不需要知道簇的数量
    缺点:需要确定距离r和minPoints

    4. 用高斯混合模型(GMM)的最大期望(EM)聚类

    K-Means的缺点在于对聚类中心均值的简单使用。下面的图中的两个圆如果使用K-Means则不能作出正确的类的判断。同样的,如果数据集中的点类似下图中曲线的情况也是不能正确分类的。
    这里写图片描述
    使用高斯混合模型(GMM)做聚类首先假设数据点是呈高斯分布的,相对应K-Means假设数据点是圆形的,高斯分布(椭圆形)给出了更多的可能性。我们有两个参数来描述簇的形状:均值和标准差。所以这些簇可以采取任何形状的椭圆形,因为在x,y方向上都有标准差。因此,每个高斯分布被分配给单个簇。
    所以要做聚类首先应该找到数据集的均值和标准差,我们将采用一个叫做最大期望(EM)的优化算法。下图演示了使用GMMs进行最大期望的聚类过程。
    这里写图片描述
    具体步骤:
    1. 选择簇的数量(与K-Means类似)并随机初始化每个簇的高斯分布参数(均值和方差)。也可以先观察数据给出一个相对精确的均值和方差。
    2. 给定每个簇的高斯分布,计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。
    3. 基于这些概率我们计算高斯分布参数使得数据点的概率最大化,可以使用数据点概率的加权来计算这些新的参数,权重就是数据点属于该簇的概率。
    4. 重复迭代2和3直到在迭代中的变化不大。
    GMMs的优点:(1)GMMs使用均值和标准差,簇可以呈现出椭圆形而不是仅仅限制于圆形。K-Means是GMMs的一个特殊情况,是方差在所有维度上都接近于0时簇就会呈现出圆形。
    (2)GMMs是使用概率,所有一个数据点可以属于多个簇。例如数据点X可以有百分之20的概率属于A簇,百分之80的概率属于B簇。也就是说GMMs可以支持混合资格。

    5. 凝聚层次聚类

    层次聚类算法分为两类:自上而下和自下而上。凝聚层级聚类(HAC)是自下而上的一种聚类算法。HAC首先将每个数据点视为一个单一的簇,然后计算所有簇之间的距离来合并簇,知道所有的簇聚合成为一个簇为止。
    下图为凝聚层级聚类的一个实例:
    这里写图片描述
    具体步骤:
    1. 首先我们将每个数据点视为一个单一的簇,然后选择一个测量两个簇之间距离的度量标准。例如我们使用average linkage作为标准,它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。
    2. 在每次迭代中,我们将两个具有最小average linkage的簇合并成为一个簇。
    3. 重复步骤2知道所有的数据点合并成一个簇,然后选择我们需要多少个簇。
    层次聚类优点:(1)不需要知道有多少个簇
    (2)对于距离度量标准的选择并不敏感
    缺点:效率低

    6. 图团体检测(Graph Community Detection)

    当我们的数据可以被表示为网络或图是,可以使用图团体检测方法完成聚类。在这个算法中图团体(graph community)通常被定义为一种顶点(vertice)的子集,其中的顶点相对于网络的其他部分要连接的更加紧密。下图展示了一个简单的图,展示了最近浏览过的8个网站,根据他们的维基百科页面中的链接进行了连接。
    这里写图片描述
    模块性可以使用以下公式进行计算:
    M=12LNi,j=1(AijkiKj2L)δCi,CjM=12L∑i,j=1N(Aij−kiKj2L)δCi,Cj
    其中L代表网络中边的数量,AijAij代表真实的顶点i和j之间的边数, ki,kjki,kj代表每个顶点的degree,可以通过将每一行每一列的项相加起来而得到。两者相乘再除以2L表示该网络是随机分配的时候顶点i和j之间的预期边数。所以Aijkikj2LAij−kikj2L代表了该网络的真实结构和随机组合时的预期结构之间的差。当AijAij为1时,且kikj2Lkikj2L很小的时候,其返回值最高。也就是说,当在定点i和j之间存在一个非预期边是得到的值更高。
    δCi,CjδCi,Cj是克罗内克δδ函数(Kronecker-delta function). 下面是其Python解释:

    def Kronecker_Delta(ci,cj):
        if ci==cj:
            return 1
        else:
            return 0

    通过上述公式可以计算图的模块性,且模块性越高,该网络聚类成不同团体的程度越好,因此通过最优化方法寻找最大模块性就能发现聚类该网络的最佳方法。
    组合学告诉我们对于一个仅有8个顶点的网络,就存在4140种不同的聚类方式,16个顶点的网络的聚类方式将超过100亿种。32个顶点的网络的可能聚类方式更是将超过10^21种。因此,我们必须寻找一种启发式的方法使其不需要尝试每一种可能性。这种方法叫做Fast-Greedy Modularity-Maximization(快速贪婪模块性最大化)的算法,这种算法在一定程度上类似于上面描述的集聚层次聚类算法。只是这种算法不根据距离来融合团体,而是根据模块性的改变来对团体进行融合。
    具体步骤:
    1. 首先初始分配每个顶点到其自己的团体,然后计算整个网络的模块性 M。
    2. 第 1 步要求每个团体对(community pair)至少被一条单边链接,如果有两个团体融合到了一起,该算法就计算由此造成的模块性改变 ΔM。
    3. 第 2 步是取 ΔM 出现了最大增长的团体对,然后融合。然后为这个聚类计算新的模块性 M,并记录下来。
    4. 重复第 1 步和 第 2 步——每一次都融合团体对,这样最后得到 ΔM 的最大增益,然后记录新的聚类模式及其相应的模块性分数 M。
    5. 重复第 1 步和 第 2 步——每一次都融合团体对,这样最后得到 ΔM 的最大增益,然后记录新的聚类模式及其相应的模块性分数 M。

    展开全文
  • 六大常用分布的矩估计和最大似然估计推导过程

    千次阅读 多人点赞 2020-09-28 14:00:47
    数学期望常称为“均值”,即“随机变量取值的平均值”之意,这个平均是以概率为权的平均,不是通常意义上的(总数)/(个数),数学期望由随机变量的分布完全决定。 Xˉ=1n∑i=1nxi \bar{X}=\frac{1}{n}\sum_{i=1}^nx_i X...

    矩估计和极大似然估计

    矩估计基于辛钦大数定律:

    当样本的容量足够大时,样本k阶距(A_k)收敛域总体k阶距(a_k)

    样本的平均值去估计总体的均值(期望)

    期望和均值

    数学期望常称为“均值”,即“随机变量取值的平均值”之意,这个平均是以概率为权的平均,不是通常意义上的(总数)/(个数),数学期望由随机变量的分布完全决定。
    Xˉ=1ni=1nxi \bar{X}=\frac{1}{n}\sum_{i=1}^nx_i
    (1)式,其实是平均值(期望是均值),对其求期望其实就是一个加权的过程,所以无论是哪种分布,都是E(x)=μ,而非X平均值=μ

    方差:衡量一组数据离散程度的度量
    S2=1ni=1n(Xμ)2 S^2=\frac{1}{n}\sum_{i=1}^n(X-\mu)^2
    误差分析:

    • 因为X取得是样本,所以X的取值存在误差
    • 因为我们事先是不知道是什么分布的,所以μ是不知道的,使用均值替代的话,也会出现误差

    方差和修正方差的来源及其证明
    S2=1ni=1n(xiXˉ)2S2=1ni=1n[(xiμ)(Xˉμ)]2S2=1ni=1n[(xiμ)22(xiμ)(Xˉμ)+(Xˉμ)2]S2=1ni=1n(xiμ)22ni=1n(xiμ)(Xˉμ)+(Xˉμ)2S2=1ni=1n(xiμ)2(Xˉμ)2E(S2)=E(1ni=1n(xiμ)2(Xˉμ)2)=σ2E((Xˉμ)2)E((Xˉμ)2)=E(Xˉ22μXˉ+μ2)=E(Xˉ2)E(Xˉ)2=D(X)=σ2nE(S2)=σ2σ2n=n1nσ2 S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{X})^2\\ S^2=\frac{1}{n}\sum_{i=1}^n[(x_i-\mu)-(\bar{X}-\mu)]^2\\ S^2=\frac{1}{n}\sum_{i=1}^n[(x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2]\\ S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2\\ S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-(\bar{X}-\mu)^2\\ E(S^2)=E(\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-(\bar{X}-\mu)^2)=\sigma^2-E((\bar{X}-\mu)^2)\\ E((\bar{X}-\mu)^2)=E(\bar{X}^2-2\mu\bar{X}+\mu^2)=E(\bar{X}^2)-E(\bar{X})^2=D(X)=\frac{\sigma^2}{n}\\ E(S^2)=\sigma^2-\frac{\sigma^2}{n}=\frac{n-1}{n}\sigma^2\\
    由上可知S^2σ^2是有微小差距的,所以对此做修正,得到的方差就是修正方差
    E(nn1S2)=nn1n1nσ2=σ2nn1S2=nn11ni=1n(xiXˉ)2=1n1i=1n(xiXˉ)2(S)2=1n1i=1n(xiXˉ)2 E(\frac{n}{n-1}S^2)=\frac{n}{n-1}\frac{n-1}{n}\sigma^2=\sigma^2\\ \frac{n}{n-1}S^2=\frac{n}{n-1}\frac{1}{n}\sum_{i=1}^n(x_i-\bar{X})^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{X})^2\\ (S^*)^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{X})^2
    本质:使用样本原点距去估计总体原点距的一种方法(用样本量估计总体量)


    估计均值
    E(Xˉ)=E(1ni=1nxi)=1ni=1nE(xi)=1nnμ=μ E(\bar X)=E(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}\sum_{i=1}^nE(x_i)=\frac{1}{n}n\mu=\mu

    u^=Xˉ=1ni=1nxi \hat{u}=\bar{X}=\frac{1}{n}\sum_{i=1}^nx_i

    估计方差
    σ2=a2a12=1ni=1nxi2Xˉ2=1ni=1n(xiXˉ)2=S2 \sigma^2=a_2-a_1^2=\frac{1}{n}\sum_{i=1}^nx_i^2-\bar{X}^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{X})^2=S^2

    σ^2=S2 \hat{\sigma}^2=S^2


    0-1分布:只有一个未知参数,所以也只能估P的值

    X 0 1
    P 1-p p

    p(x=xi)=(1p)1xipxi p(x=x_i)=(1-p)^{1-x_i}p^{x_i}

    矩估计:
    E(Xˉ)=E(1ni=1nxi)=1ni=1nE(xi)=1nnp=p E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}\sum_{i=1}^nE(x_i)=\frac{1}{n}np=p

    p^=Xˉ=1ni=1nxi \hat{p}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i

    最大似然估计
    L(p)=(1p)xi=1n(1xi)pxi=1nxi L(p)=(1-p)^{\sum_{x_i=1}^n(1-x_i)}p^{\sum_{x_i=1}^n{x_i}}

    lnL(p)=xi=1n(1xi)ln(1p)+xi=1nxilnp lnL(p)=\sum_{x_i=1}^n(1-x_i)ln(1-p)+\sum_{x_i=1}^n{x_i}lnp

    lnL(p)p=xi=1n(1xi)1p+xi=1nxip=0 令:\frac{\partial{lnL(p)}}{\partial{p}}=-\frac{\sum_{x_i=1}^n(1-x_i)}{1-p}+\frac{\sum_{x_i=1}^n{x_i}}{p}=0

    p^=Xˉ=1ni=1nxi \hat{p}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i

    注:估计的P,其实表示的就是在n次试验下,出现1的次数的概率


    泊松分布
    P(x=xi)=λxieλxi! P(x=x_i)=\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}
    矩估计
    E(Xˉ)=E(1ni=1nxi)=1ni=1nE(xi)=1nnλ=λ E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}x_i)=\frac{1}{n}\sum_{i=1}^{n}E(x_i)=\frac{1}{n}n\lambda=\lambda

    λ^=Xˉ=1ni=1nxi \hat{\lambda}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i

    注:E(x_i)=入的证明过程,其中使用到了泰勒公式进行变换
    E(X)=i=1xiP(x=xi)=i=1xiλxieλxi!=λeλi=1λxi1(xi1)!=λeλeλ=λ E(X)=\sum_{i=1}^\infty x_iP(x=x_i)=\sum_{i=1}^\infty x_i\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}=\lambda e^{-\lambda}\sum_{i=1}^\infty \frac{\lambda ^{x_i-1}}{(x_i-1)!}=\lambda e^{-\lambda}e^{\lambda}=\lambda
    最大似然估计
    L(λ)=λi=1nxienλi=1nxi! L(\lambda)=\frac{\lambda^{\sum_{i=1}^{n}x_i}e^{-n\lambda}}{\prod_{i=1}^{n}x_i!}

    lnL(λ)=i=1nxiln(λ)nλln(i=1nxi!) lnL(\lambda)=\sum_{i=1}^{n}x_iln(\lambda)-n\lambda-ln(\prod_{i=1}^nx_i!)

    lnL(λ)λ=i=1nxiλn=0 令: \frac{\partial{lnL(\lambda)}}{\partial\lambda}=\frac{\sum_{i=1}^{n}x_i}{\lambda}-n=0

    :λ^=Xˉ=1ni=1nxi 可得:\hat{\lambda}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_i


    均匀分布
    f(x)={1baa<x<b0 f(x)=\begin{cases}\frac{1}{b-a}\quad a<x<b\\0\quad\quad其他\end{cases}

    注:这里有两个参数,分别是a和b,故需要至少列两个参数才能得到解

    矩估计
    E(X)=abxf(x)dx=abxbadx=12(b+a)=Xˉσ2=1ni=1n(xiXˉ)2=S2()1baab(xXˉ)2dx=1baab(x12(b+a))2dx=112(ba)2=S2{b^=Xˉ+3Sa^=Xˉ3S E(X)=\int_{a}^{b}xf(x)dx=\int_{a}^{b}\frac{x}{b-a}dx=\frac{1}{2}(b+a)=\bar{X}\\ \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{X})^2=S^2(下式原理)\\ \frac{1}{b-a}\int_{a}^{b}(x-\bar{X})^2dx=\frac{1}{b-a}\int_{a}^{b}(x-\frac{1}{2}(b+a))^2dx=\frac{1}{12}(b-a)^2=S^2\\ 解得:\begin{cases}^{\hat{a}=\bar{X}-\sqrt{3}S}_{\hat{b}=\bar{X}+\sqrt{3}S}\end{cases}
    最大似然估计

    常规的,列最大似然函数,然后求导令为零是求不出估计值。


    指数分布

    特点:无记忆性,可以用于描述机器寿命。
    f(x)={0λeλxx>0 f(x)=\begin{cases}^{\lambda e^{-\lambda x}\quad x>0}_{0\quad\quad 其他}\end{cases}
    矩估计:
    E(X)=0+λxeλxdx=1λ=Xˉλ^=1Xˉ E(X)=\int_0^{+\infty}\lambda xe^{-\lambda x}dx=\frac{1}{\lambda}=\bar{X}\\ \hat{\lambda}=\frac{1}{\bar{X}}
    极大似然估计
    L(λ)=λneλi=1nxilnL(λ)=nlnλλi=1nxi(lnL(λ))λ=nλi=1nxi=0λ^=ni=1n1xi=1Xˉ L(\lambda)=\lambda^ne^{-\lambda \sum_{i=1}^nx_i}\\ lnL(\lambda)=nln\lambda-\lambda\sum_{i=1}^nx_i\\ 令:\frac{\partial({lnL(\lambda)})}{\partial\lambda}=\frac{n}{\lambda}-\sum_{i=1}^{n}x_i=0\\ \hat{\lambda}=n\sum_{i=1}^n\frac{1}{x_i}=\frac{1}{\bar{X}}


    正态分布
    f(x)=12πσe(xμ)22σ2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
    X~N(μ,σ^2)
    {σ^=Sμ^=Xˉ \begin{cases}^{\hat{\mu}=\bar{X}}_{\hat{\sigma}=S}\end{cases}


    写笔记难免有错误,烦请指正!如有疑问可加QQ:1372931501

    展开全文
  • 概率论中有六大常用的基本分布,大致可分成两类:离散型(0-1分布、二项分布、泊松分布),连续型(均匀分布、指数分布、正态分布)。 补充: 在进入正文之前先讲一下期望和均值的一些区别:  期望和均值都具有...

    绪论:

    概率论中有六大常用的基本分布,大致可分成两类:离散型(0-1分布、二项分布、泊松分布),连续型(均匀分布、指数分布、正态分布)。

    补充:

    在进入正文之前先讲一下期望和均值的一些区别:

           期望和均值都具有平均的概念,但期望是指的随机变量总体的平均值,而均值则是指的从总体中抽样的样本的平均值,即前者是理想的均值,而后者则是实际观测出来的数据的均值。例如:对于一个六面的骰子,其期望E = (1+2+3+4+5+6)/ 6 = 3.5。然后掷5次骰子,每次掷的点数分别为 1,3,5,5,1,则平均值为(1+3+5+5+1)/ 5 = 3。可以发现两者并不相等。

           方差(variance):方差是各个数据与平均数之差的平方的平均数,方差度量了随机变量与期望(也可说均值)之间的偏离程度。标准差为方差的开根号。

           协方差(Covariance):用于衡量两个变量之间的误差,而方差是协方差的特殊情况,即当两个变量相同的情况。其公式如下:,表示含义为:E(∑(“X与其均值之差” * “Y与其均值之差” ))

    当协方差为正时:表示两变量正相关(即同时变大变下)。

    当协方差为负时:表示两变量负相关(即你变大,我变小,反之亦然)。

    当协方差为0时:两变量相互独立。

           相关系数:其公式如下,表示的含义为用X和Y的协方差除以X和Y的标准差。所以相关系数也可以看成协方差,一种剔除两个变量量纲影响,标准化后的特殊协方差。

    正文:

    1、0-1分布

          已知随机变量X,其中P{X=1} = p,P{X=0} = 1-p,其中 0 < p < 1,则成X服从参数为p的0-1分布。

          其中期望为E(X) = p    方差D(X) = p(1-p);

    2、二项分布

           n次独立的伯努利实验(伯努利实验是指每次实验有两种结果,每种结果概率恒定,比如抛硬币)。

           其中期望E(X) = np     方差D(X) = np(1-p);

    3、泊松分布

            表示单位时间内某稀有事件发生k次的概率,其公式为

             其中方差和期望均为, 详细了解请☞

    4、均匀分布

              若连续型随机变量X具有概率密度,则称X在(a,b)上服从均匀分布

               其中期望E(X) = (a+b)/ 2 ,方差D(X) = (b-a)^2 / 12。

    5、指数分布

    6、正态分布

          

    展开全文
  • 概率论 - 常见分布(及其分布表)

    万次阅读 多人点赞 2020-04-19 17:21:36
    离散型的分布 一,0-1分布 有2种结果,实验只做1次。 P(X = k) = pk(1-p)1-k 数学期望:E(X) = p 方差:Var(X)=p(1-p) 二,几何分布 P(A) = p,事件A在第k次首次发生(前k-1次均未发生)。 记作:X ~ G(p) P(X =...
  • 本文介绍种概率分布的原理、举例、均值、方差、期望、概率分布图等,分布分别为伯努利分布、均匀分布、二项分布、正态分布、泊松分布、指数分布;另外介绍各种分布之间的关系和不同
  • 概率论中的种常用分布

    万次阅读 2018-09-29 17:54:38
    版权声明:本文为博主原创文章,欢迎转载,请标明出处。... 每天学习一点点: ...概率论中的种常用分布,即(0-1)分布、二项分布、泊松分布、均匀分布、指数分布和正态分布。 ...
  • 摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的个重要分布,并解释了它们的应用。01 介绍...
  • 概率论几大分布的期望和方差证明整合

    千次阅读 多人点赞 2019-06-06 15:39:38
    对概率论中常见分布包括二项分布、0-1分布、泊松分布、均匀分布、正态分布、指数分布的期望和方差推导证明。
  • 正态分布(高斯分布

    万次阅读 多人点赞 2018-11-09 15:54:21
    Table of Contents 正态分布 概要 历史 正态分布的定义 ...参数的极似然估计 计量误差 参考文献 正态分布 正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian dist...
  • 方差越,数据的分布越分散。 模型的真实误差是两者之和,如下图: 如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差分类的优势(例如,KNN),因为后者...
  • 机器学习()——常见聚类方法

    万次阅读 2018-07-02 09:13:46
    使用高斯混合模型(GMM)做聚类首先假设数据点是呈高斯分布的,相对应K-Means假设数据点是圆形的,高斯分布(椭圆形)给出了更多的可能性。我们有两个参数来描述簇的形状:均值和标准差。所以这些簇可以采取任何形状...
  • 选定一个好的Hash函数很重要,好的Hash函数可以使计算出的Hash值分布均匀,降低冲突,只有冲突减小了,才会降低Hash表的查找时间。在查询的过程大概会分为四步 (1) 根据查询条件生成一个Hash值例如 在name 上...
  • Android之四大组件、六大布局、五大存储

    万次阅读 多人点赞 2016-09-06 16:15:36
    六大界面布局方式包括: 线性布局(LinearLayout)、框架布局(FrameLayout)、表格布局(TableLayout)、相对布局(RelativeLayout)、绝对布局(AbsoluteLayout)和网格布局(GridLayout) 。 1. LinearLayout线性布局 ...
  • 篇:Ceph集群常见问题处理方法

    千次阅读 2019-08-05 22:38:26
    如果MDS缓存变得太,守护程序可能耗尽可用内存并崩溃。默认情况下,ceph集群将缓存大小(mds_cache_memory_limit)设置为1GB,阈值(mds_health_cache_threshold)设为1.5,即:当缓存空间大于1.5倍mds_cache_memory_...
  • 高斯分布

    万次阅读 2018-10-24 12:10:58
    正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准...
  • 用户研究是用户中心的设计流程中的第一步。它是一种理解用户,将他们的目标、需求与商业宗旨相匹配的理想方法,能够帮助企业定义产品的...六大用户分析方法论 1、行为事件分析 2、点击分析模型 3、用户行为路...
  • 八种概率分布模型

    千次阅读 2020-01-03 12:39:38
    0-1分布 几何分布 二项分布 泊松分布 超几何分布 均匀分布 指数分布 正态分布
  • 最近在撰写笔记 【Sklearn源码学习笔记】(含官网样例解读)无监督学习之高斯混合模型 的过程中,官方Sklearn源码中BayesianGaussianMixture()方法涉及到狄利克雷分布相关知识。 关于我的更多学习笔记,欢迎您关注...
  • 概率分布 Probability Distributions

    千次阅读 2016-08-20 09:29:39
    本文总结了几种常见的概率分布,比如离散型随机变量的分布代表伯努利分布以及连续型随机变量的分布代表高斯分布。对于每种分布,不仅给出它的概率密度函数,还会对其期望和方差等几个主要的统计量进行分析。目前文章...
  • AIX常见问题

    万次阅读 2012-05-19 21:05:37
    FAQ:怎样在AIX 5.1中建立热后备(hot spare)磁盘? 环境AIX 5.1 问题怎样在AIX 5.1中建立热后备(hot spare)磁盘? 解答 在AIX 5.1中可以在操作系统的级别上建立hot spare磁盘。 如需要在某一卷组(VG)中建立hot spare...
  • 本文约2300字,建议阅读5分钟本文通过案例介绍了正态分布和贝塔分布的概念。正态分布正态分布,是一种非常常见的连续概率分布,其也叫做常态分布(normal distribution),或...
  • 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准...
  • 计算机视觉顶级会议 CVPR 2019 将于 6 月 15 日– 6 月 21 日在加利福尼亚州...腾讯 AI Lab 入选论文涉及视频理解、人脸识别、对抗攻击、视觉-语言描述、模型压缩和多任务学习等几重点研究方向,下面将分组介绍论文。
  • 比如,如果初始化权重过,那么大多数神经元将会饱和,导致网络就几乎不学习。 2. sigmoid 函数不是关于原点中心对称的 这个特性会导致后面网络层的输入也不是零中心的,进而影响梯度下降的运作。 因为...
  • 即所谓的Kullback-Leibler (KL)散度,使用的Min-Max损失刚好等价于JS散度,由于JS散度存在一个严重的问题:两个分布没有重叠时,JS散度为零,而在训练初期,JS散度是有非常的可能为零的。所以如果D被训练的过于强...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,543
精华内容 16,217
关键字:

六大常见分布