精华内容
下载资源
问答
  • 幂律分布公式: 对公式两边同时取以10为底的对数: 所以对于幂律公式,对X,Y取对数后,在坐标轴上为线性方程。 2、可视化 从图形上来说,幂律分布及其拟合效果: 对X轴与Y轴取以10为底的对数。效果上就是X轴...
  • 它演示了图像的幂律变换。
  • matlab幂律变换代码雪崩_睡眠_fMRI_2019 主要功能: 'clusters_labeling',检测并标记连续的共同激活的体素(即,根据点过程变换的超阈值体素)的簇。 'clusters2sparse',将簇标签的4D矩阵转换为稀疏表示。 'sparse...
  • MATLAB用拟合出的代码绘图幂律 用于拟合幂律分布的Matlab代码 randht.m随机数生成器。 此函数根据文章中讨论的五个分布之一(幂定律,指数,对数正态,拉伸指数和具有截止的幂定律)生成随机分布的连续值。 使用信息...
  • matlab幂律变换代码数字图像处理 四年级第二学期实验室使用MATLAB完成数字图像处理代码 关于项目 该存储库包含使用WebGL和GLSL的6个项目。 这6个项目是: 切片图像并旋转90度 直方图均衡 强度转换 形态学 高斯3 * 3...
  • 这是一个用于进行大规模社交网络图绘制幂律分布曲线的python代码
  • 因此,提出了基于机器学习技术公交站间运行时间幂律分布的分析;运用分站算法对城市公交进行分站,获得公交车在相邻两站的运行时间;并且对时间间隔数据进行了线性拟合.运用南方某城市和北方某城市的两个数据集,...
  • matlab幂律变换代码ECE1512数字图像处理及其应用(在机器学习领域) 本课程是关于图像处理的。 该存储库包含我在本课程中的工作。 (2019年冬季)即将添加工作。 所有的代码都是用Matlab编写的。 应用了三种图像增强...
  • 产生离散的有色(幂律)噪声 的Python / numpy实现:N. Kasdin,新泽西州,沃尔特,T。,“幂律噪声的离散模拟[用于振荡器稳定性评估]”,频率控制专题讨论会,1992年。第46届,1992 IEEE论文集,第274页,5月。 ...
  • 首先,采用统计分析的方法对电力数据中的用电量、售电量和发电量几个核心指标在地域上的分布规律进行统计分析,经验证,这些指标不符合正态分布,并且得到其幂律分布特性;然后,验证了细分行业的用电量符合对数正态...
  • matlab开发-幂律指数与对数拟合。在对数刻度上绘制时,查找并绘制与某些数据点的线性拟合。
  • 通过映射进行图像幂律变换
  • 这是一个用于幂律过滤的简单工具箱。
  • 对以微博为代表的新型虚拟社区...统计参与讨论的用户数并将统计数据进行分类汇总,建立对数坐标系,用matlab绘出的散点图验证了讨论数和话题数是一个常数次幂的反比关系,得出微博讨论数完全符合幂律分布规律的结论。
  • 针对Arps产量递减方法无法利用气井早期生产数据进行产量预测的不足,引入幂律指数递减分析方法,基于所建立的数学模型绘制不同递减指数下的幂律指数递减典型图版,分析了递减指数对产量递减的影响,并对四川盆地某...
  • 此代码演示使用幂律变换进行图像增强
  • 复杂网络幂律分布

    2014-05-01 21:02:34
    学习复杂网络时,设计到幂律分布问题,计算幂律分布的有效代码,可运行
  • matlab开发-幂律和宾汉流体的非牛顿流体模型测定。幂律与宾汉流体管道流动模型的确定
  • 幂律分布专题

    2021-05-16 09:59:40
    幂律分布 幂律分布的数学形式 广义形式: 幂律分布的广义形式即是反映了一个幂次反比关系 p(x)∝x−αp(x) \propto x^{-\alpha}p(x)∝x−α ,其中 α\alphaα 的通常取值为 2<α<32<\alpha<32<α<...

    幂律分布

    幂律分布的数学形式

    广义形式:

    幂律分布的广义形式即是反映了一个幂次反比关系 p ( x ) ∝ x − α p(x) \propto x^{-\alpha} p(x)xα ,其中 α \alpha α 的通常取值为 2 < α < 3 2<\alpha<3 2<α<3

    精确形式:

    在对原有幂律分布函数加以分析可以看出,当 x → 0 x \rightarrow 0 x0 时,幂律分布的概率密度函数发散。随机变量不会在整个 x ≥ 0 x \geq 0 x0取值范围内服从幂律分布,更可能在大于某个幂律下界 x min ⁡ x_{\min } xmin之后,随机变量 X X X的尾巴部分服从幂律分布。因而,现有的针对幂律分布分析多基于以下数学形式

    连续情形:

    概率密度函数: p ( x ) d x = Pr ⁡ ( x ≤ X < x + d x ) = C x − α d x p(x) \mathrm{d} x=\operatorname{Pr}(x \leq X<x+\mathrm{d} x)=C x^{-\alpha} \mathrm{d} x p(x)dx=Pr(xX<x+dx)=Cxαdx

    根据概率规范性(归一化参数): ∫ x min ⁡ ∞ C f ( x ) d x = 1 \int_{x_{\min }}^{\infty} C f(x) \mathrm{d} x=1 xminCf(x)dx=1

    离散情形:

    概率质量函数: p ( x ) = Pr ⁡ ( X = x ) = C x − α p(x)=\operatorname{Pr}(X=x)=C x^{-\alpha} p(x)=Pr(X=x)=Cxα

    假设x的取值为离散整数

    进行归一化参数计算 ∑ x = x min ⁡ ∞ C f ( x ) = 1 \sum_{x=x_{\min }}^{\infty} C f(x)=1 x=xminCf(x)=1可以得到:
    p ( x ) = x − α ζ ( α , x min ⁡ ) p(x)=\frac{x^{-\alpha}}{\zeta\left(\alpha, x_{\min }\right)} p(x)=ζ(α,xmin)xα
    其中,
    ζ ( α , x min ⁡ ) = ∑ n = 0 ∞ ( n + x min ⁡ ) − α \zeta\left(\alpha, x_{\min }\right)=\sum_{n=0}^{\infty}\left(n+x_{\min }\right)^{-\alpha} ζ(α,xmin)=n=0(n+xmin)α

    常见分布在截断形式下的归一化参数:

    在这里插入图片描述

    ​ 其中,指数分布和对数正态分布在图像上和幂律分布图像相似程度较高,在数据拟合和假设验证的过程中容易混淆,需要加以区分

    幂律分布的形成机制

    根本原因:节点增长 & 优先连接

    针对复杂网络中普片存在的幂律分布现象,其呈现幂律的两个最根本原因在于:(Barabasi & Albert )

    • 成长性(growth):是指网络节点数的增加
    • 优先连接性(preferential attachment):是指新加入的节点总是优先选择与度值较高的节点相连

    注:“优先连接”并适用于所有出现幂律分布的情况,即是对于某些无标度网络,使用优先连接特性解释幂律分布也不甚合理。

    动力学原因:自组织临界 理论

    自组织临界理论一直被视为产生幂律分布的动力学成因,幂律也可以作为自组织临界的证据。对于自组织临界的理解可以联系沙堆模型和雪崩效应。

    幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,可以预测系统的相位和相变。幂律分布认为,由大量相互作用的成分组成的系 统会自然地向自组织临界态发展;当系统达到这种 状态时,即使是很小的干扰事件也可能引起系统发 生一系列灾变。

    • 自组织的含义:自组织的含义是指该状态的形成主要由系统内部各组成成分之间的相互作用产生,而不是由任何外界因素控制或主导所致。

      自组织过程实质上是一个减熵有序化的过程。例如,在沙堆模型中,沙粒的堆积过程就是一个自组织过程。在自组织过程中,局部可能出现沙崩,但是随着沙粒规模的增大,沙堆的坡度仍然维持在临界值以内,不会出现沙堆坍塌的效果。

    • 临界态:临界态是指系统处于一种特殊的敏感状态,微笑的局部变化可以不断的被放大,进而扩散至整个系统。

    • 对于自组织临界理论,其关键信息在于以下三点:
      • 自组织过程:系统的增长呈现一定规律
      • 临界过程:由稳态过渡到混沌态的一个标志,规模可以看作是自组织过程的最大值,当其超过规定阈值时,将会出现系统的“大沙崩”。
      • 微小扰动:自组织临界状态只是漫长变化过程中的一个临界点,是由量变达到质变的分界。自组织临界状态是脆弱的,一旦施加以微小扰动,系统状态便会发生突变。

    HOT理论

    在世纪之交,物理学家卡尔森(J. M. Carlson)和控制学者道尔(John Doyle)在物理学期刊上提出了设计系统中的幂律产生机制——高度优化容忍(Highly Optimized Tolerance),用以表征一些复杂互连系统可以有效地容忍某些不确定因素(即鲁棒性),也会对其它未被考虑到的不确定因素变得更敏感(即脆弱性)。

    当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。

    随机过程

    某些随机过程可以产生幂律分布。例如随机游走模型可以解释物种寿命所呈现出的幂律分布。

    “随机行走模型”可以解释物种寿命所呈现的幂律分布。另外,“Yule过程”是一个生成幂律比较通用的机制,通过调节参数,可以产生幂指数范围宽广的幂律分布,并可与世纪观测值相一致。

    幂律分布的参数估计

    非线性回归

    通过直方图直接进行非线性回归,并且直接得到参数的估计置信区间和说明拟合效果的决定系数。如果决定系数越大说明幂律分布函数拟合效果越好。这里面的最小二乘法的思想是使得残差平方和最小。

    在这里插入图片描述

    对数线性回归

    幂律分布形式:
    P ( x ) = c x − α P(x)=c x^{-\alpha} P(x)=cxα

    原理:线性关系

    ln ⁡ P ( x ) = ln ⁡ c − α ln ⁡ x \ln P(x)=\ln \mathrm{c}-\alpha \ln x lnP(x)=lncαlnx

    可以通过观察 l n P ( x ) lnP(x) lnP(x) l n x lnx lnx 是否满足线性关系简单判断随机变量是否服从幂律分布。在双对数坐标系下,概率密度近似成一条直线,可以通过最小二乘拟合的方法计算直线斜率,我们所需要的尺度参数就是直线斜率的相反数。

    局限性:

    1.对数直线不唯一

    在双对数坐标系下,指数分布和对数正态分布图像也近似成一条直线,这种几何特性并非幂律分布所独有的。

    2.尾部噪声

    根据幂律分布的长尾特性,随机变量在尾部取值较多而且分散,在尾部数据发生波动时容易影响参数估计的效果,尾部噪声会使得结果产生非常大的偏移。

    因此,在双对数图上进行对数线性回归不能准确判定数据是否遵循幂律分布,也就是说,直线特性是幂律分布的必要不充分条件。对数线性回归在参数估计上存在显著误差。双参数直线估计适用于幂律分布的初步判断以及进行粗略地参数估计。

    Exponential Binning

    Python通过Exponential binning和线性回归对幂律分布的参数 α \alpha α进行估计时,考虑到尾部噪声的问题,提出了减少箱子的数量以减少尾部的噪声点,但是由于幂律分布的数据大多集中在前段,减少箱子的数量会导致数据细节的迅速丢失。

    采用logarithmic bins进行装箱,可以达到既要减小尾部数据占有的箱子数,又要保证头部数据的箱子个数足够多来保留更多细节的目的这样的分割方法是前密后疏,

    极大似然估计(MLE)

    • 概率连乘
    • 对数求导 —— 似然函数

    连续情形:

    α ^ = 1 + n [ ∑ i = 1 n ln ⁡ X i x min ⁡ ] − 1 \hat{\alpha}=1+n\left[\sum_{i=1}^{n} \ln \frac{X_{i}}{x_{\min }}\right]^{-1} α^=1+n[i=1nlnxminXi]1

    标准误差:
    σ = α ^ − 1 n + O ( 1 / n ) \sigma=\frac{\hat{\alpha}-1}{\sqrt{n}}+\mathrm{O}(1 / n) σ=n α^1+O(1/n)

    离散情形:

    α ^ ≃ 1 + n [ ∑ i = 1 n ln ⁡ x i x min ⁡ − 1 2 ] − 1 \hat{\alpha} \simeq 1+n\left[\sum_{i=1}^{n} \ln \frac{x_{i}}{x_{\min }-\frac{1}{2}}\right]^{-1} α^1+n[i=1nlnxmin21xi]1

    标准误差:
    σ = 1 n [ ζ ′ ′ ( α ^ , x min ⁡ ) ζ ( α ^ , x min ⁡ ) − ( ζ ′ ( α ^ , x min ⁡ ) ζ ( α ^ , x min ⁡ ) ) 2 ] \sigma=\frac{1}{\sqrt{n\left[\frac{\zeta^{\prime \prime}\left(\hat{\alpha}, x_{\min }\right)}{\zeta\left(\hat{\alpha}, x_{\min }\right)}-\left(\frac{\zeta^{\prime}\left(\hat{\alpha}, x_{\min }\right)}{\zeta\left(\hat{\alpha}, x_{\min }\right)}\right)^{2}\right]}} σ=n[ζ(α^,xmin)ζ(α^,xmin)(ζ(α^,xmin)ζ(α^,xmin))2] 1
    通过计算参数的期望和方差可以得到:对于连续性幂律分布,不存在参数的有效无偏估计,而存在渐进无偏估计。

    Kolmogorov–Smirnov估计

    幂律分布指数参数的Kolmogorov–Smirnov估计和检验也是万能的“魔戒”。

    具体做法:

    1. 使用极大似然方法估计幂律模型参数;

    2. 计算数据和幂律之间的拟合优度,以判定幂律是否为合理假设;

    3. 通过似然比检验比较幂律假设和其他分布假设,以判断更倾向于哪个假设。

    幂律分布的图形化验证方法

    log-log图

    在双对数图上呈现直线是必要的,但是没有足够的证据证明它们的幂律关系,直线斜率就对应于幂律指数。因此,双对数图只适用于初步判断幂律分布和排除其他概率分布。

    Pareto Q-Q图

    这种方法利用残余分位函数束验证分布尾部是否遵循幂律。

    帕累托Q-Q图的绘制步骤:它将取对数后样本数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该推测其可能服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数α接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。

    平均剩余寿命图

    检验幂律概率分布的方法是平均剩余寿命图,它包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第$ i 阶 统 计 量 进 行 比 较 绘 制 , 从 阶统计量进行比较绘制,从 i = 1,2,…, n$,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形

    幂律分布的研究历史

    幂律分布的研究历史涉及到诸多学科,总体上可以分为三个部分:定性研究、定量研究和动力机制研究。其研究历史总体上经历了“有现象到本质,由宏观到微观,由定性到定量,由时间到空间,由结构到过程”的不断深化过程。[8]

    幂律分布的定性研究

    在19世纪末至21世纪初,众多领域的学者独立地进行研究,但都心有灵犀,不约而同地发现了幂律分布这一规律。具体地,关于幂律特性定性研究发展的时间脉络如下。

    追根溯源:帕累托分布 ( Pareto Distribution ),1897

    “幂律概念”最早可以追溯到1897年意大利经济学家维尔弗雷多·帕累托 ( Vilfredo Pareto )发现财富分配的“可预料的不均衡”现象,即现今熟知的“二八原则”。

    1. 韦伯和法约尔“官僚组织模式”中的科层制 ( Bureaucracy System ),1911-1916

    2. 拉扎斯菲尔德多级传播理论中的意见领袖 ( Opinion Leader ),1948

    3. 西蒙在经济学研究中的 “西蒙模型” ( Simon Model ),1955

    4. 哈耶克的涌现理论 ( Emergence Theory ),1964

    5. 汪丁丁在行为经济学中提出的黏着偏好原理 ( Preferential Attachment),2010

    6. 姜奇平认为幂律分布是互联网技术结构和经济结构中的关键特征,2012

    幂律分布的定量研究

    现今,关于幂律分布定量研究的理论灿若繁星,例如小世界现象、无标度网络模型、长尾模型、曲棍球杆型增长和 K 核心分布等,这些都是对幂律分布不同侧面的挖掘过程。幂律分布的定量研究历史时间轴如下。

    追根溯源:齐普夫定律 ( Zipf’s Law ),1949

    齐普夫发现了语言词频幂律分布规律,即在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。

    1. 艾尔多斯和莱利在数学图论中发现了复杂网络的拓扑结构 ( Complex Network Topological Structure ),1959

    2. 曼德布罗特在研究棉花价格浮动时所发现的肥尾现象 ( Fat Tail ),1963

    3. 史蒂夫·斯托加茨和邓肯·瓦茨在网络数学中发现的“小世界现象” ( Small-world Phenomenon ) ,1998

    4. 巴拉巴西和艾尔伯特的无标度网络模型 ( Scale Free Network ),1999

    5. 胡伯曼的网络“幂律增长”法则 ( Power Law ),2002

    6. 安德森的长尾模型 ( The Long Tail Module ),2004

    7. IBM、Compaq 和 AltaVista 的 “领结理论 ” ( Bow-tie Theory ) ,2006

    8. 社会化媒体分析公司SysomosInc发现Twitter的“曲棍球杆型增长”( Hockeystick-type Growth ),2009

    9. 加西亚的 “K 核心分布” ( K-core Distribution ),2013

    10. 马西克—弗罗杰的 “人类神经元连接如同社交网络” ( Human Nerve System likes Social Network ),2015

    幂律分布的动力机制研究

    19世纪末至整个20世纪,一些心理学和网络研究开始探索社会群体动力机制,虽然并不是全部围绕幂律分布展开的,却能部分解释其动力来源,比如塔尔德的模仿律和阿希的从众理论; 一些多学科研究则开始寻觅大型社会网络的形成动因,比如繆尔达尔的循环积累因果联系学说和梅特卡夫网络价值定律等。

    关于幂律分布的动力学成因,整体上看,现在仍然处在萌芽时期,现如今的研究不全面、不系统、不深入,零星发散,探幽发微,需要更加成熟的理论进行完善,期待更多的学者进行归纳整合,深入挖掘幂律长尾背后的动因。

    展开全文
  • 用于解决股票价格预测的对数周期幂律公式的 Python 实现
  • 自1970年代初以来,除其他外,幂律过程已被用于通过使用其强度函数来评估软件可靠性随时间变化的变化率。 贝叶斯分析在幂律过程中的适用性通过实际的软件故障时间来证明。 损失函数的选择是贝叶斯设置的重要实体。 ...
  • 我们在非规范标量场的框架内研究通货膨胀。 在这种情况下,我们获得诸如标量光谱指数,张量与标量... 然后,我们将这些结果应用于指数和逆幂律势。 我们的调查表明,尽管完全规范了标准正则通货膨胀中这些潜能的预测,
  • matlab幂律变换代码MATLAB-图像处理工具-V1 对于该项目,我使用了内置的MATLAB函数,此外,我使用了“手动代码”来执行所需的任务。 我已经尽力仅通过使用MATLAB GUIDE工具制作一个友好的UI,尽管我可以将其与Visual...
  • 通信是一类重要的人类行为,通过对中国名人的书信时间进行统计分析,建立写信间隔时间所服从的漂移幂律分布模型,确定了漂移幂律分布和齐普夫定律的参数。揭示出幂律特性在人类社会行为中的普适性,指出幂指数的不同...
  • 对比度拉伸、负值、幂律等图像灰度变换研究转换,位平面切片,单双阈值保持。 代码简单,容易理解。
  • 哦那恭喜你,其他帖子就不用看了,我都替你筛选过了,都用处不大,没有一个能实际求出参数的,都是生成随机分布的点,然后做拟合,然后就没然后了,把人能气死,别提了就,要么就是给你介绍一堆什么是幂律分布,我...

    如果你看到本帖,哦那恭喜你,其他帖子就不用看了,我都替你筛选过了,都用处不大,没有一个能实际求出参数的,都是生成随机分布的点,然后做拟合,然后就没然后了,把人能气死,别提了就,要么就是给你介绍一堆什么是幂律分布,我都都要求参数了你还给我讲道理,这不扯淡么。
    请添加图片描述
    总结一下,幂律分布主要求两个参数,一个是系数C,一个是求幂指数,一般是负值。

    方法一:线性拟合倒推
    1、公式推导
    请添加图片描述
    请添加图片描述
    验证幂律分布的办法就是对坐标轴XY同时取对数,如果是一条直线就服从幂律分布。如上图所示。上边的图是用ORIGIN画出来的,origin会有这条直线的参数,直线的系数就是幂指数,截距就是幂率分布的系数。这个在excel中也能做
    请添加图片描述
    请添加图片描述
    具体Origin和excel中怎么做下边会介绍,R方就是评估指标拟合优度。这种情况只适用与你的数据真的是很服从幂律分布,真的就是一条直线。如果是如下这种情况,误差就很大。
    请添加图片描述
    请添加图片描述
    请添加图片描述
    所以说就要用如下辆种方法
    方法二:最小二乘法
    该方法用graphpad和origin都可以,方法先绘制散点图,再做曲线拟合,而最小二乘法就是一种曲线拟合求最优参数的方法。不对坐标轴取对数,直接捏概率密度函数图或者分布函数图。
    请添加图片描述
    如此一来R方也大了,说明拟合更好了。数据也会更准确。
    方法三:最大似然估计
    本方法需要用到Python的第三方库powerlaw,直接搜索说明文档即可,这里不做赘述。

    最后贴上视频教学:https://www.bilibili.com/video/BV1GU4y1T79k/
    视频讲得很清楚每个步骤比我贴图片要好,软件具体使用教程很多,总之一句话“有手就行”。有问题留言,看到就回复。

    展开全文
  • matlab下的幂律拟合函数 先构造函数 然后验证是否拟合效果好
  • 论文研究-基于跳跃时间和幅度的BDI指数波动幂律分布特性研究.pdf, BDI指数是国际航运市场的风向标,摸清BDI指数波动幂律分布特性,对于进一步掌握运费规律、预测BDI趋势...
  • 分析提取及衍生特征数据概率分布,出现较为突出的幂律分布情况,为此整理出12个常用概率分布比较学习。高斯法则和幂律法则的典型代表是分别身高和财富,把姚明放到100个人中,并不会显著改变平均身高,但把比尔·...

    在机器学习领域,概率分布对于数据的认识有着非常重要的作用。不管是有效数据还是噪声数据,如果知道了数据的分布,那么在数据建模过程中会得到很大的启示。

    首先,如下图所示8个特征数据概率分布情况(已经做归一化),这些特征是正态分布、伯努利分布,还是泊松分布、幂律分布?
    在这里插入图片描述

    在这里插入图片描述
    在高斯法则生效的领域,平均值可以代表整体。但是在幂律法则统治的领域,平均值毫无意义。高斯法则和幂律法则的典型代表是分别身高和财富,把姚明放到100个人中,并不会显著改变平均身高,但把比尔·盖茨放到100个人中,就会极大改变平均财富。

    在高斯法则生效的领域,所有人跟平均值的差距不会很大;但是在幂律法则分布的领域,跟平均值的差距就会大到惊人。

    正态法则和幂律法则,细思极恐。带着问题,我们开始概率分布之旅。

    1. 概率分布概述

    概率分布,是指用于表述随机变量取值的概率规律。将随机变量作为横轴,概率作为纵轴,把随机变量与对应变量画上去,构成一个图形,这个图像就是概率分布的直观表示。通常也用概率分布函数表示 F ( x ) F ( x ) F(x)来描述一个概率分布,概率分布函数被定义为:
    F ( x ) = P { X < x } F ( x ) =P\{X<x\} F(x)=P{X<x}

    总之概率分布也可以理解为一个函数,它刻画了随机变量与概率的映射关系,给定一个概率分布,就可以求任何随机变量对应的概率了。当一个随机变量与它的概率满足某一个概率分布的映射关系时,则称这个随机变量服从该概率分布。

    如下图为常用概率分别关系图。
    在这里插入图片描述

    2. 常用概率分布

    2.1. 均匀分布

    均匀分布在 [a,b] 上具有相同的概率值,是简单概率分布。
    均匀分布可以很容易地从伯努利分布中得出。在这种情况下,结果的数量可能不受限制,并且所有事件的发生概率均相同。例如掷骰子,存在多个可能的事件,每个事件都有相同的发生概率。
    在这里插入图片描述

    2.2. 伯努利分布

    伯努利分布(Bernoulli Distribution)是单个二值随机变量的分布,是一种离散分布,又称为 “0-1 分布” 或 “两点分布”。例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。

    假设二值其中之一的概率等于 p p p,而对于互斥对立面面则是 ( 1 − p ) (1-p) 1p(包含所有可能结果的互斥事件的概率总和为1)。

    对于伯努利分布来说,其离散型随机变量期望为:
    E ( x ) = ∑ x × p ( x ) = 1 × p + 0 × ( 1 − p ) = p E(x) = ∑x\times p(x) = 1\times p+0\times (1−p) = p E(x)=x×p(x)=1×p+0×(1p)=p
    E ( x 2 ) = ∑ x × p ( x 2 ) = 1 2 × p + 0 2 × ( 1 − p ) = p E(x^2) = ∑x\times p(x^2) = 1^2\times p+0^2\times (1−p) = p E(x2)=x×p(x2)=12×p+02×(1p)=p

    方差为:
    V a r ( x ) = E ( x 2 ) − ( E ( x ) ) 2 = p − p 2 = p ( 1 − p ) Var(x) = E(x^2)−(E(x))^2 = p−p^2 = p(1−p) Var(x)=E(x2)(E(x))2=pp2=p(1p)
    在这里插入图片描述

    2.3. 二项分布

    二项分布(binomial distrubution)就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

    P { X = k } = ( n k ) p k ( 1 − p ) ( n − k ) P\{X=k\}=\binom{n}{k}p^k(1-p)^{(n-k)} P{X=k}=(kn)pk(1p)(nk)

    式中 k = 0 , 1 , 2 , . . . , n k=0,1,2,...,n k=0,1,2,...,n ( n k ) = n ! k ! ( n − k ) ! \binom{n}{k}=\frac{n!}{k!(n-k)!} (kn)=k!(nk)!n!是二项式系数,又记为 C n k C_n^k Cnk

    二项式分布的主要特征是:

    给定多个试验,每个试验彼此独立(一项试验的结果不会影响另一项试验)。

    每个试验只能得出两个可能的结果(例如,获胜或失败),其概率分别为p和(1- p)。

    如果获得成功概率(p)和试验次数(n),则可以使用以下公式计算这n次试验中的成功概率(x)。
    在这里插入图片描述
    如果二项分布满足p<q,np≥5,(或p>q,np≥5)时,二项分布接近正态分布。

    E ( X ) = n p E(X)=np E(X)=np
    V a r ( X ) = n p ( 1 − p ) Var(X)=np(1-p) Var(X)=np(1p)

    2.4. 多项分布

    多项式分布(Multinoulli distribution)二项分布的推广。二项分布(也叫伯努利分布)的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。而多项分布就像扔骰子,有6个面对应6个不同的点数。

    某随机实验如果有k个可能结局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1A2Ak,分别将他们的出现次数记为随机变量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1X2Xk,它们的概率分布分别是 p 1 , p 2 , … , p k p_1,p_2,…,p_k p1p2pk,那么在n次采样的总结果中, A 1 A_1 A1出现 n 1 n_1 n1次、 A 2 A_2 A2出现 n 2 n_2 n2次、…、 A k A_k Ak出现 n k n_k nk次的这种事件的出现概率P有下面公式:

    P ( X 1 = n 1 , X 2 = n 2 , ⋯ , X k = n k ) = { n ! n 1 ! n 2 ! ⋯ n k ! p 1 n 1 p 2 n 2 ⋯ p k n k , ∑ i = 1 k n i = n 0 , o r t h e r w i s e P(X_1=n_1,X_2=n_2,⋯,X_k=n_k)=\left\{\begin{matrix} \frac{n!}{n1!n2!⋯nk!}p^{n1}_1p^{n2}_2⋯p^{nk}_k & , \sum_{i=1}^{k}n_i = n\\ 0 & , ortherwise \end{matrix}\right. P(X1=n1,X2=n2,,Xk=nk)={n1!n2!nk!n!p1n1p2n2pknk0,i=1kni=n,ortherwise

    多项分布对其每一个结果都有均值和方差,分别为:

    E ( X i ) = n p i E(X_i)=np_i E(Xi)=npi
    V a r ( X i ) = n p i ( 1 − p i ) Var(X_i)=np_i(1-p_i) Var(Xi)=npi(1pi)

    2.5. 泊松分布

    泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。【维基百科】

    P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , . . . P(X=k)= \frac{λ^k}{k!}e^{-λ} ,k=0,1,... P(X=k)=k!λkeλ,k=0,1,...

    泊松分布的参数 λ λ λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
    泊松分布的期望和方差均为 λ λ λ

    在这里插入图片描述
    一般来说,我们会换一个符号,让 μ = λ \mu=\lambda μ=λ

    2.6. 正态分布

    若随机变量 X X X服从一个数学期望为 μ μ μ、方差为 σ 2 \sigma ^2 σ2的正态分布,记为 N ( μ , σ 2 ) N(μ,σ^2) N(μσ2)。其概率密度函数为正态分布的期望值 μ μ μ决定了其位置,其标准差 σ σ σ决定了分布的幅度。当 μ = 0 , σ = 1 μ = 0,σ = 1 μ=0,σ=1时的正态分布是标准正态分布。

    标准正态分布又称为 u u u分布,是以0为均数、以1为标准差的正态分布,记为 N ( 0 , 1 ) N(0,1) N01
    在这里插入图片描述
    一维正态分布
    若随机变量 X X X服从一个位置参数为 μ μ μ 、尺度参数为 σ σ σ的概率分布,且其概率密度函数为:
    f ( x ) = 1 2 π σ e ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac {1}{\sqrt{2π}σ}e^{(-\frac{(x-μ)^2}{2σ^2})} f(x)=2π σ1e(2σ2(xμ)2)

    标准正态分布
    μ = 0 , σ = 1 μ=0,σ=1 μ=0σ=1时,正态分布就成为标准正态分布:
    f ( x ) = 1 2 π e ( − x 2 2 ) f(x)=\frac {1}{\sqrt{2π}}e^{(-\frac{x^2}{2})} f(x)=2π 1e(2x2)

    2.7. 伽马分布

    伽玛分布(Gamma Distribution),Gamma分布中的参数α,称为形状参数(shape parameter),β称为尺度参数(scale parameter)。
    “指数分布”和“ χ 2 χ^2 χ2分布”都是伽马分布的特例。

    X ∼ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) XΓ(α,β);且令 λ = 1 β \lambda = \frac{1}{\beta} λ=β1: (即 X ∼ Γ ( α , 1 λ ) ) X \sim \Gamma(\alpha, \frac{1}{\lambda})) XΓ(α,λ1)

    f ( X ) = X ( α − 1 ) λ α e ( − λ X ) Γ ( α ) , X > 0 f(X) = \frac{X^{(\alpha -1)} \lambda^{\alpha} e^{(-\lambda X)}}{\Gamma(\alpha)},X > 0 f(X)=Γ(α)X(α1)λαe(λX)X>0
    在这里插入图片描述

    2.8. 几何分布

    几何分布(Geometric distribution)在伯努利试验中,记每次试验中事件 A A A发生的概率为 p p p,试验进行到事件A出现时停止,此时所进行的试验次数为 X X X,其分布列为:

    P ( X = k ) = ( 1 − p ) ( k − 1 ) p , k = 1 , 2 , . . . P(X=k)=(1-p)^{(k-1)}p,k=1,2,... P(X=k)=(1p)(k1)p,k=1,2,...
    此分布列是几何数列的一般项,因此称 X X X服从几何分布,记为 X ~ G E ( p ) X ~ GE(p) XGE(p)
    实际中有不少随机变量服从几何分布,譬如,某产品的不合格率为0.05,则首次查到不合格品的检查次数 X ~ G E ( 0.05 ) X ~ GE(0.05) XGE(0.05)
    在这里插入图片描述

    X ∼ G E ( p ) , q = 1 − p , P ( X = r ) = p q ( r − 1 ) X\sim GE(p),q=1-p,P(X = r) = pq^{(r-1)} XGE(p)q=1pP(X=r)=pq(r1),当 r → ∞ r→∞ r时:

    期望和方差:

    E ( X ) = 1 p E(X) = \frac{1}{p} E(X)=p1
    V a r ( X ) = q p 2 Var(X) = \frac{q}{p^2} Var(X)=p2q

    2.9. 指数分布

    在概率理论和统计学中,指数分布(Exponential distribution也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。 这是伽马分布的一个特殊情况。 它是几何分布的连续模拟,它具有无记忆的关键性质。 除了用于分析泊松过程外,还可以在其他各种环境中找到。

    f ( x ) = { λ e − ( λ x ) , x > 0 0 , x ≤ 0 f(x)=\left\{\begin{matrix} λe^{-(λx)} & , x>0\\ 0 & , x ≤ 0 \end{matrix}\right. f(x)={λe(λx)0,x>0,x0

    在概率论和统计学中,指数分布是一种连续概率分布。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等等。

    许多电子产品的寿命分布一般服从指数分布。有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最常用的一种分布形式。指数分布是伽玛分布和威布尔分布的特殊情况,产品的失效是偶然失效时,其寿命服从指数分布。
    在这里插入图片描述

    期望与方差:
    E ( X ) = 1 λ E(X)=\frac{1}{λ} E(X)=λ1
    V a r ( X ) = 1 λ 2 Var(X) = \frac{1}{λ^2} Var(X)=λ21

    2.10. 卡方分布

    卡方分布(chi-square distribution),也称为 X 2 X^2 X2分布,若 n n n个相互独立的随机变量 ξ 1 , ξ 2 , . . . , ξ n ξ_1,ξ_2,...,ξ_n ξ1,ξ2...,ξn,均服从标准正态分布(也称独立同分布于标准正态分布),则这 n n n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

    χ 2 ( n ) χ^2 ( n ) χ2(n) 分 布 , 就 是 Γ Γ Γ 分 布 的 一 种 特 殊 形 式:

    其中 α = n 2 , β = 1 2 α = \frac{n}{ 2} , β = \frac{1}{ 2} α=2n,β=21

    f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − 1 2 x , x > 0 0 , x ≤ 0 f ( x ) = \left\{\begin{matrix} \frac{1}{2^{\frac{n}{2}} Γ ( \frac{n}{ 2} )} x^{\frac{n}{2}-1}e^{-\frac{1}{2}x}& , x>0\\ 0 & , x ≤ 0 \end{matrix}\right. f(x)={22nΓ(2n)1x2n1e21x0,x>0,x0

    定义 如果随机变脸 X i X_i Xi 之 间 相 互 独 立 且 服 从 N ( 0 , 1 ) N ( 0 , 1 ) N(0,1) , 分 布 , 则 称 随 机 变 量
    χ 2 = X 1 2 + X 2 2 + . . . + X n 2 χ^2 = X_1^ 2 + X_ 2^2 + ... + X_n^2 χ2=X12+X22+...+Xn2 服从自由度为 n n n χ 2 χ^2 χ2 分 布 记 为 χ 2 ∼ X 2 ( n ) χ^2\sim X^2(n) χ2X2(n)

    在这里插入图片描述

    2.11. beta分布

    贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称 B Β B分布,是指一组定义在(0,1) 区间的连续概率分布。
    f ( x : α , β ) = 1 B ( α , β ) x ( α − 1 ) ( 1 − x ) ( β − 1 ) f(x:α ,β)=\frac{1}{B(α ,β)}x^{(α-1)}(1-x)^{(β-1)} f(x:α,β)=B(α,β)1x(α1)(1x)(β1)
    其中 Γ ( z ) Γ(z) Γ(z) Γ Γ Γ函数。随机变量 X X X服从参数为 ( α , β ) (α ,β) (α,β) B Β B分布通常写作
    X ∼ B e B ( α , β ) X \sim BeB(α ,β) XBeB(α,β)

    在这里插入图片描述

    2.12. 幂律分布

    幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数(由于分布密度函数必然满足“归一律”,所以这里的幂函数,一般规定小于负1)的分布。

    幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

    假设变量x服从参数为 的幂律分布,则其概率密度函数可以表示为:
    f ( x ) = c x − α − 1 , x → ∞ f(x)=cx^{-α-1}, x→∞ f(x)=cxα1,x
    在这里插入图片描述
    在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

    Zipf定律与Pareto定律(帕累托定律)
    对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者。Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布。
    在这里插入图片描述

    3. 总结

    回顾本文的开始,幂律分布的长尾现象很普遍,大数据中小概率数据普遍存在,如何解决呢?

    我的方法是把数据 x 3 \sqrt[3]{x} 3x ,对模型的精度结果影响只有不到千分之一,也就是说数据变换缩短尾巴效果有限。另外的方法,是从整体模型上考虑细分,二八原则中,把20%的分离出来,自顶向下逐步精确。

    参考:

    【1】视学算法,数据分析必须掌握的概率分布!建议收藏! CSDN博客 ,2019.11
    【2】数据派THU,深度学习必懂的 13 种概率分布(附链接) CSDN博客,2020.02
    【3】马同学图解数学, 如何通俗理解泊松分布? CSDN博客,2019.04
    【4】刘之帅,机器学习中的“分布” CSDN博客,2020.04
    【5】我是8位的,概率统计14——几何分布 博客园 ,2020.01
    【6】sam-X,正态和伽马分布族 CSDN博客,2018.09
    【7】娜娜酱,生存法则—正态分布和幂律分布 知乎,2018.07

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,654
精华内容 4,261
关键字:

幂律

友情链接: TS_TSP.zip