精华内容
下载资源
问答
  • 幂律分布

    千次阅读 2019-10-27 19:19:17
    幂律分布 统计学意义 幂律分布就是常说的马太效应,二八法则,它是统计学中的概念。它的分布图如下1: 图1 幂律分布曲线 这种幂律分布概率密度可以表示成以下的形式: f(x)=αx−γ f(x)=αx^{-γ} f(x)=αx−γ ...

    幂律分布

    统计学意义

    幂律分布就是常说的马太效应,二八法则,它是统计学中的概念。这种幂律分布概率密度可以表示成以下的形式:
    y=αxγ y=αx^{-γ}
    其中,x,y是正的随机变量,α, γ均为大于零的常数。可见,在这种幂律概率分布上,概率越高,占比越小,大占比的分布位于那条长长的尾巴上。

    例如:y=5x2y=5x^{-2}的分布图如下:
    Alt

    图1 幂律分布

    通俗解释1

    按照相关统计资料,假设99个成年男性的平均身高为167.1厘米。姚明身高226厘米,若将其纳入样本,则100人的平均身高约为167.7厘米。姚明的个子固然很高,但其身高与167.1厘米的平均身高相比,并不是那么悬殊,故把他纳入样本不会显著提高平均身高。

    人类身高服从正态分布,绝大多数人的身高均处于平均值左右,很矮与很高的人在人群中的占比均很小。因此,基于样本的平均身高来估计个体的身高很“靠谱”。换言之,平均身高是一个典型值。若个体的身高等于平均身高,则从身高角度看,其属于“标准人”。

    按照相关统计资料,假设99个成年男性的平均财富为15万元。根据2018年福布斯中国富豪榜的数据,某位商界精英身价2387.4亿元。若将其纳入样本,则100人的平均财富约为23.9亿元。亦即,一旦把他加入样本,则每个人都被“平均”成了亿万富翁。

    财富平均值23.9亿元当然不是一个典型值,因为除了那位商界精英之外,其余99人的财富均远远小于这个平均值。换言之,从财富角度来看,拥有高达23.9亿元财富的个体不是“标准人”,而是属于人群中占比很少的富豪。对此,19世纪意大利经济学家帕累托很早就发现,人类的财富分布存在“可预料的不均衡”——少数人拥有的财富要远多于大多数人拥有的财富。一般而言,20%的人口几乎拥有80%的社会财富。

    就统计推断而言,上述分析表明,计算身高的平均值是有意义的,而计算财富的平均值只会带来误导。究其根源,是因为人类身高服从正态分布,而财富拥有量不服从正态分布。那么,后者到底服从什么分布呢?请再看一则故事。

    语言学家齐普夫在1932年发现,绝大多数词很少被使用,只有极少数英文单词被经常使用。实际上,经过长期演化的人类语言符合“最小努力原则”,基本上都具有“使用较少的词汇来表达尽可能多的语义”这一特点。齐普夫的发现被命名为齐普夫定律,成为文献计量学的一大重要定律。显然,与财富分布一样,单词使用频率也表现出很强的集中性。

    有趣的是,人们还发现,人口中的姓氏、城市人口规模、论文引用次数、网站访问量、书籍及唱片的销量、战争规模等,其分布无不具有集中性。实际上,它们均服从幂率分布,亦称“长尾”分布。在此分布中,绝大多数个体的尺度都很小,而少数个体的尺度相当大。在数学上,幂律分布是唯一满足无标度特征的概率分布形式。简单理解就是,虽然20%的人口拥有80%的社会财富,但80%的社会财富的80%,又由20%的人口中的20%所拥有。由此推知,极少数超级富翁所拥有的财富很容易超出我们的想象。

    幂率分布形成于一种正反馈机制,包括马太效应与网络效应。在日常生活中,幂率分布多呈现为帕累托法则、二八定律、关键少数法则等,其重要的启示是:对一件事情起决定作用的,往往是少数几个因素。因此,我们应抓住“关键少数”,优化决策。


    1. 幂律分布 ↩︎

    展开全文
  • 幂律分布专题

    2021-05-16 09:59:40
    幂律分布 幂律分布的数学形式 广义形式: 幂律分布的广义形式即是反映了一个幂次反比关系 p(x)∝x−αp(x) \propto x^{-\alpha}p(x)∝x−α ,其中 α\alphaα 的通常取值为 2<α<32<\alpha<32<α<...

    幂律分布

    幂律分布的数学形式

    广义形式:

    幂律分布的广义形式即是反映了一个幂次反比关系 p(x)xαp(x) \propto x^{-\alpha} ,其中 α\alpha 的通常取值为 2<α<32<\alpha<3

    精确形式:

    在对原有幂律分布函数加以分析可以看出,当x0x \rightarrow 0 时,幂律分布的概率密度函数发散。随机变量不会在整个x0x \geq 0取值范围内服从幂律分布,更可能在大于某个幂律下界xminx_{\min }之后,随机变量XX的尾巴部分服从幂律分布。因而,现有的针对幂律分布分析多基于以下数学形式

    连续情形:

    概率密度函数:p(x)dx=Pr(xX<x+dx)=Cxαdxp(x) \mathrm{d} x=\operatorname{Pr}(x \leq X<x+\mathrm{d} x)=C x^{-\alpha} \mathrm{d} x

    根据概率规范性(归一化参数):xminCf(x)dx=1\int_{x_{\min }}^{\infty} C f(x) \mathrm{d} x=1

    离散情形:

    概率质量函数: p(x)=Pr(X=x)=Cxαp(x)=\operatorname{Pr}(X=x)=C x^{-\alpha}

    假设x的取值为离散整数

    进行归一化参数计算x=xminCf(x)=1\sum_{x=x_{\min }}^{\infty} C f(x)=1可以得到:
    p(x)=xαζ(α,xmin) p(x)=\frac{x^{-\alpha}}{\zeta\left(\alpha, x_{\min }\right)}
    其中,
    ζ(α,xmin)=n=0(n+xmin)α \zeta\left(\alpha, x_{\min }\right)=\sum_{n=0}^{\infty}\left(n+x_{\min }\right)^{-\alpha}

    常见分布在截断形式下的归一化参数:

    在这里插入图片描述

    ​ 其中,指数分布和对数正态分布在图像上和幂律分布图像相似程度较高,在数据拟合和假设验证的过程中容易混淆,需要加以区分

    幂律分布的形成机制

    根本原因:节点增长 & 优先连接

    针对复杂网络中普片存在的幂律分布现象,其呈现幂律的两个最根本原因在于:(Barabasi & Albert )

    • 成长性(growth):是指网络节点数的增加
    • 优先连接性(preferential attachment):是指新加入的节点总是优先选择与度值较高的节点相连

    注:“优先连接”并适用于所有出现幂律分布的情况,即是对于某些无标度网络,使用优先连接特性解释幂律分布也不甚合理。

    动力学原因:自组织临界 理论

    自组织临界理论一直被视为产生幂律分布的动力学成因,幂律也可以作为自组织临界的证据。对于自组织临界的理解可以联系沙堆模型和雪崩效应。

    幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,可以预测系统的相位和相变。幂律分布认为,由大量相互作用的成分组成的系 统会自然地向自组织临界态发展;当系统达到这种 状态时,即使是很小的干扰事件也可能引起系统发 生一系列灾变。

    • 自组织的含义:自组织的含义是指该状态的形成主要由系统内部各组成成分之间的相互作用产生,而不是由任何外界因素控制或主导所致。

      自组织过程实质上是一个减熵有序化的过程。例如,在沙堆模型中,沙粒的堆积过程就是一个自组织过程。在自组织过程中,局部可能出现沙崩,但是随着沙粒规模的增大,沙堆的坡度仍然维持在临界值以内,不会出现沙堆坍塌的效果。

    • 临界态:临界态是指系统处于一种特殊的敏感状态,微笑的局部变化可以不断的被放大,进而扩散至整个系统。

    • 对于自组织临界理论,其关键信息在于以下三点:
      • 自组织过程:系统的增长呈现一定规律
      • 临界过程:由稳态过渡到混沌态的一个标志,规模可以看作是自组织过程的最大值,当其超过规定阈值时,将会出现系统的“大沙崩”。
      • 微小扰动:自组织临界状态只是漫长变化过程中的一个临界点,是由量变达到质变的分界。自组织临界状态是脆弱的,一旦施加以微小扰动,系统状态便会发生突变。

    HOT理论

    在世纪之交,物理学家卡尔森(J. M. Carlson)和控制学者道尔(John Doyle)在物理学期刊上提出了设计系统中的幂律产生机制——高度优化容忍(Highly Optimized Tolerance),用以表征一些复杂互连系统可以有效地容忍某些不确定因素(即鲁棒性),也会对其它未被考虑到的不确定因素变得更敏感(即脆弱性)。

    当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。

    随机过程

    某些随机过程可以产生幂律分布。例如随机游走模型可以解释物种寿命所呈现出的幂律分布。

    “随机行走模型”可以解释物种寿命所呈现的幂律分布。另外,“Yule过程”是一个生成幂律比较通用的机制,通过调节参数,可以产生幂指数范围宽广的幂律分布,并可与世纪观测值相一致。

    幂律分布的参数估计

    非线性回归

    通过直方图直接进行非线性回归,并且直接得到参数的估计置信区间和说明拟合效果的决定系数。如果决定系数越大说明幂律分布函数拟合效果越好。这里面的最小二乘法的思想是使得残差平方和最小。

    在这里插入图片描述

    对数线性回归

    幂律分布形式:
    P(x)=cxα P(x)=c x^{-\alpha}

    原理:线性关系

    lnP(x)=lncαlnx \ln P(x)=\ln \mathrm{c}-\alpha \ln x

    可以通过观察lnP(x)lnP(x)lnxlnx 是否满足线性关系简单判断随机变量是否服从幂律分布。在双对数坐标系下,概率密度近似成一条直线,可以通过最小二乘拟合的方法计算直线斜率,我们所需要的尺度参数就是直线斜率的相反数。

    局限性:

    1.对数直线不唯一

    在双对数坐标系下,指数分布和对数正态分布图像也近似成一条直线,这种几何特性并非幂律分布所独有的。

    2.尾部噪声

    根据幂律分布的长尾特性,随机变量在尾部取值较多而且分散,在尾部数据发生波动时容易影响参数估计的效果,尾部噪声会使得结果产生非常大的偏移。

    因此,在双对数图上进行对数线性回归不能准确判定数据是否遵循幂律分布,也就是说,直线特性是幂律分布的必要不充分条件。对数线性回归在参数估计上存在显著误差。双参数直线估计适用于幂律分布的初步判断以及进行粗略地参数估计。

    Exponential Binning

    Python通过Exponential binning和线性回归对幂律分布的参数α\alpha进行估计时,考虑到尾部噪声的问题,提出了减少箱子的数量以减少尾部的噪声点,但是由于幂律分布的数据大多集中在前段,减少箱子的数量会导致数据细节的迅速丢失。

    采用logarithmic bins进行装箱,可以达到既要减小尾部数据占有的箱子数,又要保证头部数据的箱子个数足够多来保留更多细节的目的这样的分割方法是前密后疏,

    极大似然估计(MLE)

    • 概率连乘
    • 对数求导 —— 似然函数

    连续情形:

    α^=1+n[i=1nlnXixmin]1 \hat{\alpha}=1+n\left[\sum_{i=1}^{n} \ln \frac{X_{i}}{x_{\min }}\right]^{-1}

    标准误差:
    σ=α^1n+O(1/n) \sigma=\frac{\hat{\alpha}-1}{\sqrt{n}}+\mathrm{O}(1 / n)

    离散情形:

    α^1+n[i=1nlnxixmin12]1 \hat{\alpha} \simeq 1+n\left[\sum_{i=1}^{n} \ln \frac{x_{i}}{x_{\min }-\frac{1}{2}}\right]^{-1}

    标准误差:
    σ=1n[ζ(α^,xmin)ζ(α^,xmin)(ζ(α^,xmin)ζ(α^,xmin))2] \sigma=\frac{1}{\sqrt{n\left[\frac{\zeta^{\prime \prime}\left(\hat{\alpha}, x_{\min }\right)}{\zeta\left(\hat{\alpha}, x_{\min }\right)}-\left(\frac{\zeta^{\prime}\left(\hat{\alpha}, x_{\min }\right)}{\zeta\left(\hat{\alpha}, x_{\min }\right)}\right)^{2}\right]}}
    通过计算参数的期望和方差可以得到:对于连续性幂律分布,不存在参数的有效无偏估计,而存在渐进无偏估计。

    Kolmogorov–Smirnov估计

    幂律分布指数参数的Kolmogorov–Smirnov估计和检验也是万能的“魔戒”。

    具体做法:

    1. 使用极大似然方法估计幂律模型参数;

    2. 计算数据和幂律之间的拟合优度,以判定幂律是否为合理假设;

    3. 通过似然比检验比较幂律假设和其他分布假设,以判断更倾向于哪个假设。

    幂律分布的图形化验证方法

    log-log图

    在双对数图上呈现直线是必要的,但是没有足够的证据证明它们的幂律关系,直线斜率就对应于幂律指数。因此,双对数图只适用于初步判断幂律分布和排除其他概率分布。

    Pareto Q-Q图

    这种方法利用残余分位函数束验证分布尾部是否遵循幂律。

    帕累托Q-Q图的绘制步骤:它将取对数后样本数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该推测其可能服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数α接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。

    平均剩余寿命图

    检验幂律概率分布的方法是平均剩余寿命图,它包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第$ i 阶统计量进行比较绘制,从i = 1,2,…, n$,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形

    幂律分布的研究历史

    幂律分布的研究历史涉及到诸多学科,总体上可以分为三个部分:定性研究、定量研究和动力机制研究。其研究历史总体上经历了“有现象到本质,由宏观到微观,由定性到定量,由时间到空间,由结构到过程”的不断深化过程。[8]

    幂律分布的定性研究

    在19世纪末至21世纪初,众多领域的学者独立地进行研究,但都心有灵犀,不约而同地发现了幂律分布这一规律。具体地,关于幂律特性定性研究发展的时间脉络如下。

    追根溯源:帕累托分布 ( Pareto Distribution ),1897

    “幂律概念”最早可以追溯到1897年意大利经济学家维尔弗雷多·帕累托 ( Vilfredo Pareto )发现财富分配的“可预料的不均衡”现象,即现今熟知的“二八原则”。

    1. 韦伯和法约尔“官僚组织模式”中的科层制 ( Bureaucracy System ),1911-1916

    2. 拉扎斯菲尔德多级传播理论中的意见领袖 ( Opinion Leader ),1948

    3. 西蒙在经济学研究中的 “西蒙模型” ( Simon Model ),1955

    4. 哈耶克的涌现理论 ( Emergence Theory ),1964

    5. 汪丁丁在行为经济学中提出的黏着偏好原理 ( Preferential Attachment),2010

    6. 姜奇平认为幂律分布是互联网技术结构和经济结构中的关键特征,2012

    幂律分布的定量研究

    现今,关于幂律分布定量研究的理论灿若繁星,例如小世界现象、无标度网络模型、长尾模型、曲棍球杆型增长和 K 核心分布等,这些都是对幂律分布不同侧面的挖掘过程。幂律分布的定量研究历史时间轴如下。

    追根溯源:齐普夫定律 ( Zipf’s Law ),1949

    齐普夫发现了语言词频幂律分布规律,即在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。

    1. 艾尔多斯和莱利在数学图论中发现了复杂网络的拓扑结构 ( Complex Network Topological Structure ),1959

    2. 曼德布罗特在研究棉花价格浮动时所发现的肥尾现象 ( Fat Tail ),1963

    3. 史蒂夫·斯托加茨和邓肯·瓦茨在网络数学中发现的“小世界现象” ( Small-world Phenomenon ) ,1998

    4. 巴拉巴西和艾尔伯特的无标度网络模型 ( Scale Free Network ),1999

    5. 胡伯曼的网络“幂律增长”法则 ( Power Law ),2002

    6. 安德森的长尾模型 ( The Long Tail Module ),2004

    7. IBM、Compaq 和 AltaVista 的 “领结理论 ” ( Bow-tie Theory ) ,2006

    8. 社会化媒体分析公司SysomosInc发现Twitter的“曲棍球杆型增长”( Hockeystick-type Growth ),2009

    9. 加西亚的 “K 核心分布” ( K-core Distribution ),2013

    10. 马西克—弗罗杰的 “人类神经元连接如同社交网络” ( Human Nerve System likes Social Network ),2015

    幂律分布的动力机制研究

    19世纪末至整个20世纪,一些心理学和网络研究开始探索社会群体动力机制,虽然并不是全部围绕幂律分布展开的,却能部分解释其动力来源,比如塔尔德的模仿律和阿希的从众理论; 一些多学科研究则开始寻觅大型社会网络的形成动因,比如繆尔达尔的循环积累因果联系学说和梅特卡夫网络价值定律等。

    关于幂律分布的动力学成因,整体上看,现在仍然处在萌芽时期,现如今的研究不全面、不系统、不深入,零星发散,探幽发微,需要更加成熟的理论进行完善,期待更多的学者进行归纳整合,深入挖掘幂律长尾背后的动因。

    展开全文
  • 今天我们继续学习幂律分布的基本概念——幂律概率分布,以及如何用代码实现幂律分布。内容来自集智百科,集智百科是复杂系统领域的百科全书,涵盖复杂系统领域的基本概念(持续完善中)。我们正在组织撰写翻译相应的...

    今天我们继续学习幂律分布的基本概念——幂律概率分布,以及如何用代码实现幂律分布。内容来自集智百科,集智百科是复杂系统领域的百科全书,涵盖复杂系统领域的基本概念(持续完善中)。

    我们正在组织撰写翻译相应的维基词条,并附上代码实现。想要自己创建词条,一起贡献知识的小伙伴们可以通过链接报名哦。

    幂律概率分布

    (Power-law probability distributions)

    广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布: 对于较大的 , ,其中且是一个慢变函数(Slowly varying function),对于任何正因子 ,它都满足的这个属性来自于 渐进的标度不变性。因此,仅控制左尾的形状和有限范围。如果是常量因子函数,并且我们有一个幂律适用于所有的 值,在许多情况下,可以很容易地依据幂律假设出一个下限。结合这两种情况,当 是一个连续变量,幂律有以下形式:

    45a608be9ec38cacbdaef1a64dad62f5.png

    其中,是标准化常量因子

    下面我们来讨论这个分布的性质。 首先,它的矩可表示为:

    ae58fbaf4b703f8c95f18d68ce988cf8.png

    当,定义是完备的; 当,发散: 当,均值与高阶矩都是无穷大; 当,均值存在,但方差和高阶矩都是无穷大。 如果从这种分布中抽取有限样本,意味着中心矩估计永远不会收敛——并且随着数据的增多,他们还有增大的趋势。这种幂律概率分布又被称为帕累托型分布,具有帕累托尾部特征的分布,或是具有规则变化的分布。

    822690a560d925c9232c0a0096317504.png

    帕累托型分布 | 来源:

    一种不满足上面的一般形式的修改,即指数截止幂律分布。

    84f0d97bac11a28ae60f1507bd907f70.png

    在这种分布中,指数衰减项最终会在较大的处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。

    Tweedie分布是一族统计模型,其特征是基于可加(additive)与可再生(reproductive)卷积以及标度变换(scale transformation)的闭包(closure)。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度。还可以证明,使用扩展箱( expanding bins) 的方法时,这种方差- 均值幂律分布(variance-to-mean power law)意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应(Tweedie convergence effect)而产生的。

    图形验证法

    检验幂律概率分布

    虽然人们已经提出了更成熟更稳健的方法,但通过随机样本检验幂律概率分布的最常用的图形方法还是帕累托双分位图(Pareto quantile-quantile plots )(或帕累托Q-Q图),平均剩余寿命图(mean residual life plot)和双对数图(Paretoquantile-quantile plots)。

    b614f820672d9a056407abadea9ae9a6.png

    (log-log图)

    在双对数图上呈现直线是必要的,但并没有足够的证据证明他们的幂律关系,直线的斜率就对应于幂律指数。

    另一种更强大的图形检验法是利用bundles of residual quantile functions 残余分位函数束 。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。

    帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数(也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。

    561fbd5142e05125fa34c42b44bc7a34.png

    帕累托分布 | 来源:

    另一种检验幂律概率分布的方法是平均剩余寿命图,它包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第 i 阶统计量进行比较绘制,从i = 1, ..., n,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为 Hill horror plots 。

    08af66e0e044fe6d896397622865e111.png

    Hill horror plots | 来源:

    双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法必须要谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 | 进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例已经发表。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据。

    7ea3452bf29f63d65fb0802e59b1182f.png

    log-log Graph 双对数曲线图 | 来源:

    不过,目前已经提出了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于残差分位函数(RQF)(也称为残差百分位函数) ,它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验。

    绘制幂律分布

    (Plotting power-law distributions)

    一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过(互补)累积分布函数(cumulativedistribution function,缩写为cdf)说明:

    159b1d81ae5a435e0a64db68787beea9.png

    累积分布函数 | 来源:

    0f05aed723b196ce85689e63794082fd.png

    注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列的观察值,再将它们与矢量对应。

    尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。

    虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于pdf(概率密度函数),但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。

    从经验数据估计指数

    有许多方法可以估算幂律尾部的标度指数值,但并非所有方法都能产生无偏且一致的结果。一些最可靠的技术通常基于最大似然估计。替代方法通常基于双对数概率,双对数累积分布函数或对数分组数据进行线性回归,但是,应该避免这些方法,因为它们都可能导致对标度系数的具有显著偏误的估计。

    关于这些方法,以及能够使用它们的条件,可以进一步发现,这篇文章全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。

    详细代码如下:

    # coding: utf-8

    # # 用numpy生成0,1之间的幂律分布

    # ### 概率密度函数为

    # f(x) = a*x^(a-1)

    # 采样数量

    samples = 10000

    s = np.random.power(a, samples)

    # 绘图展示结果

    import matplotlib.pyplot as plt

    count, bins, ignored = plt.hist(s, bins=50)

    x = np.linspace(0, 1, 100)

    y = a*x**(a-1.)

    normed_y = samples*np.diff(bins)[0]*y

    plt.plot(x, normed_y)

    # # 使用原生方法生成0,1之间的幂律分布

    import math

    # 分布函数的反函数

    def rev(x,a):

    return math.exp(math.log(x) / a)

    # 生成分布

    for i in range(samples):

    s1.append(rev(np.random.uniform(0,1),a))

    count, bins, ignored = plt.hist(s1,bins=50)

    x = np.linspace(0, 1, 100)

    y = a*x**(a-1.)

    normed_y = samples*np.diff(bins)[0]*y

    plt.plot(x, normed_y)

    # # 线性拟合生成结果

    # 统计不同区间的数据数量

    divide_num = 100

    ys = np.zeros(divide_num)

    xs = np.linspace(0,1,divide_num)

    for i in range(len(s)):

    ys[int(s[i] * 100)] += 1

    # 使用sklearn包中的回归工具

    from sklearn import linear_model

    x_log = np.log(xs)

    #线性拟合数据准备

    for x ,y in zip(x_log[1:],y_log[1:]):

    X_para.append([float(x)])

    Y_para.append(float(y))

    # 使用sklearn的线性拟合函数进行拟合

    regr = linear_model.LinearRegression()

    regr.fit(X_para, Y_para)

    plt.title("fit the log data")

    plt.scatter(x_log,y_log,color ="black")

    plt.plot(X_para, regr.predict(X_para),color='blue',linewidth=3)

    通过R函数估计指数, 并绘制双对数数据拟合线:

    详细代码如下:

    pwrdist

    # u is vector of event counts, e.g. how many

    # crimes was a given perpetrator charged for by the police

    fx

    i

    y

    y[i]

    m0

    print(summary(m0))

    paste("s=",round(m0$coef[2],2),"lambda=",sum(u),"/",length(u))

    plot(i,fx,log="xy",xlab="x",sub=sub,ylab="counts",...)

    lines(1:max(i),(fitted(m0)),type="b")

    如果你有更好的代码,欢迎贡献到集智百科上,或者联系我们,成为我们的志愿者!

    来源:集智百科

    %E5%B9%82%E5%BE%8B%E5%88%86%E5%B8%83&variant=zh-hans

    编辑:孟婕

    推荐阅读

    推荐课程

    ff1430824da8b3aac936a12249e881bf.gif

    加入“没有围墙的研究所”

    让苹果砸得更猛烈些吧!

    展开全文
  • 复杂网络幂律分布

    2014-05-01 21:02:34
    学习复杂网络时,设计到幂律分布问题,计算幂律分布的有效代码,可运行
  • 幂律分布_百度百科

    2019-10-05 23:35:12
    幂律分布_百度百科 幂律分布_百度百科 幂律分布 编辑 自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算...

    幂律分布_百度百科

        幂律分布
        编辑
        自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。
        目录

            1示例
            ▪泊松分布
            ▪长尾分布

            2应用

        1示例编辑
        泊松分布
        自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小. 比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70m左右. 当然,地域不同这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10cm的“小矮人”,或高于10m的“巨人”. 如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线,这种曲线两边衰减得极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为泊松分布。另外一个我们要注意的是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录,世界上最高的人与最矮的人(均已去世)的身高分别是2. 72m和0. 57m,二者之比为4. 8,这个数值并不是很大,我们将在下文中证实。
        对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级. 比如根据世界银行的统计,最富有的国家—美国,其2003年GDP高达10, 881, 609, 000, 000美元(一个天文数字) ,而数据显示同年GDP最低的国家—西非岛国圣多美和普林西比,只有54, 000, 000美元,二者之比高达201511. 3. 个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了. 国家或城市人口的分布也会出现类似的情形. 据世界银行的统计, 2003年人口最多的国家—中国,总人口数多达1, 288, 400,000,而数据显示同年人口最少的国家—西太平洋上的帕劳群岛,人口数仅为20, 000 (不及中国一个普通县城的人口数) ,二者之比有64420之多。
        长尾分布
        以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线 ,它与钟形的泊松分布曲线有显著的不同. 这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有224个国家和地区,只有11个国家的人口数超过一亿。
        对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者.1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系: P ( r) ~r-α ,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用. 实际上,包括汉语在内的许多国家的语言都有这种特点. 物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”. 分形几何学的创始人Mandelbrot对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。
        19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。
        Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其他形式的幂律分布,像名次- 规模分布、规模- 概率分布,这四种形式在数学上是等价的,其通式可写成y = cx - r ,其中x, y是正的随机变量,c, r均为大于零的常数. 这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大. 对上式两边取对数,可知lny与lnx满足线性关系lny= lnc - rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。
        判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。
        2应用编辑
        实际上,幂律分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样. 在自然界与日常生活中,包括地震规模大小的分布 (古登堡2里希特定律) 、月球表面上月坑直径的分布、行星间碎片大小的分布 、太阳耀斑强度的分布 、计算机文件大小的分布 、战争规模的分布 、人类语言中单词频率的分布 、大多数国家姓氏的分布 、科学家撰写的论文数的分布、论文被引用的次数的分布、网页被点击次数的分布 、书籍及唱片的销售册数或张数的分布、每类生物中物种数的分布、甚至电影所获得的奥斯卡奖项数的分布等,都是典型的幂律分布。
    posted on 2014-02-11 10:21 lexus 阅读(...) 评论(...) 编辑 收藏

    转载于:https://www.cnblogs.com/lexus/p/3543912.html

    展开全文
  • 首先,采用统计分析的方法对电力数据中的用电量、售电量和发电量几个核心指标在地域上的分布规律进行统计分析,经验证,这些指标不符合正态分布,并且得到其幂律分布特性;然后,验证了细分行业的用电量符合对数正态...
  • 收集的问题:如何用matlab来拟合幂律分布,怎样将拟合值和实际值进行对比,放在一个图中,又如何检验实际数据是否符合拟合函数。如果不符合,如何来直接判断实际数据服从什么样的函数分布呢在MATLAB里,对数据进行...
  • 幂律分布公式: 对公式两边同时取以10为底的对数: 所以对于幂律公式,对X,Y取对数后,在坐标轴上为线性方程。 2、可视化 从图形上来说,幂律分布及其拟合效果: 对X轴与Y轴取以10为底的对数。效果上就是X轴...
  • 通信是一类重要的人类行为,通过对中国名人的书信时间进行统计分析,建立写信间隔时间所服从的漂移幂律分布模型,确定了漂移幂律分布和齐普夫定律的参数。揭示出幂律特性在人类社会行为中的普适性,指出幂指数的不同...
  • 移动时延容忍网络中基于幂律分布的睡眠调度机制
  • 利用无标度网络的幂律分布特性对结构化P2P覆盖网进行改进,提出基于幂律分布的BAChord模型,利用节点的连接度和物理邻接度的信息,使覆盖网与物理拓扑结构之间能够达到一定程度的匹配,增加路由过程中发现连接短链的...
  • 这是一个用于进行大规模社交网络图绘制幂律分布曲线的python代码
  • 实证数据的幂律分布matlab程序

    热门讨论 2011-07-17 18:58:40
    实证数据的幂律分布,使用matlab拟合幂律分布,并且提供下载资源
  • 复杂网络的群落结构...通过与随机热化后的网络进行比较,本文验证了集团度的幂律分布是独立于幕律度分布之外的真实网络新的统计特性。另外,随着所统计的集团阶数的上升,其相应的集团度分布的幕律指数呈现下降的趋势。
  • 基于机器学习的公交站间运行时间幂律分布分析
  • 论文研究-基于跳跃时间和幅度的BDI指数波动幂律分布特性研究.pdf, BDI指数是国际航运市场的风向标,摸清BDI指数波动幂律分布特性,对于进一步掌握运费规律、预测BDI趋势...
  • 在非广延统计理论框架下研究了非平衡态下的等离子体的输运系数,假设等离子体中的电子遵从非广延幂律分布,在此理论下得到用非广延参数q修正的输运系数,更便于研究等离子体的输运过程. 通过输运方程和在强磁场下...
  • 幂律分布(Power Law distruibition):  Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其他形式的幂律分布,像名次- 规模分布、规模- 概率分布,这四种形式在数学上是等价的,其通式可写成 ...
  • 对以微博为代表的新型虚拟社区...统计参与讨论的用户数并将统计数据进行分类汇总,建立对数坐标系,用matlab绘出的散点图验证了讨论数和话题数是一个常数次幂的反比关系,得出微博讨论数完全符合幂律分布规律的结论。
  • Matlab拟合幂律分布

    千次阅读 2019-03-12 21:24:57
    使用Matlab拟合幂律分布的两种方式: 一、编辑器输入 (1)新建matlab文件并输入对应的x,y变量(y为对应x值得概率) (2)点击运行后,右边工作区会显示对应x,y的变量 (3)点击菜单栏APP下的CurveFitting后...
  • <p>Clauset-Shalizi-Newman法进行幂律分布拟合,如何用KS检验计算出Xmin呀,以及后续的α值如何估计,烦请各位相助</p>
  • 幂律分布的参数估计方法及R实现

    千次阅读 2018-04-11 20:31:51
    幂律分布 幂律分布出现在许多自然以及人为的现象中,如城市的人口、地震的强度以及停电的影响范围等。但其检验及特征描述可能由于长尾部分的波动以及幂律分布适用的范围而变得复杂,常用的方法,如最小二乘拟合,在...
  • 1.幂律分布 首先要说的是中心极限定理——在复杂的多因素情况下,只要个体相互独立,集体效果就应该是正态分布。然而实际运用中,尤其是金融中,更多面对的是尖峰胖尾现象,比如下面这幅图描述的是标普500指数的收益...
  • 因此,提出了基于机器学习技术公交站间运行时间幂律分布的分析;运用分站算法对城市公交进行分站,获得公交车在相邻两站的运行时间;并且对时间间隔数据进行了线性拟合.运用南方某城市和北方某城市的两个数据集,...
  • 用于拟合幂律分布的Matlab代码 randht.m随机数生成器。 此函数根据文章中讨论的五个分布之一(幂定律,指数,对数正态,拉伸指数和具有截止的幂定律)生成随机分布的连续值。 使用信息包含在文件中; 在Matlab提示符...
  • 自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。近年来,借助于有效的物理和数学工具,及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。...
  • 数理统计10.15 | 幂律分布定义示例幂律与“长尾”克莱伯定律(Kleiber's Law)Zipf定律:书籍中单词频率的分布Pareto定律(帕累托定律)性质标度不变性 (Scale invariance)缺失完备定义的均值 (Lack of well-...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 561
精华内容 224
关键字:

幂律分布