精华内容
下载资源
问答
  • 洛伦兹曲线

    千次阅读 2019-05-22 16:28:12
    洛伦兹曲线是公平性评价指标,具体含义我就不解释了,我在学习的时候,怎么都理解不了洛伦兹曲线到底是如何画的,直到我遇见下面这段话和这两张图: 来源于https://blog.csdn.net/dog250/article/details/79427812 ...

    洛伦兹曲线是公平性评价指标,具体含义我就不解释了,我在学习的时候,怎么都理解不了洛伦兹曲线到底是如何画的,直到我遇见下面这段话和这两张图:

    来源于https://blog.csdn.net/dog250/article/details/79427812

    什么是洛伦兹曲线?我通过社会财富分配的例子用自己的语言先简单描述一下。

    • 第一,画出横坐标。让参与财富分配的人按照自己收入从低到高依次从左到右等距排队;
      这里写图片描述
    • 第二,画出纵坐标。横坐标任意区间对应的那部分人在纵坐标对应区间表示他们的财富所占总财富的比例。

    这里写图片描述

    • 第三,描点。把所有的散点描入基于上面两步建立的坐标系中,用平滑曲线将它们相连,这就是洛伦兹曲线。

    这里写图片描述

    展开全文
  • 洛伦兹曲线是这种不等式的图形表示,它与基尼系数密切相关。 该程序易于使用。 请查阅文件中包含的帮助,以获取对这两个概念以及如何使用该程序的详细说明。 如果您喜欢它或觉得它有用,也请评论。
  • 为构造具有高拟合精度的洛伦兹曲线模型,提出两类基于三角函数的单参数洛伦兹曲线模型,进而通过对两类基本洛伦兹曲线的复合、加权积以及凸组合等方式构造一系列拓展洛伦兹曲线。实例研究表明,Pareto族曲线与三角...
  • 基尼系数、地理集中指数和洛伦兹曲线作图方法,只需要您改数据,公式已写好,一次生成,一颗最真诚的心,助您文章快速完成。
  • 洛伦兹曲线看财富分配的公平性

    千次阅读 2020-03-15 12:21:40
    读了篇自己很早以前的写的一篇文章,学到了不少,然而和最近的一些新想法相冲突,所以本文先抽象简化之前那篇,最后加上浙江温州那段,后面有...洛伦兹曲线 可以帮助人们在一幅图中看清楚社会财富的分配情况。 第...

    读了篇自己很早以前的写的一篇文章,学到了不少,然而和最近的一些新想法相冲突,所以本文先抽象简化之前那篇,最后加上浙江温州那段,后面有时间再写关于多维填充导致的尺度不变性的解释,也就是幂律的终极根源。

    原文参见:
    https://blog.csdn.net/dog250/article/details/79427812


    洛伦兹曲线

    洛伦兹曲线 可以帮助人们在一幅图中看清楚社会财富的分配情况。

    • 第1步,画出横坐标。让参与财富分配的人按照自己收入从低到高依次从左到右等距排队:
      这里写图片描述
    • 第2步,画出纵坐标。横坐标任意区间对应的那部分人在纵坐标对应区间表示他们的财富所占总财富的比例:

    这里写图片描述

    • 第3步,描点。把所有的散点描入基于上面两步建立的坐标系中,用平滑曲线将它们相连:

    这里写图片描述
    这就是洛伦兹曲线。

    接下来我们来看洛伦兹曲线的一些性质以及一些更为细节的东西:

    这里写图片描述


    洛伦兹曲线的性质

    由于洛伦兹曲线的横坐标表示的人口是按照收入从低到高排队的,曲线的斜率正是该点所对应人口的 收入绝对值 ,由于横坐标是排序的,所以我们得出一个性质:

    洛伦兹曲线一定是下凸的,随着横坐标增加,其对应点的斜率单调递增

    另外,横坐标上的点到原点的距离表示的是积累人口,把所有人口作为 单位1 并取百分比的话,横坐标的做大标度就是1,而纵坐标表示财富百分比,它的最大标度自然就是1,也就是100%,因此,有第二个性质:

    洛伦兹曲线被围在 ( 0 , 0 ) (0,0) (0,0) ( 100 % , 0 ) (100\%,0) (100%,0) ( 100 % , 100 % ) (100\%,100\%) (100%,100%) ( 0 , 100 % ) (0,100\%) (0,100%)这个四方块中。

    有了上面的性质,我们看看都能得到什么结论。


    所有人收入都一样的情况

    所有人收入都一样的时候,洛伦兹曲线是一条直线,只有直线的斜率不会变化:
    这里写图片描述
    该直线的方程是:
    y = x y=x y=x

    正态分布的情况

    正态分布的意思是,巨穷和巨富都很少,大部分人收入都差不多,假设有1000人,其中2人巨穷,收入只有10元,2人巨富,收入有100元,其余所有人收入都是50元,这就是一个正态分布:
    这里写图片描述
    我们把它的洛伦兹曲线大致画出来。注意,由于本例中只有3种收入,不存在渐变,所以洛伦兹曲线应该由3段线端构成:
    这里写图片描述
    实际的正态分布并不是这样,它看起来是下面的样子:
    这里写图片描述
    它是自相似的,也就是从下到上随意截取局部,其结果均是一个新的正态分布:
    这里写图片描述
    因此,洛伦兹曲线也可以用相似的方式画出:
    这里写图片描述
    其实就是不断的放大局部并细化,类似分形。

    幂律的情况

    现在该看幂律了。这也是我们的重点。

    幂律的结论是 一小撮人占据了巨量的财富。让我们在洛伦兹曲线上看一下:
    这里写图片描述
    这里很容易看出马太效应。

    马太效应说的是仅拥有少量富人却占据了大量财富,显然不公平就是那些个少量富人引起的,但是反过来,不公平能不能是少量穷人引起的呢?或者不公平会不会是大量穷人引起的呢?

    少量穷人或者大量穷人

    ***穷***和***富***是一对反义词,既然少量的巨富能引起所谓的不公平,那么少量的穷人会不会有同样的效果呢?让我们画出洛伦兹曲线:
    这里写图片描述
    可见,如果只有少量的穷人,不会引起不公平,在社会财富总量一定的情况下,在洛伦兹曲线被完全公平线围住的情况下,意味着中产阶级的收入不会高出平均收入太多。

    那么,如果有巨量的穷人呢?我们再来看洛伦兹曲线:
    这里写图片描述
    情况完全不同。

    为什么在数学上以及在描述上完全对称的穷和富,在洛伦兹曲线上会发生如此大的差异?

    因为 财富是在负熵 创造的。你的财富被平均导致了你穷,这是一件不需要 努力 的事,这是熵的自然增加,反过来,如果你想富就必须采取行动降低熵值。

    所以这里有个社会学的结论,如果你觉得不公平,十有八九是因为你自己,没有人可以空手套白狼。


    基尼指数

    基于洛伦兹曲线的***基尼指数*** ,是 资源分配不公平程度的定量度量。

    我们可以用 洛伦兹曲线偏离公平线的程度 来求出基尼指数,定量来讲,求出下列面积的比值即可:

    A A + B \dfrac{A}{A+B} A+BA
    这里写图片描述

    如果我们有洛伦兹曲线的方程式,那么就可以很容易用***定积分***来求出各部分面积,从而得到基尼指数的值。

    我们可以用很多数学方法来拟合出洛伦兹曲线。

    基尼指数的遗漏

    基尼指数只是一个标量数值,你能从这个值里得到不同的解释。

    显然,这个值是计算面积的比值得到的,还是以穷人与富人举例,我们看看下面的两条洛伦兹曲线:
    这里写图片描述
    很显然两条曲线所计算出的基尼指数是相同的,但二者的问题的原因却是相反的。

    从曲线1可以看出,问题的根源在于富人,而从曲线2可以看出,问题则是由于少数穷人导致的,虽然基尼指数相同,但是从洛伦兹曲线走向的差异可以指导相关的策略是对富人征税还是对穷人补贴,这二者的结果显然差异巨大。

    无论如何,上面的例子虽然看起来两条曲线的基尼指数是相同的,但是两条曲线总体看来 其基尼指数都不是太大

    如果基尼指数很大,我们必须将其归结成 一种原因 ,而 不能是两个相反的原因。

    不公平只能由一个原因引起

    由于完全公平线的存在,只要有穷人或者有富人,洛伦兹曲线就会往右往下被拉伸!

    往右拉伸增加了穷人的数量,往下拉伸增加了富人的财富!

    这确实是一个 正反馈 关系,这就是 穷者越穷,富者越富 的根源!这就是 马太效应

    这里给出一个收敛模型。

    先看下图,模型都在图里,注意两条关于

    y = − x + 1 y=-x+1 y=x+1

    对称的洛伦兹曲线(显然其基尼指数是相同的) 关键拐点(收入开始大于平均收入的点!) 之间的距离:
    这里写图片描述

    从图上可以看出,如果那两个黑点中的其中一个向着直线 y = − x + 1 y=-x+1 y=x+1靠近,关于其对称的另一条也会向其靠近,最终二者的收敛点就是在直线 y = − x + 1 y=-x+1 y=x+1上。

    接下来我们只需讨论 关键拐点在 y = − x + 1 y=-x+1 y=x+1上的情况就好了:
    这里写图片描述

    看来,用面积的比值计算而得到的基尼指数,真的可以直观地表示出不公平程度。

    现在的问题是,洛伦兹曲线能否提供一种 动力学的解释 ,让我们看到更加深刻的造就这条曲线的内在原因呢?

    就是说“巨大的不公平(即马太效应)到底是大量的穷人导致的呢,还是少量富人导致的呢?”,这就是在问:

    是大量的穷人造就了少量富人呢,还是少量富人引起了大量穷人的产生?

    诡异的因果轮回

    上节最后的提问,我相信大多数的回答是后者,或者情愿认为是后者,然而,我觉得恰恰相反,马太效应的根源在于 大量穷人的不努力 ,而不是 少量富人的努力

    • 不努力是个体行为,没有积累效应。
    • 努力具有积累效应,资本逐利。 (关于这一点,是尺度不变性导致的。)

    我就问下面两种平衡哪种更容易维持吧:
    这里写图片描述

    必然是第一个更容易维持平衡,因为 不需要费劲,这是一个负反馈,而第二个平衡如果想维持,必然要持续注入能量,这是一个正反馈。

    这非常好理解,你想穷的话,简单放松任其自然就好了,如果想富,就必然不断努力。

    假设一开始财富的分配是公平的,我们来看看事情如何演化:
    这里写图片描述
    曲线往右下方向拉伸,这是一个自然的趋势,因为每一个人都希望尽可能省力!这也是物理学上的真理。

    那么,为什么会有努力的人,大家难道不能一起松懈吗?

    这里的假设是基于正态分布统计的,假设大部分人都维持现状,然后少部分人松懈,少部分人努力一点点。但是要知道,这个正态分布只是一个瞬间量,因为 松懈毫不费力,致富需要努力 这个原因,松懈的人越来越多。

    但是 富人却不会越来越多,而是已经富的人会越来越富

    这是一个 一将功成万骨枯 的模型,而不是集体大生产的模型。

    这是为什么?

    因为起初致富的那一小戳人是起初松懈的那一小撮人造就的,然而他们却为自己增加了一点点 正能量 ,这可以让他们获取先机,显然,这是一个递归滚雪球的过程,这个过程可以定性地解释马太效应的成因。

    财富是一个低熵体,必然要注入能量而产生或者拥有,这是一个费力做功的过程。


    如果加上创新和revolution因素,洛伦兹曲线自身也会长高,因为新财富在不断被创造:
    这里写图片描述

    人口不变的情况下,总的财富会增加,当不公平程度达到极限时,总的财富就会被重新分配,然后整体上就会被动重新达到新的不公平极限。如此轮回!


    浙江温州皮鞋湿,下雨进水不会胖。

    展开全文
  • 洛伦兹曲线4.Gini系数5.Lift曲线和Gain曲线6.总结 关于AUC、KS评价指标、洛伦兹曲线、Gini系数、Lift曲线和Gain曲线。在别人的博客里看到下面的一个小故事: 故事是这样的: ​ 首先,混淆矩阵是个元老,年龄最大...


    关于AUC、KS评价指标、洛伦兹曲线、Gini系数、Lift曲线和Gain曲线。在别人的博客里看到下面的一个小故事:

    故事是这样的:

    ​ 首先,混淆矩阵是个元老,年龄最大也资历最老。创建了两个帮派,一个夫妻帮,一个阶级帮。

    ​ 之后,夫妻帮里面是夫妻两个,一个Lift曲线,一个Gain曲线,两个人不分高低,共用一个横轴。

    ​ 再次,阶级帮里面就比较混乱。

    ​ 1.帮主是ROC曲线。

    ​ 2.副帮主是KS曲线,AUC面积。

    ​ 3.AUC养了一个小弟,叫GINI系数。

    1.AUC

    ​ AUC为ROC曲线下的面积,用于作为二分类模型的评价指标。

    ​ 要理解AUC,首先得明白混淆矩阵。

    1.1.混淆矩阵

    ​ 混淆矩阵如下:

    1(真)0(假)
    1(阳)TP(真阳)FP(伪阳)
    0(阴)FN(伪阴)TN(真阴)

    ​ 真阳率(召回率) T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP,表示的是,所有真实类别为1的样本中,预测类别为1的比例。TPR越大,表示越有可能是对的。

    ​ 伪阳率 F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP,表示的是,所有真实类别为0的样本中,预测类别为1的比例。

    1.2.ROC曲线

    ​ 横轴为FPR,纵轴为TPR。目的是希望FPR尽可能小,TPR尽可能大。

    ​ 画出来的图一般如下图所示:
    ROC曲线
    ​ 通过模型预测得到各样本的预测值(如0.6、0.7等),则通过选择归于正类的阈值来判断各个样本的类别,之后则可以计算对应的TPR和FPR。常常将得到的各个样本值对应的预测值作为阈值,并计算对应的TPR和FPR。之后将得到的各点与(0,0)和(1,1)相连,则得到了ROC曲线。之后,计算ROC曲线下的面积则有AUC值。

    1.3.关于AUC值

    ​ AUC值在[0.5,1]中,0.5代表模型并无分类效果。若小于0.5则表示还不如随机猜测,但是此时如若反向预测,则得到的模型优于随机猜测。AUC值越高越好。

    ​ 此外,AUC值相比于准确率这一指标好的优势在于对数据不平衡的数据集构建的模型有更好的评价意义。

    ​ 例:在反欺诈场景中,0占99.9%,1占0.1%。若此时有个模型将样本全预测为0,则准确率为99.9%。虽然看起来拥有很高的准确率,但全预测为0无异于瞎猜,这样的模型并没有实际的区分能力。而当我们计算这个模型的AUC值时,就会发现,该模型的AUC值为0.5,表示并没有分类能力。这就是AUC的优势😉

    2.KS评价指标

    ​ 通过衡量好坏样本的累计分布的差值来评估模型的风险区分能力。

    ​ 定义: K S = M A X ( T P R − F P R ) KS=MAX(TPR-FPR) KS=MAX(TPRFPR)

    ​ KS与AUC均使用TPR、FPR两个指标,区别在于:

    • KS取的是TPR与FPR的差的max,可通过此找到最优阈值;

    • AUC评价的是模型整体的效果,并没给出好的切分阈值。

      得到KS曲线如下图所示:
      KS曲线
      前期TPR提升越快,模型效果越好。

      KS取值范围模型效果
      KS<0.2无区分能力
      0.2≤KS<0.3模型具有一定区分能力,勉强可以接受
      0.3≤KS<0.5模型有较强区分能力
      0.5≤KS<0.75模型具有很强区分能力
      0.75≤KS模型可能有异常(效果太好,以至于可能有问题)

    3.洛伦兹曲线

    ​ 曲线纵轴:违约数占违约总量百分比的累计值,即TPR。

    ​ 曲线横轴:被拒绝申请的百分比, F P + T P F P + T N + F N + T P \frac{FP+TP}{FP+TN+FN+TP} FP+TN+FN+TPFP+TP。可理解为选择的阈值。

    ​ 画出来的可能的图为:
    洛伦兹曲线1或者洛伦兹曲线2
    ​ 当情况中坏样本很少时,即TP与FN均较小时,有下式:

    F P + T P F P + T N + F N + T P ≈ F P F P + T N \frac{FP+TP}{FP+TN+FN+TP}\approx\frac{FP}{FP+TN} FP+TN+FN+TPFP+TPFP+TNFP,右边即为FPR

    ​ 此时,洛伦兹曲线与ROC曲线基本一致。

    4.Gini系数

    ​ 衡量坏账户数在好账户数上的累积分布与随机分布曲线之间的面积。

    ​ 定义:绝对公平线(y=x)与洛伦兹曲线围成的面积与绝对公平线以下面积的比例。

    ​ 若为上方的左图情况,则对应的 G i n i = A A + B Gini=\frac{A}{A+B} Gini=A+BA

    ​ 若为上方的右图情况,则对应的 G i n i = A C = A A + B Gini=\frac{A}{C}=\frac{A}{A+B} Gini=CA=A+BA

    当洛伦兹曲线与ROC曲线重合或近似一致时,此时画出来的图类似于上方右图,

    ​ 有 G i n i = A A + B = A U C − C 0.5 = A U C − 0.5 0.5 Gini=\frac{A}{A+B}=\frac{AUC-C}{0.5}=\frac{AUC-0.5}{0.5} Gini=A+BA=0.5AUCC=0.5AUC0.5

    ⇒ G i n i = 2 ∗ A U C − 1 \Rightarrow Gini=2*AUC-1 Gini=2AUC1

    ​ 需要注意的是,此时洛伦兹曲线与ROC曲线重合或者近似一致时才成立。若因实际情况中坏样本较多,导致洛伦兹曲线与ROC曲线并不近似,则需按上方所述定义计算Gini系数。

    5.Lift曲线和Gain曲线

    5.1.Lift曲线

    ​ Lift曲线表示的是相较于不利用模型时模型的提升指数。衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,以1为界线,大于1的Lift表示该模型或规则比随机选择捕捉了更多的“响应”。

    L i f t = T P T P + F P T P + F N T P + F P + F N + T N = T P T P + F P P P + N Lift=\frac{\frac{TP}{TP+FP}}{\frac{TP+FN}{TP+FP+FN+TN}}=\frac{\frac{TP}{TP+FP}}{\frac{P}{P+N}} Lift=TP+FP+FN+TNTP+FNTP+FPTP=P+NPTP+FPTP

    ​ 其中,分母表示的是不使用任何模型;分子则表示的是预测为正例的样本中的真实正例的比例。

    例如(此处是对上方求解lift的式子进行解释):

    ​ 若经验告诉我们10000个借款人中有1000个是逾期的,则我们向这10000个借款人借款的逾期率是10%。P / (P + N) = 10%。通过对这10000个借款人进行研究,建立模型进行分类,我们得到预计可能逾期的1000个借款人,TP + FP = 1000。但此时这1000个借款人中有300个是真的逾期了的,TP = 300,则此时的命中率TP / (TP + FP)为30%。

    ​ 此时,我们的提升值lift = 30% / 10% = 3,模型找到逾期人员的效果提升至原先(无模型)的三倍。

    再例如(此处是对参考资料[1]中通过贝叶斯推导得到的lift的式子进行解释):

    ​ 以信用评分卡模型的评分结果为例,通常会将打分后的样本按分数从低到高排序(这句与“预测为正例的样本从大到小排序”、“预测为负例的样本从小到大排序”含义相同),取10等分或20等分或 x 等分(有同分数对应多条观测的情况,所以各组观测数未必完全相等),并对组内观测数与坏样本数进行统计。

    ​ 用评分卡模型捕捉到的坏客户的占比,可由该组坏样本数除以总的坏样本数计算得出;而不使用此评分卡,以随机选择的方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例。对两者取累计值,取其比值,则得到提升度Lift,即该评分卡抓取坏客户的能力是随机选择的多少倍。

    ​ 下表是一个提升表(Lift Table)的示例(对应上方的第二个例如):

    Lift表

    ​ 注意lift是由倒数第三列 / 倒数第二列得到,原因是在每个十分位数描点时,对于lift来说,需要计算的是小于等于这个十分位数时的情况。

    ​ 比如第一行,此时将0.1作为随机判断的阈值,则对于随机判断,判断得到坏样本的比例则为10%,对于模型,则判断得到坏样本的比例占比为20 / 55 = 36%;

    ​ 对于第二行,此时将0.2作为随机判断的阈值,则对于随机判断,判断得到坏样本的比例则为20%,对于模型,则判断得到坏样本的比例占比为(20 + 10) / 55 = 54%,以此类推。

    ​ 以分数段(此处为各个十分位数)为横轴,以提升度为纵轴,可绘制出提升图,示例如下:

    lift曲线

    ​ Lift曲线图,当在很高的提升值上保持一段后,迅速下降至1时,表示模型较好。(为什么呢?)

    ​ (我觉得是这样的。以上方所述信用评分卡模型(假设评分卡得分为300-900)代入,这种情况表明,在前一部分(用户信用评分较低时,比如300-550)时,提升值较高则表示模型比之于无模型的时候有更好的效果。而如若一旦过了某个点(比如600),迅速下降到1,则表明该阈值下有无模型差别不大了。因此当模型有这种情况时,模型较好。优点总结为:

    • 迅速下降的位置可以指导我们选择作为是否放贷的标准;
    • 在信用评分较低的区间这一段保持较高的提升值,说明,在信用评分较低的区间,模型能够比无模型更能找出不良用户,且提升值还不错。)

    5.2.Gain曲线

    ​ Gain曲线是整体精准度的指标。

    G a i n = T P T P + F P Gain=\frac{TP}{TP+FP} Gain=TP+FPTP

    ​ 根据预测为正例的样本从大到小排序,依次选取截断点,计算Gain后绘图。(横轴为阈值)绘制出来的曲线图如下所示:

    Gain曲线

    ​ Gain曲线图,当蓝线快速上升至1时,表示模型较好。

    6.总结

    ​ 各个指标的总结如下所示:
    总结

    7.参考资料

    [1] https://www.cnblogs.com/dataxon/p/12538524.html#gainlift-chart

    [2] https://www.jianshu.com/p/ff0eb70d31ec

    [3] https://blog.csdn.net/Orange_Spotty_Cat/article/details/82425113

    以上只是自己查阅网上资料所作的学习总结,如若有说得不好的地方,也欢迎留言友善讨论。谢谢😉

    展开全文
  • 数据分析有时需要针对单变量进行数据描述,有时需要针对多变量之间的关系进行数据描述,洛伦兹曲线就是为描述多变量间关系而服务的。洛伦兹曲线即累计频数分布曲线,用于分析社会财富、土地、工资分配是否公平的问题...

           数据分析有时需要针对单变量进行数据描述,有时需要针对多变量之间的关系进行数据描述,洛伦兹曲线就是为描述多变量间关系而服务的。洛伦兹曲线即累计频数分布曲线,用于分析社会财富、土地、工资分配是否公平的问题。洛伦兹曲线不单可以表达收入分配,更多的是表达两个分布间的关联,可以理解为一个东西在另一个东西中分配的集中程度

          下面举一个例子来说明,利用收入将人口进行分组,共有两组,一个是人口组,一个是收入组。这里我不要密度函数,我列出的是分布函数,然后我计算出了人口累计占比、收入累计占比、绝对平等的累计收入占比以及绝对不平等的累计收入占比这四个指标,其中绝对平等的累计收入占比即完全依照人口占比进行分配的比例。然后依据如下标红的四个累计占比进行绘图,得到的就是洛伦兹曲线。

           解读洛伦兹曲线的方法就是利用GINI系数

          GINI系数可以用于任何一个表示均衡分配的分析之中,实际在市场的产品均衡度分析中会经常用到GINI系数这个指标。

          例如,超市洗发水大部分属于宝洁,其他的基本属于联合立白,可以理解为洗发水被保洁和联合立白所垄断,垄断即意味着不均等不均衡,即中国洗发水的基尼系数就会很高。再例如,在中国鸡精的品牌有太太乐、豪极,他们都属于雀巢,基本可以说中国的鸡精被雀巢所垄断,那么鸡精的GINI系数也非常的高。

           如下图,黄蓝线间的面积越小表示收入分配越平均。

           A=0时,A/(A+B)=0,则GINI系数为0,收入分配完全平等;

           B=0时,A/(A+B)=1,则GINI系数为1,收入分配绝对不平等。

           所以GINI系数可以取0-1之间的任意数值,一般GINI系数<0.2表示收入绝对平均,0.2<GINI系数<0.3表示比较平均,0.3<GINI系数<0.4表示相对合理,0.4<GINI系数<0.5表示收入差距较大,GINI系数>0.6表示收入差距悬殊。

           全世界北欧的基尼系数最低,收入分配最平等,北欧才是美国唯一承认的社会主义,中国官方的基尼系数是0.47,中国,还真算不上不算是社会主义~

    我的公众号:Data Analyst

    个人网站:https://www.datanalyst.net/

     

    展开全文
  • 用SPSS作洛伦兹曲线

    千次阅读 2020-10-25 18:49:47
    因为我要做城镇化率的洛伦兹曲线,所有要在【数据>个案加权】中进行数据加权,加权的好处在于它会让SPSS把个案当成一个数值而不是一串字符(应该)。 右键将城镇化率按升序排列,同时新插入
  • KS(洛伦兹曲线

    2020-11-03 21:06:29
    KS(洛伦兹曲线) KS(Kolmogorov-Smirnov)值越大,表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0,1] 通常来讲,KS>0.2即表示模型有较好的预测准确性。 ks求解方法: ks需要TPR和FPR两个值:...
  • 洛伦兹曲线(Lorenz curve)也叫提升图或收益曲线。 定义:洛伦兹曲线是一种显示经济体内收入(或财富)分布的方式。在经济学中,洛伦兹曲线是收入或财富分配的图形表示。它是由开发马克斯·劳伦茨在1905年代表不...
  • 分类评估指标之家族成员:ROC、AUC、Lift、Gain、Gini、KS、PR曲线、F1、洛伦兹曲线.pdf
  • 基于洛伦兹曲线和基尼系数对重庆市主要医疗卫生资源指标的公平性研究.pdf
  • ks(洛伦兹曲线)指标理解

    万次阅读 2018-04-20 16:39:49
    其中: TP:真实为1且预测为1的数目 FN:真实为1且预测为0的数目 FP:真实为0的且预测为1的数目 TN:真实为0的且预测为0的数目 一句话概括: KS曲线是两条线,其横轴是阈值,纵轴是TPR(上面那条)与FPR(下面那条)...
  • 洛伦兹曲线定性地看马太效应的根源
  • 不等式指标包:与洛伦兹曲线、泰尔和阿特金森指数相关的基尼系数。 更多参考: ...
  • 洛伦兹曲线(Lorenz curve)也叫提升图或收益曲线 提升图主要通过随机选择比较模型表现。 绿色曲线比黄色曲线更加不平衡 基尼系数=A/(A+B) A+B为正方形一半恒定面积,A区间面积越大,基尼系数越大 ...
  • 洛伦兹曲线来源于经济学,用于描述社会收入不均衡的现象。将收入降序排列,分别计算收入和人口的累积比例。 本文,我们研究收入和不平等。我们从一些模拟数据开始 > (income=sort(income)) [1] 19246 23764 ...
  • 关于AUC、KS评价指标、洛伦兹曲线、Gini系数、Lift曲线和Gain曲线。在别人的博客里看到下面的一个小故事: 故事是这样的(向善于总结的大佬致敬): ​ 首先,混淆矩阵是个元老,年龄最大也资历最老。创建了两个...
  • 数据框“global_df”的形式为: load("global_df.Rdata") load("bs_df.Rdata") library(ggplot2) library(gridExtra) p_g<-ggplot(data=global_df)+theme_bw()+theme( panel.grid =element_blank(), ...
  • %plot([0,1],[0,1],x1,y,['-']) plot(x1,x1,'b-.',x1,y,'*',x2,d,'-') title('洛伦兹曲线') xlabel('人口百分比累计'),ylabel('收入百分比累计') axis equal axis([0,1,0,1]) grid on %计算基尼系数 area1=trapz(x2...
  • 利用Mathematica 编制程序,应用lsqnonlin 非线性最小二乘拟合函数,求解模型参量,拟合出洛伦兹曲线,并对参考文献 中的10 个模型进行拟合。然后,采用均方误差 (MSE, mean squared error )的 方法,对新建的模型与...
  • https://zhuanlan.zhihu.com/p/76667156
  • 洛伦兹拟合

    2013-08-20 08:48:14
    很好用的洛伦兹曲线拟合的源代码,已经验证可以完全调通
  • 光谱曲线拟合,采用洛伦兹函数。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 563
精华内容 225
关键字:

洛伦兹曲线