精华内容
下载资源
问答
  • 基尼系数

    2018-07-11 19:51:00
    基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。[1] 基尼指数通常把0.4作为收入分配差距的“警戒线”,根据黄金分割律,其...

    基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。 [1]

    基尼指数通常把0.4作为收入分配差距的“警戒线”,根据黄金分割律,其准确值应为0.382。一般发达国家的基尼指数在0.24到0.36之间,美国偏高,为0.45 [6]  。中国国家统计局基尼公布基尼系数2012年为0.474,2013年为0.473,2014年为0.469,2015年为0.462,2016年为0.465,根据西南财经大学教授甘犁主持,西南财经大学中国家庭金融调研中心发布统计报告称 [7] 2010年为0.61,

    转载于:https://www.cnblogs.com/kakaisgood/p/9296405.html

    展开全文
  • 决策树的基尼系数计算过程1、基尼指数的计算在介绍具体的计算之前,先从一个例子入手吧。先看看下面这个数据,我们需要通过前三列的特征来推断出最后一列是yes,no1、数据Chest PainGood Blood CirculationBlocked ...

    决策树的基尼系数计算过程

    1、基尼指数的计算

    在介绍具体的计算之前,先从一个例子入手吧。

    先看看下面这个数据,我们需要通过前三列的特征来推断出最后一列是yes,no

    1、数据

    Chest Pain

    Good Blood Circulation

    Blocked Arteries

    Heart Disease

    No

    No

    No

    No

    Yes

    Yes

    Yes

    Yes

    Yes

    Yes

    No

    No

    Yes

    No

    ???

    Yes

    etc…

    etc…

    etc…

    etc…

    2、统计

    Chest Pain

    true

    Heart Disease

    Yes:105

    No:39

    false

    Heart Disease

    Yes:34

    No:125

    Good Blood Circulation

    true

    Heart Disease

    Yes:37

    No:127

    false

    Heart Disease

    Yes:100

    No:33

    Blocked Arteries

    true

    Heart Disease

    Yes:92

    No:31

    false

    Heart Disease

    Yes:45

    No:129

    在统计数据的时候,若遇见缺失值,最简单的办法就是先跳过这个缺失值

    从统计的数据可以看出,在某一特征的条件下,无论是true或者false都有患有Heart Disease的人,同时也都有健康的人。且这两个分布是不同,有的true中患有Heart Disease的多一些,有的false中患有Heart Disease的多一些,则就要引出另一个概念—纯度。刚刚将的那种情况其实就是不纯的,那么我们接下来的操作就是对其不断的提纯。

    接下来引出基尼指数的概念:基尼指数遵循最小的准则,计算得到的基尼指数越小,则越纯。接下来则以该特征作为决策树的一个分支。但若当前节点的基尼指数小于待划分节点的基尼指数时,则不需要划分。

    3、基尼指数的基本公式

    Single_gini = 1 − ( a a + b ) 2 − ( b a + b ) 2 1-(\dfrac{a}{a+b})^2-(\dfrac{b}{a+b})^21−(a+ba​)2−(a+bb​)2

    Gini_Index = Single_gini_true * a + b a + b + c + d \dfrac{a+b}{a+b+c+d}a+b+c+da+b​ + Single_gini_false * c + d a + b + c + d \dfrac{c+d}{a+b+c+d}a+b+c+dc+d​

    4、上述例子的计算过程

    第一次分支

    Chest Pain

    Gini_index = 0.364

    Good Blood

    Gini_indx = 0.360

    Blocked Arteries

    Gini_index = 0.381

    有上面这些结果可知,我们第一次分叉应该选择Good Blood这个特征,因为前面我们提到,在同一情况下一个特征的基尼指数越小,其纯度也就越高,也就越具有代表性,分类的效果也就越好。上面三个例子相比较,我们应该选择Good Blood这个作为决策树的一个分支。

    第二次分支

    我们第一次是以Good Blood为分支的那么,假设选定该分支的true,那么其基尼指数,用上面的公式可以得到大概是0.35(false分支上的计算也是同理,这里我们只进行true分支上的基尼指数的计算)

    进行分支后我们对剩余的两个特征的值进行统计

    Chest Pain

    true

    Heart Disease

    Yes:13

    No:98

    false

    Heart Disease

    Yes:24

    No:29

    Blocked Arteries

    true

    Heart Disease

    Yes:24

    No:25

    false

    Heart Disease

    Yes:13

    No:102

    并在此基础上,我们进行第二次分支

    接下来来计算Chest Pain和Blocked Arteries这两类特征在Good Blood这类特征的分支下的基尼指数

    Chest Pain

    Gini_index = 0.3

    Blocked Arteries

    Gini_index = 0.29

    因为0.29<0.3<0.35,故我们选择Blocked Arteries作为 Good Blood的true分支下的一个分支节点

    第三次分支

    假设选定该分支的true,那么其基尼指数,用上面的公式可以得到大概是0.5

    进行分支后我们对剩余的特征的值进行统计

    Chest Pain

    true

    Heart Disease

    Yes:17

    No:3

    false

    Heart Disease

    Yes:7

    No:22

    并在此基础上,我们进行第三次分支

    接下来来计算Chest Pain这类特征在Blocked Arteries这类特征的分支下的基尼指数

    Chest Pain

    Gini_index = 0.33

    因为0.33<0.5,故我们选择Chest Pain作为Blocked Arteries的true分支下的一个分支节点

    但假如选定的分支是false,那么其基尼指数计算得到大概是0.2

    Chest Pain

    true

    Heart Disease

    Yes:7

    No:26

    false

    Heart Disease

    Yes:6

    No:76

    接下来来计算Chest Pain这类特征在Blocked Arteries这类特征的分支下的基尼指数

    Chest Pain

    Gini_index = 0.29

    因为0.29>0.2故该节点不需要分支,因为分支的目的是提纯,而提纯,则是选择使基尼指数变小的那个特征,而0.29>0.2基尼系数上升,没有达到提纯的目的,故不需要分支。

    学习视频:https://www.bilibili.com/video/BV17J411C7zZ?p=59

    展开全文
  • 基尼系数matlab代码

    2018-01-27 16:30:30
    基尼系数与洛伦兹曲线matlab实现代码,可通过该代码对洛伦兹曲线与基尼系数进行拟合
  • stata基尼系数算法

    2017-11-27 19:10:27
    基尼系数作为经济研究中一个重要指标,其计算用代码较为简便。这是用stata来计算基尼系数的指导说明,其中包括代码和数据。
  • 基尼系数分解和算法

    2018-09-15 07:15:03
    计算基尼系数,通过对于基尼系数的算法了解在各个计算环节
  • 洛伦茨曲线和基尼系数 1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计...

    洛伦茨曲线和基尼系数

    1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。

    image

    为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一个反映收入分配平等程度的指标,称为基尼系数(G)。在上图中,基尼系数定义为:

     Q                                                  式(1)

    当A为0时,基尼系数为0,表示收入分配绝对平等;当B为0时,基尼系数为1,表示收入分配绝对不平等。基尼系数在0~1之间,系数越大,表示越不均等,系数越小,表示越均等。

    基尼系数的计算方法详解

    式(1)虽然是一个极为简明的数学表达式,但它并不具有实际的可操作性。为了寻求具有可操作性的估算方法,自基尼提出基尼比率以来,许多经济学家和统计学家都进行了这方面的探索。主要有以下四种计算方法

    1.直接计算法

    直接计算法在基尼提出收入不平等的一种度量时,就已经给出了具体算法,而且这种算法并不依赖于洛伦茨曲线,它直接度量收入不平等的程度。定义

    2                          式(2)

    式中,△是基尼平均差,∣Yj-Yi∣是任何一对收入样本差的绝对值,n是样本容量,u是收入均值。定义

    3                                 式(3)

    将公式带入后可得到基尼系数的计算方法为:

    4                  式(4)

    直接计算法只涉及居民收入样本数据的算术运算,很多学者认为理论上看,只要不存在来源于样本数据方面的误差,就不存在产生误差的环节。

    2.拟合曲线法

    拟合曲线法计算基尼系数的思路是采用数学方法拟合出洛伦茨曲线,得出曲线的函数表达式,然后用积分法求出B的面积,计算基尼系数。通常是通过设定洛伦茨曲线方程,用回归的方法求出参数,再计算积分。例如,设定洛伦茨曲线的函数关系式为幂函数:
    5                                                                    式(5)

    根据选定的样本数据,用回归法求出洛伦茨曲线,例如,α=m,β=n.求积分

    6                                           式(6)

    计算

      式(7)

    拟合曲线法的在两个环节容易产生谬误:一是拟合洛伦茨曲线,得出函数表达式的过程中,可能产生误差;二是拟合出来的函数应该是可积的,否则就无法计算。

     

    7    式(7)

    拟合曲线法的在两个环节容易产生谬误:一是拟合洛伦茨曲线,得出函数表达式的过程中,可能产生误差;二是拟合出来的函数应该是可积的,否则就无法计算。

    3.分组计算法

    这种方法的思路有点类似用几何定义计算积分的方法,在X轴上寻找n个分点,将洛伦茨曲线下方的区域分成n部分,每部分用以直代曲的方法计算面积,然后加总求出面积。分点越多,就越准确,当分点达到无穷大时,则为精确计算。

    image

    假设分为n组,每组的收入为Yi,则每个部分P的面积为:

    8                    式(8)

    加总得到

    9            式(9)

    详细解答参看附件

    基尼系数案例

    基尼系数计算步骤:

    1、将已知样本数据(收入数值)在EXCEL表中按照从小到大自动排序,形成第一列数据,字段名称“收入排序”

    2、第二列数据字段名称设为“人数累计”,即从1开始逐个向下累加,每次累加1人

    3、第三列数据字段名称设为“收入累计”,使用EXCEL公式表示:

    本单元格数据=上单元格数据+同行的“收入排序”单元格数据

    4、第四列数据字段名称设为“人数百分比”,用同行的“人数累计”单元格数据除以人员总数

    5、第五列数据字段名称设为“收入百分比”,用同行的“收入累计”单元格数据除以收入总数

    6、第六列数据字段名称设为“梯形面积”,以S2为例,S2=1/2*(收入百分比1+收入百分比2)*(人数百分比2-人数百分比1),按照前述的计算原理编辑公式即可,通过以上步骤,最后将“梯形面积”字段的数值累加,即为前文所述的B面积

    7.用直角三角形面积(工资百分比*人数百分比)减去B面积即得A面积,则基尼系数可得。

     

    下面是基尼系数的测试案例,具体Excle公式参看附件

    image

     

    使用Python代码实现如下:

    #-*- coding:utf-8 -*-
    #!/usr/bin/python
    from scipy.integrate import odeint
    import numpy as np 
    from matplotlib import pyplot as pl 
    
    #解决matplotlib显示中文乱码问题
    pl.rcParams['font.sans-serif'] = ['SimHei']
    pl.rcParams['axes.unicode_minus'] = False
    fig, ax = pl.subplots()
    
    #计算基尼系数
    def Gini():
        # 计算数组累计值,从 0 开始
        wealths = [1.5, 2, 3.5, 10, 4.2, 2.1, 1.1, 2.2, 3.1, 5.1, 9.5, 9.7, 1.7, 2.3, 3.8, 1.7, 2.3, 5, 4.7, 2.3, 4.3, 12]
        cum_wealths = np.cumsum(sorted(np.append(wealths, 0)))
        # 取最后一个,也就是原数组的和
        sum_wealths = cum_wealths[-1]
        # 人数的累积占比
        xarray = np.array(range(0, len(cum_wealths))) / np.float(len(cum_wealths) - 1)
    
        # 均衡收入曲线
        upper = xarray
        # 收入累积占比
        yarray = cum_wealths / sum_wealths
        # 绘制基尼系数对应的洛伦兹曲线
        ax.plot(xarray, yarray)
        ax.plot(xarray, upper)
        ax.set_xlabel(u'人数累积占比')
        ax.set_ylabel(u'收入累积占比')
        pl.show()
        # 计算曲线下面积的通用方法
        B = np.trapz(yarray, x=xarray)
        # 总面积 0.5
        A = 0.5 - B
        G = A / (A + B)
        return G
    
    a=Gini()
    print(a)

     

    运行结果为:

    Figure_1

    计算结果为:0.370254081731

    转载于:https://www.cnblogs.com/OliverQin/p/8649605.html

    展开全文
  • 基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。 收入基尼系数 其具体含义是指,在全部居民收入中,用于进行不平均分配的那...

    基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高

    收入基尼系数

    其具体含义是指,在全部居民收入中,用于进行不平均分配的那部分收入所占的比例。基尼系数最大为“1”,最小等于“0”。前者表示居民之间的收入分配绝对不平均,即100%的收入被一个单位的人全部占有了;而后者则表示居民之间的收入分配绝对平均,即人与人之间收入完全平等,没有任何差异。但这两种情况只是在理论上的绝对化形式,在实际生活中一般不会出现。因此,基尼系数的实际数值只能介于0~1之间,基尼系数越小收入分配越平均,基尼系数越大收入分配越不平均。国际上通常把0.4作为贫富差距的警戒线,大于这一数值容易出现社会动荡。
    推导:
    基尼指数( Gini Index )是20世纪初经济学家基尼定义的指标,最为知名的应用是考察居民收入的差异情况。
    居民收入的情况符合幂指函数( Power Law )分布,最直观(但非准确)的理解就是 80/20 原则,也就是 20%的人拥有了 80% 的人的财富。用公式表示就是
    描述了是收入靠后 %x 的人所拥有的收入总和占所有人收入总和的比例 f(x) 的关系。
    幂指函数还有很多非常牛逼的应用,比如如果将单词出现的频率按照由高到低排列,则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比。

    由于一本《长尾理论》的出现,在互联网领域幂指分布也叫长尾分布,因为大概最热门的 20% 的商品占据了用户购买商品数的 80% 。我们将物品按照热门程度从低到高排列,那么下图中的曲线表示最不热门的 x% 物品的总流行度占系统的比例 y% 。这条曲线肯定是在 y=x曲线之下的,而且和 y=x 曲线相交在(0,0) 和 (1,1)。

    计算

    基尼系数的计算公式为  ,也就是说,当收入很平均时,曲线接近于直线, A 的面积趋于0 ,基尼系统也趋于 0 。

    下面推导公式:


    关键是求 S(B) ,把B 分成从 1到 n 一共n 个小梯形,梯形的底为  和 ,高为 1/n,而 为0 , 为 1,则:

    可得基尼系数为:
     
    见原文!!!
     
    from:https://blog.csdn.net/ffmpeg4976/article/details/44543111  

     
     

    转载于:https://www.cnblogs.com/bonelee/p/10044385.html

    展开全文
  • 决策树:什么是基尼系数 在我翻译学习这篇Random Forests for Complete Beginners的时候,对基尼系数和它相关的一些中文表达充满了疑问,查了一些资料以后,完成了这篇文章。其中基尼杂质系数的计算和解释参考了A ...
  • 区位基尼系数

    2020-12-04 20:50:06
    区域经济研究中,经常需要测度产业空间集中的程度,常用的指标有区位基尼系数(Locational GiniCoefficient)、泰尔指数(Theil Index)和EG指数等。这一期先讲区位基尼系数的计算方法及其实现函数,后几期再陆续...
  • 2.25基尼系数

    2020-02-25 15:06:30
    基尼系数代表不确定性,不确定越多,基尼系数越大 rf gbd svn bagging boosting xgboost 由内往外代入公式 连续型数据的拟合回归树 集成学习 bagging原理 多个策略不同的弱学习器 结果展现...
  • 区域经济研究中,经常需要测度产业空间集中的程度,常用的指标有区位基尼系数(Locational GiniCoefficient)、泰尔指数(Theil Index)和EG指数等。这一期先讲区位基尼系数的计算方法及其实现函数,后几期再陆续介绍...
  • 83-基尼系数

    2020-10-23 16:00:04
    基尼系数      上一篇博客主要使用信息熵这样的方式对决策树每一个节点上相应的数据进行一个划分,然后一点一点构建出一颗决策树来。其实我们还可以使用另外一个指标对我们的决策树每个节点的数据进行划分,这个...
  • 基尼系数直接计算

    2020-11-07 11:20:14
    关于基尼系数。老师说计算公式还有更直接的,只需给出一组数,就可以计算它们的基尼系数。已毕业的同学曾找到有这个程序。 大佬求帮忙
  • 基于GIS的基尼系数动态计算方法研究,杨鑫,李志建,基尼系数的应用越来越广泛,对其快速计算的方法改进成为一个重要问题。传统的基于数据库计算基尼系数的方法因其选择评价范围及指
  • 基尼系数的计算与分解方法比较分析,赵光华,,:基尼系数的计算方法,比较有代表性的方法有直接计算法、回归曲线法、等分法和人口分组法等;基尼系数分解方法有人口分组分解法

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 710
精华内容 284
关键字:

基尼系数