精华内容
下载资源
问答
  • Gini API Ruby 客户端 资源 Gini API 概览: : Gini API 文档: : 问题跟踪器: : 安装 gem install gini-api 使用示例 一些代码片段来解释 API 客户端的用法。 请参阅文档以获取可用类和方法的完整列表。 初始...
  • Gini系数

    千次阅读 2019-06-02 19:41:46
    Gini系数 评价指标使用Gini系数:Gini=A/(A+B) 注:gini = 2*AUC-1

    Gini系数

    评价指标使用Gini系数:Gini=A/(A+B)

    gini系数
    注:gini = 2*AUC-1

    展开全文
  • Gini 系数

    千次阅读 2018-08-01 15:04:48
    Gini 系数: 某个节点的Gini不纯度计算: 比如,某节点A样本分属两类,C1:2, C2:4,则Gini(A) = 1 - (2/6)^2 - (4/6) ^2 = 0.444,节点B,C1:6, C2:0, 则 Gini(B) = 1 - (6/6)^2 - (0/6)^2 = 0。显然,前者的不纯度...

    Gini 系数:


    某个节点的Gini不纯度计算:
    比如,某节点A样本分属两类,C1:2, C2:4,则Gini(A) = 1 - (2/6)^2 - (4/6) ^2 = 0.444,节点B,C1:6, C2:0, 则 Gini(B) = 1 - (6/6)^2 - (0/6)^2 = 0。显然,前者的不纯度更高,所以某节点的Gini系数越大则其不纯度越高。


    而当评判分裂优劣时,需要用到两个子节点的Gini系数来计算。
    比如某根节点有12个样本(6:6),按照某特征的某阈值分裂成两个子节点A(2:4)和B(0:6),则此次的split的Gini系数为:6/12*0.444 + 6/12*0 = 0.222. 那这个分类效果如何呢?比如按照另外一个特征的某阈值来分类的话,可以分成C(6:6)和D(0:0),则此次的split的Gini系数为:12/12*0.5 + 0/12*0 = 0.5. 而显然前者的分类效果好,可见,Gini_split值越小越好。

     

    对于熵来说,越小说明越纯,而Gini同样,而这都是针对某个节点,如果某节点越纯则我们越能确定它属于哪一类,则越是理想结果。所以,对于信息增益来说,如果父节点的熵已定,则希望子节点的熵尽量小,这样:1.信息增益得到最大,2.分出来的子节点的类标越明确(越纯)。而对于Gini系数来说,同样是尽量让分出来的子节点拥有尽量低的不纯度(越纯则类标越明确)。——子节点的样本分布越不均匀,Gini系数和熵越小,分类效果越好。

    【所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的!】

    展开全文
  • 用于Node.js的非正式Gini API客户端 当前状态:Alpha /实验性。 使用风险自负。
  • gini系数

    2020-10-08 18:27:39
    kaggle比赛Porto Seguro’s Safe Driver Prediction中gini系数。赛题中描述不够详细,而不少博客的解释和赛题本身不一致,本解释和赛题比较一致。

    kaggle比赛Porto Seguro’s Safe Driver Prediction中gini系数。赛题中描述不够详细,而不少博客的解释和赛题本身不一致,本解释和赛题比较一致。
    在这里插入图片描述

    展开全文
  • 计算gini系数

    2014-09-04 01:44:38
    python编写的gini系数计算,可用于数据挖掘
  • Gini评分英文原版

    2018-04-04 16:04:57
    关于 Gini评分规则的细则,是全英文版,英语好的可以好好理解下,比任何翻译的都准一些
  • Normalized Gini Coefficient

    2020-11-05 17:22:56
    代码中使用了Normalized Gini Coefficient评价指标。 这篇博客系统介绍了Normalized Gini Coefficient指标。https://blog.csdn.net/u010665216/article/details/78528261 我对文中一些公式和代码做一些补充说明。 ...

    在github看到一个开源项目,deepFM,即https://github.com/ChenglongChen/tensorflow-DeepFM

    代码中使用了Normalized Gini Coefficient评价指标。

    这篇博客系统介绍了Normalized Gini Coefficient指标。https://blog.csdn.net/u010665216/article/details/78528261

    我对文中一些公式和代码做一些补充说明。

    1 基尼系数

    文中

    Gini

    这里对公式做一下推导:

    由基尼系数定义可知

    G = \frac{S_{A}}{S_{A} + S_{B}}

    由定积分与极限公式

    基尼系数计算时将横纵坐标标准化为0到1

    先以计算0到1区间y = x的面积为例。

    这里可以知道实际对y的累加计算是,即

    计算y = x的面积就是,将0到1分为n段,每段宽为1/n,高为yi,yi = i / n,因此用1/n乘以对y的累计求和来近似积分。

    所以基尼系数可以如下计算:

    这里除以\sum y_{i}是因为基尼系数横纵坐标要标准化为0到1。这里gini(x)积分就是B的面积。但是这里我有一个疑问,分子0到1的x的积分为什么不直接用1/2代替。

    2 Normalized Gini Coefficient

    文中的两个图,用第一个图橙色面积除以第二个图橙色面积,就是 Normalized Gini Coefficient。

     

    但是找到的一些开源实现,却如下:

    def gini(actual, pred):
        assert (len(actual) == len(pred))
        all = np.asarray(np.c_[actual, pred, np.arange(len(actual))], dtype=np.float) 
        all = all[np.lexsort((all[:, 2], -1 * all[:, 1]))]
        totalLosses = all[:, 0].sum() 
        giniSum = all[:, 0].cumsum().sum() / totalLosses  
        giniSum -= (len(actual) + 1) / 2.
        return giniSum / len(actual)
    
    
    def gini_norm(actual, pred):
        return gini(actual, pred) / gini(actual, actual)

    可以发现,代码中对预测样本是从大到小排序,而文中是从小到大排序。

    实际上,Normalized Gini Coefficient还有一(几)种理解方式,即从大到小排列时,下面第一个图橙色面积除以第二个橙色面积:

    附上从大到小排列时公式,这里A是橙色加蓝色面积,B是蓝色面积

    上述两个方法从小到大排列和从大到小排列,有什么区别吗,我认为几乎没有区别。

    验证如下:

    import numpy as np
    
    
    def gini(actual, pred):
        assert (len(actual) == len(pred))
        # np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等。
        all = np.asarray(np.c_[actual, pred, np.arange(len(actual))], dtype=np.float)  
        all = all[np.lexsort((all[:, 2], -1 * all[:, 1]))]
        totalLosses = all[:, 0].sum()  # 6.0  正样本个数
        giniSum = all[:, 0].cumsum().sum() / totalLosses  
    
        giniSum -= (len(actual) + 1) / 2.
        return giniSum / len(actual)
    
    
    def gini1(actual, pred):
        assert (len(actual) == len(pred))
        # np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等。
        all = np.asarray(np.c_[actual, pred, np.arange(len(actual))], dtype=np.float)  
        all = all[np.lexsort((all[:, 2], all[:, 1]))]
        totalLosses = all[:, 0].sum()  # 6.0  正样本个数
        giniSum = all[:, 0].cumsum().sum() / totalLosses 
    
        giniSum = (len(actual) + 1) / 2. - giniSum
        return giniSum / len(actual)
    
    
    def gini_norm(actual, pred):  
        return gini(actual, pred) / gini(actual, actual)
    
    
    def gini_norm1(actual, pred):  
        return gini1(actual, pred) / gini1(actual, actual)
    
    
    # 针对main代码的注释
    if __name__ == '__main__':
        predictions = [0.9, 0.3, 0.8, 0.75, 0.65, 0.6, 0.78, 0.7, 0.05, 0.4, 0.4, 0.05, 0.5, 0.1, 0.1]
        actual = [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
        print(gini_norm(actual, predictions))  # 0.6296296296296299  
        print(gini_norm1(actual, predictions))  # 0.6296296296296295  
    

     

    3 参考文献&延伸阅读

    https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/overview/evaluation

    https://blog.csdn.net/u010665216/article/details/78528261

    https://www.kaggle.com/batzner/gini-coefficient-an-intuitive-explanation

    https://www.kaggle.com/cppttz/gini-coefficient-an-explanation-with-math/

    展开全文
  • 基尼Gini指数

    千次阅读 2020-04-19 08:47:43
    基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。 注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,...
  • Gini指数的计算

    2021-04-18 19:36:34
    Gini指数的计算 import torch import numpy as np def gini_index_single(a,b): single_gini = 1 - ((a/(a+b))**2 + (b/(a+b))**2) return round(single_gini,2) ## 是来表示的是对应着他们所对应的纯度的。其中...
  • GINI 是一个轻量级的、主要兼容 Icecast/Shoutcast 的流媒体服务器,用于广播 Ogg Vorbis、MP3、RIFF AVI、ASF/WMV、QuickTime 和 RealMedia 格式的文件。
  • GINI指数计算

    2021-05-21 22:05:00
    GINI系数的计算 题目 1、计算整个训练集的基尼指数 2、计算训练集按照“性别”进行两路分割后的基尼指数 3、计算训练集按照“车型”进行三路分割后的基尼指数 4、(5) 计算训练集按照“衬衣尺码”进行四路分割后的...
  • Gini-x Upload-开源

    2021-06-29 23:42:08
    * 介绍:-------------- Gini-x Upload:是一个由 Abderrahim Soubai Elidrissi 创建和开发的文件上传脚本。 该脚本使用 PHP 作为基础语言。 该脚本目前在 1.5.0 稳定版 [Fr](法语)中。
  • 使用python对李航的《统计学习方法》书籍中课后题计算所有的gini系数
  • 融合GINI指数的ID3改进算法
  • 基尼指数 Gini Index

    2021-01-27 21:16:35
    基尼系数(Gini index)反映的是从数据集D中随机选取两个样本,其类别标记不一致的概率。因此,基尼系数越小,数据纯度越高。 Gini(D)=1−∑k=1∣γ∣pk2.Gini(D)=1-\sum_{k=1}^{|\gamma|}{p_k^2}.Gini(D)=1−∑k=1...
  • var gini = require ( "gini" ) ; var data = [ 0 , 2 , 3 , 8 , 9 , 13 , 14 , 23 , 49 , 57 ] ; var result = gini . ordered ( data ) ; console . log ( result ) ; // = 0.5415730337078651 对于任何其他顺序...
  • gini帮助招聘人员分析人员,了解人格和可部署的技巧,在LinkedIn&Job Portals上找到类似的候选人 gini是一个智能的A.I.助理旨在使HRS能够分析流行社交媒体平台和工作门户之间的候选档案。Gini仍处于发展阶段,...
  • Gini coefficient

    2017-11-14 10:29:26
    这篇文章详细分析了基尼系数相关定义,历史起源及各种计算方式
  • 在做信用评分卡研究时,除了用KS/AUC指标,还经常见到基尼系数(gini coefficient)。 gini系数通常被用来判断收入分配公平程度。   图.洛伦茨曲线与基尼系数   Gini coefficient 是指绝对公平线(line of ...
  • 无线GINI 无线GINI是用于托管虚拟网络的教育平台。 无线GINI允许每个虚拟网络定义自己的拓扑和网络配置,同时通过共享物理基础设施来摊销成本。 该平台还创建了将商品无线设备集成到已部署的虚拟网络中的机制。 ...
  • file/opensearch/documents/93173/income-gini-ratio-for-households-by-race-of-householder-black-alone-or-in-combination_metadata.json file/opensearch/documents/93173/income-gini-ratio-of-families-by-...
  • 融合GINI指数的C4.5算法的分类研究
  • Gini 是一个超轻的依赖注入和 AOP 引擎。 Gini 管理的 Bean 是单例,它们按类型注入,如果找到多个候选注入,则按字段名称注入。 Gini 允许拦截托管 bean (AOP) 上的方法调用。 为此,Gini 使用来创建动态代理。 ...
  • GINI系数收入不平等预测使用决策树
  • Gini 是一个快速、简洁的 SAT 求解器。安装go get github.com/irifrance/gini...SAT 问题可能是最着名的 NP-complete 问题。 因此,SAT 求解器可用于尝试解决难题,例如旅行商问题或 RSA 破解。 在实践中,许多 ...
  • the essential of our model is to use the Gini index to</div><div>measure the sparsity of signals. We also develop an</div><div>iteratively re-weighted algorithm to f
  • GINI Index-基尼指数

    2021-03-07 10:44:46
    给定节点t: 这里的Pi(t) 是 类i的概率,c是所有类的总数。 最大值:1-1/c 当每个记录平分时,是收益最小的分类 最小值:0 当所有记录都是属于同一个类时,是最大收益 下面给出一个例子方便理解: ...Gini = 1 –
  • Y-GINI是一种易于使用的工具,可将纸张翻译成韩文(Google)。 :open_book: 你为什么做? 使用Google翻译器翻译海外论文时会遇到许多不便之处。 如果仅复制并粘贴论文内容,则句子中间会出现换行符,您必须按如下所...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,231
精华内容 5,292
关键字:

Gini