精华内容
下载资源
问答
  • kappa
    千次阅读
    2021-04-23 21:38:16

    Kappa一致性相关分析中经常应用的Kappa系数有三种,即简单Kappa系数,加权Kappa系数和总Kappa系数及标准误和检验统计量的计算公式,并针对Kappa系数仅适用于行数和列数相等的方表的问题,给出了用SPSS软件实现对行列数不等资料的Kappa检验方法。

    1简单Kappa系数的计算公式[1]

    K=P0-Pe1-Pe

    其中P0=∑ipii,称为观测一致率,Pe=∑ipi.pi,称为期望一致率,即两次检验结果由于偶然机会所造成的一致率,其中pi.=RiN,pi=CiN,Ri,Ci分别为第i个格点所对的行合计和列合计,N为总例数。当两个诊断完全一致时,P0=1,此时Kappa值为1。当观测一致率大于期望一致率时,Kappa值为正数,且Kappa值越大,说明一致性越好。当观察一致率小于期望一致率时,Kappa值为负数,这种情况一般来说比较少见。根据边缘概率的计算,Kappa值的范围值应在-1~1之间。Kappa≥075两者一致性较好;0.75Kappa≥0.4两者一致性一般;Kapp.4两者一致性较差。

    Kappa系数标准误的计算公式为:

    S=Pe+P2e-∑ipi.piN

    其95%的置信区间为:

    由于Kappa值是一个样本统计量,作是否有统计学意义的假设检验时,应选用统计量:

    U=KappaS

    2加权的Kappa系数[2]

    加权的Kappa系数是简单Kappa系数的推广,是用加权的方法对两个评价结果进行量化。对于四格表来说,简单Kappa系数与加权的Kappa系数是相等的,对于一般的行列表,加权的Kappa系数的计算公式为:

    Kw=P0-Pe1-Pe

    P0=∑i∑jwijpij

    Pe=∑i∑jwijpi.pj

    其中0≤wij=wji1,i≠j,wij=1。

    加权Kappa系数的标准误计算公式为:

    Skw=∑i∑jpi.pj[wij-]2-P2e)2N

    95%的置信区间为:

    假设检验的统计量为U=kWSkw

    Kappa的权系数一般使用CicchettiAllison和FleissCohen两种权值类型[2],CicchettiAllison的计算公式为:

    wij=1- Ci-Cj Ck-Ci

    FleissCohen的计算公式为:

    wij=1-22

    其中,Ci表示第i列的评价分值,k表示列数。假如是数值型变量,评价分值Cij就是第i行第j列对应的具体数值;假如是分类变量,可按照相应级别进行赋值。由于wij=1,而当i≠j时,0≤wij1,所以由Kappa系数的计算公式可知加权的Kappa系数大于简单Kappa系数。

    3总Kappa系数

    假设列联表为多向列联表,且每个变量有两个水平,即为2×2×…×2列联表,令ki表示第i个变量的Kappa系数,Ski表示第i个Kappa系数的标准误,则总Kappa系数的计算公式为:

    K总=∑qi=1kiSki/∑qi=11Ski

    若要检验各变量Kappa系数是否都相等,可采用自由度为q-1的χ2检验,计算公式为:

    χ2=∑qi=12Ski

    、两个公式均适用于加权的Kappa系数。

    4行列数不等时Kappa系数的计算

    Kappa系数的计算适用于两个评价人分级水平数相同的情况,即数据格式为行数和列数相等的方表。而在实际操作中,经常会出现分级水平数不一致,即行列数不等的情况。我们来看一个实例:两名医生按照某项指标的1~4个等级来评价8个病人。一个医生用全部4个等级进行评价,而另一医生只有3个等级进行评价。此时,对于两个医生来说,他们评价的级别范围不同。数据见表1。

    表1甲乙两医生对病人的评价

    下面我们使用SPPS软件获得Kappa值及检验结果。SPSS110或更低的版本在这种情况下均无获得Kappa统计量。SPSS115以上的版本可以计算出Kappa值。首先进入数据编辑器并给甲医生添加额外的观测值0001。数据录入见图1。选择Analyze→DescriptiveStatistics→Crosstabs,将变量甲,乙分别放入对应的行列框内,选择Statistics按钮,得到如下对话框,选择Kappa复选框,按continue即可输出Kappa值、标准误和P值。

    相应的结果为:

    Kappa=0.810,P=0.001,S=0.176。

    5讨论

    在诊断试验的研究中,数据资料多为双向有序的列联表资料,即两个变量都是有序变量,而且属性相同。属性相同分为三种情况,一种情况是属性、分级水平数和分级水平都完全相同。如甲医生和乙医生都把病人的检查结果分为1、2、3、4四个等级。此时可直接作Kappa检验。当这两个变量都只有2个水平时,就成为配对设计的四格表资料,可使用配对χ2检验,即McNemar检验。第二种是属性相同的分级水平数相同,但分级水平不全相同。如甲医生和乙医生都把病人的检查结果分为四个等级,但甲医生的分级为1、2、3、4,而乙医生的分级为2、3、4、5。在这种情况下,由于列联表的行数和列数仍然是一致的,即列联表仍为方表,所以也可计算出相应的Kappa统计量。第三种是属性相同,但分级水平数和分级水平不全相同。这种情况就是我们所说的列联表的行列数不一致。由于收集上来的数据不能轻易删除掉,所以我们考虑添加行或列使联表成为方表。如行数为n,例数为n-1,则我们只需要添加第n列,在第n行第n列的格点中添加权值0001,而第n行的其它格点均设为0,就可以命名其成为方表,并计算Kappa统计量了。由于权值系数很小,所以不会影响Kappa值的计算结果。

    另一方面,假如两个变量中有一个变量是金标准,那么我们不但能分析出检验结果的一致性,还可以计算出敏感度、特异度、误诊率和漏诊率等指标。假如有不同的诊断分界点,还可以绘制出ROC曲线。

    诊断试验的评价[3]在医学研究中具有十分重要的意义,目前大多数文献都使用Kappa统计量来检验结果的一致性。所以本研究主要是对Kappa系数作一个探讨和分析。诊断试验评价的统计学方法还会随着更多问题的提出和解决而不断得到发展、修正和扩展。

    更多相关内容
  • 此函数计算 Cohen 的 kappa 系数Cohen 的 kappa 系数是评估者间可靠性的统计量度。 通常认为它比简单的一致性百分比计算更可靠,因为 k 考虑了偶然发生的一致性。 Kappa 提供了衡量两个法官 A 和 B 在将 N 个项目...
  • 02099 卡帕kappa运动服饰店铺营销培训之销售服务八部曲(PPT 36页).ppt
  • Fleiss'es kappa 是 Scott 的 pi 统计量的概括,一个评估者间可靠性的统计量度。 这也与Cohen 的 kappa 统计量。 而 Scott 的 pi 和 Cohen 的 kappa 为只有两个评分者,Fleiss'es kappa 适用于任意数量的评分者分类...
  • 输入特征向量训练随机森林分类模型,并计算分类结果的Kappa系数,混淆矩阵,准确性,特异性和敏感性。
  • 科恩河童 cohen.py 用于计算 Cohen's kappa
  • kappa系数作为一致性的衡量标准,在很多方面都有应用
  • 这是一个简单的 Matlab 函数,它根据观察类别的向量和预测类别的向量计算 Cohen's kappa
  • 遥感影像分类以后的精度评价,包括计算生产者精度、使用者精度、kappa系数等
  • 用法 kappa=kappaindex(X,G,N) X 是长度为 M(数据样本数)的向量。 X 的每个条目都与该样本的簇索引相关联 G是与X相同格式的向量,属于ground truth indecies或次要聚类 N是簇数 此度量仅在 X 和 G 具有相同数量的...
  • 精密6.FPR-假阳性率7.F_score 8.MCC-Matthews相关系数9.kappa-Cohen's kappa 运行demo.m进行证明和演示开发人员 Er.Abbas Manthiri S 日期 25-12-2016 邮件 ID:abbasmanthiribe@gmail.com 编码基于附加参考
  • KAPPA-开源

    2021-04-28 07:34:09
    KAPPA(基于关键氨基酸模式的蛋白质分析仪)是一种序列搜索程序,专用于发现和聚集由关键氨基酸模式定义的蛋白质。
  • 卡帕 Kappa是用Go编写的Kappa体系结构的实现。 安装 kappa使用来管理依赖项。 所以我们需要先安装: go get github.com/tools/godep 接下来,我们需要实际安装代码和依赖项: godep get github....
  • kappa系数

    千次阅读 2021-09-20 20:54:13
    Kappa系数用于一致性检验,也可以用于衡量分类精度,但kappa系数的计算是基于混淆矩阵的。 混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的...

    Kappa系数用于一致性检验,也可以用于衡量分类精度,但kappa系数的计算是基于混淆矩阵的。

    混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目:,如图,

    第一行第一列中的43表示有43个实际归属第一类的实例被预测为第一类,同理,第一行第二列的2表示有2个实际归属为第一类的实例被错误预测为第二类,正确分类的样本数量之和=43+45+49,样本总数=43+2+0+5+45+1+2+3+49

    kapaa系数计算公式

    p0是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度。

    假设每一类的真实样本个数分别为a1,a2,...,aC,而预测出来的每一类的样本个数分别为b1,b2,...,bCb1,b2,...,bC,总样本个数为n

    如上图所示

    p0=(43+45+49)/(43+2+0+5+45+1+2+3+49)

    a1=45,a2=51,a3=54

    b1=50,b2=50,b3=50,带入pe公式计算得出pe

    然后将p0和pe带入k计算公式得出k

    kappa计算结果:-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)

    展开全文
  • kappa与quadratic weighted kappa

    千次阅读 2020-07-20 17:56:01
    kappa系数是统计学中度量一致性的指标, 对于分类问题,一致性就是模型预测结果和实际分类结果是否一致. kappa系数的计算是基于混淆矩阵, 取值为-1到1之间, 通常大于0. kappa quadratic weighted kappa kappa ...

    kappa系数是统计学中度量一致性的指标, 对于分类问题,一致性就是模型预测结果和实际分类结果是否一致. kappa系数的计算是基于混淆矩阵, 取值为-1到1之间, 通常大于0.

    • kappa
    • quadratic weighted kappa

    kappa

    kappa系数的数学表达:

    Po​为预测的准确率, 也可理解为预测的一致性:

     

    Pe​表示偶然一致性:

     

     例子来自:https://blog.csdn.net/weixin_38313518/article/details/80035094

     

    quadratic weighted kappa

    二次加权kappa在多级分类的深度学习评价中经常使用,比如说医疗图像的多级分类。人类医生在评判病症时经常用轻度,中度,重度等词汇,这样的评价方式与二次加权kappa的评价方式不谋而合,使用加权的kappa,可以有效反映模型的效果。

    quadratic weighted kappa系数的数学表达如下,其中O_{i, j}代表将第i类判别为第j类的个数,E_{i, j}代表根据真实列联表根据上文提到的计算方法:

     

    例子:

    code:

    conf_mat = confusion_matrix(rater_a, rater_b, min_rating, max_rating)
    
    num_scored_items = float(len(rater_a))
    d = pow(i - j, 2.0) / pow(num_ratings - 1, 2.0)
    numerator += d * conf_mat[i][j] / num_scored_items

     

     code:

    num_scored_items = float(len(rater_a))
    
    expected_count = (hist_rater_a[i] * hist_rater_b[j]/ num_scored_items)
    d = pow(i - j, 2.0) / pow(num_ratings - 1, 2.0)
    denominator += d * expected_count / num_scored_items

    end code:

    1.0 - numerator / denominator

    complete code:

    def confusion_matrix(rater_a, rater_b, min_rating=None, max_rating=None):
        """
        Returns the confusion matrix between rater's ratings
        """
        assert(len(rater_a) == len(rater_b))
        if min_rating is None:
            min_rating = min(rater_a + rater_b)
        if max_rating is None:
            max_rating = max(rater_a + rater_b)
        num_ratings = int(max_rating - min_rating + 1)
        conf_mat = [[0 for i in range(num_ratings)]
                    for j in range(num_ratings)]
        for a, b in zip(rater_a, rater_b):
            conf_mat[a - min_rating][b - min_rating] += 1
        return conf_mat
    
    def histogram(ratings, min_rating=None, max_rating=None):
        """
        Returns the counts of each type of rating that a rater made
        """
        if min_rating is None:
            min_rating = min(ratings)
        if max_rating is None:
            max_rating = max(ratings)
        num_ratings = int(max_rating - min_rating + 1)
        hist_ratings = [0 for x in range(num_ratings)]
        for r in ratings:
            hist_ratings[r - min_rating] += 1
        return hist_ratings
    
    def quadratic_weighted_kappa(rater_a, rater_b, min_rating=None, max_rating=None):
        """
        Calculates the quadratic weighted kappa
        quadratic_weighted_kappa calculates the quadratic weighted kappa
        value, which is a measure of inter-rater agreement between two raters
        that provide discrete numeric ratings.  Potential values range from -1
        (representing complete disagreement) to 1 (representing complete
        agreement).  A kappa value of 0 is expected if all agreement is due to
        chance.
    
        quadratic_weighted_kappa(rater_a, rater_b), where rater_a and rater_b
        each correspond to a list of integer ratings.  These lists must have the
        same length.
    
        The ratings should be integers, and it is assumed that they contain
        the complete range of possible ratings.
    
        quadratic_weighted_kappa(X, min_rating, max_rating), where min_rating
        is the minimum possible rating, and max_rating is the maximum possible
        rating
        """
        rater_a = np.array(rater_a, dtype=int)
        rater_b = np.array(rater_b, dtype=int)
        assert(len(rater_a) == len(rater_b))
        if min_rating is None:
            min_rating = min(min(rater_a), min(rater_b))
        if max_rating is None:
            max_rating = max(max(rater_a), max(rater_b))
        conf_mat = confusion_matrix(rater_a, rater_b,
                                    min_rating, max_rating)
    
        num_ratings = len(conf_mat)
        num_scored_items = float(len(rater_a))
    
        hist_rater_a = histogram(rater_a, min_rating, max_rating)
    
        hist_rater_b = histogram(rater_b, min_rating, max_rating)
    
        numerator = 0.0
        denominator = 0.0
    
        for i in range(num_ratings):
            for j in range(num_ratings):
                expected_count = (hist_rater_a[i] * hist_rater_b[j]
                                  / num_scored_items)
                d = pow(i - j, 2.0) / pow(num_ratings - 1, 2.0)
                numerator += d * conf_mat[i][j] / num_scored_items
                denominator += d * expected_count / num_scored_items
    
        return 1.0 - numerator / denominator

    run code:

    import quadratic_weighted_kappa as qw_kappa
    
    rater_a = [0, 3, 4, 5, 2, 3, 4, 1, 2, 3, 5, 4, 3, 2, 4, 1, 0, 2, 3, 3]
    rater_b = [2, 3, 4, 5, 2, 3, 2, 0, 2, 4, 5, 4, 3, 2, 4, 1, 0, 2, 3, 3]
    result = qw_kappa.quadratic_weighted_kappa(rater_a, rater_b)
    print("result:", result)

     

    展开全文
  • KAPPA_Ercin_4.02.04.rar

    2021-09-01 12:35:34
    KAPPA Ecrin是一个动态数据分析的综合应用程序,用户可以通过它来解决与先进的石油勘探和开采相关的所有需求。 它是一个集成的工程套件,具有油藏动态数据分析应用程序和建模工具。 该软件包在用户项目中具有独特的...
  • 什么是Kappa架构?

    万次阅读 多人点赞 2021-05-07 23:58:40
    Kappa架构和Lambda架构有着或多或少的相似之处,只是出于简化考虑,去掉了批处理层,只保留了快速处理层。 其主要思想是避免从头开始进行批处理层计算,尝试把这些计算完全放在实时计算或快速处理层。 Lambda架构的...

    写在前面

    本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

    本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

    解答

    Kappa架构和Lambda架构有着或多或少的相似之处,只是出于简化考虑,去掉了批处理层,只保留了快速处理层。
    其主要思想是避免从头开始进行批处理层计算,尝试把这些计算完全放在实时计算或快速处理层。
    Lambda架构的一个缺点是必须编码并运行同样的逻辑两次,但Kappa架构避免了这个问题。
    Kappa架构目前来说必须通过Kafka才能实现。
    

    补充

    Lambda架构的不足

    虽然 Lambda 架构使用起来十分灵活,并且可以适用于很多的应用场景,但在实际应用的时候,Lambda 架构也存在着一些不足,主要表现在它的维护很复杂。

    使用 Lambda 架构时,架构师需要维护两个复杂的分布式系统,并且保证他们逻辑上产生相同的结果输出到服务层中。

    举个例子吧,我们在部署 Lambda 架构的时候,可以部署 Apache Hadoop 到批处理层上,同时部署 Apache Flink 到速度层上。

    我们都知道,在分布式框架中进行编程其实是十分复杂的,尤其是我们还会针对不同的框架进行专门的优化。

    所以几乎每一个架构师都认同,Lambda 架构在实战中维护起来具有一定的复杂性。那要怎么解决这个问题呢?

    我们先来思考一下,造成这个架构维护起来如此复杂的根本原因是什么呢?

    维护 Lambda 架构的复杂性在于我们要同时维护两套系统架构:批处理层和速度层。

    我们已经说过了,在架构中加入批处理层是因为从批处理层得到的结果具有高准确性,而加入速度层是因为它在处理大规模数据时具有低延时性。

    那我们能不能改进其中某一层的架构,让它具有另外一层架构的特性呢?

    例如,改进批处理层的系统让它具有更低的延时性,又或者是改进速度层的系统,让它产生的数据视图更具准确性和更加接近历史数据呢?

    Kappa 架构(Kappa Architecture),便是在这样的思考下诞生的。

    Kappa 架构的诞生过程

    Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯(Jay Kreps)提出的一种架构思想。

    克雷普斯是几个著名开源项目(包括 Apache Kafka 和 Apache Samza 这样的流处理系统)的作者之一,也是现在 Confluent 大数据公司的 CEO。

    克雷普斯提出了一个改进 Lambda 架构的观点:我们能不能改进 Lambda 架构中速度层的系统性能,使得它也可以处理好数据的完整性和准确性问题呢?

    我们能不能改进 Lambda 架构中的速度层,使它既能够进行实时数据处理,同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据呢?

    他根据自身多年的架构经验发现,我们是可以做到这样的改进的。

    Apache Kafka 这样的流处理平台是具有永久保存数据日志的功能的。

    通过平台的这一特性,我们可以重新处理部署于速度层架构中的历史数据。

    以 Apache Kafka 为例来讲述整个Kappa架构的过程

    1. 部署 Apache Kafka,并设置数据日志的保留期(Retention Period)。
      这里的保留期指的是你希望能够重新处理的历史数据的时间区间。
      例如,如果你希望重新处理最多一年的历史数据,那就可以把 Apache Kafka 中的保留期设置为 365 天。
      如果你希望能够处理所有的历史数据,那就可以把 Apache Kafka 中的保留期设置为“永久(Forever)”。

    2. 如果我们需要改进现有的逻辑算法,那就表示我们需要对历史数据进行重新处理。
      我们需要做的就是重新启动一个 Apache Kafka 作业实例(Instance)。
      这个作业实例将重头开始,重新计算保留好的历史数据,并将结果输出到一个新的数据视图中。
      我们知道 Apache Kafka 的底层是使用 Log Offset 来判断现在已经处理到哪个数据块了,所以只需要将 Log Offset 设置为 0,新的作业实例就会重头开始处理历史数据。

    3. 当这个新的数据视图处理过的数据进度赶上了旧的数据视图时,我们的应用便可以切换到从新的数据视图中读取。

    4. 停止旧版本的作业实例,并删除旧的数据视图。这个架构就如同下图所示。

    Kappa架构

    与 Lambda 架构不同的是,Kappa 架构去掉了批处理层这一体系结构,而只保留了速度层。 你只需要在业务逻辑改变又或者是代码更改的时候进行数据的重新处理。

    当然了,也可以在上面讲到的步骤中做一些优化。 例如不执行第 4 步,也就是不删除旧的数据视图。这样的好处是当你发现代码逻辑出错时可以及时回滚(Roll Back)到上一个版本的数据视图中去。

    又或者是你想在服务层提供 A/B 测试,保留多个数据视图版本将有助于你进行 A/B 测试。

    展开全文
  • KAPPA尺码对照表.doc

    2022-07-12 15:11:45
    KAPPA尺码对照表.doc
  • Kappa检测方法

    千次阅读 2019-12-17 10:21:51
    kappa检测方法 评价相关性的一种指标 Simple Kappa Coefficient(简单kappa系数) Clinician 1看做真实分布,Clinician2看做预测分布 实际一致率与随机一致率是否有显著的差别 Kappa=Po−Pe1−Pe;Po=a+dn;Pe=(a+...
  • Kappa一致性分析

    千次阅读 2020-12-24 07:56:03
    Kappa分析,主要评价的是两种实验方法或检测手段结果的一致性程度;例如,对于幽门螺旋杆菌(Hp)的检测有C13呼气试验和病理活检等手段,其中C13呼气试验已经成为检验患者是否患有幽门螺旋杆菌感染的‘金标准’,那么...
  • 数据湖内的数据在利用的时候一般会遵循Lambda架构或者Kappa架构或IOTA架构等数据处理的架构思想为指导。 当然,不遵循这两种架构思想也是可以的,如果你有自己的想法去做设计也是没问题的。只是,一般Lambda架构和...
  • kappa:Lambda之前

    2021-04-12 22:38:33
    卡帕 Kappa是一个命令行工具,希望(它有希望)使它更易于部署,更新和测试AWS Lambda的功能。 开发Lambda函数涉及很多步骤。 你必须: 编写函数本身 创建Lambda函数本身所需的IAM角色(执行角色),以允许其访问...
  • KAPPA的一些培训资料--kappa货品系列诠释及重点产品FAB(PPT 25页).ppt
  • 首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用...
  • Kappa(评估、开发、研究中心),309 页,[美元]28.00 PsyiholoRy 在 [he Schools Volume 30, Junuory 1993 书评 GILBERT R. GREDLER University of South Carolina REITZ, R . J. (编)。 (1992)。 保持成绩:...
  • (笔记)Kappa系数 & 混淆矩阵

    千次阅读 2022-02-24 11:03:10
    Kappa系数就经常被用于影像分类的空间一致性检验,是一种衡量分类精度的指标。 Section 1:Kappa系数的概念 Kappa系数是一个用于一致性检验的指标,也可以用于衡量分类的效果。 在分类问题中,一致性就是指...
  • 本代码可计算kappa相关系数。 % KAPPA: This function computes the Cohen's kappa coefficient. % Cohen's kappa coefficient is a statistical measure of inter-rater % reliability. It is generally thought...
  • Kappa系数简单介绍

    万次阅读 2020-05-26 16:25:06
    kappa系数是统计学中度量一致性的指标, 值在[-1,1]. 对于评分系统, 一致性就是不同打分人平均的一致性; 对于分类问题,一致性就是模型预测结果和实际分类结果是否一致. kappa系数的计算是基于混淆矩阵, 取值为-1到1...
  • 分析——描述统计——交叉表——将变量拖入“行”和“列”框中——点击右侧的“统计”——勾选“kappa

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,445
精华内容 4,578
关键字:

kappa