精华内容
下载资源
问答
  • 指标权重确定方法之熵权法

    万次阅读 多人点赞 2018-04-20 15:37:13
    一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标...一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息...

    本文转自李政毅博客 http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html

    一、熵权法介绍

           熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。

           熵权法的基本思路是根据指标变异性的大小来确定客观权重。

           一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。

    二、熵权法赋权步骤

    1. 数据标准化

           将各个指标的数据进行标准化处理。

           假设给定了k个指标,其中。假设对各指标数据标准化后的值为,那么

    2. 求各指标的信息熵

           根据信息论中信息熵的定义,一组数据的信息熵。其中,如果,则定义

    3. 确定各指标权重

           根据信息熵的计算公式,计算出各个指标的信息熵为 。通过信息熵计算各指标的权重: 。

    三、熵权法赋权实例

    1. 背景介绍

           某医院为了提高自身的护理水平,对拥有的11个科室进行了考核,考核标准包括9项整体护理,并对护理水平较好的科室进行奖励。下表是对各个科室指标考核后的评分结果。

     

    表1 11科室9项护理评价指标得分表

    科室 x1 x2 x3 x4 x5 x6 x7 x8 x9
    A 100 90 100 84 90 100 100 100 100
    B 100 100 78.6 100 90 100 100 100 100
    C 75 100 85.7 100 90 100 100 100 100
    D 100 100 78.6 100 90 100 94.4 100 100
    E 100 90 100 100 100 90 100 100 80
    F 100 100 100 100 90 100 100 85.7 100
    G 100 100 78.6 100 90 100 55.6 100 100
    H 87.5 100 85.7 100 100 100 100 100 100
    I 100 100 92.9 100 80 100 100 100 100
    J 100 90 100 100 100 100 100 100 100
    K 100 100 92.9 100 90 100 100 100 100

     但是由于各项护理的难易程度不同,因此需要对9项护理进行赋权,以便能够更加合理的对各个科室的护理水平进行评价。
    2. 熵权法进行赋权

           1)数据标准化

           根据原始评分表,对数据进行标准化后可以得到下列数据标准化表

    表2  11个科室9项整体护理评价指标得分表标准化表

    科室

    X1

    X2

    X3

    X4

    X5

    X6

    X7

    X8

    X9

    A

    1.00

    0.00

    1.00

    0.00

    0.50

    1.00

    1.00

    1.00

    1.00

    B

    1.00

    1.00

    0.00

    1.00

    0.50

    1.00

    1.00

    1.00

    1.00

    C

    0.00

    1.00

    0.33

    1.00

    0.50

    1.00

    1.00

    1.00

    1.00

    D

    1.00

    1.00

    0.00

    1.00

    0.50

    1.00

    0.87

    1.00

    1.00

    E

    1.00

    0.00

    1.00

    1.00

    1.00

    0.00

    1.00

    1.00

    0.00

    F

    1.00

    1.00

    1.00

    1.00

    0.50

    1.00

    1.00

    0.00

    1.00

    G

    1.00

    1.00

    0.00

    1.00

    0.50

    1.00

    0.00

    1.00

    1.00

    H

    0.50

    1.00

    0.33

    1.00

    1.00

    1.00

    1.00

    1.00

    1.00

    I

    1.00

    1.00

    0.67

    1.00

    0.00

    1.00

    1.00

    1.00

    1.00

    J

    1.00

    0.00

    1.00

    1.00

    1.00

    1.00

    1.00

    1.00

    1.00

    K

    1.00

    1.00

    0.67

    1.00

    0.50

    1.00

    1.00

    1.00

    1.00

     

      3)计算

    科室 x1 x2 x3 x4 x5 x6 x7 x8 x9
    A 0.11 0.00 0.17 0.00 0.08 0.10 0.10 0.10 0.10
    B 0.11 0.13 0.00 0.10 0.08 0.10 0.10 0.10 0.10
    C 0.00 0.13 0.06 0.10 0.08 0.10 0.10 0.10 0.10
    D 0.11 0.13 0.00 0.10 0.08 0.10 0.09 0.10 0.10
    E 0.11 0.00 0.17 0.10 0.15 0.00 0.10 0.10 0.00
    F 0.11 0.13 0.17 0.10 0.08 0.10 0.10 0.00 0.10
    G 0.11 0.13 0.00 0.10 0.08 0.10 0.00 0.10 0.10
    H 0.05 0.13 0.06 0.10 0.15 0.10 0.10 0.10 0.10
    I 0.11 0.04 0.11 0.10 0.00 0.10 0.10 0.10 0.10
    J 0.11 0.13 0.17 0.10 0.15 0.10 0.10 0.10 0.10
    K 0.11 0.04 0.11 0.10 0.08 0.10 0.10 0.10 0.10

     3)求各指标的信息熵

           根据信息熵的计算公式 ,可以计算出9项护理指标各自的信息熵如下:

    表3  9项指标信息熵表

     

    X1

    X2

    X3

    X4

    X5

    X6

    X7

    X8

    X9

    信息熵

    0.95

    0.87

    0.84

    0.96

    0.94

    0.96

    0.96

    0.96

    0.96

           4)计算各指标的权重

           根据指标权重的计算公式,可以得到各个指标的权重如下表所示:

    表4  9项指标权重表

     

    W1

    W2

    W3

    W4

    W5

    W6

    W7

    W8

    W9

    权重

    0.08

    0.22

    0.27

    0.07

    0.11

    0.07

    0.07

    0.07

    0.07

    3. 对各个科室进行评分

           根据计算出的指标权重,以及对11个科室9项护理水平的评分。设Zl为第l个科室的最终得分,则 ,各个科室最终得分如下表所示

    表5  11个科室最终得分表

    科室

    A

    B

    C

    D

    E

    F

    G

    H

    I

    J

    K

    得分

    95.71

    93.14

    93.17

    92.77

    95.84

    98.01

    90.21

    95.17

    95.97

    97.81

    97.02

    备注: 

    1. 

    公式:(B2-MIN(B$2:B$12))/(MAX(B$2:B$12)-MIN(B$2:B$12))

    2.    

    数组公式:-1/LN(11)*(SUMPRODUCT(B30:B40,IFERROR(LN(B30:B40),0)))

    3. 

    公式:B15/SUM(B$15:B$25)

    4. 

    公式:(1-B41)/(9-SUM($B$41:$J$41))

    5、

    公式:=SUMPRODUCT($B$43:$J$43,B2:J2)

    最后把EXCEL链接文件也放出来 

    链接:https://pan.baidu.com/s/1y78cR5prLzFYub0w2lkVVA 
    提取码:mc3o 

    展开全文
  • 磁盘性能评价指标—IOPS和吞吐量

    万次阅读 多人点赞 2014-02-13 20:48:26
    SAN和NAS存储一般都具备2个评价指标:IOPS和带宽(throughput),两个指标互相独立又相互关联。体现存储系统性能的最主要指标是IOPS。 IOPS(Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘...

     

    一、磁盘 I/O 的概念

    I/O 的概念,从字义来理解就是输入输出。操作系统从上层到底层,各个层次之间均存在 I/O。比如,CPU 有 I/O,内存有 I/O, VMM 有 I/O, 底层磁盘上也有 I/O,这是广义上的 I/O。通常来讲,一个上层的 I/O 可能会产生针对磁盘的多个 I/O,也就是说,上层的 I/O 是稀疏的,下层的 I/O 是密集的。

    磁盘的 I/O,顾名思义就是磁盘的输入输出。输入指的是对磁盘写入数据,输出指的是从磁盘读出数据。我们常见的磁盘类型有 ATA、SATA、FC、SCSI、SAS,如图1所示。这几种磁盘中,服务器常用的是 SAS 和 FC 磁盘,一些高端存储也使用 SSD 盘。每一种磁盘的性能是不一样的。

    图 1. 物理磁盘的架构以及常见磁盘类型

    二、性能评价指标

    SAN(Storage Area Network, 存储区域网络)和NAS存储(Network Attached Storage,网络附加存储)一般都具备2个评价指标:IOPS和带宽(throughput),两个指标互相独立又相互关联。体现存储系统性能的最主要指标是IOPS。下面,将介绍一下这两个参数的含义。

    IOPS (Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。IOPS是指单位时间内系统能处理的I/O请求数量,I/O请求通常为读或写数据操作请求。随机读写频繁的应用,如OLTP(Online Transaction Processing),IOPS是关键衡量指标。另一个重要指标是数据吞吐量(Throughput),指单位时间内可以成功传输的数据数量。对于大量顺序读写的应用,如VOD(Video On Demand),则更关注吞吐量指标。

    简而言之:

     

    磁盘的 IOPS,也就是在一秒内,磁盘进行多少次 I/O 读写。

    磁盘的吞吐量,也就是每秒磁盘 I/O 的流量,即磁盘写入加上读出的数据的大小。

    IOPS 与吞吐量的关系

    每秒 I/O 吞吐量= IOPS* 平均 I/O SIZE。从公式可以看出: I/O SIZE 越大,IOPS 越高,那么每秒 I/O 的吞吐量就越高。因此,我们会认为 IOPS 和吞吐量的数值越高越好。实际上,对于一个磁盘来讲,这两个参数均有其最大值,而且这两个参数也存在着一定的关系。

    IOPS可细分为如下几个指标:

    1. Toatal IOPS,混合读写和顺序随机I/O负载情况下的磁盘IOPS,这个与实际I/O情况最为相符,大多数应用关注此指标。
    2. Random Read IOPS,100%随机读负载情况下的IOPS。
    3. Random Write IOPS,100%随机写负载情况下的IOPS。
    4. Sequential Read IOPS,100%顺序读负载情况下的IOPS。
    5. Sequential Write IOPS,100%顺序写负载情况下的IOPS。

    下图为一个典型的NFS测试结果:

    IOPS的测试benchmark工具主要有Iometer, IoZone, FIO等,可以综合用于测试磁盘在不同情形下的IOPS。对于应用系统,需要首先确定数据的负载特征,然后选择合理的IOPS指标进行测量和对比分析,据此选择合适的存储介质和软件系统。

     

    IOPS计算公式

    对于磁盘来说一个完整的IO操作是这样进行的:当控制器对磁盘发出一个IO操作命令的时候,磁盘的驱动臂(Actuator Arm)带读写磁头(Head)离开着陆区(Landing Zone,位于内圈没有数据的区域),移动到要操作的初始数据块所在的磁道(Track)的正上方,这个过程被称为寻址(Seeking),对应消耗的时间被称为寻址时间(Seek Time);但是找到对应磁道还不能马上读取数据,这时候磁头要等到磁盘盘片(Platter)旋转到初始数据块所在的扇区(Sector)落在读写磁头正上方的之后才能开始读取数据,在这个等待盘片旋转到可操作扇区的过程中消耗的时间称为旋转延时(Rotational Delay);接下来就随着盘片的旋转,磁头不断的读/写相应的数据块,直到完成这次IO所需要操作的全部数据,这个过程称为数据传送(Data Transfer),对应的时间称为传送时间(Transfer Time)。完成这三个步骤之后一次IO操作也就完成了。

    在我们看硬盘厂商的宣传单的时候我们经常能看到3个参数,分别是平均寻址时间、盘片旋转速度以及最大传送速度,这三个参数就可以提供给我们计算上述三个步骤的时间。

    第一个寻址时间,考虑到被读写的数据可能在磁盘的任意一个磁道,既有可能在磁盘的最内圈(寻址时间最短),也可能在磁盘的最外圈(寻址时间最长),所以在计算中我们只考虑平均寻址时间,也就是磁盘参数中标明的那个平均寻址时间,这里就采用当前最多的10krmp硬盘的5ms。

    第二个旋转延时,和寻址一样,当磁头定位到磁道之后有可能正好在要读写扇区之上,这时候是不需要额外额延时就可以立刻读写到数据,但是最坏的情况确实要磁盘旋转整整一圈之后磁头才能读取到数据,所以这里我们也考虑的是平均旋转延时,对于10krpm的磁盘就是(60s/10k)*(1/2) = 2ms。

    第三个传送时间,磁盘参数提供我们的最大的传输速度,当然要达到这种速度是很有难度的,但是这个速度却是磁盘纯读写磁盘的速度,因此只要给定了单次 IO的大小,我们就知道磁盘需要花费多少时间在数据传送上,这个时间就是IO Chunk Size / Max Transfer Rate。

    现在我们就可以得出这样的计算单次IO时间的公式。

      IO Time = Seek Time + 60 sec/Rotational Speed/2 + IO Chunk Size/Transfer Rate

    于是我们可以这样计算出IOPS。

      IOPS = 1/IO Time = 1/(Seek Time + 60 sec/Rotational Speed/2 + IO Chunk Size/Transfer Rate)

    对于给定不同的IO大小我们可以得出下面的一系列的数据

      4K (1/7.1 ms = 140 IOPS)
      5ms + (60sec/15000RPM/2) + 4K/40MB = 5 + 2 + 0.1 = 7.1
      8k (1/7.2 ms = 139 IOPS)
      5ms + (60sec/15000RPM/2) + 8K/40MB = 5 + 2 + 0.2 = 7.2
      16K (1/7.4 ms = 135 IOPS)
      5ms + (60sec/15000RPM/2) + 16K/40MB = 5 + 2 + 0.4 = 7.4
      32K (1/7.8 ms = 128 IOPS)
      5ms + (60sec/15000RPM/2) + 32K/40MB = 5 + 2 + 0.8 = 7.8
      64K (1/8.6 ms = 116 IOPS)
      5ms + (60sec/15000RPM/2) + 64K/40MB = 5 + 2 + 1.6 = 8.6

    从上面的数据可以看出,当单次IO越小的时候,单次IO所耗费的时间也越少,相应的IOPS也就越大。

    上面我们的数据都是在一个比较理想的假设下得出来的,这里的理想的情况就是磁盘要花费平均大小的寻址时间和平均的旋转延时,这个假设其实是比较符合我们实际情况中的随机读写,在随机读写中,每次IO操作的寻址时间和旋转延时都不能忽略不计,有了这两个时间的存在也就限制了IOPS的大小。现在我们考虑一种相对极端的顺序读写操作,比如说在读取一个很大的存储连续分布在磁盘的的文件,因为文件的存储的分布是连续的,磁头在完成一个读IO操作之后,不需要从新的寻址,也不需要旋转延时,在这种情况下我们能到一个很大的IOPS值,如下。

      4K (1/0.1 ms = 10000 IOPS)
      0ms + 0ms + 4K/40MB = 0.1
      8k (1/0.2 ms = 5000 IOPS)
      0ms + 0ms + 8K/40MB = 0.2
      16K (1/0.4 ms = 2500 IOPS)
      0ms + 0ms + 16K/40MB = 0.4
      32K (1/0.8 ms = 1250 IOPS)
      0ms + 0ms + 32K/40MB = 0.8
      64K (1/1.6 ms = 625 IOPS)
      0ms + 0ms + 64K/40MB = 1.6

    相比第一组数据来说差距是非常的大的,因此当我们要用IOPS来衡量一个IO系统的系能的时候我们一定要说清楚是在什么情况的IOPS,也就是要说明读写的方式以及单次IO的大小,当然在实际当中,特别是在OLTP的系统的,随机的小IO的读写是最有说服力的。

    另外,对于同一个磁盘(或者 LUN),随着每次 I/O 读写数据的大小不同,IOPS 的数值也不是固定不变的。例如,每次 I/O 写入或者读出的都是连续的大数据块,此时 IOPS 相对会低一些;在不频繁换道的情况下,每次写入或者读出的数据块小,相对来讲 IOPS 就会高一些。也就是说,IOPS 也取决与I/O块的大小,采用不同I/O块的大小测出的IOPS值是不同的。 对一个具体的IOPS, 可以了解它当时测试的I/O块的尺寸。并且IOPS都具有极限值,表1列出了各种磁盘的 IOPS 极限值。

    表 1. 常见磁盘类型及其 IOPS

     

    三、I/O 读写的类型

    大体上讲,I/O 的类型可以分为:读 / 写 I/O、大 / 小块 I/O、连续 / 随机 I/O, 顺序 / 并发 I/O。在这几种类型中,我们主要讨论一下:大 / 小块 I/O、连续 / 随机 I/O, 顺序 / 并发 I/O。

    大 / 小块 I/O

    这个数值指的是控制器指令中给出的连续读出扇区数目的多少。如果数目较多,如 64,128 等,我们可以认为是大块 I/O;反之,如果很小,比如 4,8,我们就会认为是小块 I/O,实际上,在大块和小块 I/O 之间,没有明确的界限。

    连续 / 随机 I/O

    连续 I/O 指的是本次 I/O 给出的初始扇区地址和上一次 I/O 的结束扇区地址是完全连续或者相隔不多的。反之,如果相差很大,则算作一次随机 I/O

    连续 I/O 比随机 I/O 效率高的原因是:在做连续 I/O 的时候,磁头几乎不用换道,或者换道的时间很短;而对于随机 I/O,如果这个 I/O 很多的话,会导致磁头不停地换道,造成效率的极大降低。

    顺序 / 并发 I/O

    从概念上讲,并发 I/O 就是指向一块磁盘发出一条 I/O 指令后,不必等待它回应,接着向另外一块磁盘发 I/O 指令。对于具有条带性的 RAID(LUN),对其进行的 I/O 操作是并发的,例如:raid 0+1(1+0),raid5 等。反之则为顺序 I/O。

     

    四、磁盘 I/O 性能的监控

    监控磁盘的 I/O 性能,我们可以使用 AIX 的系统命令,例如:sar -d, iostat, topas, nmon 等。下面,我将以 nmon 和 topas 为例,讲述在系统中如何观察磁盘 I/O 的性能。

    topas

    登录 AIX 操作系统,输入 topas,然后按 D,会出现如下界面:

    在上图中,TPS 即为磁盘的 IOPS,KBPS 即为磁盘每秒的吞吐量。由于服务器处于空闲的状态,我们可以看到 IOPS,KBPS 的数据都非常低。

    我们使用 dd if 命令向磁盘 hdisk2 发读 I/O,block 大小为 1MB:

    利用 topas 进行监控:

    此时,hdisk2 的吞吐量为 163.9M,IOPS 为 655。

    我们再启动一个 dd if,使 hdisk 的 busy 数值达到 100%:

     


    从上图可以看出,在磁盘 busy 达到 100% 的时候,其吞吐量为 304.1M,IOPS 为 1200。

    hdisk2 是本地集成的 SAS 盘,我们可以查出本地集成 SAS 通道的带宽为 3Gb:

     

    对于 3Gb 的 SAS 通道,304.1M 的磁盘吞吐量已经接近其 I/O 带宽的峰值了。

    需要指出的是,使用 dd if 测量磁盘的带宽是可行的,但是由此来确定业务 I/O 的 IOPS 和吞吐量是不科学的。因为,dd if 所发起的读写仅为顺序 I/O 读写,在 OLTP 的业务中,这种读写是不常见的,而是随机小 I/O 比较多,因此,测量业务的磁盘 I/O 性能,需要在运行业务的时候进行监控。

    nmon

    在系统中输入 nmon,按 d,可以得到如下界面 :

    Figure xxx. Requires a heading

    可以得到此时磁盘 hdisk2 吞吐量为 318M。

    使用 nmon 收集一个时间段的数据,然后使用 nmon analyzer 进行分析,可以得出更为直接的图表:

     

    将收集好的 nmon 文件使用 nmon analyzer 进行分析,得出如下报表:

    图 2.nmon 图表显示磁盘性能

     

    五、磁盘 I/O 性能调优

    确认磁盘 I/O 存在性能问题

    对于随机负载,当遇到如下情况时,我们那通常认为存在 I/O 性能问题:

    1. 平均读时间大于 15ms

    2. 在具有写 cache 的条件下,平均写时间大于 2.5ms

    对于顺序负载,当遇到如下情况时,我们那通常认为存在 I/O 性能问题:

    1. 在一个磁盘上有两个连续的 I/O 流

    2. 吞吐量不足(即远远小于磁盘 I/O 带宽)

    对于一块磁盘来讲,随着 IOPS 数量的增加,I/O service 也会增加,并且会有一个饱和点,即 IOPS 达到某个点以后,IOPS 再增加将会引起 I/O service time 的显著增加。

    图 3. 磁盘 IOPS 与 IO service time 关系图

    从经验上讲,我们在测试工作中,我们主要关注 IOPS 和吞吐量以及磁盘的 busy% 这三个数值。如果 IOPS 和吞吐量均很低,磁盘的 busy% 也很低,我们会认为磁盘压力过小,造成吞吐量和 IOPS 过低;只有在 IOPS 和吞吐量均很低,磁盘的 busy% 很高(接近 100%)的时候,我们才会从磁盘 I/O 方面分析 I/O 性能。

     

    展开全文
  • 简介 混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算...混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于...

    简介

    混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。

    一句话解释版本:

    混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。这个表就是混淆矩阵。

     

     

    数据分析与挖掘体系位置

    混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)等方法。

    在分类型模型评判的指标中,常见的方法有如下三种:

    1. 混淆矩阵(也称误差矩阵,Confusion Matrix)
    2. ROC曲线
    3. AUC面积

    本篇主要介绍第一种方法,即混淆矩阵,也称误差矩阵。

    此方法在整个数据分析与挖掘体系中的位置如下图所示。

     

    混淆矩阵的定义

    混淆矩阵(Confusion Matrix),它的本质远没有它的名字听上去那么拉风。矩阵,可以理解为就是一张表格,混淆矩阵其实就是一张表格而已。

    以分类模型中最简单的二分类为例,对于这种问题,我们的模型最终需要判断样本的结果是0还是1,或者说是positive还是negative。

    我们通过样本的采集,能够直接知道真实情况下,哪些数据结果是positive,哪些结果是negative。同时,我们通过用样本数据跑出分类型模型的结果,也可以知道模型认为这些数据哪些是positive,哪些是negative。

    因此,我们就能得到这样四个基础指标,我称他们是一级指标(最底层的):

    • 真实值是positive,模型认为是positive的数量(True Positive=TP)
    • 真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第二类错误(Type II Error)
    • 真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第一类错误(Type I Error)
    • 真实值是negative,模型认为是negative的数量(True Negative=TN)

    将这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,我们称它为混淆矩阵(Confusion Matrix):

    混淆矩阵的指标

    预测性分类模型,肯定是希望越准越好。那么,对应到混淆矩阵中,那肯定是希望TP与TN的数量大,而FP与FN的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三象限对应位置出现的观测值肯定是越少越好。

    二级指标

    但是,混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。因此混淆矩阵在基本的统计结果上又延伸了如下4个指标,我称他们是二级指标(通过最底层指标加减乘除得到的):

    • 准确率(Accuracy)—— 针对整个模型
    • 精确率(Precision)
    • 灵敏度(Sensitivity):就是召回率(Recall)
    • 特异度(Specificity)

    我用表格的方式将这四种指标的定义、计算、理解进行了汇总:

    通过上面的四个二级指标,可以将混淆矩阵中数量的结果转化为0-1之间的比率。便于进行标准化的衡量。

    在这四个指标的基础上在进行拓展,会产令另外一个三级指标

     

    三级指标

    这个指标叫做F1 Score。他的计算公式是:

     

    其中,P代表Precision,R代表Recall。

    F1-Score指标综合了Precision与Recall的产出的结果。F1-Score的取值范围从0到1的,1代表模型的输出最好,0代表模型的输出结果最差。

     

     

    混淆矩阵的实例

    当分类问题是二分问题是,混淆矩阵可以用上面的方法计算。当分类的结果多于两种的时候,混淆矩阵同时适用。

    一下面的混淆矩阵为例,我们的模型目的是为了预测样本是什么动物,这是我们的结果:

    通过混淆矩阵,我们可以得到如下结论:

    Accuracy

    在总共66个动物中,我们一共预测对了10 + 15 + 20=45个样本,所以准确率(Accuracy)=45/66 = 68.2%。

    以猫为例,我们可以将上面的图合并为二分问题:

    Precision

    所以,以猫为例,模型的结果告诉我们,66只动物里有13只是猫,但是其实这13只猫只有10只预测对了。模型认为是猫的13只动物里,有1条狗,两只猪。所以,Precision(猫)= 10/13 = 76.9%

    Recall

    以猫为例,在总共18只真猫中,我们的模型认为里面只有10只是猫,剩下的3只是狗,5只都是猪。这5只八成是橘猫,能理解。所以,Recall(猫)= 10/18 = 55.6%

    Specificity

    以猫为例,在总共48只不是猫的动物中,模型认为有45只不是猫。所以,Specificity(猫)= 45/48 = 93.8%。

    虽然在45只动物里,模型依然认为错判了6只狗与4只猫,但是从猫的角度而言,模型的判断是没有错的。

    (这里是参见了Wikipedia,Confusion Matrix的解释,https://en.wikipedia.org/wiki/Confusion_matrix)

    F1-Score

    通过公式,可以计算出,对猫而言,F1-Score=(2 * 0.769 *  0.556)/( 0.769 +  0.556) = 64.54%

    同样,我们也可以分别计算猪与狗各自的二级指标与三级指标值。

     

     

    ROC曲线在R中的实现

    library(ISLR)
    
    cor(Smarket[,-9])
    attach(Smarket)
    
    # logistic Model
    model_LR <- glm(Direction ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 + Volume,
                    family = binomial,
                    data = Smarket)
    
    # Make prediction 
    prob_LR <- predict(model_LR, type = 'response', newdata = Smarket[1:300,])
    prob_LR <- predict(model_LR, type = 'response', newdata = Smarket[,])
    
    
    # create a vector of class predictions based on wether the predicted probability of a market increase is greater than or less than 0.5
    pred_LR <- rep("Down" , 1250)          
    pred_LR[prob_LR > 0.5] = 'Up'        
    
    # Confusion Matrix
    table(pred_LR, Direction)
    

     

    展开全文
  • 2.7 指标分类 a.原子指标(聚合) b.派生指标(筛选) 事务型指标:对业务活动进行衡量的指标。 存量型指标:对实体对象(如商品、会员)某些状态的统计。 c.衍生指标(逻辑计算) 复合型指标:在事务型...

    2.7 指标分类

         a.原子指标(聚合)

         b.派生指标(筛选)

              事务型指标:对业务活动进行衡量的指标。

              存量型指标:对实体对象(如商品、会员)某些状态的统计。

         c.衍生指标(逻辑计算)

              复合型指标:在事务型指标和存量型指标的基础上复合而成的。

    2.8 指标分类示例

    
     
    1. ---------1.原子指标---------

    2. SELECT SUM(A) FROM Z GROUP BY C;

    3. SELECT SUM(B) FROM Z GROUP BY C;

    4. ---------2.派生指标---------

    5. SELECT SUM(A) AS SUM_A FROM Z WHERE D = 'X' GROUP BY C;

    6. SELECT SUM(B) AS SUM_B FROM Z WHERE D = 'X' AND E = 'Y' GROUP BY C;

    7. ---------3.衍生指标---------

    8. SELECT SUM_A/SUM_B FROM TEMP;

    3.指标创建及管理流程明晰

    3.1 原子指标

    3.2 派生/衍生指标

     

    4.相关

          指标管理-示例

          如何搭建一套完整的数据指标体系?

          滴滴数据仓库指标体系建设实践

          如何构建指标体系

     

    1.背景

          结合业务场景将多个不同指标和维度进行组合,从而针对某一真实业务场景进行数据分析和决策导向,并能在整体业务变化中发现和定位问题。

    2.概念理解与示例分析

    2.1 指标体系

    指标体系
    名称 分类 解析 作用/示例
    指标 结果型指标 时机:动作发生后 监控数据异常
    过程型指标 时机:动作发生中 可以通过运营策略影响过程指标
    体系(维度) 定性维度 文字类描述 城市,性别,职业
    定量维度 数值类描述 收入,年龄

    2.2 指标分级

           T1指标:公司战略层面指标

           T2指标:业务策略层面指标

           T3指标:业务执行层面指标

    2.3 OSM

           明确产品目标(O)——>达成目标策略(S)——>策略指引指标变化(M)

    2.4 AARRR模型

    2.5 RARRA模型

           将原本首要专注的用户获取变化为用户留存

    2.6 指标模型示例

      O S M
    获取A 获取新用户

    统一数据分类接口产出

    增加数据分类覆盖

    新增用户数量,数据覆盖度
    活跃A 提高接口使用频次

    迭代接口产出

    提高接口代码健壮性

    并发量,稳定性,平均响应时间
    留存R 稳固原有用户 提高数据质量,持续观测接口 数据准确率,数据覆盖率,稳定性
    变现R 业务收益 业务策略 数据价值体现
    推荐R 新业务推荐 业务策略 /

     

     

    展开全文
  • 下面为你介绍一下CCI指标指标用法以及CCI指标指标用途,如果想要了解更多CCI指标方面的知识,敬请关注QR量化投资社区,下面让我们了解一下CCI指标方面的知识吧! CCI指标指标用法 1.CCI指标什么意思?当CCI...
  • 机器学习模型的评价指标和方法

    万次阅读 多人点赞 2016-09-18 15:04:55
    ... 对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微...
  • 自动控制系统的基本性能指标

    万次阅读 2016-08-15 23:46:10
    本文简要小结了一下分析设计自动控制系统时,需要了解的自动控制系统性能指标的基本概念。包括系统数学模型、动态过程及动态性能指标、稳态过程及稳态性能指标
  • 超详细SPSS主成分分析计算指标权重(一)

    万次阅读 多人点赞 2019-03-13 20:58:51
    一、指标权重计算确定的困惑 相信很多写过或者正在写指标处理类论文的朋友都曾对如何计算指标权重充满困惑,到底是用熵值法,还是主成分分析法?或者其他各种看起来奥妙无穷却难以上手操作的神奇方法?好不容易确定...
  • 原子指标和衍生/派生指标

    千次阅读 2019-08-03 00:52:17
    按照个人的理解,不加任何修饰词的指标就是原子指标,也叫度量,一般存在于olap表中,例如订单量,用户量的等等。 而在原子指标上进行加减乘除或者修饰词的限定等等都是派生指标, 衍生/派生指标=原子指标+时间...
  • 指标分类

    千次阅读 2019-04-06 22:54:07
    指标分类1. 什么样的指标是好指标2. 指标的分类 1. 什么样的指标是好指标 好的指标能够真实、客观地反映出运营过程中出现的各种场景,包括运营动作的发起、变化、停止以及结果对比,使用这些指标能够针对运营动作...
  • 性能指标之业务指标

    千次阅读 2017-04-12 10:08:36
    经常在系统的需求书当中看到这样的描述“响应时间在3秒以内”...业务指标是从用户操作的角度体现出来的,相对于服务指标。服务指标是从系统对外提供服务的角度设定的指标。主要指标有业务类型、业务配比、并发用户数。
  • 性能测试指标之数据库指标

    千次阅读 2017-12-23 14:58:20
    常用的数据库例如MySQL指标主要包括SQL、吞吐量、缓存命中率、连接数等,具体如下: 一级指标 二级指标 单位 解释 备注 SQL 耗时 微秒 执行SQL耗时 吞吐量 QPS 个 每秒查询...
  • 动量指标——CMO钱德动量摆动指标致初学者: 大家好,我是一个马叉虫的宽客:Tao,从本期开始,我将为大家带来一系列的量化指标。众所周知,认识技术指标是作为一个从事二级市场必不可少的技能。相信开始对量化感...
  • 什么是原子指标,衍生(派生)指标

    千次阅读 2020-08-20 10:14:53
    不加任何修饰词的指标就是原子指标,也叫度量(一般是表中,聚合字段,订单量,用户量,pv,uv等), 派生指标: 而在原子指标上进行加减乘除或者修饰词的限定等等都是派生(衍生)指标 公式: 衍生/派生指标=...
  • 文章目录0 本文简介1 二分类指标1.1 二分类时的错误类型1.2 不平衡的数据1.3 混淆矩阵1.4 考虑不确定性1.5 准确率-召回率曲线1.6 ROC与AUC2 多分类指标3 回归指标4 在模型选择中使用评估指标 0 本文简介 我们使用...
  • 数据库监控指标

    千次阅读 2019-03-13 22:02:49
    数据库是系统健康和用户行为健康的重要指标。数据库中的异常行为可能会引起应用程序中的问题。或者,当您的应用程序中存在异常时,您可以使用数据库指标来帮助加快调试过程。 开始监控数据库的最佳方法是确定一些...
  • MATLAB求解峰值、均值、平均幅值、方差、均方根、方根幅值、最值、峭度、斜度、裕度指标、波形指标、脉冲指标、峰值指标、峭度指标 朋友给了份文档,要求计算标题上的这些值,原本计划用Python计算,奈何还不是太...
  • 性能测试的指标

    万次阅读 多人点赞 2018-04-16 22:41:22
    这篇文章讲讲性能测试的定义,前后端性能测试的常见基础指标
  • 数据建模—指标体系

    万次阅读 2020-12-09 21:57:09
    指标 指标,实际上就是一种度量。大到用于监控和评估商业进程的状态,小到衡量某个功能模块的情况,或者是自己的活动效果。 提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、...
  • CCI指标什么意思CCI指标预测范围

    千次阅读 2019-06-18 16:36:40
    CCI指标是一种比较有用的炒股指标,建议每位股民都要用心学习,努力掌握。下面为你介绍一下CCI指标什么意思以及CCI指标预测范围,如果想要了解更多CCI指标方面的知识,敬请关注QR量化投资社区,下面让我们了解一下...
  • 做价值的传播者,一路同行,一起成长问题:怎样才能每天都收到这类文章!答案:只需点击上方《通达信公式指标》趋势顶线:SMA(AMOUNT/VOL/100,13,1)*1.15...{这部分是把一些经典指标的信号表示出来,没什么特别的}DIF...
  • VOL指标-成交量指标

    千次阅读 2017-03-18 23:38:57
    VOL指标即成交量指标,在股票交易中是股票活跃度的表现,VOL指标的不同形态,预示不同的行情,有助于掌握股票趋势 VOL指标即股票成交量指标,红色柱体代表收盘价高于开盘价,绿柱反之。按照股市习惯,常见的有几种...
  • 炒股哪些技术指标最好用麻烦再补充说明一下它的用法短线最佳应用的几个技术指标请教大家:股票里面哪几个技术指标是最佳组合,配套使用能较好的达到优势。可以把趋势类指标,震荡累指标结合起来组成新的指标使用。...
  • 图像质量评估指标 SSIM / PSNR / MSE

    万次阅读 多人点赞 2017-12-09 00:25:21
    图像质量评估指标 SSIM / PSNR / MSE
  • KDJ指标

    千次阅读 2018-07-02 13:00:36
    KDJ是随机指标,计算比较复杂,首先要计算周期(n日、n周等)的RSV值,即未成熟随机指标值,然后再计算K值、D值、J值等。以n日KDJ数值的计算为例,其计算公式为 n日RSV=(Cn-Ln)/(Hn-Ln)×100 公式中,Cn为第...
  • 预测评价指标RMSE、MSE、MAE、MAPE、SMAPE

    万次阅读 多人点赞 2019-02-21 10:50:31
    RMSE 均方根误差(Root Mean Square Error) MSE 均方误差(Mean Square Error) MAE 平均绝对误差(Mean Absolute Error) MAPE ...平均绝对百分比误差(Mean Absolute Percentage Error) ......
  • rsi指标如何计算怎样分析RSI指标

    千次阅读 2019-08-07 17:25:46
    不得不说RSI指标真的是一个很神奇的东西,看透了它就像看透了彩票的中奖数字一样,不能说是稳赢吧,但是也八九不离十了,至少不会输得很惨。很多人疑惑,RSI指标究竟是怎样计算的?能够让人如此信服。应该如何分析RSI...
  • kibana 指标含义

    千次阅读 2018-10-11 16:32:44
    指标(Metric)编辑 一个指标视图为每个查询聚合显示一个单一的数字: 指标聚合: Count 计数 聚合返回所选索引模式中元素的原始计数。 Average 该聚合返回数字字段的平均值 。从下拉菜单中选择一个字段。 Sum ...
  • 答案:只需点击上方《通达信指标公式软件》买线:EMA(CLOSE,2),COLORRED;卖线:EMA(((SLOPE(CLOSE,21) * 20) + CLOSE),42),CIRCLEDOT,COLOR0099CC;BBUY:=CROSS(买线,卖线);SEL:=CROSS(卖线,买线);STICKLINE((买线...
  • 评测指标(metrics)

    万次阅读 多人点赞 2019-07-05 21:06:45
    评测指标(metrics) metric主要用来评测机器学习模型的好坏程度,不同的任务应该选择不同的评价指标, 分类,回归和排序问题应该选择不同的评价函数. 不同的问题应该不同对待,即使都是 分类问题也不应该唯评价函数论,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 135,471
精华内容 54,188
关键字:

指标