精华内容
下载资源
问答
  • ROC曲线特征

    千次阅读 2017-08-15 15:41:04
    Fawcett, 2005]ROCROC是以FPR为X轴,以TPR为Y轴的曲线。表示的是模型的效果(由TPR表示)和损失(由FPR代表)的相对关系和取舍概况。 分类器对不同样本给出了更偏向正例还是反例的的概率值,然后这些概率值可以和...

    An Introduction to ROC Analysis [T. Fawcett, 2005]

    ROC

    ROC是以FPR为X轴,以TPR为Y轴的曲线。表示的是模型的效果(由TPR表示)和损失(由FPR代表)的相对关系和取舍概况。
    分类器对不同样本给出了更偏向正例还是反例的的概率值,然后这些概率值可以和一些人为设定的阈值比较从而得出最终的分类结果。例如,大于阈值的就是正例,小于阈值的就是反例。可以看出,不同的阈值设定对最终结果有很大的影响,ROC曲线表示的就是在不同阈值的设定下,分类结果的呈现。

    ROC特点

    • 左下角的点(0,0)代表了分类器从来不做任何分类,既没有正例也没有反例,既没有正确的分类,也没有错误的分类;
    • 右上角的点(1,1)代表了分类器无脑对样本分正例,所有的样本都被分为了正例;
    • 右下角的点(1,0)代表了分类器无脑分反例;
    • 左上角的点(0,1)代表了完美的分类器,全部分类正确,ROC所以越是靠近左上角,说明分类器的效果越好;
    • ROC的对角线代表了随机猜测的结果。

    ROC优点

    ROC对数据的分布情况不敏感,和P、R、F1等等指标用数值衡量不同,ROC使用的是“率”的概念,所以就对数值变化免疫了。

    下图是样本分类发生大幅度变化时,ROC和P-R曲线的表现:
    左面是ROC曲线,右面是P-R曲线,在分类发生大幅度变化的时候,P-R曲线发生了明显的变化

    AUC

    AUC曲线是指ROC曲线下的面积。
    - 其取值应该在0.5到1之间,小于0.5的分类器表现还不如随机的(ROC的对角线),如果真的还不如0.5,那么反过来就好了…
    - 如果用面积的概念来看待AUC,那么AUC的计算就是一个个矩形的加总。但是当样本量增加的时候,计算起来会很复杂。

    AUC是一个正负样本排序的概率值,具体来讲,是分类器将随机正例排序高于随机反例的概率

    the AUC of a classifier is equivalent to the probability that the classifier will rank a randomly chosen positive instance higher than a randomly chosen negative instance

    展开全文
  • 经典曲线特征提取方法总结1

    千次阅读 2018-12-14 15:17:49
    但是因为不同种类的曲线太过于相似,想试试能不能提取迟来特征。 数据描述 数据每分钟一个点,一天1440个数据点,每天为一个周期,共7天数据。  测试数据为monitor数据,视图4180,属性231960.  数...

    原文参考 :https://blog.csdn.net/vegetable_bird_001/article/details/80653986 

    最近在做曲线分类识别的工作。但是因为不同种类的曲线太过于相似,想试试能不能提取迟来特征。

    数据描述

    数据每分钟一个点,一天1440个数据点,每天为一个周期,共7天数据。 
    测试数据为monitor数据,视图4180,属性231960. 

    移动中位数去噪


    数据去噪

    常用的去噪方法有:3-σ去噪、移动中位数去噪。

     

    3-σ去噪

    数据点与均值相差超过3个标准差,则认为为噪点 

     


    移动中位数去噪

    用中位数代替均值,用中位数偏差代替标准差,避免极端异常值的影响。通过移动分段中位数,增强局部异常点的探测。

     

    import numpy as np
    import pandas as pd
    def median_noise_filter(df_data, threshold=15,rolling_median_window=50):
        exceptions = pd.Series()
        df_data['median'] = df_data['value'].rolling(window=rolling_median_window, center=True).median().fillna(method='bfill').fillna(
            method='ffill')
        difference = np.abs(df_data['value'] - df_data['median'])
        median_difference = np.median(difference)
        if median_difference != 0:
            s = difference / float(median_difference)
            exceptions = s[s > threshold]
        return exceptions

    移动中位数去噪

    移动中位数去噪需要选择合适的滑动窗口和偏差阈值参数。3-σ简单直接,但会受到极端值的影响

     

    噪点填充

    噪点填充为前一个和后一个正常点的均值

     

    数据标准化(归一化)

    将数据按比例缩放,去除数据的单位限制,将其转化为无量纲的纯数值,专注于曲线的形状识别,而不关心曲线上点数值的大小。

     

    max-min标准化

    对原始数据的一种线性变换,使原始数据映射到[0-1]之间,指将原始数据的最大值映射成1,是最大值归一化 
                                                                             

    max-min归一化


    z-score标准化

    根据原始数据的均值和标准差进行标准化,经过处理后的数据符合标准正态分布,即均值为0,标准差为1.本质上是指将原始数据的标准差映射成1,是标准差归一化。曲线数值表示该点与均值相差的标准差的数据量: 
                                                                              

    曲线值反映了数据点与均值相差的标准差个数。 

    z-score归一化


    统计特征

     

    中心位置

    借由中心位置,可以知道数据的一个平均情况。数据的中心位置可分为均值(Mean),中位数(Median),众数(Mode)


    均值:表示统计数据的一般水平。受到极端值影响
    中位数:在 n 个数据由大到小排序后,位在中间的数字,不受极端值影响
    众数:一组数据中出现次数最多的数据值,不受极端值影响、非数值性数据同样适用

     


    发散程度

    数据的发散程度可用极差或全距(R)、方差(Var)、标准差(STD)、变异系数(CV)来衡量. 
                                                                  

     

    零值率

    零值所占的比率,需要在max-min标准化前提前该特征

     

    波动率

    波动率定义为7天波动率的中位数。 
    每天的波动率定义为该天数据标准化后的90分位值-10分位值:

                                  

     

    或者可以直接采用

     

    偏度(Skewness)

    偏度(偏态)是不对称性的衡量。正态分布的偏度是0,表示左右完美对称。右偏度为正,左偏度为负. 
    Skewness 定义为: 
                                                     
    其中μμ为均值,σσ为标准差,实际计算中,通过其样本值代替μ,σ3

     

    峰度(kurtosis)

    峰度(Kurtosis)衡量数据分布相对于正态分布,是否更尖或平坦。高峰度数据在均值附近有明显峰值,下降很快并且有重尾(heavy tails)。低峰度在均值附近往往为平坦的顶部。 
    峰度(Kurtosis)定义为: 
                                                                  
    其中μμ为均值,σσ为标准差,实际计算中,通过其样本值代替μ,σ4. 
    该计算值也称为超值峰度(excess kurtosis),正态分布的峰度为3。公式减3,是为了修正使正态分布的峰度为0。 
    K>0,称为尖峰态(leptokurtic) 
    K<0,称为低峰态(platykurtic)

     

    参考:

    [1] Tsfresh. https://tsfresh.readthedocs.io/en/latest/text/introduction.html 
    [2] A Scalable Method for Time Series Clustering. https://www.researchgate.net/publication/228894373_A_scalable_method_for_time_series_clustering 
    [3] 矩、峰度、偏度. http://yaoyao.codes/math/2014/09/04/moment-expectation-variance-skewness-and-kurtosis


     

    展开全文
  • 接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线) 在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议 分类模型(又称分类器,或诊断)是将一个实例映射到一个特定类的...

    接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)

    在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议

    分类模型(又称分类器,或诊断)是将一个实例映射到一个特定类的过程。

    二元分类模型的个案预测有四种:
    这四种结局可以画成2 × 2的混淆矩阵:
    在这里插入图片描述

    ROC空间

    ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。

    • TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。

      (TPR=TP/(TP+FN)( TPR=TP/(TP+FN)
    • FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率。
      (FPR=FP/(FP+TN)( FPR=FP/(FP+TN)
      给定一个二元分类模型和它的阈值,就能从所有样本的(阳性/阴性)真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点.

      从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。

      完美的预测是一个在左上角的点,在ROC空间座标 (0,1)点,X=0 代表着没有伪阳性,Y=1 代表着没有伪阴性(所有的阳性都是真阳性);也就是说,不管分类器输出结果是阳性或阴性,都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线(也叫无识别率线)上的一个点

    对于预测结果比较低的,只要取反,就可以得出比较好的结果

    ROC曲线

    同一个二元分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的FPR和TPR。

    1. 由于每个不同的分类器有各自的测量标准和测量值的单位,所以不同分类器的“分布图”都长得不一样
    2. 比较不同分类器时,ROC曲线的实际形状,便视两个实际分布的重叠范围而定,没有规律可循
    3. 但在同一个分类器之内,阈值的不同设定对ROC曲线的影响,仍有一些规律可循:

    阈值设定为最高时,亦即所有样本都被预测为阴性,没有样本被预测为阳性,此时在伪阳性率 FPR = FP / ( FP + TN ) 算式中的 FP = 0,所以 FPR = 0%。同时在真阳性率(TPR)算式中, TPR = TP / ( TP + FN ) 算式中的 TP = 0,所以 TPR = 0%

    → 当阈值设定为最高时,必得出ROC座标系左下角的点 (0, 0)。

    当阈值设定为最低时,亦即所有样本都被预测为阳性,没有样本被预测为阴性,此时在伪阳性率FPR = FP / ( FP + TN ) 算式中的 TN = 0,所以 FPR = 100%。同时在真阳性率 TPR = TP / ( TP + FN ) 算式中的 FN = 0,所以 TPR=100%

    → 当阈值设定为最低时,必得出ROC座标系右上角的点 (1, 1)。

    因为TP、FP、TN、FN都是累积次数,TN和FN随着阈值调低而减少(或持平),TP和FP随着阈值调低而增加(或持平),所以FPR和TPR皆必随着阈值调低而增加(或持平)。

    → 随着阈值调低,ROC点 往右上(或右/或上)移动,或不动;但绝不会往左下(或左/或下)移动。

    AUC(曲下面积)

    ROC曲线下方的面积(英语:Area under the Curve of ROC (AUC ROC)),其意义是:

    • 因为是1x1的方格里求面积,AUC必在0~1之间。
    • 假设阈值以上是阳性,以下是阴性;
    • 若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本之机率=AUC
    • 简单说:AUC值越大的分类器,正确率越高。
      从AUC判断分类器(预测模型)优劣的标准:
    • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
    • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
    • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
    • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
    展开全文
  • ROC 受操作特征曲线

    千次阅读 2018-04-24 17:20:20
    参考文献:ROC曲线 ROC曲线详解 ROC曲线的绘制接受者操作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的...

    参考文献:ROC曲线        ROC曲线详解           ROC曲线的绘制

    接受者操作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。

    得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。

    接受者操作特性曲线就是以虚警概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。 


    相关概念:

    虚警概率(false alarm probability):目标没有出现情况下判断目标出现,这种虚警情况出现的概率,常用符号P(FA)表示).

    击中概率(Detection probability发现概率):目标出现情况下判断目标出现,这种正确检测的概率。

    错误概率(Error probability):目标出现情况下判断目标没有出现,这种错误检测的概率。Error probability=1-Detection probability

    信噪比(SNR)  :信号强度和噪声强度的比值(signal/noise ratio)信噪比的计量单位是dB,其计算方法是10lg(PS/PN),其中Ps和Pn分别代表信号和噪声的有效功率。设备的信噪比越高表明它产生的噪声越少。


    来源及用处:

    ROC曲线最早是运用在军事上,后来逐渐运用到医学领域。相传二战期间,只要有敌机来袭,雷达就会出现相应的信号,但实际上有时飞鸟出现在扫描区域时,雷达屏幕有时也会出现信号。雷达兵如果过于谨慎,凡是有信号就确定为敌机来袭,会增加误报风险;如果过于大胆,凡是信号都认为飞鸟,又会增加漏报的风险。每个雷达兵都有自己的判别标准,有的雷达兵比较谨慎,容易出现误报;有的雷达兵则比较胆大,容易出现漏报。          为了研究每个雷达兵预报的准确性,管理者汇总了所有雷达兵的预报特点,特别是他们漏报和误报的概率,并将这些概率画到一个二维坐标里面。纵坐标为敏感性,即在所有敌机来袭的事件中,每个雷达兵准确预报的概率。而横坐标则是虚报概率(假阳性率(1-特异度)),表示了在所有非敌机来袭信号中,雷达兵预报错误的概率。由于每个雷达兵的预报标准不同,且得到的敏感性和特异性的组合也不同。将这些雷达兵的预报性能进行汇总后,雷达兵管理员发现他们刚好在一条曲线上,这条曲线就是我们经常在医学杂志上看见的ROC曲线。


    ROC曲线分析标准:曲线下面积越大,诊断准确性越高。

    (1)纵坐标(检测概率,记作β)接近0时,击中概率几乎为0,即信号全当成噪音接受;当β接近无穷大时,虚警概率几乎为0,即噪音全当成信号接受;而当β从接近0向无穷大渐变的过程中,将形成一条完整地ROC曲线,曲线在某一处达到最佳的标准βOPT。 

    (2)ROC曲线的曲率反应敏感性指标d’:对角线代表辨别力等于0的一条线,也叫纯机遇线。 ROC曲线离纯机遇线越远,曲线下面积越大,表示曲率d’的值愈大,就表明被试的辨别力越强。


    实际应用:ROC曲线可以用来评价一个二分分类器,ROC曲线一般用于绘制二分类问题,用于评价分类器、分类算法的性能 ,用来评价一个二值分类器(binary classifier)的优劣。


    我的实际应用:频谱检测(Spectrum sensing)算法的性能分析。 使用MATLAB仿真得到算法的ROC曲线,比较分析不同算法的性能。


    展开全文
  • 接受者操作特征曲线ROC

    千次阅读 2020-06-01 17:18:58
    接受者操作特征曲线 编辑讨论上传视频 同义词ROC曲线一般指接受者操作特征曲线 本词条由“科普中国”科学百科词条编写与应用工作项目审核 。 接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下...
  • 曲线的曲率特征

    千次阅读 2018-11-07 10:17:40
    找了很多计算曲率的例子,都是x轴等间距的例子,我自己写了一个非等间距的曲率计算方法,将一个sin函数偏移并且旋转一定角度,分别测量他们的曲率和与二阶导的和 clc; clear; X=(0:0.001:2*pi);...
  • 曲线分类-特征提取(二)

    千次阅读 2018-06-20 17:40:52
    时域特征 自相关系数与偏自相关系数 自相关(autocorrelation),指时序序列于其自身在不同时间点的互相关性. 离散数据的lll阶自相关系数定义为 autocorrelationl=1(n−l)σ2∑t=1n−1(Xt−μ)(Xt+l−μ)...
  • 使用plot_importance绘制特征重要性曲线 代码如下所示: # -*- coding: utf-8 -*- #导入需要的包 import matplotlib.pyplot as plt from sklearn import datasets...
  • 曲线分类-特征提取(三)

    千次阅读 2018-06-21 13:16:46
    频域特征 傅里叶变换 傅里叶变换(Fourier transform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换。 FFT变换是针对一组数值进行运算的,这组数的长度N是2的整数次幂时,效果和速度会更好。 ...
  • 请由键盘输入任意个控制(特征)点,绘制出对应的控制(特征)多边形及Bezier曲线 代码已经过编译,可直接进行使用。 #include&lt;stdio.h&gt; #include&lt;graphics.h&gt; #include&lt;math.h&...
  • 它表现为高位的无差异曲线与高位的消费可能性线相切。正常商品还可以进一步细分为必需品和奢侈品。 必需品随着收入的增加,其增加的幅度越来越小;奢侈品随着收入的增加,其增加的幅度越来越大。 2、低档商品: ...
  • 曲线分类-特征提取(一)

    万次阅读 2018-06-12 10:24:42
    那么一条曲线,到底包含了哪些信息,可以帮助我们进行特征提取呢? 数据描述 数据每分钟一个点,一天1440个数据点,每天为一个周期,共7天数据。 测试数据为monitor数据,视图4180,属性231960. ...
  • 简单曲线拟合

    千次阅读 2011-08-13 17:11:01
    对于许多实验数据和统计数据来说,为了描述不同变量之间的关系,进一步分析曲线特征。根据已知数据找出相应得函数关系,经常需要对曲线进行拟合。 Origin 提供了多种可以进行数据拟合的函数,除线性回归、多项式...
  • 分类模型评估之ROC-AUC曲线和PRC曲线

    万次阅读 多人点赞 2016-06-30 11:27:09
    ROC(Receiver Operating Characteristic,接受者工作特征曲线曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。博文介绍ROC和AUC的特点,讨论如何作出ROC曲线图以及计算AUC。 AUC是现...
  • ROC曲线学习总结

    万次阅读 多人点赞 2019-08-19 15:22:38
    文章目录ROC曲线学习总结1. ROC曲线(Receiver Operating Characteristic)的概念和绘制2. 利用ROC曲线评价模型性能——AUC(Area Under Curve)3. 利用ROC曲线选择最佳模型3.1 不同模型之间选择最优模型3.2 同一模型中...
  • 样条曲线

    千次阅读 2019-02-19 16:33:04
    样条曲线 所谓样条曲线(Spline Curves)是指给定一组控制点而得到一条曲线曲线的大致形状由这些点予以控制,一般可分为插值样条和逼近样条两种,插值样条通常用于数字化绘图或动画的设计,逼近样条一般用来构造...
  • 效用曲线

    2020-07-17 15:29:17
    什么是效用曲线 效用曲线是用于反映决策者对风险态度的一种曲线。又称"偏好曲线"。在决策中,决策者的个性、才智、胆识、经验等主观因素,使不同的决策者对相同的益损问题 (获取收益或避免损失)作出不同的反应;即使...
  • roc曲线

    千次阅读 2019-03-26 00:19:21
    维基百科上roc是受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激...
  • ROC曲线、PR曲线

    千次阅读 2015-05-20 13:20:30
    在论文的结果分析中,ROC和PR曲线是经常用到的两个有力的展示图。 1.ROC曲线 ...由于是通过比较两个操作特征(TPR和FPR)作为标准,ROC曲线也叫做相关操作特征曲线。 ROC分析给选择最好的模
  • ROC曲线详解

    万次阅读 2014-10-21 15:37:02
    ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同...
  • ROC曲线

    千次阅读 2014-10-03 21:02:44
    ROC(ReceiverOperating Characteristics Curve,指受试者工作特征曲线 / 接收器操作特性曲线),在评估和比较二分类模型(结果通常标记为Positive或Negative)的性能时非常有用,它是一个二维的曲线,Y轴用...
  • 深度理解受试者工作特征(ROC)曲线

    千次阅读 2020-12-23 18:03:06
    ROC全称是“受试者工作特征”(Receiver OperatingCharacteristic)曲线。我们根据学习器的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到...
  • 曲线拟合

    万次阅读 2015-05-01 00:40:48
    12.1 曲线拟合 12.1.1 曲线拟合的定义  曲线拟合(Curve Fitting)的数学定义是指用连续曲线近似地刻画或比拟平面上一组离散点所表示的坐标之间的函数关系,是一种用解析表达式逼近离散数据的方法。曲线拟合...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 88,911
精华内容 35,564
关键字:

曲线的特征