精华内容
下载资源
问答
  • 异常值检验

    2020-03-06 14:35:15
    异常值检验 什么是异常值 异常点(outlier)是一个数据对象,它明显不同于其他的数据对象,分为记录异常和非记录异常。 异常值检验的应用 信用卡欺诈检测、电信欺诈检测、网络入侵检测、故障检测。 怎样确定异常值 ...

    异常值检验

    什么是异常值

    异常点(outlier)是一个数据对象,它明显不同于其他的数据对象,分为记录异常和非记录异常。

    异常值检验的应用

    信用卡欺诈检测、电信欺诈检测、网络入侵检测、故障检测。

    怎样确定异常值
    1. 数据中有多少离群值(怎么界定)
    2. 方法往往是无人监督的,验证可能相当具有挑战性(就像聚类)
    异常检测的方法
    1. 基于规则的方法
    2. 基于模型的方法

    可视化判断
    箱形图(1-D)和散点图(2-D)检验方法:
    在这里插入图片描述
    在这里插入图片描述
    基于统计和规则
    假设描述数据分布的参数模型
    应用取决于的统计测试

    • 数据分布
    • 分布参数(如:平均值,方差)
    • 预期异常值的数量
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      特征变换
      意义:对于非高斯分布的数据,虽然也可以使用上面的算法,但效果不是很好,所以我们尽量将非高斯分布转化成(近似)高斯分布,然后再进行处理。
      在这里插入图片描述
      在这里插入图片描述
      假设检验

    假设数据来自正态分布,检测单变量数据中的异常值
    一次检测一个异常值,删除异常值,然后重复
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    基于距离的模型

    最近邻法:计算每对数据点之间的距离
    k近邻法:计算k邻近数据点之间的距离,不适宜低密度数据集情况
    在这里插入图片描述
    基于线性的模型

    • PCA的重构差异
      在这里插入图片描述
      基于非线性的模型
    • 基于聚类——DBSCAN
      孤立点即可视为异常点
    • iForest 孤立森林
      在这里插入图片描述
    • RNNs
      在这里插入图片描述
      在这里插入图片描述
    展开全文
  • R语言︱异常值检验、离群点分析、异常值处理

    万次阅读 多人点赞 2016-04-21 20:25:28
    笔者寄语:本文是《R语言数据分析与挖掘实战》 异常值处理一般分为以下几个步骤:异常值检测、异常值筛选、异常值处理。 其中异常值检测的方法主要有:箱型图、...一、异常值检验 异常值大概包括缺失值、离群值、重复值



    每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

    ———————————————————————————


    笔者寄语:异常值处理一般分为以下几个步骤:异常值检测、异常值筛选、异常值处理。

    其中异常值检测的方法主要有:箱型图、简单统计量(比如观察极值)

    异常值处理方法主要有:删除法、插补法、替换法。

    提到异常值不得不说一个词:鲁棒性。就是不受异常值影响,一般是鲁棒性高的数据,比较优质。


    一、异常值检验


    异常值大概包括缺失值、离群值、重复值,数据不一致。


    1、基本函数


    summary可以显示每个变量的缺失值数量.


    2、缺失值检验

    关于缺失值的检测应该包括:缺失值数量、缺失值比例、缺失值与完整值数据筛选。

    #缺失值解决方案
    sum(complete.cases(saledata))         #is.na(saledata)
    sum(!complete.cases(saledata))
    mean(!complete.cases(saledata))       #1/201数字,缺失值比例
    saledata[!complete.cases(saledata),]  #筛选出缺失值的数值
    


    3、箱型图检验离群值


    箱型图的检测包括:四分位数检测(箱型图自带)+1δ标准差上下+异常值数据点。

    箱型图有一个非常好的地方是,boxplot之后,结果中会自带异常值,就是下面代码中的sp$out,这个是做箱型图,按照上下边界之外为异常值进行判定的。

    上下边界,分别是Q3+(Q3-Q1)、Q1-(Q3-Q1)。


    sp=boxplot(saledata$"销量",boxwex=0.7)
    title("销量异常值检测箱线图")
    xi=1.1
    sd.s=sd(saledata[complete.cases(saledata),]$"销量")
    mn.s=mean(saledata[complete.cases(saledata),]$"销量")
    points(xi,mn.s,col="red",pch=18)
    arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1)
    text(rep(c(1.05,1.05,0.95,0.95),length=length(sp$out)),labels=sp$out[order(sp$out)],
         sp$out[order(sp$out)]+rep(c(150,-150,150,-150),length=length(sp$out)),col="red")


    代码中text函数的格式为text(x,label,y,col);points加入均值点;arrows加入均值上下1δ标准差范围箭头。


    箱型图还有等宽与等深分箱法,可见另外一个博客:R语言︱噪声数据处理、数据分组——分箱法(离散化、等级化)


    4、数据去重


    数据去重数据分组合并存在一定区别,去重是纯粹的所有变量都是重复的,而数据分组合并可能是因为一些主键的重复。

    数据去重包括重复检测(table、unique函数)以及重复数据处理(unique/duplicated)。

    常见的有unique、数据框中duplicated函数,duplicated返回的是逻辑值。



    二、异常值处理


    常见的异常值处理办法是删除法、替代法(连续变量均值替代、离散变量用众数以及中位数替代)、插补法(回归插补、多重插补)

    除了直接删除,可以先把异常值变成缺失值、然后进行后续缺失值补齐。

    实践中,异常值处理,一般划分为NA缺失值或者返回公司进行数据修整(数据返修为主要方法)


    1、异常值识别

    利用图形——箱型图进行异常值检测。

    #异常值识别
    par(mfrow=c(1,2))#将绘图窗口划为1行两列,同时显示两图
    dotchart(inputfile$sales)#绘制单变量散点图,多兰图
    pc=boxplot(inputfile$sales,horizontal=T)#绘制水平箱形图
    代码来自《R语言数据分析与挖掘实战》第四节。

    2、盖帽法

    整行替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。



    (本图来自CDA DSC,L2-R语言课程,常老师所述)

    #异常数据处理
    q1<-quantile(result$tot_derog, 0.001)        #取得时1%时的变量值
    q99<-quantile(result$tot_derog, 0.999)       #replacement has 1 row, data has 0 说明一个没换
    result[result$tot_derog<q1,]$tot_derog<-q1
    result[result$tot_derog>q99,]$tot_derog<-q99
    summary(result$tot_derog)                    #盖帽法之后,查看数据情况
    fix(inputfile)#表格形式呈现数据
    
    which(inputfile$sales==6607.4)#可以找到极值点序号是啥

    把缺失值数据集、非缺失值数据集分开。

    #缺失值的处理
    inputfile$date=as.numeric(inputfile$date)#将日期转换成数值型变量
    sub=which(is.na(inputfile$sales))#识别缺失值所在行数
    inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分
    inputfile2=inputfile[sub,]

    3、噪声数据处理——分箱法

    将连续变量等级化之后,不同的分位数的数据就会变成不同的等级数据,连续变量离散化了,消除了极值的影响。


    4、异常值处理——均值替换

    数据集分为缺失值、非缺失值两块内容。缺失值处理如果是连续变量,可以选择均值;离散变量,可以选择众数或者中位数。

    计算非缺失值数据的均值,

    然后赋值给缺失值数据。

    #均值替换法处理缺失,结果转存
    #思路:拆成两份,把缺失值一份用均值赋值,然后重新合起来
    avg_sales=mean(inputfile1$sales)#求变量未缺失部分的均值
    inputfile2$sales=rep(avg_sales,n)#用均值替换缺失
    result2=rbind(inputfile1,inputfile2)#并入完成插补的数据


    5、异常值处理——回归插补法


    #回归插补法处理缺失,结果转存
    model=lm(sales~date,data=inputfile1)#回归模型拟合
    inputfile2$sales=predict(model,inputfile2)#模型预测
    result3=rbind(inputfile1,inputfile2)

    6、异常值处理——多重插补——mice包

    注意:多重插补的处理有两个要点:先删除Y变量的缺失值然后插补
       1、被解释变量有缺失值的观测不能填补,只能删除,不能自己乱补;
       2、只对放入模型的解释变量进行插补。


    比较详细的来介绍一下这个多重插补法。笔者整理了大致的步骤简介如下:

    缺失数据集——MCMC估计插补成几个数据集——每个数据集进行插补建模(glm、lm模型)——将这些模型整合到一起(pool)——评价插补模型优劣(模型系数的t统计量)——输出完整数据集(compute)


    步骤详细介绍:

    函数mice()首先从一个包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。

    每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。 由于插补有随机的成分,因此每个完整数据集都略有不同。

    其中,mice中使用决策树cart有以下几个要注意的地方:该方法只对数值变量进行插补,分类变量的缺失值保留,cart插补法一般不超过5k数据集。


    然后, with()函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型) ,

    最后, pool()函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。


    #多重插补法处理缺失,结果转存
    library(lattice) #调入函数包
    library(MASS)
    library(nnet)
    library(mice) #前三个包是mice的基础
    imp=mice(inputfile,m=4) #4重插补,即生成4个无缺失数据集
    fit=with(imp,lm(sales~date,data=inputfile))#选择插补模型
    pooled=pool(fit)
    summary(pooled)
    result4=complete(imp,action=3)#选择第三个插补数据集作为结果

    结果解读:


    (1)imp对象中,包含了:每个变量缺失值个数信息、每个变量插补方式(PMM,预测均值法常见)、插补的变量有哪些、预测变量矩阵(在矩阵中,行代表插补变量,列代表为插补提供信息的变量, 1和0分别表示使用和未使用

    同时  利用这个代码imp$imp$sales  可以找到,每个插补数据集缺失值位置的数据补齐具体数值是啥。


    > imp$imp$sales
            1      2      3      4
    9  3614.7 3393.1 4060.3 3393.1
    15 2332.1 3614.7 3295.5 3614.7

    (2)with对象。插补模型可以多样化,比如lm,glm都是可以直接应用进去,详情可见《R语言实战》第十五章;

    (3)pool对象。summary之后,会出现lm模型系数,可以如果出现系数不显著,那么则需要考虑换插补模型;

    (4)complete对象。m个完整插补数据集,同时可以利用此函数输出。


    其他:

    mice包提供了一个很好的函数md.pattern(),用它可以对缺失数据的模式有个更好的理解。还有一些可视化的界面,通过VIM、箱型图、lattice来展示缺失值情况。可见博客:在R中填充缺失数据—mice包


    三、离群点检测


    离群点检测与第二节异常值主要的区别在于,异常值针对单一变量,而离群值指的是很多变量综合考虑之后的异常值。下面介绍一种基于聚类+欧氏距离的离群点检测方法。

    基于聚类的离群点检测的步骤如下:数据标准化——聚类——求每一类每一指标的均值点——每一类每一指标生成一个矩阵——计算欧式距离——画图判断。


    Data=read.csv(".data.csv",header=T)[,2:4]
    Data=scale(Data)
    set.seed(12)
    km=kmeans(Data,center=3)
    print(km)
    km$centers  #每一类的均值点
    
    #各样本欧氏距离,每一行
    x1=matrix(km$centers[1,], nrow = 940, ncol =3 , byrow = T)
    juli1=sqrt(rowSums((Data-x1)^2))
    x2=matrix(km$centers[2,], nrow = 940, ncol =3 , byrow = T)
    juli2=sqrt(rowSums((Data-x2)^2))
    x3=matrix(km$centers[3,], nrow = 940, ncol =3 , byrow = T)
    juli3=sqrt(rowSums((Data-x3)^2))
    dist=data.frame(juli1,juli2,juli3)
    
    ##欧氏距离最小值
    y=apply(dist, 1, min)
    plot(1:940,y,xlim=c(0,940),xlab="样本点",ylab="欧氏距离")
    points(which(y>2.5),y[which(y>2.5)],pch=19,col="red")
    





    每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

    ———————————————————————————

    展开全文
  • 异常值检验的方法

    2020-03-23 22:51:33
    文章目录异常值检验的方法原始残差检测方法杠杆值检测方法学生化残差检测方法 异常值检验的方法 对于单变量线性回归,异常值的检测很简单,只需在直角坐标上作出散点图就能很直观地识别出哪些是异常值。 在多元线性...

    鄙人学习笔记
    参考文献:《计量经济学模型及R语言应用》-王斌会



    异常值检验的方法

    对于单变量线性回归,异常值的检测很简单,只需在直角坐标上作出散点图就能很直观地识别出哪些是异常值。
    在多元线性回归中,特别是样本容量较大时,检测的方法就复杂多了。一般来说,作出矩阵散点图对发现异常值有一定的帮助,但是散点图只能反映变量两两之间的关系,所以并不是一个很好的办法。常用的办法是通过检测各类残差来发现异常值。

    原始残差检测方法


    当样本数据本身对模型影响足够大时,会使模型尽可能地向自己身边靠拢,所以尽管该样本的残差并不会很大,但是模型的拟合程度已经减小。因此,除了原始残差方法外,还需要其他方法来辅助。

    杠杆值检测方法


    可以看出,假定的随机误差项是同方差的,但是残差的方差却不是相等的。它与H矩阵主对角线上的值密切相关。当hi的值很大时(比如接近于1),残差的方差会很小。反映在图形上,显示为该样本把回归直线向自己身边拉近,从而对整个模型的拟合性造成很大影响,所以对于hi值特别大的样本,一般判定界限为2p/n(注意:这里的p需包含常数项)。这时,我们称大于2p/n的点为高杠杆值点

    学生化残差检测方法

    残差的重要应用之一是根据它的绝对值大小判定异常值。但是普通残差有var(ei)=(1-hi)*σ2,这个方差与因变量y的度量单位以及hi有关。因此在判定异常点的情形时,直接比较一般残差是不合适的,需要对其进行标准化,得到学生化残差:

    可以证明cov(ri, rj)一般很小,所以应用上常常近似的认为ri, rj不相关,并进一步用正态分布作为ri的近似分布,即ri近似服从N(0, 1)分布且相互独立。
    当|ri| > 3时,可认为第i个点为异常点。

    展开全文
  • outlier异常值检验原理和处理方法

    outlier异常值检验原理和处理方法

    参考文章:

    (1)outlier异常值检验原理和处理方法

    (2)https://www.cnblogs.com/webRobot/p/10688059.html


    备忘一下。


    展开全文
  • R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
  • 学习笔记数据清洗--异常值检验前言一、异常值检验 文章目录前言一、异常值检验 前言 。 一、异常值检验 outlierKD <- function(dt, var){ var_name <- eval(substitute(var), eval(dt)) #eval 对表达式求...
  • 暂时还不知道为什么。。知道了再来补充
  • 在假设检验时,存在两类错误。第一类错误是当原假设为真时而拒绝原假设,又称为弃真错误,α为犯假设检验
  • 这篇文章将深入探讨异常值的性质,如何检测异常值,然后介绍一些处理异常值的流行方法。 What Are Outliers? First, what exactly are outliers? An outlier is an observation that lies an abnormal distance ...
  • 定义: 异常值,即在数据集中存在不合理的值,又称离群点。二.检验:(1)简单统计分析:对属性值进行一个描述性(经验)的统计,从而看出哪些值是不合理的。例如年龄,年龄的区间是【0,100】,如果样本中的年龄不...
  •   数据预处理时,异常值的存在可能对最终建立的模型的精度和泛化能力有较大的影响。检测异常值的方式有很多,最基本的两种方法为 z 分数法和上下截断点法。 对 z 分数法还存在些许疑虑的可查看如下博文 统计学: Z...
  •   数据预处理时,异常值的存在可能对最终建立的模型的精度和泛化能力有较大的影响。检测异常值的方式有很多,最基本的两种方法为 z 分数法和上下截断点法。本文即使 效果展示(Jupyter notebook) 一行代码快速绘图...
  • 异常值检验发现和剔除异常观测值的统计检验方法。异常值或离群值,是观测或试验过程中由于过失误差破坏了原有统计规律性而产生的观测值。异常值检验在许多生物工程、环境工程等相关领域有着极为广泛的应用,其可以...
  • 异常值判断与识别检验处理

    万次阅读 2019-03-24 23:20:01
    在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平。 异常值判断 判断异常值的规则: (1)标准差...
  • 如何用SPSS探测及检验异常值一、采用数据探索过程探测异常值SPSS菜单实现程序为:主菜单–>“Analyze”–>“DescriptiveStatistics”–>“Explore……”选项–>“Statistics”按钮–>选中“Outliers”...
  • 定义Grubbs检测,也称为最大归一化残差检测,常被用来检验服从正太分布的单变量数据集中的单个异常值。Grubbs检测基于正态假设。也就是说,在应用Grubbs检测之前,首先应验证数据是否可以通过正态分布合理地近似。...
  • Java的异常机制分析及处理办法 众所周知java中的异常(Exception)机制很重要程序难免会出错异常机制可以捕获程序中的错误用来提高程序的稳定性和健壮性 java中的异常分为CheckedException(非RuntimeException)和...
  • R Grubbs检验 和Dixon检验 找出异常值

    千次阅读 2018-07-01 15:29:42
    1、Grubbs检验#---------------代码范例#Grubbs检验代码实例: #######################################################################函数功能:Grubbs检验#...
  • 最近一段时间忙着写Paper,没有时间整理一下数据分析中的一个重要问题:异常值或者是离群值的检验问题(Outlier detection),如下图所示。实时上,关于异常值处理的问题,对于经济学中的实证分析并不是什么大问题,...
  • 用箱形图寻找异常值

    万次阅读 2019-03-20 19:45:28
    异常值检验有很多种方法,这里主要说箱形图。所谓的异常就是和大众不一样呗,就是指样本中出现的明显偏离大多数观测值的个别值。 箱线图(boxplot) 知识原理 (我手画了下,因为最开始是发在公众号上的,现在移图想...
  • 异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常成为...
  • 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。...异常值也称离群点,异常值的分析也称为离群点的分析。 在进行机器学习过程中,需要对数据集进行异...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 546
精华内容 218
关键字:

异常值检验