精华内容
下载资源
问答
  • 针对样本数据服从均匀分布时,样本中出现异常数据的检验问题,利用假设检验的基本原理和方法,在顺序统计量的基础上构造了检验功效较好的检验统计量,研究了均匀分布下的异常数据检验.根据顺序统计量的一些分布性质,推导...
  • kettle-8.3.0.0:数据检验、统计与脚本

    千次阅读 2019-12-28 12:50:42
    数据剖析和数据检验:用于数据的检查、清洗 。统计步骤:提供数据采样和统计的功能。分区:根据数据里某个字段的值,拆分成多个数据块。输出到不同的库表和文件中。 脚本:Javascript 基础 数据剖析和数据检验 1....

    概述

    数据剖析和数据检验:用于数据的检查、清洗 。
    统计步骤:提供数据采样和统计的功能。
    分区:根据数据里某个字段的值,拆分成多个数据块。输出到不同的库表和文件中。

    脚本:Javascript 基础

    数据剖析和数据检验

    1.数据剖析

    分析原始数据的数据类型、长度、值域等,属于ETL的第一步

    kettle中使用DataCleaner进行数据剖析

    首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.action?pageId=23533803

    2.数据校验

    示例可以查看samples,可以配置例如错误代码,字典表校验等:

    一个简单的检验如下:

    也可以后面接SWITCH CASE,通过错误代码等进行后续处理

    统计

    脚本

    JS脚本

    基础JS参见菜鸟教程

    1.在脚本中使用Java类:

    不兼容模式:var myVar = new java.lang.String(“pentahochina.com”);
    兼容模式:var myVar = new Packages.java.lang.String (“pentahochina.com”);

    此时myVar是一个Java的string对象,可以调用Java中的string方法

    // 兼容模式为兼容老的kettle,建议不兼容模式的新语法!

    2.获取字段:不兼容模式:myVar = FieldName; 兼容模式:根据字段类型的不同,使用不同的方法: myVar = FieldName.getString(); myVar = FieldName.getNumber();

    3.给字段赋值:

    不兼容模式:直接使用字段名,如 FieldName = myVar;
    兼容模式:使用 FieldName.setValue(myVar);

    JS代码中有很多内置函数,可以在编写JS代码时左侧查看

    支持Alert()的简单调试

    展开全文
  • #资源达人分享计划#
  • 数据异常检测方法以及实际应用

    千次阅读 2019-05-28 20:35:17
    关于数据的异常检测,看这一篇就够了 - 携程技术中心的文章 - 知乎 https://zhuanlan.zhihu.com/p/65023844 文章目录前言一、应用场景二、检测方法1、概率统计模型2、机器学习方法3、业务经验,逻辑规则4、判定...

    转载于:

    已获得作者同意转载

    关于数据的异常检测,看这一篇就够了 - 携程技术中心的文章 - 知乎
    https://zhuanlan.zhihu.com/p/65023844

    前言

    制造厂商需要抽样检测流水线上生产的产品,数据公司同样也需要对自己的数据产品质量进行把控。检测的目的无非是及时发现产品或数据中的异常,从而修正偏差改善产品质量。

    异常值在不同文献中有其不同的定义,通俗的说就是那些与其他观测值有显著偏差的观测点,有时也会称作是极端值、离群点或孤立点等,这些名词在数学的细分领域都有其不同的定义,这里不做区分。

    异常值产生的原因主要是数据生成机制的不同,异常值本身不是一个贬义词,异常观测也会涵盖有用的信息,帮助分析师理解数据的分布,保证线上流程的稳健性。

    一、应用场景

    异常检测与监控的应用场景多样,主要包括以下:

    1、ELT流程中的数据异常。ETL工程师在上层数据汇总过程中通常会考虑标记数据的极端值,比如单个用户的日pv数过千过万或单个用户周订单过百过千等,这将有助于数据分析师获取数据异常的先验信息。

    ELT用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

    2、特征工程中的数据异常。分箱操作是特征工程中常用的一种异常处理方式,在线性模型中,将变量分箱离散化可将极端值圈定在某一固定的组别,不仅能消除极端值对模型鲁棒性的影响,也能在线性性基础上引入非线性性。

    3、AB测试中的数据异常。在计算转化率(随机变量服从0/1分布)时,个别的异常值不会影响AB测试的整体效果,但在计算人均订单数和人均pv数时,个别的极端值会对均值产生显著影响。

    AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。

    4、时序数据的监控。监控数据在时间维度上的异常情况,这里需要考虑时序数据的特性,比如趋势和周期等。

    5、欺诈检测。金融场景中的欺诈案例也属于异常数据,机器学习中有很多优秀的算法可用来支持欺诈检测。

    6、其他场景中的异常检测和监控不一一列举。

    二、检测方法

    1、概率统计模型

    概率给出总体的分布来推断样本性质,统计则从样本出发来验证总体分布的假设。所以概率统计模型需要我们去验证模型假设的正确性,比如概率分布是否正确,参数的设置是否合理。

    2、机器学习方法

    机器学习无外乎监督、非监督以及半监督学习方法等,比如常见的聚类,二分,回归。此类方法往往注重模型的泛化能力,而弱化概率统计中的假设检验。历史数据的异常如果已标注,那么二分类方法是适用的,但业务数据的异常大多没有显示的人工标注,无法应用监督学习。

    3、业务经验,逻辑规则

    业务经验的丰富以及对数据的敏感性能更加直接地帮助理解异常数据,在一些轻量级的任务中,配置简单的逻辑规则也能达到很好的检测效果。

    4、判定规则

    异常值的判定规则主要采用以下两种方式:

    a)区间判定

    给出一个阈值区间,实际观测落在区间之外则判定为异常。例如,在时间序列和回归分析中,预测值与真实值的残差序列便可构建这样一个区间。

    b)二分判定

    二分判定的前提是数据包含人工标注。异常值标注为1,正常值标注为0,通过机器学习方法给出观测为异常的概率。

    三、实际应用

    1、从3 Sigma准则说起

    借助正态分布的优良性质,3σ准则常用来判定数据是否异常。由于正态分布关于均值μ对称,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973。也就是说只有0.3%的数据会落在均值的±3σ之外,这是一个小概率事件。为了避免极端值影响到模型整体的鲁棒性,常将其判定为异常值并从数据中剔除。

    正态分布的参数μ和σ极易受到个别异常值的影响,从而影响判定的有效性,因此又产生了Tukey箱型图法。

    第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。

    2、BOX-COX转化

    当原始数据的分布是有偏的,不满足正态分布时,可通过BOX-COX转化,在一定程度上修正分布的偏态。转换无需先验信息,但需要搜寻最优的参数λ。

    对于一个右偏数据,如下左图,λ取3.69时,转换后的数据分布近似一个正态分布,如下右图。严格地来说,在应用正态分布的性质之前,还需对转换后的数据做正态性检验。

    3、幂律分布(Power Law Distribution)vs 正态分布(Normal Distribution)

    除了常见的正态分布,还有一种极其重要却极易被忽略的分布-幂律分布。在日常的数据分析中,订单数据和浏览数据常呈现近似幂律分布。

    下图展现的是社交网络中用户数和用户粉丝数的关系,可以看出拥有200(横轴)以上的粉丝的用户数(纵轴)占极少数,而拥有<100粉丝的用户数成百上千,这就是幂律分布的特点:少数群体占有着多数的资源。

    呈现幂律分布特点的数据可通过log转换使观测点近似其分布在一条直线上,方便后续分析和预测,而分布中的那些所谓的“极端值”却不能像分析正态分布那样随意的剔除。考虑到计算中数据的倾斜问题,在不影响整体效果的情况下,可根据更加细致的分位点对极端值进行取舍。
    4、回归分析

    在回归分析中,尤其是线性回归中,异常的数值也会对模型的拟合效果产生较大的影响。

    对图中7个数据点进行拟合,蓝色的回归曲线线受到右上方高杠杆值的影响,偏向了它,拟合并不理想。对高杠杆值的识别不足以用来检测回归中的异常,更有效的方式是计算每个数据点的Cook距离。

    柯克距离(Cook Distance)是统计分析中一种常见的距离,用于诊断各种回归分析中是否存在异常数据。较大的Cook距离表明从回归统计量和计算中排除个案之后,系数会发生根本变化

    Cook距离表征了包含此观测点和剔除此观测点前后模型的拟合效果的差别,差别越大,此点对模型影响越大,可考虑删除,因为在一个稳健的模型中每个点对模型的影响都认为是均匀的。删除强影响点之后,橘色的曲线对大部分的点的拟合都比较满意。

    5、基于密度的方法

    在一维空间中的固有思维是较大或较小的数据会是异常,但是在高维空间中,数据是不能直接拿来比较大小的。仍以一维数据为例,考虑以下序列的异常情况:

    {1,2,3,2,50,97,97,98,99}

    50更有可能认为是异常或离群点,而非1或99。当数据分布的假设不是必要条件时,计算数据点的密度来判定异常也是一个行之有效的方法。

    点的密度可有多种定义,但多数都会依赖距离的定义,多维空间的距离计算较为复杂,尤其当数据混入分类变量和连续数值变量的时候。以一个简单的密度方法为例,在LOF(Breunig,M., Kriegel, H., Ng, R., and Sander, J. (2000). LOF:identifying density-based local outliers.)算法中,数据的异常判定依赖于计算每个观测的局部离群因子。

    离群因子表征了数据点与周围邻居点的密切程度,或者不合群的程度。因子值越大,其为异常点的可能性越大。上述一维序列的各点离群因子值如下左图,第5个点(50)对应的离群因子最高,可被判定是异常值。下右图是维基百科上一个二维空间的例子,根据局部离群因子同样可以识别出数据中的离群点。

    6、业务数据的时序监控

    业务数据的时序监控是对各业务线产生的时序数据,如访问量,订单量等进行异常检测,是对业务正常开展的反馈与保障。业务数据包含实时数据和离线数据,对实时性要求不高可采用T+1天监控预警。在实践中发现业务数据会有如下特点:

    a)数据稀疏:有的业务数据时间跨度小,历史数据不足;有的业务数据包含缺失值,时间不连续,通常会出现在投放业务中。

    b)无人工标注:历史的异常值无人工标注,后续判断异常主观性较强。

    c)节假日等影响因素不可控

    常用的判定流程如下:

    T时刻基于[1, T-2]时间段内的数据建立模型或规则来判定T-1时刻数据的是否异常。为了保证规则和模型的稳健,对于历史的异常值往往会采用平滑的方式处理。

    a、配置恒定阈值

    数据无趋势性,近似平稳,可配置简单的恒定阈值。时刻T配置的恒定阈值是对历史数据的恒定,在T+1时刻,这个阈值会被新加入的数据更新。

    b、配置动态阈值

    如果时间序列含有趋势性,但无明显周期性,可以配置动态阈值。比如基于固定的移动窗口计算移动平均值和移动标准差,基于两者给出监控的上下界。动态阈值会受到移动窗口大小设定的影响,对判定当前数据异常有一定的延迟性。

    c、监控差分序列

    对原始序列作一阶差分,如果差分序列稳定,可对差分序列配置恒定阈值,从而判定原序列的异常情况。

    原始序列:

    差分序列:

    d、时间序列分解法

    如果业务数据既有趋势性又有周期性,可将时间序列模型运用于监控任务中,如Arima,STL,TBATS等时间序列模型。在STL鲁棒加权回归时间序列分解法中,模型通过加权最小二乘回归将原始序列分解成周期序列,趋势序列和残差序列。下图从上到下依次是原始序列,周期序列,趋势序列和残差序列。

    模型基于残差序列的中位数和观测的残差值赋予每个观测一个稳健权重,权重低的观测会被判定为异常。这里之所以使用残差序列的中位值,也是考虑了中位值的稳健性。

    在实际应用中会发现,业务时序数据的不规则和特点的多变性往往对模型和规则提出更高的要求,不同的检测方法需要相互配合使用才能发挥作用。

    四、结束语

    异常检测与处理在各个领域都有其广泛的应用场景,本文仅以常见的case为例,论述了一些简单却行之有效的方法。文章并未涉及大规模数据和高维数据的异常检测,感兴趣的读者可以查阅相关文献做深入研究。

    其次,在实际操作中,一种或几种检测方案也无法覆盖所有数据问题。在洞察数据分布规律的基础上,分析师需要灵活的根据数据生成机制采取合适的方法或统计模型,再辅以相应逻辑规则来顾及模型所无法触及的边边角角,让异常检测算法实际落地。

    【作者简介】束开亮,携程大市场部BI团队,负责数据分析与挖掘。同济应用数学硕士,金融数学方向,法国统计学工程师,主修风险管理与金融工程。

    展开全文
  • 最近还是在写上位机软件,还是有一堆问题,因为是第一次做这个东西,有些东西只能到论坛上来查,最近做到了数据通信,刚开始没有想到数据协议这些东西,现在涉及到了,就写写笔记,也方便了以后查资料的同学。...

    最近还是在写上位机软件,还是有一堆问题,因为是第一次做这个东西,有些东西只能到论坛上来查,最近做到了数据通信,刚开始没有想到数据协议这些东西,现在涉及到了,就写写笔记,也方便了以后查资料的同学。

    首先我讲的是校验和的方式来进行串口通信数据的校验,这个也是前辈说这个比较简单,先做个这个吧。。。。。。其他的后续补上。

    校验值=数据类型+数据长度+数据内容

    先说一下大致思路,就是数据包里面有校验值,校验值是由除了数据头和数据尾之外的数据的和来决定,当然还要除了校验值之外,下面做具体解释:

    我定义的数据包如下(具体自定哈)

    数据包
    数据头数据类型数据长度数据内容校验值数据尾
    0x550x01或者...具体自定具体自定根据计算得来0xAA

     

     

     

    校验值=数据类型+数据长度+数据内容

    举个例子:数据类型为0x02    数据长度为10  数据内容为F3 E4 A9 A1 0C 1C 54 05 00 00

    下面来计算它的校验值:02(数据类型)+0A(数据长度)+F3+ E4+ A9+ A1 +0C +1C+ 54+ 05 +00+ 00(数据内容)=AE

    (前面有进位,不考虑)所以最后要发送的数据包就是

    55(数据头) 02(数据类型)  0A(数据长度) F3 E4 A9 A1 0C 1C 54 05 00 00(数据内容) AE(校验值) AA(数据尾)

    展开全文
  • 要求用MATLAB写一个可以实现异常数据检测的程序,急求大神回复。
  • Python学习-数据异常检测

    千次阅读 2018-06-28 10:16:22
    数据科学中,在对数据分析前,必须要多数据进行处理。将非正常的、错误的数据输入到算法中会导致不好的结果。所以异常的检测及处理为非常重要的一环。1.1 单变量异常检测 from sklearn.datasets import load_boston...

    数据科学中,在对数据分析前,必须要多数据进行处理。将非正常的、错误的数据输入到算法中会导致不好的结果。所以异常的检测及处理为非常重要的一环。

    1.1 单变量异常检测

            在处理单变量异常时,有一条准则:极端值可以当做异常值

           1.  IQR(四分位距,75分位与25分位的差)。第一种是比25分位值减去IQR*1.5小的值;第二种是比75分为大IQR*1.5的值

           2. Z-scores 得分绝对值大于3的观测值可认为是异常值

    先用箱图来直观观察一下每个特征的分布情况

    from sklearn.datasets import load_boston 
    import numpy as np
    import pandas as pd
    from sklearn import preprocessing
    
    data=load_boston()
    boston=pd.DataFrame( data.data)
    boston.columns=data['feature_names']
    boston.pop('CHAS')#remove column 
    normolized_data=preprocessing.StandardScaler().fit_transform(boston)
    boston.boxplot(sym='r',vert=False,patch_artist=True,meanline=False,showmeans=True)
    


    箱图能非常直观的观察数据间离散程度、异常值(红色)、分布差异等。在这里,

    sym='r',表示异常点的形状,
    vert=False表示横向、竖向,
    patch_artist=True表示上下四分位框内是否填充,True为填充
    传送门:箱图https://www.jianshu.com/p/b2f70f867a4a

    以下为用Z-scores寻找异常值。

    之所以以3作为界限,原因是一个正态分布的数据95%的面积分布在平均数左右两个标准差范围内;99.9%的面积分布在平均数左右3个标准差范围内。

    outliers_rows,outliers_columns=np.where(np.abs(normolized_data)>3)
    print(len(outliers_columns))
    
    

    结果为65。

    这种方法虽然可以发现很多异常值,但是很多不是极端值的异常值仍会被漏掉。为了发现这些异常,利用PCA降维之后再找绝对标准差大于3的值。

    传送门:PCA降维简介https://blog.csdn.net/qq_36056559/article/details/80738779


    OneClassSVM

    OneClassSVM是一种无监督的算法,它可以用来检查新的样本是否符合以前的数据分布。它有三个主要参数:

    1. Kernel (核函数)和Degree

        此两变量相关,根据经验值kernel应为rbf,degree应为3.

    2. Gamma

        它是与rbf核相关的参数。建议这个参数设置的越低越好,通常为实例数倒数和变量数倒数之间的最小值。

    3. Nu

       它决定模型是否必须符合一个精确的分布,还是应该尽量保持某种标准分布而不太注重适应现有数据

        区间为(0,1],默认值为0.5.但在这里0.5的结果并不好,所以

        可以由一下公式确定:    nu_estimate=0.95*outliers_fraction+0.05

        通常outliers_fraction的范围为0.02-0.1

    一下代码用聚类生成器产生一个聚类并用OneSVM进行异常检测:

    from sklearn.datasets import make_blobs
    blobs=make_blobs(n_samples=1000,n_features=2,centers=1,cluster_std=1.5,shuffle=True,random_state=5)
    normolized_data=preprocessing.StandardScaler().fit_transform(blobs[0])
    
    out_fraction=0.02
    nu_estimate=0.95*out_fraction+0.05
    mechine_learning=svm.OneClassSVM(kernel="rbf",degree=3,gamma=1.0/len(normolized_data),nu=nu_estimate)
    mechine_learning.fit(normolized_data)
    detection=mechine_learning.predict(normolized_data)
    outliers=np.where(detection==-1)
    regular=np.where(detection==1)
    from matplotlib import pyplot as plt
    a=plt.plot(normolized_data[regular,0],normolized_data[regular,1],'x',markersize=2,color="green",alpha=0.6)
    b=plt.plot(normolized_data[outliers,0],normolized_data[outliers,1],'o',color='red',markersize=6)
    
    

    结果还是比较理想的

    接下来回到波士顿的数据,先对数据进行标准化后再进行降维操作

    normolized_data=preprocessing.StandardScaler().fit_transform(boston)#标准化
    pca=PCA(n_components=5)
    Zscore_components=pca.fit_transform(normolized_data)#PCA降维
    
    out_fraction=0.02
    nu_estimate=0.95*out_fraction+0.05
    mechine_learning=svm.OneClassSVM(kernel="rbf",degree=3,gamma=1.0/len(Zscore_components),nu=nu_estimate)
    mechine_learning.fit(Zscore_components)
    detection=mechine_learning.predict(Zscore_components)
    outliers=np.where(detection==-1)
    regular=np.where(detection==1)
    from matplotlib import pyplot as plt
    
    a=plt.plot(Zscore_components[regular,0],Zscore_components[regular,1],'x',markersize=2,color="green",alpha=0.6)
    b=plt.plot(Zscore_components[outliers,0],Zscore_components[outliers,1],'o',color='red',markersize=6)

    outliers 和 regular结果:

    35个点被认为是异常点,471个点是正常点。

    因为在PCA降维中,分量1和2占据了原数据大部分的信息量。为了观察更加直观的结果,用pyplot来看看分量1和2的分布情况:

    当outliers_fraction值为0.1时:




    参考文献:

    1.    《数据科学导论》

    2.      http://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html

    3.      https://www.jianshu.com/p/b2f70f867a4a


    展开全文
  • 本课程是《数据分析技术应用》系列进阶课程的初级入门课程,学员研修完毕后能够进行较为复杂的描述性统计分析、推断性统计分析、数据可视化分析、预测分析等常用数据分析处理,满足商务运营和科学研究所需的常规数据...
  • JSON数据格式检验

    2018-11-28 10:29:38
    JSON数据格式检验,JSON数据类型检验,JSON数据检验,用于校验两个JSON字符串是否一样,包括数据格式一样,数据类型一样,数据值一样
  • 数据集是我从INRIA中裁剪而来,全是64*128的图片。整个文件就分为正负样本两个文件夹,没有INRIA这么混乱。其中正样本3548张,负样本16710张。在样本文件夹旁边给出了文件列表文件。可以用作人体检测训练。
  • MK检验可以对数据进行显著性检验,结合MK和ENVI,可以处理长时间序列下具有地理信息或空间信息的栅格数据的显著性检验,文本中给出了详细步骤和bandmath运算公式
  • layui表单提交前数据检验

    千次阅读 2019-02-12 15:23:20
    layui自带了一些简单的数据检验,lay-verify,如: &lt;form&gt; &lt;input type="text" name="operatMoney" class="layui-input" lay-verify="required|number&...
  • 题目: 设计一个串行数据检测电路. 当连续出现4个和4个以上的1时, 检测输出信号为1, 其余情况下的输出信号为0. 分析: 从题目的表述中, 我们获取到信息, 连续出现4个或4个以上的1时, 输出信号为1, 否则为0: 实际上...
  • 数据分析--检测异常样本方法

    千次阅读 2018-04-13 10:56:52
    其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环。方法也是多种多样。1、经验法,对行业数据比较了解情况数据分析师,能很快发现数据的问题,经常能发现一些数据异常,如果没有经验通过算法也...
  • 用C++实现数据探测法检验粗差,可通过txt文件输入系数矩阵,权阵,观测值向量。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
  • 根据题目的描述, 可以将问题转换为"用D触发器和必要的门电路设计一个1111序列检测电路". 根据1111序列检测电路的特征(1111序列检测电路至少需要5个状态), 绘制原始状态表. 原始状态表 S S*/Y X=0 X=1...
  • 状态转换图如下: //******************************seqdet.v************************************** module seqdet(x,z,clk,rst,state); input x,clk,rst; output z; output[2:0] state;...para...
  • 111串行数据检测

    千次阅读 2015-05-27 22:31:02
    module jiance(clk,rst_n,datain,dataout);  input clk;  input rst_n;  input datain;  output dataout;    parameter S0=3'd0,S1
  • 大数据----数据质量检测

    万次阅读 2018-09-21 18:28:12
    1.在我们进行数据分析之前要对数据进行检测数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断...
  • 5种数据同分布的检测方法

    千次阅读 2021-03-03 14:17:25
    数据挖掘比赛中,很重要的一个技巧就是要确定训练集与测试集特征是否同分布,这也是机器学习的一个很重要的假设。但很多时候我们知道这个道理,却很难有方法来保证数据同分布,这篇文章就分享一下我所...
  • 正态分布数据检验-偏度峰度检验法

    千次阅读 2019-09-26 18:37:49
    正态分布数据检验-偏度峰度检验法 正态数据偏度峰度检验法 置信度:1-alpha数据样本数:nsig1=sqrt(6.0*(n-2)/(n+1)/(n+3));sig2=sqrt(24.0*n*(n-2)*(n-3)/(n+1)/(n+1)/(n+3)/(n+5));mu2=3.0-6.0/(n+1);样本中心...
  • 时序数据异常检测

    千次阅读 2019-07-12 17:22:21
    文章目录AIOPS网上相关资料一、时序数据概念及分析1.1 数据前期处理的重要性1.2.1时序数据周期研究(重点方向)1.3 时序数据的随机过程1.4 白噪声序列1.5 平稳性序列1.7 弱平稳1.7.1 原始序列平稳处理方法1.8 关于多...
  • 火焰烟雾检测数据

    2019-04-10 12:15:51
    火焰检测数据集, 数据集中包含了火焰和烟雾的数据集, 可以用火焰以及烟雾检测的训练或者是测试
  • 显著性检测ECSSD数据集,包含原始图片和对应的Ground Truth。
  • 数据预处理(Data Preprocessing) Where are data from? Why Data Preprocessing? How to handle missing data? Outliers 注:异常点(Anomaly) vs. 离群点(Outlier)是不一样的 ...
  • 资源里面是一些经典的显著性检测算法的matlab代码,包括Itti,SR,FT和GBVS算法。还有一个显著性检测数据集MSRA-B,里面包括100多张原始图片和GT图片。
  • DOTA目标检测数据

    万次阅读 热门讨论 2019-04-11 09:57:06
    Dota开源目标检测数据集 DOTA-v1.5包含16个类别中的40万个带注释的对象实例,这是DOTA-v1.0的更新版本,它们都使用相同的航拍图像,但是DOTA-v1.5修改并更新了对象的注释,其中许多在DOTA-v1.0中丢失的10像素以下...
  • 这个文档教程,一步步教你如何处理,制作自己的数据集进行目标检测的训练,这分教程教你制作标准的VOC数据集格式训练自己的目标检测模型。
  • 数据管理-数据质量检测

    千次阅读 2020-04-04 11:51:05
    目录数据质量检测完整性一致性准确性及时性 数据质量检测 数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个...
  • 数据分布的检验

    2019-07-25 19:23:04
    对于数值型数据,在应用各种算法之前,首要做的了解一些数据的分布,然后根据情况看是否有必要对数据进行变换。了解数据的分布主要有两种手段: 从图形的层面感性的认识一下 常用的主要有两种方式:直方图和 q-q图...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,612,207
精华内容 644,882
关键字:

数据检验