精华内容
下载资源
问答
  • 一组数据包含10个观测值
    千次阅读
    2018-03-18 17:18:38
    第一次使用播客记录自己的学习,latex公式的确很好使
    

    1. 接收机间单差

    信号发射时刻t1t1计算方法

    t1=t1+Vti(t1)ρpi(t1))ct1′=t1+Vti(t1)−ρip(t1))c

    式中, 接收机钟的改正数Vti(t1)Vti(t1)可用t1t1时的伪距观测采用单点定位的方式求得,ρpi(t1)ρip(t1)则需要反复迭代求得
    疑问:
    1. 接收机中的改正数通过伪距定点定位求得
    2. 其距离通过反复迭代求得

    书本89页 由于标称时刻 t1t1往往是一整数,而发射时刻的 t1t1′有一串小数,故计算卫星位置时仍然使用标称时间 t1t1来计算卫星位置,加入距离改正数 ΔρΔρ:
    Δρpi(t1)=ρpi(t1)[Vti(t1)ρpi(t1)c]Δρip(t1)=ρip(t1)⋅[Vti(t1)−ρip(t1)c]

    式中 ρpi(t1)ρip(t1)t1t1时刻ii至卫星ρρ的距离变化率????该距离变化率可用多普勒测量的方法求定,一般的测量型GPS接收机均可给出此值。
    刚才上文管 ρpi(t1)ρip(t1)为卫地距,哎
    接收机 i,j,t1i,j,t1时刻观测P卫星的载波相位单差观测方程:
    Δφpij~=fcΔρptij+fΔVptijΔNpijfcΔ(Vtrop)pijfcΔ(Vion)pijΔφijp~=fcΔρtijp+fΔVtijp−ΔNijp−fcΔ(Vtrop)ijp−fcΔ(Vion)ijp

    此处的接受机钟差打错 了应该为ΔVij(t1)ΔVij(t1)接收机钟差不应该挂上卫星的,电离层和对流程延迟是跟卫星接收机两者都有关系
    式子改为
    Δφpij~=fcΔρptij+fΔVtijΔNpijfcΔ(Vtrop)pijfcΔ(Vion)pijΔφijp~=fcΔρtijp+fΔVtij−ΔNijp−fcΔ(Vtrop)ijp−fcΔ(Vion)ijp

    在短基线中,接收机间求差对于卫星星历误差??、电离层延迟、对流层延迟等的影响也可得以削弱,短基线中较为明显。

    2. 在接收机和卫星间求二次差

    t1t1时刻卫星间求差:qpq−p消除接收机钟差

    Δφ~qijΔφ~pij=fc[Δρqij(t1)Δρpij(t1)](ΔNqijΔNpij)fc(Δ(Vtrop)qijΔ(Vtrop)qij)fc(Δ(Vion)qijΔ(Vion)pij)Δφ~ijq−Δφ~ijp=fc[Δρijq(t1)−Δρijp(t1)]−(ΔNijq−ΔNijp)−fc(Δ(Vtrop)ijq−Δ(Vtrop)ijq)−fc(Δ(Vion)ijq−Δ(Vion)ijp)

    感叹下,提出GPS这个想法的科学家真的好强
    可以用双差公式记为
    Δφ~pqij=fcΔρpqij(t1)ΔNpqijfcΔVtroppqijfcΔ(Vion)pqijΔφ~ijpq=fcΔρijpq(t1)−ΔNijpq−fcΔVtropijpq−fcΔ(Vion)ijpq

    该观测方程为 t1t1时刻在接收机和卫星间求二次差后所得到的双差观测值。
    实际工作中,进一步在卫星间求双差是采用下列方式进行的:
    选择视场中可观测时间较长、高度角又较大的一颗卫星作为基准星,然后将期许个卫星的单差观测方程分别与基准星的单差观测方程相减,组成双差观测方程。在每个观测历元中,双差观测方程的数量均比单差方程数少一个,但与次同时,该历元接收机相对钟差参数也已被消除。
    求差法的优点,在保持原有精度的情况下,可大大减少未知数个数,从而大幅度减少数据处理的工作量。主要是与非差法作为参照对象。

    3. 在接收机、卫星和观测历元间求三次差

    测站i,jt2pqt2t1:i,j在历元t2对卫星p、q进行同步观测后,t2−t1相减得:

    Δφ~pqij(t1,t2)=fcΔρpqij(t1,t2)fcΔ(Vtrop)pqij(t1,t2)fcΔ(Vion)pqij(t1,t2)Δφ~ijpq(t1,t2)=fcΔρijpq(t1,t2)−fcΔ(Vtrop)ijpq(t1,t2)−fcΔ(Vion)ijpq(t1,t2)

    在三差观测方程中,整周模糊度参数 ΔNpqijΔNijpq已经被消除,因而只剩下三个位置 Δx,DeltaYDeltaZΔx,、DeltaY、DeltaZ三个未知参数。
    三差法的缺点:
    (1)双差观测值比三差观测值只多了7个参数,对于计算机来说相差不多
    (2)这一点比较重要,因为由于各种误差的影响, 三差解一般为实数解书上讲的是未做取整和回代等工作,故三差解是与浮点解相对的???。 三差方程的几何强度也较差。??
    对于上述描述看的不是特别懂,希望学习到后面这些问题能迎刃而解。

    4. 求差法的缺点

    (1)数据利用的效率低。好的观测值与出了问题的数据配对时会导致数据无法使用。
    (2)双差观测值是使用一颗卫星与其他卫星一起求差,故双差观测值之间都包含基准星,故这些双侧观测值为相关观测值。若令单差观测值的方差为σ2σ2,则双差观测值的协方差阵显然为:

    Ri=σ22111121111211112Ri=σ2[2111121111211112]

    双差观测值的相关性数据处理增加了难度。若不顾及其相关性。仍将其认为独立值(实验结果证明仍能取得较好的结果),但是损害了理论上的严密性。
    (3)解的通用性比较差。由于与用户无直接关联的一些参数直接被消去,故无法对其他类型的用户提供使用。非差发能够获得多余参数,供其他类型 的用户使用。

    求差法也适用于伪距观测方程。

    更多相关内容
  • 这显示了如何使用WISE数据来制作包含所有年轻恒星物体观测值的多面图,以及如何为具有30多个观测值的物体制作Lomb Scargle图和折光曲线。 资料夹 它包含一组有限的WISE数据,其中seq列用于唯一的对象标识符w1mpro和...
  • GNSS观测值质量分析必备基础知识

    万次阅读 多人点赞 2020-08-06 18:12:17
    而描述观测值本身统计特性的模型称为随机模型,主要通过一个适当的协方差矩阵来定义。 随机模型分类:详见参考3 等权随机模型 卫星高度角随机模型 信噪比随机模型 基于验后残差的随机模型 1、等权随机模型 : ...

    一、观测值随机模型

    用于描述观测值与未知参数之间关系的模型称为函数模型或数学模型;

    而描述观测值本身统计特性的模型称为随机模型,主要通过一个适当的协方差矩阵来定义。

    随机模型分类:详见参考3

    • 等权随机模型
    • 卫星高度角随机模型
    • 信噪比随机模型
    • 基于验后残差的随机模型

    1、等权随机模型 :

    相对定位,认为观测值精度相等,双差中测量噪声,方差-协方差矩阵为:

    另外一种表示方式:其中α^2为单差观测值方差,双差观测值的协方差矩阵如下:

    2、高度角随机模型:

    利用卫星高度角为变量的函数模型对观测量的方差进行估计:

    其中Elev为高度角,函数/f通常有指数函数模型、正切函数模型、余弦函数模型、正弦函数模型;一般采用正弦函数模型。

    为了更好地定义低高度角观测值地中误差,又常采用改进后地正弦函数模型:

    式中,a、b都是经验值,一般取a=3/4mm,b=3mm。

    3、载噪比随机模型:

    (1)SIGMA-ε 随机模型

    Ci的计算为:

    式中,Bi为相位跟踪环带宽(Hz);λ为载波相位波长(m)。通常取Cl1=0.00224m^2Hz,Cl2=0.00077m^2Hz。
     

    (2)SIGMA-Δ 随机模型

    式中,Δ为模板值与实际观测值之间的差值;α为经验系数,一般取2。

    4、信号强度随机模型:

    二、GNSS系统观测值质量分析

          数据质量是GNSS卫星导航定位的精度和可靠性的重要保障,它受到外业观测环境、接收机自身以及卫星健康状况等诸多因素的影响。如何对GNSS原始观测值的质量作出较为准确的评价,从实测数据中剔除某些质量较差的数据成为高精度GNSS定位首先考虑且首要解决的问题,也是GNSS数据预处理的关键。

    数据质量分析指标:详见参考5

    • 多路径效应
    • 电离层延迟
    • 周跳比
    • 信噪比
    • 数据完整率
    • 钟跳

    1、伪距多路径效应分析:参考5、6、9

    双频伪距、载波相位观测值:

    以GPS的L1、L2频点伪距、载波相位为例:

    其中,mp1、mp2分别表示L1、L2频点伪距和载波相位观测值的多路径效应组合;P是伪距观测值、λ是频点波长、Φ是载波相位观测值/cycle,α=(f1^2/f2^2);

    由于,载波相位中含有未知的模糊度参数/N,因此,上式求的多路径mp1、mp2,包含周跳信息;故在不发生周跳的情况下,可利用多个历元的数据取平均值,再将包含模糊度参数的序列减去该平均值,变得出2个伪距的多路径效应值,可用来衡量多路径效应影响的程度。

    其中IGS数据质量检测分析显示,对于多路径效应而言,2/3的IGS站的mp1平均值小于0.5,而2/3的mp2平均值小于0.75。mp1、mp2越小,说明抗多路径效应能立越强。

    2、电离层延迟及延迟变化率分析:参考7

     

    3、周跳比分析:参考5

    O/slips 是观测值和周跳的比,反映的是数据周跳的情况。

    如果某颗卫星再单位历元的两个频率上,检测到周跳情况,则认为该历元产生周跳现象,TEQC软件采用电离层残差法进行周跳的探测与评定,运行的结果文件中以O/slips值来表示观测值与周跳比,O/slips值的参考值为200,O/slips值越小,说明出现周跳越严重。

    还有另外一种形式,CSR:

    IGS 的数据质量检测分析显示,超过半数的IGS站的CSR平均值小于5,2/3以上的CSR平均值小于10;

    4、信噪比/SNR分析:

    信噪比,定义为信号功率S与噪声功率N之比,可用来衡量测距信号质量的优劣,信噪比值越大,说明观测信号的质量越好。一般情况下,RINEX文件会直接给出信号的信噪比。

    5、数据完整率分析:参考6

          数据完整性不仅仅指解析得到的观测历元数占整体应观测到的历元数的比例,还应该反映观测历元内出现的所有卫星的完整观测值,包括P1或者C/A码数据、P2或者C2码数据、L1和L2载波相位数据,W及L1和L2的SNR大于或等于指定的阐值等情况。因此不但要统计缺失历元数,还要在可解析的历元内对观测量的完整性进行统计和标记,并刪除不满足条件的观测数据。对于满足条件的观测数据计数器进行自加,则数据的时间完整性为满足条件的观测数据个数与当前历元和初始历元的差值的比值。

    Have(i)为第i颗卫星的完整观测值数目,Expert(i)为第i颗卫星理论观测值数目。

    6、钟跳分析:

    钟跳与周跳十分类似,都会引起观测数据的跳变,但两者在原理和实质上是不同的,钟跳是接收机钟差的突然变化,可以引起所有卫星伪距或载波相位观测值的同时跳变。

    不同的接收机有两种典型的钟跳:

    频繁跳跃:在每个历元对接收机时钟进行修正,改正量一般较小,一般情况下可以不考虑;

    毫秒跳跃:在接收机钟差达到一定数值时才进行修正。

    三、观测值的线性组合

    GNSS中,主要利用载波相位、伪距观测值;为了达到某种目的,而进行一系列的变形、组合:

    • 同类型同频率观测值的线性组合:

    比如:单差、双差等,目的是为了消除一些参数;

    • 同类型不同频率观测值的线性组合:

    比如:消除电离层延迟,电离层延迟分析

    • 不同类型观测值的线性组合:

    比如:伪距多路径分析、

    1、同类型同频率观测值的线性组合

    广为大家熟知的就是 单差、双差;

    缺陷/热点:差分观测值间具有了相关性,如何设置随机模型/stochastic model ;对应此博客第一部分;

    2、同类型不同频率观测值的线性组合

    以GPS L1、L2载波相位为例:

    给出线性组合观测值的频率、波长、整周模糊度、电离层延迟、组合观测值测量噪声关系:

    或:

    一般而言,对于用户有用的组合观测值应该满足以下标准:

    • 线性组合后构成的新“观测值”应能保持模糊度的整数特性,以利于正确确定整周模糊度;
    • 线性组合后构成的新“观测值”应具有适当的波长;
    • 线性组合后构成的新“观测值”应不受或基本不受电离层折射的影响;
    • 线性组合后构成的新“观测值”应具有较小的测量噪声;

    (1)宽巷组合/Wide Lane

    宽巷观测值Φ1-Φ2之差:n=1,m=-1;

    利于求解模糊度,噪声为:0.01*sqrt(2)*(0.8619)=1.22厘米

    波长为0.86m,模糊度为整数,适于中长基线的模糊度分解。首先用宽巷组合确定双频模糊度之差,然后引入LI组合或L1L2观测方程,分解出L1模糊度。  

     

    (2)无电离层折射延迟组合/ iono-free

    具体见:GNSS中多频观测值的组合形式

    消电离层组合消除了一阶电离层影响,但模糊度不再为整数了,且观测噪声比L1放大三倍,对中长基线解算有利,可显著改善中长基线解的精度。

    (3)窄巷组合

    波长为0.107m,模糊度为整数,宽巷组合和窄巷组合中电离层影响的大小相等,符号相反,适用于模糊度分解。

    3、不同类型观测值的线性组合

    用到了伪距和载波相位;

    (1)不同类型的双频观测值间的线性组合之Melboune-Wubbena组合

    Melboune-Wubbena组合 (双频伪距和相位组合),推导如下:

    消除了电离层延迟、接收机钟差、卫星钟差、卫星至接收机的几何距离;仅受多路径和观测噪声的影响

    其中,ρ为卫星至接收机的距离与所有与频率无关的偏差改正项之和。

    推导过程如下:

    联合<2><3>代入<1>中,得到:

    或:

    (2)不同类型的双频观测值间的线性组合之电离层残差组合

    在推导Melboune-Wubbena组合中,载波相位Φ1和Φ2单位为:周/cycle;将其乘以波长,得到米/m为单位,进行推导,得到电离层残差组合:

    消除了电离层延迟、接收机钟差、卫星钟差、卫星至接收机的几何距离;仅受多路径和观测噪声的影响

    因此,Melboune-Wubbena 和 电离层残差组合,均可以进行模糊度分解和周跳探测;但是周跳探测时,不能对L1、L2频点同时发生的周跳进行检测。

    (3)不同类型的单频观测值间的线性组合

    由于伪距和载波观测值中电离层延迟大小相同,符号相反,故利用单频伪距P1与载波相位Φ1也能消除电离层延迟:

    伪距和相位这种线性组合消除了一阶电离层影响,这种观测量除包含非色散性误差外,还包含一个模糊度参数,比较适用于单点定位,有利于改善定位的精度。

    (4)附加:•Geometry-free又称电离层残差组合

    这一组合与接收机至卫星的几何距离无关,消除了诸如轨道误差、接收机钟差、卫星误差和对流层误差,仅包含电离层及双频模糊度实数组合,适于电离层研究、数据编辑及周跳探测。

     

    四、周跳探测  需要根据误差传播率计算误差

           每颗卫星的观测值在其可视的连续时间内应该是一条光滑的曲线,可通过观测值的线性组合构造合适的周跳检测量,通过求得周跳检测量的时间序列,采用合适的误差判别方法,判断出周跳发生的位置和大小,因此周跳探测与修复的思路如下:

    • 利用观测值的线性组合构造合适的周跳检测量;
    • 选择合适的误差判别方法;
    • 探测周跳检测量序列中突变的位置,判断出是粗差还是周跳;
    • 选用合适的方法进行周跳大小的修复;

    周跳的本质是探测观测序列是否出现突变!

    方法主要有:高次差法、多普勒观测值法、多项式拟合法、M-W组合法、电离层残差法等;

    1、高次差法: 参考13,P37

    对载波相位观测值,进行相邻历元间做差;

    一次差:即卫星至接收机距离变化/速度:

    二次差:速度变化/加速度;

    三次差:加速度变化/加加速度;

    连续跟踪的载波相位值,随着次差的增加,结果趋于0。

    其中三次差公式为:

    需要注意的是:接收机晶振的短期稳定度、采样率;以此判定用高次差法是否合适。

    2、多普勒观测值法

    利用历元间载波相位差值 - 多普勒在时间段内积分值;

    缺点:易受采样率、接收机钟差、电离层、噪声的影响,只能检测周跳比较大的情况;

    3、M-W组合法 / 宽巷相位减窄巷伪距组合

    宽巷模糊度

    宽巷观测值的整周模糊度主要受伪距多路径和噪声影响,可通过多个历元的平滑进行削弱;

    当有周跳发生时,宽巷模糊度为ΔNw=(N1+n1)- (N2+n2),n1、n2为L1、L2载波上的周跳,其值将会出现较大的变化,在实际应用中,联合利用Nw及其均值对周跳的存在性进行判断。利用递推的方法计算出第i个历元的宽巷模糊度均值和方差为:

    缺点:1、无法确定周跳发生在哪一个载波上;2、当两个载波上发生周跳大小相同时,将无法探测;

    4、电离层残差法  参考14

    同一历元双频载波相位测量差:

    消除了接收机至卫星间的几何距离、接收机和卫星的钟差、对流层延迟、及部分电离层延迟;剩余误差为:频率间模糊度、电离层影响、多路径效应和观测噪声;

    将上式两端同除以λ1,则有:

    电离层残差检测方法特点:

    • 只用到了双频载波相位观测量,无需其他信息;
    • 只能判断出是否出现周跳,不能判断是哪一个频率出现周跳;

    如果,电离层延迟变化缓慢,历元间电离层残差相减得到:

    其中:77/60=1.28;即如果 |ΔΦ|>0.28,则说明在t+1历元 存在周跳,但是至于在哪一个频率发生周跳,则无法检测出来。

     

    参考:

    1、GPS/GLONASS/BDS/Galileo 系统载波相位观测值质量分析

    2、北斗与GPS数据质量对比分析

    3、基于观测值质量指标的GPS观测量随机模型分析

    4、Stochastic Modeling for Static Gps Baseline Data Processing

    5、Beidou/GPS/GLONASS多系统卫星定位数据质量比较分析

    6、多系统GNSS实时数据质量分析及软件实现 朱静然

    7、GNSS观测数据质量分析软件质量设计

    8、Assessment of stochastic models for GPS Measurements with different types of receivers

    9、GNSS数据质量分析

    10、《GPS测量与数据处理》李征航

    11、第九讲-观测值的线性组合.ppt

    12、GPS观测值的线性组合解析.ppt

    13、GNSS观测数据预处理及质量评估

    14、基于电离层残差法的周跳探测和修复方法研究

    展开全文
  • 作者:Will Badr翻译:顾伟嵩 校对:欧阳锦 本文约1600字,建议阅读5分钟本文介绍了数据科学家必备的五种检测异常的方法。 无论是通过识别错误还是主动预防,检测异常对任何...

    作者:Will Badr  翻译:顾伟嵩  校对:欧阳锦

    
    本文约1600字,建议阅读5分钟本文介绍了数据科学家必备的五种检测异常值的方法。
    

    无论是通过识别错误还是主动预防,检测异常值对任何业务都是重要的。本文将讨论五种检测异常值的方法。

    图来源于Will Myers在Unsplash上的拍摄

    什么是异常值?

    在统计学中,异常值是指不属于某一特定群体的数据点。它是一个与其他数值大不相同的异常观测值,与良好构成的数据组相背离。

    例如,你可以清楚地看到这个列表里的异常值:[20, 24, 22, 19, 29, 18, 4300, 30, 18].

    当观测值仅仅是一堆数字并且是一维时,很容易识别出异常值。但是,当你有成千上万的观测值或者是多维度时,你将需要更多巧妙的办法来检测出那些异常值。这就是本文要讨论的内容。

    为什么我们要关注异常值?

    检测异常值是数据挖掘中的核心问题之一。数据的不断扩增和持续增长,以及物联网设备的普及,让我们重新思考处理异常值的方法和观测异常值构建出的用例。

    现在,我们拥有可以检测我们每分钟心跳的智能手表和腕带。检测心跳数据的异常值有助于预防与心脏有关的疾病。交通模式中的异常值有助于预防交通事故。异常值检测还可以用来识别服务器之间的网络基础设施和通信的障碍。因此,建立在检测异常值之上的用例和解决方案是无穷无尽的。

    另一个我们需要检测异常值的理由是,当为机器学习模型准备数据集时,检测出所有的异常值,并且要么移除它们、要么分析它们来了解它们最初存在的原因是非常重要的。

    现在,让我们从最简单的方法开始探索5种常用的检测异常值的方法。

    方法1——标准差:

    在统计学中,如果一个数据分布式近似正态分布,那么大约68%的数据值在平均值的前后一个标准差范围内,大约95%的数据值在平均值的前后两个标准差范围内,大约99.7%的数据值在前后三个标准差的范围内。

    因此,如果你有任何出现在三个标准差范围外的数据点,那么那些点就极有可能是异常值。

    让我们看看代码。

    这段代码的输出结果是一个大于80或小于-40的数据列表。请注意,我传入的数据集是一个一维数据集。现在,让我们探索对于多维数据集的更高级的方法。

    方法2——箱线图:

    箱线图是指通过分位数对数值型数据的图形化描述。这是一种非常简单但有效的异常值可视化方法。把上下须触线看作数据分布的上下边界。任何出现在下须触线下面或上须触线上面的数据点可以被看作异常值。下面是绘制箱线图的代码:

    上面的代码输出如下的箱线图。如你所见,它把大于75或小于-35的值看作异常值。这个结果非常接近上述的方法1得到的结果。

    箱线图分解:

    四分位差的概念是被用来绘制详细图的。四分位差是统计学中通过将数据集划分为四分位数来衡量统计离散度和数据可变性的概念。

    简而言之,任何数据集或任何观察值的集合被划分为四个基于数据值和它们与整个数据集比较后而定义的区间。四分位数是指将数据分为三个点和四个区间的数据点。

    四分位差是重要的,因为它用于定义异常值。它是第三个四分位数和第一个四分位数的差(IQR=Q3-Q1). 这种情况下的异常值被定义为低于(Q1-1.5IQR)或低于箱线图下须触线或高于(Q3+1.5IQR)或高于箱线图上须触线的观测值。

    Source Wikipedia

    方法3——DBScan集群:

    DBScan是一种用于将数据分组的集群算法。它也是一种被用于基于密度的对于一维或多维数据的异常检测方法。其他的像k-均值和层次聚类的集群算法也可以用于检测异常值。在本例中,我将向您展示一个使用DBScan的案例。但是在开始前,我们先介绍一些重要概念。DBScan有三个重要概念:

    • 核心点:为了理解核心点,我们需要访问一些用于定义DBScan工作的超参数。第一个超参数是最小值样本(min_samples)。这只是形成集聚的核心点的最小数量。第二重要的超参数eps,它是两个被视为在同一个簇中的样本之间的最大距离。

    • 边界点:是与核心点在同一集群的点,但是要离集群中心远得多。

    Source:https://stackoverflow.com/questions/34394641/dbscan-clustering-what-happens-when-border-point-of-one-cluster-is-considered

     

    • 其他的点被称为噪声点,那些数据点不属于任何集群。它们可能是异常点,可能是非异常点,需要进一步调查。现在让我们看看代码。

    上述代码的输出值是94。这是噪声点的总数。SKLearn将噪声点标记为(-1)。这种方法的缺陷就是维数越高,精度越低。你还需要做出一些假设,比如估计eps的正确值,而这可能是有挑战性的。

    方法4——孤立森林

    孤立森林是一种无监督学习的算法,属于集成决策树族。这种方法与前面的方法都不同。所有前面的方法是试图找到数据的正常区域,然后将所定义区域外的任何值视为异常值。

    这种方法的工作原理不同。它是明确的孤立异常值,而不是通过给每个点分配一个分数来构造正常的点和区域。它充分利用了这样一个事实:异常值只占数据的小部分,并且它们有与正常值大不相同的属性。该算法适用于高维数据集,并且被证实是一种非常有效的检测异常值的方法。由于本文关注的是实现而不是专门知识,我将不深入探讨算法的工作原理。但是,这篇文章中涵盖了它的所有工作原理细节。

    https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf

    现在,让我们探索代码:

    该代码将输出数组中每个数据点的预测值。如果结果是-1,那意味着这个特定的数据点是一个异常值。如果结果是1,那么意味着该数据点不是异常值。

    方法5——Robust Random Cut Forest

    Robust Random Cut Forest算法是亚马逊用于检测异常值的无监督算法。它也通过关联异常分数来工作。低的分数值表示数据点是“正常的”,高的值表示数据中存在异常。“低”和“高”的定义取决于应用,但是一般实践表明,超过平均值三个标准差的分数被认为是异常的。算法的细节可以在这篇文章中找到。

    http://proceedings.mlr.press/v48/guha16.pdf

    这个算法的最大优势是它可以处理非常高维的数据。它还可以处理实时数据流(内置AWS Kinesis Analytics)和离线数据。

    我可以在如下的视频里更加详细的解释这个概念:

    https://youtu.be/yx1vf3uapX8

     

    该算法的论文给出了一些与孤立森林相比较的性能标准。论文结果表明,RCF比孤立森林更加准确和快速。

    完整的案例代码可以在这里找到:

    amazon-sagemaker-examples/introduction_to_amazon_algorithms/random_cut_forest at master · aws/amazon-sagemaker-examples · GitHub

    结论

    我们生活在一个数据每分每秒都在剧增的世界里。数据如果使用不当便会随着时间贬值。于在线数据流或离线数据集中发现异常值,对于识别商业中的问题或主动构建解决方案以在问题发生之前发现潜在的问题,或者甚至在探索性数据分析(EDA)阶段为ML准备数据集都是至关重要的。我期待你能认为本文有用,在下面的评论区让我知道你的想法。

    原文标题:

    5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code) 

    原文链接:

    https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623

    译者简介:顾伟嵩,中国科学院大学网络空间安全专业研究生。对数据科学领域充满好奇,渴望探索未知世界。课余时间喜欢踢足球、游泳。愿意挑战新事物,结交新朋友,一起进步,一起成长。

    END


    版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


    合作请加QQ:365242293  

    数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

    展开全文
  • 1.观测值的线性组合:    同类型同频率观测值的线性组合,一号卫星L1和二号卫星L1 同类型不同频率观测值的线性组合,一号卫星L1和L2 不同类型观测值的线性组合,测距码和载波进行组合 2.同类型同频率相位观测...

    1.观测值的线性组合:

     

    •  同类型同频率观测值的线性组合,一号卫星L1和二号卫星L1
    • 同类型不同频率观测值的线性组合,一号卫星L1和L2
    • 不同类型观测值的线性组合,测距码和载波进行组合

    2.同类型同频率相位观测值的线性组合----差分观测值

       可以消除相同的误差

    按照差分方式可以分为:

    站间差分(between receiveers)、星间差分(between satellites)、历元差分(between epochs)

    按照差分次数可以分为:

    一次差(两个接收机原始观测信号对同一卫星信号相减)、二次差(同一时刻两个一次差相减)、三次差(不同历元之间的二次差相减)

    差分概述

     

    • 差分观测值的定义:将相同频率的GPS载波相位观测值依据某种方式求差所获得的新的组合观测值(虚拟观测值)。
    • 差分观测值的特点:可以消去某些不重要的参数,或将某些对确定待定参数有较大负面影响的因素消去或削弱其影响。
    • 求差方式:站间差分(between receiveers)、星间差分(between satellites)、历元差分(between epochs)

    3.原始载波相位观测值:

    整周未知数:不随时间变化,历元之间求差分

    电离层、对流层:空间相关性较强,减弱站间或星间误差,测站之间不能太远

    接收机时钟:与卫星无关,同一时刻多颗卫星观测相减

    卫星时钟:与接收机无关,多接收机观测相减

    必要参数与多余参数:

    必要参数:GPS定位中,测站的三个坐标

    多余参数:为了求必要参数所用到的参数

    必要参数和多余参数是相对的

    解决多余参数问题的方法:

     

    • 通过给多余参数一定的约束条件
    • 通过观测值相减来消去多余参数

    4.站间差分(站间求差)

     

    求差方式:同步观测值在接收机间求差;

    数学形式:

    特点:消除了卫星钟差的影响,削弱了电离层折射影响,削弱了对流层折射(温度、气压、湿度)的影响,削弱了卫星轨道误差的影响。

     

    5.星间差分(星间求差)

    求差方式:同步观测值在卫星间求差

    数学形式:

    特点:消除了接收机钟差的影响。

     

    6.历元间差分(历元间求差)

     

    差分方式:观测值在历元间求差

    数学形式:

    特点:消除了整周未知参数。

    7.单差、双差、三差

    单差:站间求一次差分

    测站之间一次差,残余两个测站之间的误差,两个测站的接收机不一样。

    双差:站间、星间各求一次差(共两次差)

    两个接收机统一时刻,不仅消除测站之间的误差,更进一步削弱了电离层对流层误差,单仍然包含模糊度误差

    三差:站间、星间和历元间各求一次差(三次差)

     

    i个测站对j颗卫星同步观测k个历元,载波相位测量

     

    采用差分观测值的缺陷(求差法的缺陷)

     

    • 数据利用率低,只有同步数据才能进行差分
    • 引入基线矢量代替了位置矢量,每两个测站之间的三维坐标差
    • 差分观测值具有了相关性,使处理问题复杂化,参数估计时,观测值的权阵
    • 某些参数无法求出,某些信息在差分中被消除

     

     

     

     

    展开全文
  • 一个全面的回归分析要覆盖对异常的分析,包括离群点、高杠杆点和强影响点。这些数 据点需要更深入的研究,因为它们在一定程度上与其他观测点不同,可能对结果产生较大的负面 影响。下面我们依次学习这些异常。...
  • 生态系统长期观测数据产品体系苏文1,2,张黎1,2,郭学兵1,2,何洪林1,2,唐新斋1,2,任小丽1,21中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室,北京...
  • 第五章 探索性数据分析,结合了dplyr和ggplot2 1.简介 提出问题→通过可视化,转换和建模来解决问题→优化并提出新问题 2.提出问题 ...表格数据一组值的集合,其中每个值都关联一变量和一个观测
  • 由于DATA step是按行处理每一条观测的,当一条观测为某一组的第一条记录时,那么FIRST.variable就为1,否则为0;每当一条观测为某一组的最后一条记录时,LAST.variable就为1,否则为0; 如果一组中只有一个观测,...
  • 数据处理之异常处理

    千次阅读 2021-03-17 19:52:39
    异常是指那些在数据集中存在的不合理的,需要注意的是,不合理的是偏离正常范围的,不是错误。比如人的身高为-1m,人的体重为1吨等,都属于异常的范围。虽然异常不常出现,但是又会对实际项目分析有...
  • 数据分析中缺失的处理方法1、缺失的分类按照数据缺失机制可分为:(1)完全随机缺失(missing completely at random, MCAR)所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关.(2)随机缺失...
  • 数据的准确性是指数据包含错误或异常、完整性是指数据包含缺失、一致性是数据在各个数据源中都是相同的。广义的数据质量还包括数据整体的有效性,例如,数据整体是否是可信的、数据的取样是否合理等。本文的...
  • 数据处理笔记6:缺失填充

    千次阅读 2021-12-28 14:26:16
    缺失,不仅包括数据库中的NULL,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。漠视这些数值的特殊性,直接拿来进行挖掘,那么很可能会得到错误的结论。 常数来填充常常不是一个...
  • 1 数据缺失的原因 2 数据缺失的类型 3 数据缺失的处理方法 1. 删除记录 2. 数据填补 3. 不处理 4 总结 1 数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很...
  • Leetcode 每日题 2028. 找出缺失的观测数据 (22.03.27)
  • 我们需要了解数据缺失的原因和数据缺失的类型,并从数据中识别缺失,探索数据缺失的模式,进而处理缺失的数据。本文概述处理数据缺失的方法。 数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是...
  • RINEX 2.11 观测值文件格式说明

    千次阅读 2018-11-12 12:29:17
    RINEX版本2格式的第一个文档是由W. Gurtner和G. Mader在1990年9 / 10月的CSTG GPS公报中。 RINEX 2.11版本修改:2004年10月。 修改的主要原因是通过RINEX格式对反欺骗数据进行了新的处理。在原论文表A3中,“PGM / ...
  • SAS 操作数据集的观测

    2019-03-13 14:44:00
    表达式是操作数和操作符的序列,该序列会形成一组可执行并产生 结果的指令。其中,操作数可以是常量、变量或表达式;操作符是表 示比较、数学计算或逻辑运算的符号,也可以是SAS函数或者括号组。 在SAS程序语句中...
  • R语言回归分析-异常观测值

    千次阅读 2020-02-20 20:25:28
    回归分析可以说是统计学的核心,它其实是一个广义的概念,通指那些用一个或多预测变量(也称自变量或解释变量)来预测响应变量(也称因变量、效标变量或结果变量)的方法。通常,回归分析可以用来挑选与响应变量...
  • 还没关注?快动动手指!前言在《Python数据清洗--类型转换和冗余数据删除》中分享了有关数据类型转换和冗余信息...缺失的识别判断一个数据集是否存在缺失观测,通常从两方面入手,一个是变量的角度,即判断每...
  • Python数据分析基础: 数据缺失处理

    千次阅读 多人点赞 2020-10-31 21:56:01
    圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这上限而已。 再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所提高。数据质量对于数据分析而言是至关重要的,有时候它的...
  • 统计|如何鉴别出数据中的异常

    千次阅读 2021-11-02 19:27:05
    异常数据中可能会产生噪声,对挖掘会产生不显著效果。针对异常的处理我们有这几种方法。本博文不仅讲解这几种常见方法,并讲解如何使用数学手法鉴别出异常
  • Python数据分析入门笔记5——数据预处理之异常

    千次阅读 多人点赞 2022-01-24 23:02:34
    Python数据分析入门笔记系列文章目录、pandas是什么?二、使用步骤1.引入库2.读入数据总结 # 前言 提示:这里可以添加本文要记录的大概内容: 例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,...
  • python数据分析 - 如何探索数据

    千次阅读 2022-04-08 10:49:46
    数据分布4.1 百分位数和箱型图4.2 频数表和直方图4.3 密度估计4.4 二元数据和分类数据4.4.1 众数4.4.2 期望5.相关性5.1 相关系数5.2 相关矩阵5.3 散点图6.多变量分析6.1 六边形图和等势线(适用于两数值型变量)...
  • 2028. 找出缺失的观测数据 现有份 n + m 次投掷单个 六面 骰子的观测数据,骰子的每面...返回一个长度为 n 的数组,包含所有缺失的观测数据,且满足这 n + m 次投掷的 平均 是 mean 。如果存在多符合要求的答案
  • 标题输出自述文件html_document-- 包含的文件run_analysis.R - 一个 R 脚本,用于处理从三星 Galaxy S 加速度计收集的观测数据,并从原始数据一个小子集创建一个新的数据集,表示每主题活动对的变量平均。...
  • 各样本观察均加同一常数c后

    千次阅读 2021-01-14 15:44:18
    各样本观察均加同一常数c后答:样本均值改变,样本标准差不变李尚志老师的《科技民族导读》最早在()开课答:中国科学技术大学新民主主义革命属于世界无产阶级社会主义革命的部分。答:√Love's delight, and ...
  • 数据挖掘:数据清洗——缺失处理

    万次阅读 多人点赞 2020-02-17 16:15:02
    而在数据处理的过程中,缺失不仅包括数据库中的NULL,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。 说明: None是一个python特殊的数据类型。不同于空列表和空字符串,是种...
  • python数据分析实战之异常处理

    千次阅读 2021-09-17 09:28:44
    异常处理1、异常定义2、异常处理方式3、实战 1、异常定义 2、异常处理方式 3、实战

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 38,066
精华内容 15,226
热门标签
关键字:

一组数据包含10个观测值