精华内容
下载资源
问答
  • 磁盘SMART信息详解

    万次阅读 2014-06-05 14:29:11
    底层数据读取错误率 存储器从一个硬盘表面读取数据时发生的错误率。原始值由于不同厂商的不同计算方法而有所不同,其十进制值往往无意义的。一般来说有数值意味着磁头已出现问题了。 2 0x02 ...

    1,机械硬盘的SMART表定义已经有自己的标准,由于硬盘厂很多,很多厂家属性的名字也不尽相同,

    或者某些厂牌缺少某些属性,但是同个ID的定义是相同的。机械硬盘的SMART属性表如下:

    ID ID十六进制值 英文名 中文译名 最优 说明
    1 0x01 read error rate 底层数据读取错误率
    Dark Green Arrow Down.svg
    存储器从一个硬盘表面读取数据时发生的错误率。原始值由于不同厂商的不同计算方法而有所不同,其十进制值往往无意义的。一般来说有数值意味着磁头已出现问题了。
    2 0x02 Throughput Performance 读写通量性能
    Dark Green Arrow Up.svg
    通常是硬盘读写性能的测量值,如果其值有变动,有可能硬盘出现了问题。
    3 0x03 Spin-Up Time 盘片启动时间
    Dark Green Arrow Down.svg
    盘片由静止启动加速到稳定正常运行速度的平均所需时间。
    4 0x04 Start/Stop Count 电机起停次计数
    Dark Green Arrow Down.svg
    一个盘片启动关闭周期的统计值,只有硬盘从完全断电中启动或从睡眠模式恢复,盘片主轴电机被启动时才会记一次数。
    5 0x05 Reallocated Sector Count 重定位磁区计数
    Dark Green Arrow Down.svg
    记录由于损坏而被映射到无损的后备区的扇区计数。当硬盘出现损坏扇区时,可以通过将其物理空间指向到特定的无损区域进行重映射修复,从而出现坏扇区的硬盘仍可使用。但当高过一定数值后,后扇区消耗殆尽而无法再重映射修复时,这些坏扇区就会显现出来且无法自行修复。除外由于要要求磁头读取这些坏扇区时专门再移动到后备区读写数据,对硬盘读写性能也有影响。
    6 0x06 Read Channel Margin 信道读取余量   读取数据时信道可用的余量,该属性没制定任何功用。
    7 0x07 Seek Error Rate 寻道错误率   (该属性是特定制造商才有的)磁头寻找磁道由于机械问题而出错几率,有多种原因可能引致出错,如:磁头伺服构件,盘体过热,或损坏。于不同厂商的不同计算方法而有所不同,其十进制值往往无意义的。
    8 0x08 Seek Time Performance 寻道性能
    Dark Green Arrow Up.svg
    每次寻道时间的平均值,该值短期内迅速减少,有可能硬盘出现了问题。
    9 0x09 Power-On Hours 硬盘加电时间
    Dark Green Arrow Down.svg
    硬盘自出厂以来加电启动的统计时间,单位为小时(或根据制造商设定为分钟或秒),一般用户以该值判定硬盘是否被使用过。
    10 0x0a Spin Retry Count 电机起转重试
    Dark Green Arrow Down.svg
    S.M.A.R.T参数电机起转重试,表明了主轴电机的启动尝试次数。这个属性存储了关于主轴电机尝试加速到完全可操作速度的次数(在这种情况下,意味着主轴电机的第一次启动尝试没有成功)。主轴电机频繁的尝试启动,意味着硬盘驱动器的寿命可能将近实际限值。
    11 0x0b Recalibration Retries 磁头校准重试
    Dark Green Arrow Down.svg
    磁头在一次运行失败时尝试校准至正常状态的统计数,该值改变时意味着硬盘的机械部件已经出现问题了。
    12 0x0c Power Cycle Count 设备开关计数   该属性表示硬盘电源充分开/关循环计数。
    13 0x0d Soft Read Error Rate 软件读取错误率
    Dark Green Arrow Down.svg
    操作系统读取数据时的出错率。
    183 0xb7 SATA Downshift Error Count SATA降级运行计数   Western Digital 和 Samsung 特有属性,记录由于兼容问题导致降低SATA传输级别运行的计数。
    184 0xb8 End-to-End error 终端校验出错
    Dark Green Arrow Down.svg
    HP专有S.M.A.R.T.(SMART IV)技术的一个特有属性,记录硬盘从盘片读取数据到高速缓存后再传输到主机时数据校验出错的次数。
    185 0xb9 Head Stability 磁头稳定性   Western Digital特有属性
    186 0xba Induced Op-Vibration Detection     Western Digital特有属性
    187 0xbb Reported Uncorrectable Errors 报告不可纠正错误
    Dark Green Arrow Down.svg
    硬件ECC无法恢复的错误计数。
    188 0xbc Command Timeout 通信超时
    Dark Green Arrow Down.svg
    由于无法连接至硬盘而终止操作的统计数,一般为0,如果远超过0,则可能电源问题,数据线接口氧化或更严重的问题。
    189 0xbd High Fly Writes 磁头写入高度
    Dark Green Arrow Down.svg
    硬盘进行写入时对磁头高度进行监控以提供额外的保障。当磁头处于不正常高度进行写入时,写入操作会被终止,原有数据重写入或者将该扇区重映射到安全区域。该属性是统计值。
    190 0xbe Airflow Temperature 气流温度
    Dark Green Arrow Down.svg
    Western Digital特有属性,计量硬盘内气流温度,和检测项0xc2相似。
    191 0xbf G-sense Error Rate 加速度错误率
    Dark Green Arrow Down.svg
    计量可能对硬盘做成损害的冲击次数。
    192 0xc0 Power-off Retract Count 电源关闭磁头收回计数
    Dark Green Arrow Down.svg
    计量磁头在没有加电时不移进硬盘的值。
    193 0xc1 Load Cycle Count 磁头升降计数
    Dark Green Arrow Down.svg
    计量磁头在加电时移进/移出硬盘周期的值。
    194 0xc2 Temperature 温度
    Dark Green Arrow Down.svg
    计量硬盘的温度
    195 0xc3 Hardware ECC Recovered 硬件ECC恢复   (特定原始值)
    196 0xc4 Reallocation Event Count 重定位事件计数
    Dark Green Arrow Down.svg
    记录已重映射扇区和可能重映射扇区的事件计数。
    197 0xc5 Current Pending Sector Count 等候重定的扇区计数
    Dark Green Arrow Down.svg
    记录了不稳定的扇区的数量。
    198 0xc6 Uncorrectable Sector Count 无法校正的扇区计数
    Dark Green Arrow Down.svg
    记录肯定出错的扇区数量。
    199 0xc7 UltraDMA CRC Error Count UltraDMA通讯CRC错误
    Dark Green Arrow Down.svg
    记录硬盘通讯时发生的CRC错误。
    200 0xc8 Multi-Zone Error Rate 多区域错误率
    Dark Green Arrow Down.svg
    写入一个区域时发现的错误的计数。
    200 0xc8 Write Error Rate 写入错误率
    Dark Green Arrow Down.svg
    Fujitsu的特别属性,写入一个区域时发现的错误的计数。
    201 0xc9 Soft Read Error Rate 逻辑读取错误率
    Dark Green Arrow Down.svg
    记录脱轨错误。
    202 0xca Data Address Mark errors 数据地址标记错误
    Dark Green Arrow Down.svg
    记录数据地址标记错误(或制造商特定的计数)
    203 0xcb Run Out Cancel 用完取消
    Dark Green Arrow Down.svg
    ECC错误计数
    204 0xcc Soft ECC Correction 逻辑ECC纠正
    Dark Green Arrow Down.svg
    记录由软件ECC更正的错误计数。
    205 0xcd Thermal Asperity Rate 热嘈率
    Dark Green Arrow Down.svg
    记录高温导致的出错记数。
    206 0xce Flying Height 飞行高度   记录磁头的飞行高度。飞得太低会增加磁头撞毁的机会,飞得太高增加读写错误的机会。
    207 0xcf Spin High Current 主轴电机浪涌电流计数
    Dark Green Arrow Down.svg
    记录主轴电机运转时浪涌电流的次数。
    208 0xd0 Spin Buzz     记录由于电力不足而启动主轴电机的蜂鸣声次数。
    209 0xd1 Offline Seek Performance 离线寻址性能   在其内部测试硬盘的寻址能力表现。
    210 0xd2   (没定性,出现在Maxtor 6B200M0 200GB 和Maxtor 2R015H1 15GB 的硬盘中)
    211 0xd3 Vibration During Write 写操作震动   记录写入操作的震动数。
    212 0xd4 Shock During Write 写操作冲击   记录写入操作时的冲击数。
    220 0xdc Disk Shift 盘体偏移
    Dark Green Arrow Down.svg
    记录盘体由于冲击或温度导致偏离主轴的相对距离。
    221 0xdd G-Sense Error Rate 加速计出错率
    Dark Green Arrow Down.svg
    从外部诱发的冲击和振动产生的错误计数。
    222 0xde Loaded Hours 数据加载时间   数据读取时所花费的时间。(磁头移动时间)
    223 0xdf Load/Unload Retry Count 加载/卸载重试次数   磁头改变位置时所需时间。
    224 0xe0 Load Friction 负载摩擦
    Dark Green Arrow Down.svg
    读写时由于机械摩擦做成的阻力。
    225 0xe1 Load/Unload Cycle Count 加载/卸载循环计数
    Dark Green Arrow Down.svg
    总负载周期计数。
    226 0xe2 Load 'In'-time 磁头   磁头加载所需总时间(不包括在停泊区的花费)。
    227 0xe3 Torque Amplification Count 扭矩放大计数
    Dark Green Arrow Down.svg
    尝试来补偿盘片的速度变化的计数。
    228 0xe4 Power-Off Retract Cycle 断电缩回周期
    Dark Green Arrow Down.svg
    切断电源后电磁枢自动缩回的时间计数。
    230 0xe6 GMR Head Amplitude GMR磁头振幅   磁头振幅计数(磁头反复正反向运动距离)。
    231 0xe7 Temperature 硬盘温度
    Dark Green Arrow Down.svg
    记录硬盘温度。
    232 0xe8 Endurance Remaining 耐久性剩余   磁盘可使用周期与设计可使用周期的百分比。
    232 0xe8 Available Reserved Space 可用保留空间   Intel固态硬盘报告的可提供的预留空间占作为一支全新的固态硬盘预留空间的百分比。
    233 0xe9 Power-On Hours 加电时间   处于开机状态的小时数。
    233 0xe9 Media Wearout Indicator 介质耗损指标   Intel固态硬盘报告的NAND刷写寿命,全新时值为100,最低值为1,其跌幅随NAND的擦除周期增加而在0到最大额定周期范围减少。
    240 0xf0 Head Flying Hours 磁头飞行时间   磁头处于定位中的时间。
    240 0xf0 Transfer Error Rate 传输错误率   在数据传输时连接被重置的次数计数。(Fujitsu特有属性)
    241 0xf1 Total LBAs Written LBA写入总数   LBA写入总数计数。
    242 0xf2 Total LBAs Read LBA读取总数   LBA读取总数计数,部分S.M.A.R.T.检测程序会把原始值显示为负数,这是因为该原始值为48位,而不是32位的。
    250 0xfa Read Error Retry Rate 读取错误重试率
    Dark Green Arrow Down.svg
    从磁盘读取时的错误计数。
    254 0xfe Free Fall Protection 自由跌落保护
    Dark Green Arrow Down.svg
    对“自由落体事件”检测计数。
    SMART属性解释:

    1,ID# :  属性ID, 从1到255.

    2,ATTRIBUTE_NAME : 属性名.

    3,FLAG : 表示这个属性携带的标记. 使用-f brief可以打印.

    4,VALUE: Normalized value正常值, 取值范围1到254. 越低表示越差. 越高表示越好.

    当前值是各ID项在硬盘运行时根据实测数据(RAW_VALUE)通过公式计算的结果,计算公式由硬盘厂家自定。 硬盘出厂时各ID项目都有一个预设的最大正常值,也即出厂值,这个预设的依据及计算方法为硬盘厂家保密,不同型号的硬盘都不同,最大正常值通常为100或200或253,

    新硬盘刚开始使用时显示的当前值可以认为是预设的最大正常值(有些ID项如温度等除外)。

    随着使用损耗或出现错误,当前值会根据实测数据而不断刷新并逐渐减小。

    因此,当前值接近临界值就意味着硬盘寿命的减少,发生故障的可能性增大,所以当前值也是判定硬盘健康状态或推测寿命的依据之一。
    5,WORST: 最差值,表示SMART开启以来的, 所有Normalized values的最低值。

    最差值是硬盘运行时各ID项曾出现过的最大的非正常值。 

    最差值是对硬盘运行中某项数据变劣的峰值统计,该数值也会不断刷新。

    通常,最差值与当前值是相等的,如果最差值出现较大的波动(小于当前值),表明硬盘曾出现错误或曾经历过恶劣的工作环境(如温度)。
    6,THRESH:阈值。当Normalized value小于等于THRESH值时, 表示这项指标已经failed了
    注意, 如果这个属性是pre-failure的, 那么这项如果出现Normalized value<=THRESH, 那么磁盘将马上failed掉.
    7,TYPE:这里存在两种TYPE类型, Pre-failed和Old_age. 

    Pre-failed 类型的Normalized value可以用来预先知道磁盘是否要坏了. 例如Normalized value接近THRESH时, 就赶紧换硬盘吧.
    Old_age 类型的Normalized value是指正常的使用损耗值, 当Normalized value 接近THRESH时, 也需要注意, 但是比Pre-failed要好一点.
    8,UPDATED:这个字段表示这个属性的值在什么情况下会被更新.
    一种是通常的操作和离线测试都更新(Always), 

    另一种是只在离线测试的情况下更新(Offline).

    9,WHEN_FAILED:这个字段表示当前这个属性的状态。取值有以下三种:
    failing_now(normalized_value <= THRESH),

    或者in_the_past(WORST <= THRESH), 

    或者 - , 正常(normalized_value以及wrost >= THRESH).

    10,RAW_VALUE:表示这个属性的未转换前的RAW值, 可能是计数, 也可能是温度, 也可能是其他的.
    注意RAW_VALUE转换成Normalized value是由厂商的firmware提供的, smartmontools不提供转换.

    2,固态硬盘(SSD)的SMART表定义则目前还没有统一标准,不同厂家甚至不同主控都有可能出现相同ID不同定义,
    所以用一般的SMART软件查看是没任何意义的,虽然你可以看到值,但是这个值对应的ID解释可能完全不是那么回事。

    不同主控SSD的SMART属性有:

     intel SSD SMART:

    03 – Spin Up Time (磁头加载时间)

    04 – Start/Stop Count (开始/停止计数)

    05 – Re-Allocated Sector Count (重映射扇区数)

    09 – Power-On Hours Count (通电时间)

    0C – Power Cycle Count (通断电次数)

    C0 – Unsafe Shutdown Count (异常关机次数)

    E1 – Host Writes (数据写入量)

    E8 – Available Reserved Space (可用预留空间)(这个算是颗粒寿命,等于低于10%SSD就离躺倒不远了)

    E9 – Media Wearout Indicator (闪存磨耗指数)

    B8 – End to End Error Detection Count (端对端错误监测数)


    SandForce SSD SMART:
    1-Raw Read Error Rate   底层数据读取出错率
    5-Retired Block Count 不可使用的坏块计数 (公式比较怪。。这个值不准,新固件都为100)
    9-Power On Hours Count    累计加电时间
    12-Power Cycle Count   设备通电周期
    171-Program Fail Count       编程错误计数
    172-Erase Fail Count         擦除错误计数
    174-Unexpected Power Loss Count    不正常掉电次数
    177-Wear-Range Data 显示最大磨损块和最小磨损块相差的百分比
    181-同171定义相同
    182-同172定义相同
    187-Reported Uncorrectable Errors 不可修复错误计数
    194-显示温度的,基本可以忽略(假的)
    195-On the Fly Reported Uncorrectable Error Count    实时不可修复错误计数
    196-Reallocated Event Count                      重映射坏块计数
    231-SSD Life left      SSD剩余寿命 
         新盘为100,当显示为10,代表P/E用完了,但是还有备用空间可以替换,显示0代表盘上数据为只读。
    241-lifetime write froms host         来自主机的写入数据量总数(64G更新一次)
    242-lifetime write froms host         来自主机的读取数据量总数(64G更新一次)


    Micron(镁光)SSD SMART:
    1-Raw Read Error Rate                          底层数据读取出错率
    5-Re-allocated Sectors Count                 使用中新增的坏块数
    9-Power On Hours Count                       累计加电时间
    12-Power Cycle Count                             设备通电周期
    170-Grown Failing Block Count                   替换坏块计数
    171-Program Fail Count                             编程错误计数
    172-Erase Fail Count                                 擦除错误计数
    173-Wear Leveling Count                          平均擦写次数
    174-Unexpected Power Loss Count            不正常掉电次数
    181-Non-4k Aligned Access                       非4KB对齐访问数
    183-SATA Interface Downshift                   接口降级次数计数
    187-Reported Uncorrectable Errors            不可修复错误计数
    188-Command Timeout                            指令超时计数
    189-Factory Bad Block Count                    出厂坏块计数
    196-Re-allocation Event Count                  坏块重映射事件计数
    197-Current Pending Sector Count           值永远为0
    198-Smart Off-line Scan Uncorrectable Error Count     自检时发现的不可修复错误
    199-Ultra DMA CRC Error Rate                 主机到接口之间传输CRC错误率
    202-Percentage Of The Rated Lifetime Used   剩余寿命(MLC 5000 / SLC 100000计算) 
                           百分比从100开始跌
    206-Write Error Rate 底层数据写入出错率
    我觉得最主要的是那个173/AD的值,那个值是平均块擦写次数,用户可以靠它判断自己的盘剩余寿命。


    Indilinx SSD SMART:
    1-Raw Read Error Rate底层数据读取出错率
    9-Power On Hours Count累计加电时间
    12-Power Cycle Count设备通电周期
    184-Init Bad Block Count坏块数
    195-Program Failure block Count编程错误块计数
    196-Erase Failure block Count擦除错误块计数
    197-Read Failure block Count读取错误块计数(不可修复错误)
    198-Total Count of Read Sectors总读取页数
    199-Total Count of Write Sectors总写入页数
    200-Total Count of Read Command总读取指令数
    200-Total Count of Write Command总写入指令数
    202-Total Count of error bits from flash总闪存错误bit数
    203-Total Count of Read Sectors with correct bits error  总修复bit错误的读取页数字
    204-BAD Block Full Flag
    205-Max P/E Count最大可编程/擦除次数  MLC 5000/10000   or SLC 100000
    206-Erase Count Min最小擦写次数
    207-Erase Count Max最大擦写次数
    208-Erase Count Average平均擦写次数
    209-Remaining Life %剩余寿命百分比
    210-BBM Error Log坏块管理错误日志
    211-SATA Error Count CRC (Write)     SATA 主机 <->接口CRC写入错误计数
    212-SATA Error Count HANDSHAKE (Read)  SATA 主机 <->接口读取错误计数

    展开全文
  • 2、展实测点功能,外业采集的数据DAT文件,编码为589,105,110或为JZD的数据将被当做实测点,实测点有专门的符号表示,其他点位用一般的点表示,能自动生成实测界址点及对应点号对照表。 在菜单中可以展点位的代码和...
  • 基于图和基于对齐的混合纠错方法在易错长读中的性能差异 王安琪& 金辉区 基因组生物学卷21,产品编号:14(2020)引用本文 2079次访问 ...我们的研究揭示了相对于原始读取错误率的准确度...

    基于图和基于对齐的混合纠错方法在易错长读中的性能差异

    基因组生物学 卷 21,产品编号:  14(2020) 

    抽象

    容易出错的第三代测序(TGS)长读可以通过高质量的第二代测序(SGS)短读进行校正,这称为混合错误校正。我们在这里通过数学建模和分析来研究两种主要类型的混合纠错方法的主要算法因素对模拟数据和真实数据的影响。我们的研究揭示了相对于原始长读取错误率的准确度增益分布。我们还证明了19%的原始错误率是进行完美校正的极限,超过该值,长时间读取的数据很容易被这些方法校正。

    背景

    第三代测序(TGS)技术[ 1 ],包括太平洋生物科学(PacBio)和牛津纳米孔技术(ONT),已被证明在许多生物医学研究中有用,因为空前的读取长度(PacBio和ONT的平均长度可以超过10 kb)和20 kb的,与最大超过60 kb和800 KB)是用于组装处理复杂的问题,如基因组单倍型分析和非常丰富的[ 12345678910 ]。然而,TGS数据的高错误率(对于在原始数据平均10-15%)[ 11121314 ]降低mappability和下游分析的分辨率。为了解决此限制,已使用高质量的短读来纠正长读,这被称为混合错误纠正。现有混合动力纠错方法可分为两类:基于比对方法[ 15161718192021 ]和DE Bruijn图(DBG)基的方法(称为“基于图形的方法“)[ 2223242526]。不管基于图的方法比基于对齐的方法[ 27 ]的算法复杂度低,以及软件实现方式的差异,以下两种主要因素均对纠错性能产生重大影响:长读取错误率,短读取错误率,较短的阅读范围,比对标准和可靠的k- mer大小。尽管以前的研究在相应的软件开发[检查一些这些因素分别282930 ],在这里我们建立数学框架来执行所有这些因素混合纠错的全面调查。通过研究它们对短读对齐率和实心k的影响在DBG中进行mer-mer检测,我们最后将询问这些因素如何确定混合错误校正中的精度增益。这项研究不仅研究了两种主要的混合纠错方法的算法框架,更重要的是,它还为方法选择,参数设计以及长距离纠错的未来方法开发提供了有益的指导。

    结果与讨论

    总体而言,我们首先通过数学建模,在每个错误率级别上,通过基于比对和基于图的方法评估准确性增益,然后使用模拟数据和真实数据验证模型的适用性。利用这些数据和结果,我们研究了关键算法因素在不同数据场景下的影响,并比较了两种方法。

    基于比对的方法的两个主要阶段决定了准确性的提高:短读比对和共识推断(图 1a)。将C表示为测序过程中在某个碱基上产生的短读的数目,称为真实短读。在第一阶段,C实短读与长读对齐。令N为成功对齐的实际短读的数目。接下来,根据感兴趣的碱基,产生对齐的真实短读的共有序列作为校正的碱基。我们将准确度增益定义为γ-  (1-  EA),其中γ是原始的长读取错误率,而EA 是纠错后的预期精度:

    ËA =∑n = 0C镨(Ñ= n ) g(Ñ ,β)。Ë一种=∑ñ=0C镨(ñ=ñ)G(ñ,β)。

    图。1

     

    基于对齐和基于图的方法的图示;模拟数据的模型适应性和准确性增益的结果。一个基于比对方法的原理图。b是长读的某个碱基,'是参考序列的相应碱基。将C个实际的短读与长读对齐(其中N个已成功对齐),然后在每个碱基处推断出共识。b短读取τ的成功比对概率与错配率p,完全匹配k的下限阈值k聚体大小k的关系和不匹配的上限m。尽管变化ķ或/和τ是靠近一个当p  <5%,并接近于零,当p  > 30%。这表明失配率是τ上最主要的因素。随着m从10增加到20,曲线向上移动(从蓝色到红色和绿色),这意味着τ随着m增加。此外,蓝色,红色和绿色虚线与实线之间的散度也显示出增加的趋势,这意味着kτ的影响也随m的增加而增加。c基于图的纠错方法示意图。DBG基于短读而构建。在长读时检测到固体k聚体。然后将两个相邻的实心k聚体之间的片段与DBG上的相关路径对齐。当满足某些条件时,将使用该路径来纠正片段。d通过基于比对的方法校正的模拟长读在每个错误率处的准确度增益。箱线图表示长时间读取的精度增益分布。实线代表理论值。灰色虚线(对角线)对应于完美校正。e带有实线k的模拟长读的比例-mer在每个错误率级别上检测到。实线代表理论值。虚线表示模拟长读的结果。f通过基于图的方法校正的模拟长读在每个错误率处的准确度增益。L:较长的阅读长度;k:完全匹配的种子或固体k -mer的大小

    Pr(N  =  n)表示n个真正的短读可以成功对齐的概率,对应于短读对齐的阶段,而gn,  β)是共识等于真碱基的概率,对应于共识推断阶段。β是短读取错误率。首先,我们通过获得将单个短读与长读成功对齐的概率来计算Pr(N  =  n),这在很大程度上取决于不匹配的容差和对齐器所需的完美匹配种子的长度。对于两个序列XY长度l相等,表示M为错配碱基的数目,表示K为最大完全匹配种子的长度。让ķ是下阈值ķ,和是上阈值中号,因此这对夫妻的条件ķ  ≥  ķ中号 ≤ 套向上对准的标准。以下定理测量了在该标准下单个短读可以成功对齐的概率τ

    定理1. 设X和Y为两个长度相等的序列。表示X 和Y(1≤  ≤ 作为i 分别X和Y,的碱。假设所有事件i  =  i }是独立的,并且所有碱基具有相同的不匹配率p。让τķ, ,  p, )≜PR(ķ  ≥  ķ, 中号 ≤  0≤  ≤ 式中,τ是通过需要不小于k的完全匹配种子且不大于m的碱基错配的定位器,短读可以成功地与长读的目标位置对齐的概率。我们有:

    τ(k ,m ,p ,l ) =∑n = 0米[∑t = 1Q (n )(− 1 )t − 1(n + 1Ť)(升- ķ吨ñ) ]pñ(1 − p )l − n,τ(ķ,米,p,升)=∑ñ=0米[∑Ť=1个问(ñ)(-1个)Ť-1个(ñ+1个Ť)(升-ķŤñ)]pñ(1个-p)升-ñ,

    其中Qn)= max { s |  -  KS  ≥  Ñ }⋀(Ñ  + 1) 。τ随m和l增加,随k和p减小

    证明在附加文件1:注1中提供 。基于τ,我们能够计算N个短读序列Pr(N  =  n)的对齐率。给定长读中的一组错误,短读的对齐方式不是完全独立的,因此我们考虑了几批短读(附加文件 1:注释2,图S1)。失配率p可以大致由β  +  γ估计(附加文件 1:注3)。分析结果表明,错配率(即,大约长读取错误率,因为 β  «  γ),是τ上最主要的因素;作为的增加,既τ及效果ķτ的增加(图 1个B中,附加文件 1:注4)。可以基于二项式分布来推导共识推断gn,  β)的准确性(方法,附加文件 1:注5)。理论计算表明,浅层对齐的短读覆盖范围足以生成高精度共识(例如,只有9倍对齐的短读可以以> 99.99%的精度达成共识),因此,短读对齐是影响准确性增益的主要阶段(附加文件 1:图S2)。

    两个阶段中的基于图形的方法,包括检测固体的ķ在DBG -mer和路径搜索,影响精确度增益(图 1 C)。在第一阶段,对长读的所有k- mers进行扫描,以查找短读生成的DBG中存在的“实心k- mers”。在第二阶段,所有的路径该链路的两个相邻固体ķ聚体或链接固体ķ聚体与对DBG长读的端部被搜索以找到最佳的一个来纠正较长的读取。令φ(k,  γ,  L)为长读(长度为L)包含至少一个实心k的概率-mer。根据定理1,我们有:

    φ (ķ ,γ,L ) = τ(k ,L − k ,γ,L ) =∑n = 0大号- ķ[∑t = 1Q (n )(− 1 )t − 1(n + 1Ť)(大号- ķ吨ñ) ]γñ(1 - γ)L − nφ(ķ,γ,大号)=τ(ķ,大号-ķ,γ,大号)=∑ñ=0大号-ķ[∑Ť=1个问(ñ)(-1个)Ť-1个(ñ+1个Ť)(大号-ķŤñ)]γñ(1个-γ)大号-ñ

    (有关详细信息,请参见方法,附加文件 1:注6,图S3)。为了研究第二阶段,我们检查了相邻实体区域之间的距离,因为它代表了DBG中路径搜索的整体难度。我们通过将截短的几何分布与几何分布混合来对实体区域距离进行建模,并且其预期随着k- mer大小k和长读取错误率γ的增加而增加(有关详细信息,请参见方法)。

    接下来,我们检查两种方法在模拟数据上的模型适用性和准确性。长读取和短读取从进行了仿真大肠杆菌参照基因组(菌株K-12 MG1655)(附加文件 1:注7)[ 3132 ]。应用基于对齐的软件proovread [ 19 ]来纠正长读(附加文件 1:注8,图S4)。在不同的短读覆盖范围内,理论准确度增益的趋势适合模拟数据的实际准确度增益(图 1 d)。当γ ≤15%,即使使用非常浅的短读取覆盖范围(5倍),精度增益也会沿对角线增加,这意味着几乎完美的校正。当γ≥18  %时,准确度增益会降低,相应的方差也会增加,因此几乎无法完全校正读数。这些结果显示了基于对齐的方法可以完美解决的长读取错误率的上限,并且基于图的方法也证明了类似的结果(如下所示)。此外,理论计算和模拟数据均显示,尽管相对于短读取覆盖范围(例如,从5倍到10倍)略有增加(例如,<2%和<1%),但是准确度增益很少会超过20%。和分别从20倍到50倍,图 1d)。因此,混合错误校正从短读取覆盖范围的增加中获得了一点好处,尤其是当其大于10倍时。

    为了评估基于图的方法的模型,我们应用LoRDEC(版本0.5.3)[ 23 ]来纠正模拟的长读(附加文件 1:注释9)。在此评估中,短读覆盖率为10倍。该理论固体的整体倾向ķ聚体的检测率φ相对于长读的长度大号和所需ķ聚体大小ķ对准以及与来自模拟数据(图生成的值 1 e)中,虽然是φ当L超过2 kb时略高。总体而言,当长读取错误率γ时,固体k- mer检测率接近1低于某个阈值(例如,对于k  = 21和L  = 1 kb,为15%),并且当γ超过阈值时,它急剧下降。与这个阈值增加大号(例如,从15%至24%,1〜10 kb的给定ķ  = 21)(图 1 e)所示。此外,增加ķ聚体大小对固体整体负效应ķ聚体检测,这是更加显着时长读取较短(图 1 e)所示。值得注意的是,高的长读取错误率导致无法检测到固体k- mer的可能性很高,从而无法校正长的读取。跟随固体k-mer检测,我们研究了相邻实心区域之间的距离:对于测试中的所有k- mer大小,理论距离均与在不同水平的长读取错误率下在模拟数据中获得的实际值一致(附加文件 1:图S5)。给定一个k- mer大小,当长读错误率≥18%时,距离的均值和方差都会显着增加,否则很少超过500 bp(其他文件 1:图S5)。另外,k的增加也导致距离的显着增加。

    在精度增益方面,仿真数据表明,当长读取错误率γ≤19  %时,基于图的方法几乎可以完全纠正长读取;当γ  > 19%时,精度增益降低,​​相应的方差增大。。在基于比对的方法中,相应的γ变化点约为15%。然而,代替精度增益相对于单峰γ,有一个双峰图案与γ  > 19%,在基于图形的方法的一些场景(例如,ķ  ≥19和大号 ≤2 KB):一些长读取可以几乎完美地校正,而另一些则具有零或非常低的精度增益(图 1)F)。长读取的后一个子集可能不包含或仅包含一个固体k- mer,因此不执行或很难进行校正。当长读L的长度增加到≥5kb时,精度增益的分布在每个错误率级别上都会缩小,并且双峰模式会逐渐消失。因为较长的读长提高固体的概率ķ聚体检测(见上述的结果和图 1 e)所示,长比例较大读取甚至可以校正虽然不是完美。

    通过k  = 19,L  = 1 kb,γ  = 25%的具体方案,进一步研究了精度增益的双峰模式。校正后的读数分为两类:“高增益长读数”,其准确度增益大于12.5%,否则“低增益长读数”。低增益长读取的高得多的比例仅包含一个固体19聚体比高增益读长(89.04%对54.58%,图 2一个),和整体,前者包含更坚实19比聚体后者。此外,长期以单个读取19聚体,所述的位置19聚体可用于两类长读取不同:在中间高增益的长读取,而邻近的低增益的任一端长读取(图 2的B)。当固态k- mer发生在长读的末端附近时,一个片段特别长,使得通过DBG中的路径搜索进行校正变得更加困难,从而导致较低的精度增益。在没有检测到固体19聚体的情况下,长的读数将不被校正,并且也以低准确性再次对模态有贡献。随着读取长度增加,更多的读取包含多个固体19聚体(图 2 c)和片段的端部处的效果变得边际使得双峰图案消失。

    图2

     

    基于图的方法的双峰精度增益的解释;真实数据集的模型适应性和准确性增益。具有不同实心k数的长读比例。在不损失慷慨的情况下,以长度为1 kb且错误率为25%的模拟长读为例。长时间读取被标记为“高增益长时间读取”,其准确性增益大于12.5%(错误率值的一半),否则为“低增益长时间读取”。b在高增益和低增益长读取上单个固体k- mer位置的分布。仅考虑具有一个实心k聚体的长读。c固体k的分布长读段上的-mer数字具有不同的长度。d基于对齐的方法在每个错误率级别的精度增益分布。e检测到具有固态k- mer的长读片段的比例。由于不同的长读取长度的混合,提供了上边界和下边界。f基于图的方法在每个错误率级别的精度增益分布。g长读取的长度分布,其中基于图的方法(标记为DBG)比基于比对的方法(标记为ALN)具有更好,相等或更差的性能。的p值是通过Wilcoxon秩和检验计算

    我们进一步研究了通过proovread和LoRDEC分别校正过的真实PacBio数据集[ 23 ]的准确性(附加文件 1:注8-10,图S6,图S7)。短读随机覆盖10倍。通过校对获得实际精度的总体趋势与基于比对方法的理论计算一致,尽管后者略有过高估计(图 2 d)。在真实数据上,长时间读取很少能获得> 20%的准确度增益(图 2)。d)。但是,当长时间读取错误率从25%增至30%时,准确度增益将维持在10%至15%的范围内,而不是像理论模型那样急剧下降。当通过LoRDEC对实际数据评估准确性增益时,应注意,与上述基于图的方法的数学模型中的固定读取长度相比,实际数据包含具有不同长度的长读取。尽管这种差异,实际的比例长用固体读取ķ聚体检测是理论的范围内(图 2 e)和准确性增益的模式是与模拟结果(图非常类似的 2 f和图 1个f):当错误率小于20%时,大多数长读取可实现近乎完美的校正,对于更高的错误率,方差会变大。

    此外,基于真实数据集比较了两种方法。当长读取错误率> 15%时,两种方法之间的准确度增益差异变得明显。在19,485条原始错误率大于15%的长读中,LoRDEC在13,146条(67.47%)的读取上表现出色,即准确度提高的差异大于2%(图2 d中的箱形图 与图2 f中的小提琴图)  )。两种方法在5,557(28.52%)个长读取中显示出相似的精度增益,即,精度增益之差≤2%。对于其余782(4.01%)次读取,proovread的效果更好。第三组长读明显短于其他两组(Wilcoxon秩和检验的p值为1.78×10 -6,图 2G)。它是与上述推论是一致的:用于基于图形的方法,更短的读出更可能含有很少或没有固体ķ聚体,并且所述固体的位置ķ聚体高度影响的修正(图 2 -C )。

    总之,通过数学框架进行的理论计算以及对模拟数据和真实数据的分析表明,关键算法因素和数据参数如何影响两种主要类型的混合纠错算法的准确性。当原始的长读取错误率低于某些阈值(例如15%)时,两种方法都可以纠正大多数错误。对于高度易出错的长读取(尤其是γ≥20  %),基于图的方法通常可以获得更高的精度增益,而方差也较大。在这种容易出错的长读取方法中,基于比对的方法倾向于在校正相对较短的读取方法时具有更大的优势(例如,我们的测试中位长度为1,195 bp,图 2)。G)。尽管不可能分析所有已发布的软件,但是proovread和LoRDEC生成的结果分别代表基于比对和基于图的方法,如我们先前对10种纠错软件的基准测试所示[ 27 ]。值得注意的是,沿实际长读的测序错误可能不是独立的,或者短读覆盖范围可能不是均匀分布的(例如,转录组数据),因此在对真实数据进行分析时有必要进行特定调整(请参阅附加文件 1)。:有关详细信息,请参见10-11。随着PacBio和ONT都对技术进行改进,大多数原始数据的错误率变得小于20%。在此范围内,我们的结果非常适合真实数据,因此将有助于真实数据的分析,并为方法选择,参数设计(附加文件1:注12–13,图S8)和将来的方法提供指导。 发展。此外,为了对基于比对的方法进行建模,建立了数学定理以测量短读比对的概率,这也为其他基于比对的算法的开发和分析奠定了基础。

    方法

    基于对齐方式的共识推理模型

    上面以定理1给出了短序列比对的模型,这是比对基础方法的第一步。接下来,在共识推论阶段,将频率≥50%的碱基作为共识。因此,影响共识准确性的主要因素是短读错误率和对齐的短读数量。

    a作为长期阅读的某个特定站点的真实基础。表示V= {V1个,V2,⋯ ,Vñ}V={V1个,V2,⋯,Vñ}作为基于N个对齐的短读段的相应基础。因此,Pr(i  =  a)= 1-  β,其中β是短读取错误率。让F(五)F(V) 成为共识函数:

    F(五) =a r g m a x小号∈ {甲,Ç,G ,T,- }∑ñ我= 1一世(V一世= s )。F(V)=一种[RG米一种Xs∈{一种,C,G,Ť,-}∑一世=1个ñ一世(V一世=s)。

    I(∙)是指示符功能。考虑到半票制,我们有

    镨(˚F(五) =一) ≥镨(∑ñ我= 1一世(V一世=一) ≥ ⌈ñ2⌉) ≜克(N,β)。镨(F(V)=一种)≥镨(∑一世=1个ñ一世(V一世=一种)≥⌈ñ2⌉)≜G(ñ,β)。

    gN,  β)是共识推断的准确性,定义为:

    G(N,β) = Pr (w ^ñ,1 - β>ñ− 12),Ñ 我小号Ò d d。G(ñ,β)=镨(w ^ñ,1个-β>ñ-1个2),ñ 一世s Ødd。
    G(N,β) = Pr (w ^ñ,1 - β>ñ2) +1个2镨(w ^ñ,1 - β=ñ2),Ñ 我小号Ë v ë Ñ 。 G(ñ,β)=镨(w ^ñ,1个-β>ñ2)+1个2镨(w ^ñ,1个-β=ñ2),ñ 一世s ËvËñ。

    Nβ遵循二项式分布Binom(N,1-  β)。可以证明gN,  β)随着N的增加而增加,随β的减少(请参见附加文件1:注释5中的两个引理和详细结果 )。

    基于图的固体k -mer检测模型

    固态k- mer检测要求(1)长读取包含连续的k个无错误碱基;(2)DBG中也存在k- mer。由于短读的准确性很高,即使在短的短读覆盖范围内,条件(2)也很可能得到保证(附加文件 1:注6)。下面我们计算(1)的概率。假设所有基于长读取的碱基都是独立的,并且具有相同的错误率γ。表示该较长的读取包含至少一个正确的概率ķ聚体为φ(ķ,  γ, 大号)≜PR(ķ  ≥  ķ)。根据定理1

    φ (ķ ,γ,L ) = τ(k ,L − k ,γ,L ) =∑大号- ķn = 0[∑Q (n )t = 1(− 1 )t − 1(n + 1Ť)(大号- ķ吨ñ) ](1 - γ)L − n。φ(ķ,γ,大号)=τ(ķ,大号-ķ,γ,大号)=∑ñ=0大号-ķ[∑Ť=1个问(ñ)(-1个)Ť-1个(ñ+1个Ť)(大号-ķŤñ)](1个-γ)大号-ñ。

    φ(k,  γ,  L)随kγ减小,随L增大。与在基于比对的方法中定读1的短读长度l具有固定长度的定理1相比,在基于图的方法中定理1的应用使用长读L的长度,该长度可变且显着更大。

    基于图的方法中的实体区域距离模型

    S表示为相邻实体区域之间的距离,将T表示为小于k的最大正确片段的长度。它具有概率函数

    镨(Ť= t ) =(1 - γ)Ťγ1 - α,镨(Ť=Ť)=(1个-γ)Ťγ1个-α,

    哪里

    α =∑∞吨= ķ(1 - γ)Ťγ。α=∑Ť=ķ∞(1个-γ)Ťγ。

    α是长读中至少k个连续碱基正确的概率。假设{ i ;  ≥1}是独立观测Ť,则有

    小号=∑ñ我= 1Ť一世+ N− 1。小号=∑一世=1个ñŤ一世+ñ-1。

    其中N是实体区域之间的最大正确线段数,并且遵循几何分布,

    PR(Ñ  =  Ñ)=(1 -  αñ αÑ  ≥0。

    S的期望是

    Ë小号= E(E(S| ñ)) =E(N(EŤ+ 1 )) −1=(EŤ+ 1 ) Ëñ− 1。Ë小号=Ë(Ë(小号|ñ))=Ë(ñ(ËŤ+1个))-1个=(ËŤ+1个)Ëñ-1。

    实心区域距离的期望随着kγ的增加而增加。

    实际数据,数据模拟,数据处理和软件使用

    模拟的长读和短读分别由SimLoRD [ 31 ]和ART [ 32 ]生成(有关详细信息,请参见附加文件 1:注释7)。典型的基于比对和基于图的软件proovread [ 19 ]和LoRDEC [ 23 ]用于校正长读(其他文件 1:注释8-9)。有关处理实际数据的详细信息,请参见附加文件 1:注10。

    数据和资料的可用性

    大肠杆菌的Illumina和PacBio测序数据可从Sequence Read Archive:ERR022075和PacificBiosciences / DevNet(https://github.com/PacificBiosciences/DevNet/wiki/E.-coli-Bacterial-Assembly)下载。[ 23 ] 。将模拟数据上传到项目PRJNA574878 [ 33 ]下的NCBI 。

    参考文献

    1. 1。

      Rhoads A,Au KF。PacBio测序及其应用。基因组蛋白质组学生物信息学。2015; 13:278-89。

      文章 谷歌学术 

    2. 2。

      Hoang NV,Furtado A,Mason PJ,Marquardt A,Kasirajan L,Thirugnanasambandam PP,Botha FC,Henry RJ。使用全长同工型测序和短读测序的从头组装,对高度多倍体甘蔗基因组的复杂转录组进行了调查。BMC基因组学。2017; 18:395。

      文章 谷歌学术 

    3. 3。

      Vembar SS,Seetin M,Lambert C,Nattestad M,Schatz MC,Baybayan P,Sherf A,Smith ML。通过长时间读取(> 11 kb),单分子,实时测序,完成恶性疟原虫基因组的端粒至端粒从头组装。DNA Res。2016; 23:339–51。

    展开全文
  • 为了减小误码原始数据经过格式化编码和信道编码后,才能写人光盘片;在读取时,则需经过信道解码和格式化解码后,才能得到所需的原始数据。光盘数据的读写过程如图1所示。2 CI.RC基本原理 功能强大的错误检测和...
  • 属性(自我监控、分析和报告技术),包括原始读取错误率、旋转次数、查找错误或速率、启动/停止计数和通电时间。 2、执行扫描 可以使用Victoria对硬盘进行表面扫描,以确定潜在问题。每个接受扫描的扇区都根据其性能...
  • 该文件执行质量过滤,学习错误率,重复数据删除,样本推断,合并成对的末端读段,去除嵌合体和分类分配。 generate_phyloseq_object.rmd-在本笔记本中,我们处理DADA2扩增子读取计数管道的输出。 我们提供读取覆盖...
  • 海康视频卡动态库

    2014-09-06 00:40:10
    using System; using System.Collections.Generic; using System.Text; using System.ComponentModel; using System.Data; using System.Drawing;...using System.Windows.Forms;...using System.Runtime.InteropServices;...
  • 2.1.3 TensorFlow的数据读取机制 23 2.1.4 实验:将CIFAR-10数据集保存为图片形式 30 2.2 利用TensorFlow训练CIFAR-10识别模型 34 2.2.1 数据增强(Data Augmentation) 34 2.2.2 CIFAR-10识别模型 36 2.2.3 ...
  • Quectel BC95中文AT指令集 NB-IoT

    热门讨论 2018-02-01 10:11:41
    AT+CSODCP 通过控制层发送原始数据 B657SP1+ AT+CRTDCP 通过控制层传送终端数据 B657SP1+ General Commands 通用命令 AT+NMGS 发送消息到 CDP 服务器 B350+ AT+NMGR 接收 CDP 服务器消息 B350+ AT+NNMI 接收消息标志...
  • 目前大部分的(70%)数据都是基于关系型数据库进行存储的,关系型数据库在操作上,需要实时高速的数据读取和存储,一般数据库都采用“块”(Block)的方式进行数据传输,这样NAS就无法进行数据应用的主流:数据库...
  • java面试题

    2018-04-27 19:55:38
    答:int是java的原始数据类型,Integer是java为int提供的封装类,java为每个原始数据类型都提供了封装类。 String和StringBuffer的区别? 答:String是不可变的对象,每次对String类型进行改变都相当于产生了一个新...
  • WinRAR_4.0.exe

    2011-02-04 11:34:33
    如果在命令行或配置文件中指定开关 -ilog ,RAR 将会把处理压缩文件中遇到的错误 等写到日志文件中。读取开关 -ilog 描述获得更多信息。 固实压缩的文件列表 - rarfiles.lst rarfiles.lst 包含一个用户定义...
  • rar压缩软件.rar

    2016-02-13 10:52:44
    如果在命令行或配置文件中指定开关 -ilog ,RAR 将会把处理压缩文件中遇到的错误 等写到日志文件中。读取开关 -ilog 描述获得更多信息。 固实压缩的文件列表 - rarfiles.lst ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...
  • 所以,此次数据集有不少漏标错标的情况,如果能矫正这些错误,也许能直接让模型预测出更好的结果。 AIStudio项目分享 本项目在AIStudio中同样创建了分享,地址为 ...
  • LINGO软件的学习

    2009-08-08 22:36:50
    原始集一样,派生集成员的声明也可以放在数据部分。一个派生集的成员列表有两种方式生成:①显式罗列;②设置成员资格过滤器。当采用方式①时,必须显式罗列出所有要包含在派生集中的成员,并且罗列的每个成员必须...
  • 采集数据端口,支持串口端口+网络端口,串口支持自由设置串口号+波特,网络支持自由设置IP地址+通讯端口,每个端口支持采集周期,默认1秒钟一个地址,支持设置通讯超时次数,默认3次,支持最大重连时间,用于重新...
  • JAVA面试题最全集

    2010-03-13 13:09:10
    找出下列代码可能存在的错误,并说明原因: 二、JSP&Servlet技术 1.描述JSP和Servlet的区别、共同点、各自应用的范围 2.在Web开发中需要处理HTML标记时,应做什么样的处理,要筛选那些字符(< > & “”) 3.在...
  • print ('测试集准确:%f%%'%(right*100.0/predict.shape[0])) #计算在测试集上的准确度 逻辑回归_手写数字识别_OneVsAll 全部代码 1、随机显示100个数字 我没有使用scikit-learn中的数据集,像素是20*20px...
  • 如果在命令行或配置文件中指定开关 -ilog ,RAR 将会把处理压缩文件中遇到的错误 等写到日志文件中。在 Unix 中,这个文件名为 .rarlong,放在用户的 home 目录中。 在 Windows 中,它名为 rar.log,放在 rar....

空空如也

空空如也

1 2 3 4
收藏数 67
精华内容 26
关键字:

原始数据读取错误率