精华内容
下载资源
问答
  • 针对一类具有时滞区间BAM神经网络平衡点的存在唯一性和鲁棒稳定性问题.利用同胚映射理论,构造合理的Lyapunov函数,并利用线性矩阵不等式技术,分别得到了系统平衡点的存在唯一性和全局渐进鲁棒稳定性的时滞相关充分...
  • 线程拆分bam文件

    千次阅读 2015-06-01 15:34:47
    die "perl $0 <bam> <threads>\n" if @ARGV != 2; my $semaphore = Thread::Semaphore->new($ARGV[1]); my $id = basename($ARGV[0], ".bam"); if(-s "$ARGV[0].bai") { }else{ `samtools index $ARGV[0]`; } my...
    #!perl
    use warnings;
    #use strict;
    use threads;
    use Thread::Semaphore;
    use File::Basename qw(basename);
    
    die "perl $0 <bam> <threads>\n" if @ARGV != 2;
    
    my $semaphore = Thread::Semaphore->new($ARGV[1]);
    my $id = basename($ARGV[0], ".bam");
    if(-s "$ARGV[0].bai")
    {
    	
    }else{
    	`samtools index $ARGV[0]`;
    }
    my $outdir = "${id}_split";
    mkdir $outdir;
    
    my (%hash, $hd, $rg, $pg);
    open HEAD, "samtools view -H $ARGV[0] |" or die $!;
    while(<HEAD>)
    {
    	if(/^\@SQ/)
    	{
    		my ($chr) = $_ =~ /SN:(\S+)/;
    		$hash{$chr} = $_;
    		next;
    	}
    	if(/^\@HD/)
    	{
    		$hd .= "$_";
    		next;
    	}
    	if(/^\@RG/)
    	{
    		$rg .= "$_";
    		next;
    	}
    	if(/^\@PG/)
    	{
    		$pg .= "$_";
    		next;
    	}
    }
    
    foreach(keys %hash)
    {
    	$semaphore->down();
    	my $thread = threads->create(\&splitchr, $_);
    	$thread->detach();
    }
    
    &waitDone;
    
    sub waitDone{
    	my $num = 0;
    	while($num < $ARGV[1])
    	{
    		$semaphore->down();
    		$num ++;
    	}
    }
    
    sub splitchr{
    	my $chr = shift;
    	open $chr, "> $outdir/$id.$chr.sam" or die $!;
    	print $chr "$hd$hash{$chr}$rg$pg";
    	my $content = `samtools view $ARGV[0] $chr`;
    	print $chr "$content";
    	close $chr;
    	`samtools view -bS $outdir/$id.$chr.sam > $outdir/$id.$chr.bam`;
    	`rm $outdir/$id.$chr.sam -rf`;
    }
    

    仅仅适合内存较大的集群~

    展开全文
  • sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,...1 生成sam文件有很软件可以生成sam格式,例如bwa,bowie2...

    sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。

    1 生成sam文件

    有很多软件可以生成sam格式,例如bwa,bowie2,tophat2,subread,minimap2等等。输入数据为fasta格式,作为比对参考序列;fastq格式的测序数据,例如illumina测序的pairend数据等。也就是将测序数据比对回参考序列上。可以简单理解为sam=fasta+fastq。

    # bwa建立索引

    bwa index -a is ref.fna

    #bwa mem比对

    bwa mem -t 4 -R '@RG\tID:A1\tPL:illumina\tSM:A1'  ref.fna  A1_1.fastq.gz A1_2.fastq.gz >A1.sam

    bwa mem -t 4 -R '@RG\tID:A2\tPL:illumina\tSM:A2'  ref.fna A2_1.fastq.gz A2_2.fastq.gz >A2.sam

    2 sam文件格式介绍

    sam格式为文本格式,可以直接查看,一共有11列,每一列的内容如下:

    第一列:reads ID

    第二列:是flag标记的总和

    第三列:比对到参考序列上的染色体号。

    第四列:在参考序列上的位置

    第五列:比对的质量值,MAPQ

    第六列:代表比对结果的CIGAR字符串

    第七列:mate比对到的染色体号,若是没有mate,则是*

    第八列:比对到参考序列上的第一个碱基位置

    第九列:Template的长度,

    第十列:为read的序列

    第十一列:为ASCII码格式的序列质量;

    3 flag标识符的意义

    sam第二列为flag标识符,这些标识符为比对模式,例如单端比对,还是双端比对,或者没有比对上。这些数字为二进制之和。可以通过以下完整进行解释。

    flag解析:http://broadinstitute.github.io/picard/explain-flags.html

    4 sam标识符的意义

    sam文件每一行的结尾包含很多标识符,这些标识符是比对的具体细节,可以查看对应的文档进行解读。不过这些标识符是供下游软件处理,并不需要人工来解读。

    sam标识符解释:https://github.com/samtools/hts-specsXT:A:U  NM:i:0  SM:i:37 AM:i:37 X0:i:1  X1:i:0  XM:i:0  XO:i:0

    XT:A:U  NM:i:2  SM:i:37 AM:i:37 X0:i:1  X1:i:0  XM:i:2  XO:i:0

    XT:A:U  NM:i:0  SM:i:37 AM:i:37 X0:i:1  X1:i:0  XM:i:0  XO:i:0

    展开全文
  • Splitbam 拆分bam的程序,以使读取不覆盖个读取。 假设
  • SAM BAM 和 CRAM

    2020-07-06 16:56:22
    处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、vcf、gvcf等,大家对sam和bam都听得比较,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经...

    处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、bed、vcf、gvcf等,大家对sam和bam都听得比较多,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经有很多博文讲到了,可自行百度、Google。

    • SAM

    • sam(Sequence Alignment Mapping) 序列比对映射,纯文本格式,所以直接用more命令或者其他查看文本的命令可以打开,基本格式就是下图这样
    • BAM

    • BAM文件是SAM文件的二进制格式,由bwa的开发者李恒(lh3)设计开发,采用一种比gz更加高效的压缩算法,对其进行压缩,它的文件大小差不多只有原来的1/6。比如一个平均100X的WES样本,sam文件差不多30G,而bam文件5G不到。
    • CRAM

    • 有人习惯将其称为BAM的高压缩格式,因为它和BAM/SAM的格式基本相同。
    • 可以通过samtools view -C -T hg19.fa N190446.sort.bam > N190446.sort.cram 命令进行bam和cram的转换,但是速度很慢,压缩后的文件更小了,还是上面的例子,压缩后只有1G左右。
    • 关于sam、bam、cram之间的相互转换,有很多其他文章可参考,在这里不再赘述。
    • 李恒(lh3)说CRAM一定会取代BAM。我想这必将很大程度上解决NGS数据存储的问题,尤其是WGS时代的到来,让我们拭目以待。
    展开全文
  • 测序完成得到的reads我们会比对到参考基因组得到bam文件,bam文件一般很大,很时候我们只需要提取部分内容。 根据参考基因组位置提取 根据指定基因组区域的提取bam,可以使用以下命令。 samtools samtools view -...

    测序完成得到的reads我们会比对到参考基因组得到bam文件,bam文件一般很大,很多时候我们只需要提取部分内容。

    根据参考基因组位置提取

    根据指定基因组区域的提取bam,可以使用以下命令。

    samtools

    samtools view -hb chr:start-end  wgs.sort.bam > target.region.bam
    
    # 根据bed文件来提取
    samtools view -hb -L target.bed  wgs.sort.bam > target.region.bam
    

    bedtools

    bedtools intersect -a  wgs.sort.bam  -b target.bed  > target.region.bam
    

    bedtools 是神器,参考 https://bedtools.readthedocs.io/en/latest/

    sambamba

     sambamba view -hb chr:start-end  wgs.sort.bam > target.region.bam
    
    # 根据bed文件来提取可以用 `sambamba slice `
    
     sambamba slice -L target.bed wgs.sort.bam > target.region.bam
     # sambamba view -L 报错,没有找到原因
    

    sambamba 的很多用法跟samtools类似,可以参考 https://github.com/biod/sambamba

    测评

    选择5个基因的bed文件,对3.8G文件大小的WES的bam提取

    target.bed

    5	1253262	1295184	TERT
    13	32889611	32973805	BRCA2
    10	89622870	89731687	PTEN
    17	41196312	41277500	BRCA1
    17	7565097	7590856	TP53
    

    samtools

    bam=deduped.bam
    if [ -f samtools_view_target.sam ];then
        rm samtools_view_target.sam
    fi
    while read chr start end gene;do
       samtools view $bam $chr:$start-$end  >> samtools_view_target.sam
    done < target.bed
    

    资源消耗:0.50 user 0.10 system 0:04.74 elapsed 12%CPU

    samtools view -L

    samtools view -hb -L target.bed deduped.bam  > samtools_view_L_target.bam
    

    资源消耗:67.23 user 1.83 system 1:22.61 elapsed 83%CPU

    sambamba

    bam=deduped.bam
    if [ -f sambamba_view_target.sam ];then
        rm sambamba_view_target.sam
    fi
    while read chr start end gene;do
       sambamba view $bam $chr:$start-$end  >> sambamba_view_target.sam
    done < target.bed
    

    0.36 user 0.18 system 0:05.11 elapsed 10%CPU

    sambamba slice -L

    sambamba slice -L target.bed deduped.bam  > sambamba_view_L_target.bam
    
    

    资源消耗:0.08 user 0.03 system 0:06.85 elapsed 1%CPU

    bedtools

    bedtools intersect -a  deduped.bam  -b target.bed  >  bedtools_intersect_target.bam
    

    282.51 user 2.11 system 4:47.22 elapsed 99%CPU

    几个软件得到了相同结果,但是资源消耗各异。具体的资源统计如下表所示,利用sambamba的CPU使用是最低的,利用samtools 逐个提取速度是最快的,其次是sambamba,bedtools最慢。
    但是我们必须要注意此次测评仅用了5个区域,如果用更多的区域,情况会大不一样,我猜测sambamba slice -L 会是速度最快资源消耗最少的。
    在这里插入图片描述

    展开全文
  • 但是很时候这些操作是不能满足我们的实际需要的,比如统计比对率、计算在某个比对质量值之上的read有多少,或者计算PE比对的插入片段长度分布,甚至需要你根据实际情况编写一个新的变异检测算法等。这个时候往往...
  • 它要么不存在,要么需要创新的思维(很),并且需要在实现中反复进行。 业务风险很大,但是如果您做对了,它就会使您领先于其他任何公司。 这就是为什么我们考虑从头开始重写WSO2 BAM并进行一次飞跃,而不是通过...
  • FASTQ! BAM! VCF

    2020-12-23 10:12:52
    BAM! VCF 生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢? 西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个...
  • 1,帧报文是通过专门的帧发送报文来传递发送的, 其中常见的由DM1报文(故障读取的报文) RC报文(缓速器扭矩特性报告的报文) 还由ETC7(AMT相关的报文) 2,那么这些帧是如何发送到总线上的? 这个时候就要...
  • WSO2-BAM的FAQ

    千次阅读 2013-10-08 14:41:24
    1:是否需要安装Hadoop来部署BAM? 答:如果安装了Hadoop当然最好;如果么有安装,则默认是单节点安装。不过建议还是采用集群的Hadoop ...2:什么时候需要集群的Hadoop?...那么则可以使用LB部署BAM来采集数
  • Sambamba: process your BAM data faster!

    千次阅读 2017-03-25 17:33:59
     对于很大的(>100G)的bam文件,排序时间很慢不说,往往需要1天或更的时间,但结果还会出错。如下边的错误. 经测试Sambamba表现较好,能够节省很时间。随着接触的数据越来越,感觉很简单的事情也需要花很...
  • 03比对与 bam 文件格式

    2020-05-20 17:40:22
    03比对与 bam 文件格式 参考基因组及索引 通 过 trim 过滤后的到的 fq,需要比对到参考基因组上才能让这些数据有意义。前面我们已经下载了人类参考基因组 hg38 版本,而且是从 GATK 数据库下载的,原文件大小为 800 ...
  • bam文件的样本id

    千次阅读 2019-09-22 14:13:13
    问题描述:有时经常遇到重测序的数据加测的问题,或者NCBI上下载的数据中一个样本测了几个库,这个时候一个样本就会有两对或对fastq文件。如果你把每个样本分别比对,使用了不同的ID,那么合并之后的ID就需要重新...
  • 基本说明:BAM-360是BACnet IP从站协议与Modbus主站协议转换的通信网关,可以实现BACnet IP主站与个Modbus从站之间的数据通信。 产品特点: 1、冗余电源; 2、两个RS485或者RS232接口独立1KV光电隔离; 3、以太网...
  • 基本说明:BAM-361是BACnet IP从站协议与Modbus主站协议转换的通信网关,可以实现BACnet IP主站与个Modbus从站之间的数据通信。 产品特点: 1、冗余电源; 2、两个RS485或者RS232接口独立1KV光电隔离; 3、以太网...
  • 最近用BAM在做报告是时候发现报告的数据量跟实际数据量有出入,而且差的不是一般的,统计了下,BAM中数据量刚好64000,应该是BAM给限制了最大数据量,以关键字“Oracle BAM 64000”谷歌,官方文档对该问题的描述为...
  • SeqQEst是一种工具,用于估计单样本和样本序列的质量,检测交换,错误标记或污染的样本,并通过考虑大量DNA和RNA序列数据来确认遗传谱系。 要求 安装(conda) 通过“ sh setup / setup_tools.sh”安装以下工具 ...
  • BAM-360是BACnet IP从站协议与Modbus主站协议转换的通信网关,可以实现BACnet IP主站与个Modbus从站之间的数据通信。
  • bam文件统计覆盖深度、靶向捕获效率是在基因组测序分析中经常用到的操作,之前也用过python、perl实现过但是速度比较慢,今天偶然发现了一个软件bamdst(https://github.com/shiquan/bamdst), 采用c语言编写,速度...
  • 最近在做Oracle BAM监控OEM的报表,为了给客户展现更的内容,打算给客户进行数据钻取,类似BI的下钻功能。  例如:客户环境中应用Admin.war部署在weblogic的cluster上,cluster上有两台server1、server2, 在...
  • BizTalk Server配置BAM问题处理

    千次阅读 2007-05-30 22:57:00
    BizTalk Server配置BAM问题处理作者:郑佐 日期:2007-5-30前段时间在安装BizTalk 2006的环境,在配置完BAS和BAM后,访问业务活动监视主页,提示“可能缺少视图或活动,因为无法与一个或个数据库建立联系”。...
  • ODI 11g和Oracle BAM的集成

    千次阅读 2012-04-28 14:19:08
    1)配置ODI和Oracle BAM的环境,官网有详细介绍,此处不说; 2)逆向Oracle BAM数据存储,这里费了不少功夫,逆向时使用了何种代理,与步骤1)产生的相关JAR文件和配置文件的存放位置密切相关;  本人测试过程...
  • BAM-360是BACnet IP从站协议与Modbus主站协议转换的通信网关,可以实现BACnet IP主站与个Modbus从站之间的数据通信。
  • BAM/SAM文件的一些小知识前言如果不是在陈老师这读博,然后开始折腾BAM/SAM文件,我估计这辈子都不会了解到这么东西吧SAM/BAM简介Sequence Alignment Map (SAM) is a text-based format for storing biological ...
  • BAM-360是BACnet IP从站协议与Modbus主站协议转换的通信网关,可以实现BACnet IP主站与个Modbus从站之间的数据通信。
  • 它要么不存在,要么需要创新的思维(很),并且需要在实现中反复进行。 业务风险很大,但是如果您做对了,它就会使您领先于其他任何公司。 这就是为什么我们考虑从头开始重写WSO2 BAM并进行一次飞跃,而不是通过...
  • BAM-360是BACnet IP从站协议与Modbus主站协议转换的通信网关,可以实现BACnet IP主站与个Modbus从站之间的数据通信。
  • 内容请查看:BizTalk动手实验系列目录 BizTalk 开发系列 1 课程简介 通过本课程熟悉业务活动监控(BAM)的使用及各组件的配置。 (本环境为Windows 2008 32位操作系统环境 + Visual Studio 2010 + BizTalk ...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 129
精华内容 51
关键字:

多bam