精华内容
下载资源
问答
  • 被保护煤层的残余瓦斯含量是瓦斯治理的一项重要基本参数,也是...基于被保护煤层卸压瓦斯的运移规律,利用煤质工业分析值及瓦斯吸附实验,并结合Langmuir公式对残余瓦斯含量计算,得出被保护煤层残余瓦斯含量的计算方法。
  • BP神经网络算法在火成岩泥质含量计算中的应用.pdf
  • 采用HCA高压容量法瓦斯吸附装置,对7组不同变质程度的煤样,分别在20、30、40、50、60℃等5个温度条件...进而对间接法测定煤层瓦斯含量计算公式进行校正,校正结果更符合煤样在高压状态下即将达到吸附饱和状态的相关理论。
  • 水泥浆各参数含量计算表(各级配)
  • NSP含量计算

    2014-07-04 15:24:45
    这是一个较好的NSP计算工具,可以辅助你设计酶制剂配方。
  • 行业分类-物理装置-一种复杂储层泥质含量计算方法.zip
  • MATLAB用于紫外分光光度法测定多组分的含量计算.pdf
  • 生产领料同步贴纸增加水含量计算-功能说明书 (1).docx
  • GC含量计算(比率或百分比) ATCG基本比率函数(组成百分比,基本计数) ##职能: DNA_translation - 返回互补序列 RNA_transcription - 返回 RNA 序列 nucleotate_count-返回特定的基本计数 total_nucleotide_...
  • 行业分类-物理装置-基于核磁共振定量碳谱分析的生物油中C、H、O含量计算方法.zip
  • 虚拟水是指生产商品和提供服务过程中所需要的水...提出了工业产品虚拟水的计算方法,以辽河油田为例,计算出石油制品中虚拟水含量。在此基础上,建议中国石油行业今后应有计划进口石油制品,缓解我国水资源紧缺的现状。
  • DNA核苷酸含量计算

    千次阅读 2019-03-26 21:42:21
    在探索分子生物学的道路上,DNA中所蕴含的信息是至关重要的,由前文我们可以知道一条DNA链仅有A,T,C,G四种碱基决定的核苷酸序列构成,因此了解一条DNA链中四种核苷酸的含量是非常关键的一步! Given:  A DNA ...

     

    分子生物学简介

    构成所有生物原料的细胞被认为是生命的基石。细胞核是大多数真核细胞的组成部分,150年前被确定为细胞活动的中心。

    在光学显微镜下观察,细胞核仅作为细胞的较暗区域出现,但随着我们增加放大倍数,我们发现细胞核密集地充满了称为染色质的大分子物质。在有丝分裂期间(真核细胞分裂),大多数染色质浓缩成长而细的细胞串,称为染色体。有关有丝分裂不同阶段的细胞图见下图。

    图1. 在1900年Emmund Wilson在有丝分裂不同阶段绘制的洋葱细胞图。由于样品已被染色,导致细胞中的染色质(吸收染料)与细胞的其他部分形成鲜明对比。

    染色质中含有的一类大分子称为核酸。20世纪早期对核酸化学特性的研究最终得出结论:核酸是聚合物,或者将这种重复结构的称为单体。由于它们细而长,核酸聚合物通常被称为

    核酸单体称为核苷酸,并作为链长度的单位(缩写为nt)。每个核苷酸由三部分组成:糖分子,带有负离子的磷酸盐,和核碱基化合物(简称“碱基”)。当一个核苷酸的糖与链中下一个核苷酸的磷酸键合时开始聚合,其形成核酸链的糖-磷酸骨架。关键点在于特定类型核酸的核苷酸总是含有相同的糖和磷酸盐分子,它们的区别仅在于它们对碱基的选择。因此,核酸的一条链可以仅基于其碱基的顺序与另一条链区分开;碱基的这种排序定义了核酸的一级结构

    例如,图2显示了脱氧核糖核酸(DNA)链,其中糖被称为脱氧核糖,分别有四种碱基:腺嘌呤(A),胞嘧啶(C),鸟嘌呤(G)和胸腺嘧啶(T)。

    图2. DNA的一级结构示意图。

    DNA存在于地球上的所有生物体中,包括细菌;它甚至存在于许多通常被认为是非生命的病毒中。由于其重要性,我们使用“基因组”来指代生物体染色体中包含的DNA的总和。

    问题

    在探索分子生物学的道路上,DNA中所蕴含的信息是至关重要的,由前文我们可以知道一条DNA链仅有A,T,C,G四种碱基决定的核苷酸序列构成,因此了解一条DNA链中四种核苷酸的含量是非常关键的一步!

    Given: A DNA string s of length at most 1000 nt.

    Return: Four integers (separated by spaces) counting the respective number of times that the symbols 'A', 'C', 'G', and 'T' occur in s.

    样本数据集

    AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC
    

    样本输出

    20 12 17 21
    

    ## 加载样本数据
    with open("F:\Python\dna.txt", "r") as r_dna:
        r_dna = r_dna.read()
    
    ## 在这里我们可以使用python的字符串自带的一个属性(.count())来实现此算法
    print(r_dna.count("A"))
    
    def count_DNA(string):
        return string.count("A"), string.count("C"), string.count("G"), string.count("T")
    print(count_DNA(r_dna))

     

    In [1]:

    ## 加载样本数据
    with open("Bioinformatics_Stronghold/data/rosalind_dna.txt", "r") as r_dna:
        r_dna = r_dna.read()
    

    In [2]:

    ## 在这里我们可以使用python的字符串自带的一个属性(.count())来实现此算法
    print(r_dna.count("A"))
    

    Out[2]:

    243
    

    In [3]:

    def count_DNA(string):
        return string.count("A"), string.count("C"), string.count("G"), string.count("T")
    

    In [4]:

    print(count_DNA(r_dna))
    

    Out[4]:

    (243, 228, 221, 231)
    

    最后如果对生物信息学算法感兴趣的小伙伴可以关注我在github上的项目Bioinfo

    https://github.com/zomath/python/tree/master/Bioinfo
    展开全文
  • 在进行多态信息含量时候用这个软件计算多态信息含量特方便
  • 从小风速巷道风流状态分析入手,以煤矿现场常见到的小风速巷道为例,结合国内煤矿行业使用较多的GFW15和GFY15型矿用风速传感器,量化分析了了当前风速传感器在测量小风速值所带来的误差和对瓦斯涌出量计算所带来的误差,...
  • 运用气体方程估算了准噶尔盆地东南缘西山窑组B煤组主力煤层中的游离气含量,得出煤层总含气量为2.85~8.94 m3/t,平均为6.12 m3/t。其中游离气占总含气量的2.89%~5.14%,平均3.90%。游离气含量的估算为研究区更加科学...
  • DNA 序列的 GC 含量是指序列中'G'和'C'所占的百分比。一条 DNA 序列很容易表示,但是如果有多条 DNA 序列放在一起,则每条序列必须被标记,...

    DNA 序列的 GC 含量是指序列中'G'和'C'所占的百分比。

    一条 DNA 序列很容易表示,但是如果有多条 DNA 序列放在一起,则每条序列必须被标记,通常的做法是保存为 FASTA 格式文件。在这种格式中,序列的名称占一行,名称的最前面是一个大于符号‘>’开头,序列名称后面可以跟一系列说明;序列信息从名称的下一行开始,直到遇到下一个以‘>’开头的序列名称为止。Fasta 格式文件可参考下面的示例数据。

    给定:一个 Fasta 序列文件。

    需得:GC 含量最高的序列名称及其 GC 含量(各占一行行输出)。

    示例数据

    >Rosalind_6404
    CCTGCGGAAGATCGGCACTAGAATAGCCAGAACCGTTTCTCTGAGGCTTCCGGCCTTCCC
    TCCCACTAATAATTCTGAGG
    >Rosalind_5959
    CCATCGGTAGCGCATCCTTAGTCCAATTAAGTCCCTATCCAGGCGCTCCGCCGAAGGTCT
    ATATCCATTTGTCAGCAGACACGC
    >Rosalind_0808
    CCACCCTCGTGGTATGGCTAGGCATTCAGGAACCGGAGAACGCTTCAGACCAGCCCGGAC
    TGGGAACCTGCGGGCAGTAGGTGGAAT
    

    示例结果

    Rosalind_0808
    60.919540
    

    Python 实现

    Computing_GC_Content.py

    import sys
    import pysam
    
    def gc_content(item):
        n, s = item
        return (s.count('G') + s.count('C')) * 100 / len(s)
    
    def max_gc_content(infasta):
        dna = {}
        with pysam.FastxFile(infasta) as fh:
            for r in fh:
                dna[r.name] = r.sequence.upper()
        return max(dna.items(), key=gc_content)
    
    def test():
        item = max_gc_content('rosalind_gc_test.txt')
        return item[0] == 'Rosalind_0808' and round(gc_content(item), 6)== 60.919540
    
    if __name__ == '__main__':
        if not test():
            print("cout_gc_content:Failed")
            sys.exit(1)
    
        item = max_gc_content('rosalind_gc.txt')
        print(item[0])
        print(gc_content(item))
    

    本题要点:

    1. 用 pysam 读取 Fasta 文件,并将其放入字典中;详细用法见:基因组文件读写(pysam)

    2. max 函数的使用,特别是为其构造一个 key 函数并传入,这是解本题的关键,GC 含量本身是很容易理解的。

    Problem

    The GC-content of a DNA string is given by the percentage of symbols in the string that are 'C' or 'G'. For example, the GC-content of "AGCTATAG" is 37.5%. Note that the reverse complement of any DNA string has the same GC-content.

    DNA strings must be labeled when they are consolidated into a database. A commonly used method of string labeling is called FASTA format. In this format, the string is introduced by a line that begins with '>', followed by some labeling information. Subsequent lines contain the string itself; the first line to begin with '>' indicates the label of the next string.

    In Rosalind's implementation, a string in FASTA format will be labeled by the ID "Rosalind_xxxx", where "xxxx" denotes a four-digit code between 0000 and 9999.

    Given: At most 10 DNA strings in FASTA format (of length at most 1 kbp each).

    Return: The ID of the string having the highest GC-content, followed by the GC-content of that string. Rosalind allows for a default error of 0.001 in all decimal answers unless otherwise stated; please see the note on absolute error below.

    Sample Dataset

    >Rosalind_6404
    CCTGCGGAAGATCGGCACTAGAATAGCCAGAACCGTTTCTCTGAGGCTTCCGGCCTTCCC
    TCCCACTAATAATTCTGAGG
    >Rosalind_5959
    CCATCGGTAGCGCATCCTTAGTCCAATTAAGTCCCTATCCAGGCGCTCCGCCGAAGGTCT
    ATATCCATTTGTCAGCAGACACGC
    >Rosalind_0808
    CCACCCTCGTGGTATGGCTAGGCATTCAGGAACCGGAGAACGCTTCAGACCAGCCCGGAC
    TGGGAACCTGCGGGCAGTAGGTGGAAT
    

    Sample Output

    Rosalind_0808
    60.919540
    

    喜欢文章请点个“赞”吧!或者点击“在看”,点击“阅读原文”可以在知乎专栏上给我留言,博客地址:https://jianzuoyi.github.io

    展开全文
  • 一、关于程序: ...FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ...

    一、关于程序:

    FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id

    INPUT:FASTA格式文件

    >seq1
    CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC
    >seq2
    ATGCCTAGAACGTTCGAGACTTCTCGGGTGCGGTAGAATTAGCCATTCGACCGACTTCCA
    GCATCTGCGAGCCGCCTGTTGATTGCATCCGCCGGGGACGCAACAAGGCAAGGCCCTAAC
    

    OUTPUT:最高含量的序列id及其含量(这是上面的结果)

    seq1
    63.333333%
    

     

    二、编程思想及代码

     当是注释行时(>……),获得序列 ID ,并跳过该次循环;当读到非注释行即序列行时,记录该行“G和C的含量”以及“序列的总含量”,这都可以利用perl上下文实现。(但是在这里有一些疑惑——当把14行@num换成$num会出现计算错误,知道的朋友欢迎留言)

     1 use strict;
     2 my %GC_content; # id=>GC_content
     3 my %sequences; # id=>sequence
     4 my ($id, $sum); # id, 每个序列的字符个数
     5 my @num; # 中间变量,用于存储单行中某字符的含量
     6 while(my $seq = <>){
     7         chomp($seq);
     8         if($seq =~ m/^>(.*)/){
     9             $id = $1;
    10             next;
    11         }
    12         @num = ($seq =~ m/(G|C)/g);
    13         $GC_content{$id} += @num; 
    14         @num = ($seq =~ m/(.)/g);
    15         $sequences{$id} += @num; 
    16 }
    17 
    18     foreach(keys(%GC_content)){
    19         $GC_content{$_} /= $sequences{$_};
    20     }
    21 my @sort = sort{$GC_content{$b} <=> $GC_content{$a}} keys(%GC_content);
    22 printf("%s\n%.6f%\n", $sort[0], $GC_content{$sort[0]}*100);

     

    三、技巧

    神奇的perl,神奇的sort!!

    对数组(或者哈希)排序获得下标的方式:

    # 数字排序:
    my @arr = qw(2 3 41 2 34 );
    my @result1 = sort{$a <=> $b} @arr;
    # 获得下标:
    my @result2 = sort{$arr[$a] <=> $arr[$b]} 0..$#arr;
    # 获得key:
    my %hash = (
        one =>1,
        two =>5,
        tree=>9
    );
    my @result3 = sort{$hash{$a} <=> $hash{$b}} keys(%hash);
    print "数字排序:@result1\n获得下标:@result2\n获得key:@result3\n";

     

     

    备注:贴一个感觉不错的代码(学习学习)

    $/ = '>';
    <>; # 读一次">"前的序列,以免下面代码出错
    while (<>) {
        chomp;
        my ($id, @ary) = split '\n';
        my $seq = join '', @ary; 
        my $ratio = &GC_content($seq);
        if ($ratio > $highest) {
            $highest = $ratio;
            @result = ($id, $ratio);
        }
    }
    print join "\n", @result;
    
    sub GC_content {
        my ($seq) = @_;
        my $ratio = $seq =~ s/([CG])/$1/g / length($seq) * 100;
        return $ratio
    }

     

    转载于:https://www.cnblogs.com/steamed-bread/p/5641035.html

    展开全文
  • from __future__ import division#这是计算gc含量需要的模块,需要在首行导入,否则会报错 import re#04_3 DNA 翻译为 RNA时会用得着 #01打开下载的文件 with open('sequence01.fasta') as file: for line in file...
    from __future__ import division#这是计算gc含量需要的模块,需要在首行导入,否则会报错
    import re#04_3  DNA 翻译为 RNA时会用得着
    
    #01打开下载的文件
    with open('sequence01.fasta') as file:
        for line in file:
            print (line)
    
    #02把描述字段和序列分别提取并存储在字典中
    fasta = {}
    with open('sequence01.fasta') as file:
        sequence = ""
        for line in file:
            if line.startswith(">"):
                # 去除描述字段行中的\n和>
                name = line[1:].rstrip()
                print(name)#这里只显示描述,即字典里的键
                fasta[name] = ''#得到值
                continue
            # 去除序列字段行中的\n,并将所有字符规范为大写字符
            fasta[name] += line.rstrip().upper()#序列是描述的值
    print (fasta)#显示字典
    print(fasta[name])#显示值
    
    #03用函数把02的代码组装起来,以便后续调用
    def get_fasta(fasta_path):
    	fasta = {}
    	with open(fasta_path) as file:
    	    sequence = ""
    	    for line in file:
    	        if line.startswith(">"):
    	            # 去除描述字段行中的\n和>
    	            name = line[1:].rstrip()
    	            fasta[name] = ''
    	            continue
    	        # 去除序列字段行中的\n,并将所有字符规范为大写字符
    	        fasta[name] += line.rstrip().upper()
    	return fasta#返回的是字典
    #调用03中的函数,完成02中的工作
    get_fasta_result=get_fasta('sequence01.fasta')#文件路径是字符串
    print(get_fasta_result)#调用03的函数返回的是字典
    print(get_fasta_result[name])#取出字典中的值
    
    #04拿到规范化的数据后,查看序列的生物学意义
    #04_1核苷酸计数,碱基偏好性:
    #该统计数值可以查看碱基偏好性。比如, 一定类型的小RNA会有特定的碱基偏好性,它的第一个碱基偏好U。可以用于评价数据质量。如果miRNA 第一碱基不是U偏好,说明数据或分析过程有问题。
    # 核苷酸计数的函数
    def nt_count(seq):
        ntCounts = []
        for nt in ['A', 'C', 'G', 'T']:
            ntCounts.append(seq.count(nt))#注意count函数用于list或者字符串,所以seq一定要符合特定的数据结构。
        return ntCounts
    #调用核苷酸计数的函数
    seq=get_fasta_result[name]#参数seq是字典中的值
    nt_count_result= nt_count(seq)
    print(nt_count_result)
    
    #04_2 GC含量:
    #(A+T)/(G+C)之比随DNA的种类不同而异。GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA的分离或测定。同时,物种的GC含量有着特异性,以此可以判断测序后的数据是否合格。
    def cg_content(seq):
        total = len(seq)
        gcCount = seq.count('G') + seq.count('C')
        gcContent = format(float(gcCount / total * 100), '.6f')#保留小数点后六位
        return gcContent
    #调用04_2的函数
    seq=get_fasta_result[name]#参数seq是字典中的值
    cg_content_result=cg_content(seq)
    print(cg_content_result)
    
    #04_3  DNA 翻译为 RNA:
    def dna_trans_rna(seq):
        rnaSeq = re.sub('T', 'U', seq)
        return rnaSeq
    #调用04_3的函数
    seq=get_fasta_result[name]#参数seq是字典中的值,是DNA序列
    dna_trans_rna_result=dna_trans_rna(seq)
    print(dna_trans_rna_result)
    
    #04_4 RNA 翻译为 蛋白质:
    def rna_trans_protein(rnaSeq):
        codonTable = {
            'AUA':'I', 'AUC':'I', 'AUU':'I', 'AUG':'M',
            'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACU':'T',
            'AAC':'N', 'AAU':'N', 'AAA':'K', 'AAG':'K',
            'AGC':'S', 'AGU':'S', 'AGA':'R', 'AGG':'R',
            'CUA':'L', 'CUC':'L', 'CUG':'L', 'CUU':'L',
            'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCU':'P',
            'CAC':'H', 'CAU':'H', 'CAA':'Q', 'CAG':'Q',
            'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGU':'R',
            'GUA':'V', 'GUC':'V', 'GUG':'V', 'GUU':'V',
            'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCU':'A',
            'GAC':'D', 'GAU':'D', 'GAA':'E', 'GAG':'E',
            'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGU':'G',
            'UCA':'S', 'UCC':'S', 'UCG':'S', 'UCU':'S',
            'UUC':'F', 'UUU':'F', 'UUA':'L', 'UUG':'L',
            'UAC':'Y', 'UAU':'Y', 'UAA':'', 'UAG':'',
            'UGC':'C', 'UGU':'C', 'UGA':'', 'UGG':'W',
        }
        proteinSeq = ""
        for codonStart in range(0, len(rnaSeq), 3):
            codon = rnaSeq[codonStart:codonStart + 3]
            if codon in codonTable:
                proteinSeq += codonTable[codon]
        return proteinSeq
    #调用04_4中的函数
    rnaSeq=dna_trans_rna_result
    rna_trans_protein_result=rna_trans_protein(rnaSeq)
    print(rna_trans_protein_result)
    
    #04_5获取反向序列
    def reverse_comple(type, seq):
        seq = seq[::-1]
        dnaTable = {
            "A":"T", "T":"A", "C":"G", "G":"C"
        }
        rnaTable = {
            "A": "T", "U": "A", "C": "G", "G": "C"
        }
        res = ""
        if type == "dna":
            for ele in seq:
                if ele in seq:
                    if type == "dna":
                        res += dnaTable[ele]
                    else:
                        res += rnaTable[ele]
        return res
    #调用04_5的函数
    #DNA的反向序列
    type1="dna"
    seq1=get_fasta_result[name]
    dna_reverse_comple_result=reverse_comple(type1, seq1)
    print(dna_reverse_comple_result)
    
    #RNA的反向序列
    type2="rna"
    seq2=dna_trans_rna_result
    rna_reverse_comple_result=reverse_comple(type2, seq2)
    print(rna_reverse_comple_result)
    
     [1]: https://blog.csdn.net/u011262253/article/details/88542804#基本以此博主为模板修改的,在此感谢。
     [2]: https://www.ncbi.nlm.nih.gov/nuccore/NC_000006.12?report=fasta&from=31164337&to=31170682&strand=true
    
    展开全文
  • 针对目前盐渍土工程勘察中,为利用硫酸钠含量对盐渍土地基的盐胀性做出初步评价,判定盐渍土作为公路、铁路地基或路基填料的可用性,在易溶盐成盐分析的基础上,提出切实可行的硫酸钠含量计算方法。
  • 样本含量计算

    2019-02-21 12:59:16
    样本含量计算:理论与实践。样本含量的概述,软件计算方法与举例
  • 多态信息含量PIC计算

    2014-05-22 17:34:34
    多态信息含量PIC.rar
  • 利用GPS数据用来计算电离层总电子含量TEC,电离层总电子含量是研究电离层的重要参数
  • 通过已知挥发分-镜质组最大反射率-吸附特性的相互函数关系,用数学模型(半理论半经验)提出计算煤层瓦斯含量理论值的方法,以期对预防瓦斯灾害、保护环境和利用资源提供参考,并以宁夏吴忠韦一矿地质勘探报告中所列的76...
  • 分析三氧化钨电致变色薄膜材料的掺杂改性的实验结果,应用最佳掺杂含量表达式定量计算了三氧化钨以及三氧化钼电致变色薄膜材料的最佳掺杂含量,定量计算的结果与实验数据相符合.该理论方法也适用于其他材料最佳掺杂...
  • 含量测定计算题三PPT课件.pptx
  • python实现fastq文件GC含量计算

    千次阅读 2019-09-27 09:30:46
    python实现fastq文件GC含量计算 fastq格式是生物信息分析中最常见的格式之一 通常我们可以将测序的数据分为双端测序和单端测序双端测序的数据含有两个fastq格式的文件,单端测序的数据只有一个fastq格式的文件 ...
  • 如何计算各种食物中糖类含量.doc
  • 思路:根据bed文件提取基因组的的序列,然后再计算序列的CG含量。写脚本有点麻烦,下面这个方法稍微简单一点: 提取序列: for region in $( awk '{print $1":"$2"-"$3}' my_two_gene.bed ) ...
  • 天气雷达扫描出得图像,我们对此进行计算,得出对雷暴识别游泳的垂直液态水含量VIL 的计算。使用vc++工具进行编程

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,694
精华内容 12,277
关键字:

含量计算