精华内容
参与话题
问答
  • DNA序列

    2020-10-24 22:37:14
    题目描述 一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比例(定义为GC-Ratio)是...输入一个string型基因序列,和int型子串的长度 输出描述: 找出GC比例最高的子串,如果有多个输出第一个的子串 示例1 输入 AA

    题目描述
    一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比例(定义为GC-Ratio)是序列中G和C两个字母的总的出现次数除以总的字母数目(也就是序列长度)。在基因工程中,这个比例非常重要。因为高的GC-Ratio可能是基因的起始点。
    给定一个很长的DNA序列,以及要求的最小子序列长度,研究人员经常会需要在其中找出GC-Ratio最高的子序列

    输入描述:
    输入一个string型基因序列,和int型子串的长度

    输出描述:
    找出GC比例最高的子串,如果有多个输出第一个的子串
    示例1
    输入

    AACTGTGCACGACCTGA
    5
    输出

    GCAC

    #include <stdio.h>
    #include <string.h>
    
    int main()
    {
        char Arr[1024] = {0};
        while(scanf("%s\n", Arr) != EOF)
        {
            int num = 0;
            scanf("%d\n", &num);
            int len = strlen(Arr);
            int i, j, count = 0, max = 0, key_num = 0;
            for(i = 0; i < len - num; i++)
            {
                count = 0;
                for(j = 0; j < num; j++)
                {
                    if(Arr[i + j] == 'C' || Arr[i + j] == 'G')
                    {
                        count++;
                    }
                }
                if(count > max)
                {
                    max = count;
                    key_num = i;
                }
            }
            for(j = 0; j < num; j++)
            {
                printf("%c", Arr[key_num + j]);
            }
            printf("\n");
        }
        return 0;
    }
    
    展开全文
  • 基因序列比较

    千次阅读 2019-01-10 17:36:40
    基因序列比较 设计算法,计算两给定基因序列的相似程度。 人类基因由4种核苷酸,分别用字母ACTG表示。要求编写一个程序,按以下规则比较两个基因序列并确定它们的相似程度。即给出两个基因序列AGTGATG和GTTAG,...

    基因序列比较

    设计算法,计算两给定基因序列的相似程度。

    人类基因由4种核苷酸,分别用字母ACTG表示。要求编写一个程序,按以下规则比较两个基因序列并确定它们的相似程度。即给出两个基因序列AGTGATG和GTTAG,它们有多相似呢?测量两个基因相似度的一种方法称为对齐。使用对齐方法可以在基因的适当位置加入空格,让两个基因的长度相等,然后根据基因的分值矩阵计算分数。

    基因分数表:

    Score

    A

    C

    G

    T

    -

    A

    5

    -1

    -2

    -1

    -3

    C

    -1

    5

    -3

    -2

    -4

    G

    -2

    -3

    5

    -2

    -2

    T

    -1

    -2

    -2

    5

    -1

    -

    -3

    -4

    -2

    -1

    *

     

    例:比较AGTGATG与GTTAG

    第一种对齐方案为:

    首先可以给AGTGATG插入一个空格得:AGTGAT-G

             GTTAG插入3个空格即得:  -GT--TAG

    上面的匹配分值为:-3+5+5+(-2)+(-3)+5+(-3)+5=9.

    第二种对齐方案为:

    AGTGATG

    -GTTA-G

    得到的分值为:(-3)+5+5+(-2)+ 5+(-1)+5=14.

    当然还有其它对齐方式,但以上对齐方式是最优的,所以两个基因的相似度就为14。

    问题分析与解决思路

    设两条序列分别为X序列和Y序列,长度分别为m和n。

    定义一个表结构来抽象该问题。比较两个序列的相似度,可以理解为寻找一条由坐标(0,0)到坐标(m-1,n-1),并且只能向下、向右或者向右下延伸的路径,使得这条路径得分最高。

    如下图是例子中,第二中对齐方案(图中“↓”意味着X序列的该核苷酸与Y序列的“-”匹配,“→”则相反):

    抽象后的序列相似度问题:

      Y

    G

    T

    T

    A

    G

    A

     

     

     

     

    G

     

     

     

     

    T

     

     

     

     

    G

     

     

     

     

    A

     

     

     

     

    T

     

     

     

     

    G

     

     

     

     

     

    如果用暴力搜索方法求解该问题,就要穷举X的所有子序列和Y的所有子序列,并对它们进行匹配,记录所有匹配情况下,两条序列的得分。

    根据分析,可以得出基因序列比较问题具有最优子结构性质。规模为m,n的问题的解,可以由规模为m-1,n-1的子问题,规模为m-1,n的子问题,和规模为m,n-1的子问题中,分别加上规模为规模为m,n时最后一个字符的得分结果中,最大的那一个。用公式表示为:

    s1 = result[i-1][j-1] + get_score(X[i], Y[j])

    s2 = result[i-1][j] + get_score(X[i], '-')

    s3 = result[i][j-1] + get_score('-', Y[j])

    result[i][j] = max(s1,s2,s3)

    模型建立与算法描述

    记两条序列分别为X序列和Y序列,长度分别为m和n。

    我们将上述分析过程和解决的思路进一步归纳为以下步骤:

    (1)初始化结果数组result的第一行及第一列。由于当X的规模m等于1时,意味着出了一个匹配的位置之外,Y序列的其他元素需要和空格匹配,所以该情况下,子问题由result[i][j] = max(s1,s2,s3)改变为result[i][0] = result[i-1][0] + get_score(X[i], '-')。当Y的规模n等于1时同理。

    (2)从i等于2和j等于2开始,根据result[i][j] = max(s1,s2,s3),由底向上地计算结果,同时也可以利用另一个表用于记录路径。

    (3)返回结果表,其中result[m-1][n-1]为该问题的结果。

    复杂度分析

    本算法在M和N前面插入一个空字符串时,新建了两个数组来存放新的序列,所以copy操作花费了m+n。

    初始化时有m+n次赋值操作,加上运算时(m×n)次赋值操作,一共(m×n)+m+n次赋值,所以时间复杂度为θ(m×n)。

    运算时创建了一个额外的二维数组——结果表,所以空间复杂度为(m×n)+(m+n)×2,所以空间复杂度为θ(m×n)。

    运行结果分析

    以下为比较AGTGATG与GTTAG的运算结果:

    根据图4.2,可以发现当i或j等于1时,无法继续向前回溯了,需要另外处理。图4.3标注了从path[m-1][n-1]开始回溯时,实际上的起点和终点。

    得分表
    路径记录情况

     

     匹配结果及得分标题

    代码: 

    from copy import deepcopy
    import numpy as np
    def get_score(x, y):
        index = {
            'A':0,
            'C':1,
            'G':2,
            'T':3,
            '-':4,
        }
        score_table = [
            [5, -1, -2, -1, -3],
            [-1, 5, -3, -2, -4],
            [-2, -3, 5, -2, -2],
            [-1, -2, -2, 5, -1],
            [-3, -4, -2, -1, float('-inf')]
        ]
        return score_table[index[x]][index[y]]
    def ACTG_sim(M, N):
        X = deepcopy(M)
        Y = deepcopy(N)
        X.insert(0,'')
        Y.insert(0,'')
        m = len(X)
        n = len(Y)
        path = [['' for x in range(n)] for y in range(m)]
        path = np.array(path, dtype=str)
        result = np.zeros((m,n)) #存值
        #注意初始化
        for i in range(1,m):
            result[i][0] = result[i-1][0] + get_score(X[i], '-')
        for j in range(1,n):
            result[0][j] = result[0][j-1] + get_score('-', Y[j])
        for i in range(1, m):
            for j in range(1, n):
                s1 = result[i-1][j-1] + get_score(X[i], Y[j])
                s2 = result[i-1][j] + get_score(X[i], '-')
                s3 = result[i][j-1] + get_score('-', Y[j])
                max_score = max(s1,s2,s3)
                result[i][j] = max_score
                #第一种情况
                if s1 == max_score:
                    path[i][j] = '`'
                #第二种情况
                if s2 == max_score:
                    path[i][j] = '|'
                #第三种情况
                if s3 == max_score:
                    path[i][j] = '-'
        return path, result
    #回溯法输出结果
    def print_sim(path, X, Y, i, j):
        if i == 0 or j == 0:
            return
        if path[i, j] == '`':
            if i == 1 and j != 1:
                path[i, j - 1] = '-'
                print_sim(path, X, Y, i, j - 1)
            elif j == 1 and i != 1:
                path[i - 1, j] = '|'
                print_sim(path, X, Y, i - 1, j)
            else:
                print_sim(path, X, Y, i - 1, j - 1)
            print(X[i-1], Y[j-1], '\t', get_score(X[i-1], Y[j-1]))
        if path[i, j] == '|':
            print_sim(path, X, Y, i - 1, j)
            print(X[i-1], '-', '\t', get_score(X[i-1], '-'))
        if path[i, j] == '-':
            print_sim(path, X, Y, i, j - 1)
            print('-', Y[j-1], '\t', get_score('-', Y[j-1]))
    if __name__ == '__main__':
        # M = 'AGTGATG'
        # N = 'GTTAG'
        M = input('序列M:')
        N = input('序列N:')
        import re
        if re.match('[^ACTG]', M) or re.match('[^ACTG]', N):
            print('input error')
            exit()
        M = list(map(str, M))
        N = list(map(str, N))
        path, memory = ACTG_sim(M, N)
        print(path)
        print(memory)
        m = len(M)
        n = len(N)
        print_sim(path, M, N, m, n)
        print('得分为:%d' % memory[m][n])

     

    展开全文
  • 基因序列分析(生物信息学论坛)

    千次阅读 2013-03-08 19:55:05
    基因序列分析,其实说白了就是核酸和蛋白质的序列分析,分析上使用的主要是计算机的算法理论和工具,但是也必须具有生物学的背景知识,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?...

              基因序列分析,其实说白了就是核酸和蛋白质的序列分析,分析上使用的主要是计算机的算法理论和工具,但是也必须具有生物学的背景知识,在对序列进行分析时,首先应当明确序列的性质,mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 


    (一)核酸序列分析 

              1
    、双序列比对(pairwise alignment 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对(代表算法:Needleman-Wunsch算法)和局部比对(代表算法:Smith-Waterman算法)两类。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。
           

                
    除了利用BLASTFASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(
    http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST http://www.ncbi.nlm.nih.gov/BLAST/)。 

                
    以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。
     

              
    1BLAST
    FASTA 

                FASTA
    http://www.ebi.ac.uk/fasta33/BLASThttp://www.ncbi.nlm.nih.gov/BLAST/是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTABLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTNBLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。 使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

                (2) NeedlePairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列

              3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。 


             2、多序列比对和进化树 

              
    研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。最常用的多序列比对工具为ClustalW
    http://www.ebi.ac.uk/clustalw/),多用于比较蛋白序列。 

                 ClustalW
    用法:
     

             
    1)输入:序列以FastA格式输入。
     

             
    2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。


            3、基因结构分析 根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLASTBLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。 


    (二) 蛋白质序列分析 

                 1
    、跨膜区预测
     

                 
    各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用


                 推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。 

                
    方法:输入待分析的蛋白序列即可。
     

                2
    、信号肽预测
     

               
    信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3-1位为小而中性氨基酸。
     

                
    推荐使用SignalP软件2.0版(
    http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

                方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。 

                 3
    、亚细胞定位预测
     

                 
    亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。
     

                 
    推荐使用PSORT
    http://psort.nibb.ac.jp/II软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。

    展开全文
  • 基因序列

    千次阅读 2018-08-20 13:52:17
    import java.util.HashMap; import java.util.Map; import java.util.Scanner; public class Test21 { /* 题目描述 一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比例(定义为GC-Ratio...在基因工程中,...
    import java.util.HashMap;
    import java.util.Map;
    import java.util.Scanner;
    
    public class Test21 {
    	/*
    	题目描述
    	一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比例(定义为GC-Ratio)是序列
    	中G和C两个字母的总的出现次数除以总的字母数目(也就是序列长度)。在基因工程中,这个比例
    	非常重要。因为高的GC-Ratio可能是基因的起始点。
    	给定一个很长的DNA序列,以及要求的最小子序列长度,研究人员经常会需要在其中
    	找出GC-Ratio最高的子序列。
    	输入描述:
    	输入一个string型基因序列,和int型子串的长度
    	输出描述:
    	找出GC比例最高的子串,如果有多个输出第一个的子串
    	输入例子:
    	AACTGTGCACGACCTGA
    	5
    	输出例子:
    	GCACG
    	*/
    	public static void main(String[] args) {
    		//System.out.println("CCCAAGTCTTCCAATCGTGCCCCCCAATTGAGTCTCGCTCCCCAGGTGAGATACATCAGAAGC".length());
    		Scanner scn=new Scanner(System.in);
    		while(scn.hasNext()){
    			String str=scn.nextLine();
    			int n=scn.nextInt();
    			getHightestGC_Ratio(str, n);
    		}
    	}
    	public static void getHightestGC_Ratio(String str,int len){
    		double max=0;
    		String sub=null;
    		for (int i = 0; i +len<= str.length(); i++) {
    			if(countGC_Ratio(str.substring(i, i+len))>max){
    				max=countGC_Ratio(str.substring(i, i+len));
    				sub=str.substring(i, i+len);
    				//System.out.println(max);
    				//System.out.println(sub);
    			}
    		}
    		System.out.println(sub);
    		
    	}
    	public static double countGC_Ratio(String str){
    		int count=0;
    		for (int i = 0; i < str.length(); i++) {
    			if(str.charAt(i)=='G'||str.charAt(i)=='C'){
    				count++;
    			}
    		}
    		return (double)count/str.length();
    	}
    }
    

     

    展开全文
  • 基因序列分析软件

    2018-03-05 11:30:26
    可以分析基因序列,酶切位点,引物设计,序列对比等,方便实用
  • 如何对基因序列进行注释

    万次阅读 多人点赞 2018-09-07 18:01:37
    基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因序列进行注释。注释之前首先得构建基因模型,有三种策略: 从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测...
  • 生物信息中的Python 01 | 从零开始处理基因序列

    千次阅读 多人点赞 2019-03-13 22:07:27
    一、 序列数据的下载 在开始了解序列的处理流程时,我们先...1、通过如下的网站进入 NCBI ,可以看到它包含许多的子库,其中 Gene 就是我们一般下载基因序列的库,接下来,在后面的输入框输入 oct4 并点击 Search。 ...
  • 近年来,随着人类基因组计划的实施,极大的推动了生物信息学的发展。随之而来 的大量核酸和蛋白质数据的积累及分析这些数据中所蕴涵的生物学意义成为生物学的主要 任务。
  • 将人类HEXA基因和老鼠的作比对,发现差异,有利于疾病根源的确定。
  • 小鼠Dlk1基因序列生物信息学分析,周晓婷,左永春,小鼠Dlk1基因是印记基因中的一种,它是一种父系表达基因,只在雄性小鼠中表达,雌性小鼠中的Dlk1基因发生了印记而不能表达。研究发�
  • Bioinformatics生物信息学:序列基因组分析.pdf 英文版
  • 针对DNA、RNA以及蛋白质序列,我们需要对其进行序列相似性搜索,来研究分析不同序列在结构和功能上相同与差异 相似性【similarity】/一致性【identity】 <==> 双序列比对( Pairwise sequence Alignment ) ...
  • #include#include#includeusing namespace std;stack s;//当前搜索路径的LCSstack lcs[100];//所有的LCSint count=0;//记录LCS的数量bool lcs_have_exist(stack lcs[],int count,stack s){//判断当前搜索的LCS是否已...
  • 生物信息学:序列基因组分析(Bioinformatics:Sequence and Genome 英文版
  • 输入你想查找的序列,比如Syp基因 进入基因详细信息页面 点击Genbank 如图所示可以下载到fasta格式的序列,注意这里下载的是基因或者蛋白质的全序列 假如你希望得到promoter的基因,可以在如图所示的位置输入起始...
  • 基因序列对比

    热门讨论 2014-01-11 19:48:47
    类基因由4种核苷酸 分别用字母ACTG表示 要求编写一个程序 按以下规划比较两个基因序列并确定它们的相似程度 即两 给出两个基因序列AGTGATG和GTTAG 它们有多相似呢 测量两个基因的相似度一种方法称为对齐 使用对齐...
  • 上一篇文章自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。 ...
  • 生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发, 分析序列中表达结构和功能的生物信息生物信息学的基本任务是对各种生物分析序列进行分析, 也就是研究新的计算机...
  • Genbank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据 SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括...
  • [动态规划]基因序列相似性问题

    千次阅读 2019-02-19 12:56:21
    基因序列相似性问题 Time Limit:5s Memory limit:32M Accepted Submit:47 Total Submit:451 Genotype 是一个有限的基因序列集。它的每个成员都是由大写的英文字母A-Z组成,不同的字母表示不同种类的基因...
  • 几种在NCBI中查询获取目的基因序列的方法 在NCBI中,如何查询并下载获得某物种的某特定功能的基因序列,相信对于看到此篇的大部分同学来说都不陌生了。想到对于刚开始接触生信的同学们来说,也许尚不能很熟练地在...
  • 生物信息数据格式:sam,bam格式

    千次阅读 2018-12-19 13:55:48
    首先安装bowtie短序列比对软件 wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.4.3/bowtie2-2.3.4.3-linux-x86_64.zip unzip bowtie2-2.3.4.3-linux-x86_64.zip ln -s ~/local/app/...
  • 生物信息学资料1,常用软件,酶切位点分析 一、生物信息学软件简介 (一)分类 •单机分析软件,如:winplas •在线分析软件, 如:webcutter •生物学数据库,如:NCBI, DDBJ, EBI (二)意义 1...
  • 生物信息学主要研究方向 生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料...
  • 生物信息学数据库分类概览

    千次阅读 2018-11-24 18:55:07
    生物与计算机的结合让生物进入大数据时代,为方便管理各种生物数据,科学家们开发了各式各样的生物数据库。了解与自己研究领域相关的数据库,并加以利用可能会使研究工作得到事半功倍的效果。在此将常用数据库按照...
  • 来源:大数据期刊时间:2016-05-13 14:41:09作者:詹晓娟 姚登举 朱怀球 詹晓娟1,姚登举2,朱怀球3 1. 黑龙江工程学院...摘要:高通量测序技术产生的DNA序列数据长度较短,而且数据量非常巨大。分析了高通量...
  • (一)基因序列注释内容解析 以dut基因编码的大肠杆菌酶dutpase为例;在Nucleotide数据库search X01714或者dutpase,检索链接https://www.ncbi.nlm.nih.gov/nuccore/x01714;得到以下信息。 1.Locus Locus:...
  • 如果基因序列X与基因序列Y等长且具有相同的0,1矩阵,Tom就会认为X与Y是相似的基因序列。 现在的问题是:给你两段长度为N的基因序列,请你帮助Tom判断它们是否相似。 Input 可以有多组测试数据,每组数据第1行输入...
  • 2.每个基因中都有编码区与非编码区,其中真核生物编码区又含有外显子与内含子,但真核生物基因中也有无内含子的例外.如组蛋白基因和干扰素基因就没有内含子.编码区为编码蛋白质的有效基因片段.非编码区不编码蛋白质...
  • 简介:作者:汉朝,阿里云数据库算法专家 1.背景介绍 2019年年底,中国的新兴的商业中心武汉,爆发了一种新型的冠状病毒,在流行的两个多月中,在中国造成了3300多人死亡,8...阿里云提供高效基因序列检索助力冠状...

空空如也

1 2 3 4 5 ... 20
收藏数 100,328
精华内容 40,131
关键字:

基因序列