精华内容
下载资源
问答
  • 生信分析linux环境配置,安装分析软件环境,需要root权限
  • 生信分析云平台产品开发 - 3 生信分析pipeline的进化 生信分析云平台产品开发 - 4 生信分析pipeline的图形化 生信分析云平台产品开发 - 5 生信分析pipeline服务器端运行 在上文生信分析云平台产品开发 - 5 生信...

    前文链接:

    图形化开放式生信分析系统开发 - 1 需求分析及技术实现

    图形化开放式生信分析系统开发 - 2 样本信息处理

    图形化开放式生信分析系统开发 - 3 生信分析流程的进化

    图形化开放式生信分析系统开发 - 4 生信分析流程的图形化

    图形化开放式生信分析系统开发 - 5 生信分析流程服务器端运行

    在上文图形化开放式生信分析系统开发 - 5 生信分析流程服务器端运行 解决了设计好的流程在分析服务器上运行的问题,随之而来就衍生出的新需求:

    软件获取:官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363

    一、分析流程的批量运行顺序

    流程输入文件是按照样本编号来匹配运行的,运行顺序就取决于样本信息

    1. 样本优先级:此处设计样本录入时候,输入优先级字段范围1-9,数字越大优先级越高
    2. 样本顺序:样本默认按照录入的时间先后排序,相同优先级的样本数据,按照录入先后顺序排序运行

    二、分析流程的过程控制

    1. 强制停止:开始分析流程之后,可以在任意时间停止分析过程
    2. 错误恢复运行:分析流程运行错误,再次运行,可以选择从错误处恢复运行
    3. 调试恢复运行:分析结束,修改pipeline参数后,可以选择从任意一点开始重新分析(应用修改后的参数)
    4. 覆盖运行:分析错误或者正常结束后,重新从头开始运行整个分析流程,并覆盖之前的分析结果

    技术实现:

    一、分析流程的批量运行顺序

    依赖于样本的优先级和输入的顺序先后,每次从数据库取出未完成分析的样本列表,按照优先级从高到低,样本输入先后顺序排序。

    每次列表中取最上面一个,去指定目录里匹配输入文件,如果输入文件符合匹配要求,立即启动pipeline,开始流程分析。同时更新该样本状态为正在分析,这样下次排序时候就不会重复获取该样本了。

    其实就是一个带有优先级参数的先进先出的堆栈

    二、分析流程的控制

    前文描述了如何将设计好的pipeline运行于服务器,如果要监控整个运行过程,就需要创建一个守护线程,如果用户操作停止分析,这时候守护进程就要终止运行进程,然后报错并返回。

    同时,这个守护线程,要负有和前端通信,统计每个分析任务的运行时间,检查分析任务输出是否符合要求等等。

    实现效果图:

    • 样本优先级
      在这里插入图片描述
      在这里插入图片描述

    • 强制停止
      在这里插入图片描述
      在这里插入图片描述

    • 错误恢复运行
      在这里插入图片描述
      在这里插入图片描述

    • 调试恢复运行

    • 覆盖运行 覆盖运行
      在这里插入图片描述

    您可以下载PPT或加QQ群: 853718264讨论

    展开全文
  • 前文链接: ...在上文自动图形化开放式生信分析系统开发 - 3 生信分析pipeline的进化 讨论了生信分析pipeline的进化,从手动到自动,但仍然停留在终端命令行阶段,为了让更多非生信专业的人能够使用...

    前文链接:

    在上文图形化开放式生信分析系统开发 - 3 生信分析pipeline的进化 讨论了生信分析流程的进化,从手动到自动,但仍然停留在终端命令行阶段,为了让更多非生信专业的人能够使用,就要想办法实现生信分析pipeline的图形化:提供能够快速上手的UI,简单点击鼠标就能够运行的图形化系统。

    核心功能:pipeline的图形化工作流设计器

    软件获取:官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363

    变量处理:要实现pipeline图形设计器,首先要先对用到的变量,做统一的设计。

    1. 变量的分类: 根据实际经验,pipeline变量用到根据用途可以分为以下几类:

    1. 分析数据目录 d a t a 分 析 过 程 输 出 目 录 {data} 分析过程输出目录 data{result}
    2. 分析用到的软件 bwa ${tools.bwa};samtools ${tools.samtools}
    3. 分析流程中用的reference文件以及数据库,如 hg19.fa ${ref.hg19}
    4. 分析流程中,用到的cutoff值. 如 cnv的cutoff值 ${cutoff.cnv}
    5. 分析流程运行时配置的资源,如 线程数 t h r e a d s 分 配 内 存 大 小 {threads} 分配内存大小 threads{mem}

    2. 变量值的类型:

    1. 字符:通用的格式,比较宽松
    2. 程序:校验变量值时,判断文件是否存在,是否有可执行权限
    3. 文件:校验变量值时,判断文件是否存在,是否有读写权限
    4. 目录:校验变量时,判断目录是否存在,是否有读写权限
    5. 数值:校验变量时,判断是否为数值格式

    最终设计数据好数据结构,做好增删改查功能,UI如下:
    在这里插入图片描述

    分析步骤/节点设计:前文提到,生信分析pipeline其实就是基于文件输入输出的工作流,这里对工作流做了简化,归纳起来工作流中有4种节点。

    1. Input节点,提供pipeline的起始输入文件
      在这里插入图片描述
      在这里插入图片描述
    2. Output节点,获取pipeline的最终输出文件
      在这里插入图片描述
      在这里插入图片描述
    3. Task节点,输入文件,运行分析过程,输出分析过程运行结果
      在这里插入图片描述
      在这里插入图片描述
    4. Database节点,部分pipeline运行结果,需要将输出文件保存至系统数据库中
      在这里插入图片描述
      在这里插入图片描述

    工作流设计: 最后,有了变量,和节点,最后就是工作流的设计了。用连接线,将以上4中节点连接起来,计算相互之间的依赖关系,用统一的格式保存起来。

    设计器功能增强:

    1. 当分析节点没有相互连接时候,要提示错误
      在这里插入图片描述
    2. 修正Start的错误后,重新验证状态时:
      在这里插入图片描述
    3. 在Task任务中选择Start输入的文件,并填写好输出文件后:保存时提示,没有运行的命令:
      在这里插入图片描述
      在这里插入图片描述
    4. 在Task中输入运行的命令,可以看到:变量提供了语法着色显示,防止输错
      在这里插入图片描述
    5. 最终满足校验要求后,工作流是这样的:
      在这里插入图片描述

    最后上一张,完成了的工作流设计器:
    在这里插入图片描述

    您可以下载PPT或加QQ群:853718264讨论

    展开全文
  • 生信分析例文

    2018-12-04 13:54:54
    通过生信分析挖掘在癌症中三个MiRNA,为肿瘤治疗提供靶点。
  • 前文链接: 图形化生物信息分析系统开发 - 1 需求分析及技术实现 图形化生物信息分析...在上文图形化生物信息分析系统开发 - 4 生信分析pipeline的图形化 讨论了生信分析pipeline的图形化,如何用图形的方式显示...

    前文链接:

    图形化开放式生信分析系统开发 - 1 需求分析及技术实现

    图形化开放式生信分析系统开发 - 2 样本信息处理

    图形化开放式生信分析系统开发 - 3 生信分析流程的进化

    图形化开放式生信分析系统开发 - 4 生信分析流程的图形化设计

    软件获取:官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363

    在上文图形化开放式生信分析系统开发 - 4 生信分析流程的图形化设计 讨论了生信分析pipeline的图形化,如何用图形的方式显示生信pipeline,但是pipeline脚本按照变量的形式保存之后,如何运行,在什么环境下运行?是本文要解决的问题。

    运行方式:本地 VS 远程

    1. 本地模式:

    • 优势:容易实现,运行效率高,不依赖网络
    • 劣势:限制了软件的适用范围,本机性能就决定了分析性能,不易扩展,限于运算量较低的业务。

    2. 远程模式:

    • 优势:便于扩展,部署方便。本程序作为控制端,可以和分析端部署在一台机器,也可以通过联网方式连接。这样就可以把控制端单独部署,控制一个服务器集合>从单台到简单的集群
    • 劣势:增加了编程复杂度;需要编程实现与服务器端的交互,并保持长连接,时刻保持通信。分析过程状态、服务器运行状态,需要由服务器端推送到用户端。

    综合考虑,结合软件设计目标,这里选择远程模式

    运行服务器节点:

    1. 服务器节点信息:

      经常手动分析脚本的朋友大家的习惯可能是,ssh远程登录Linux服务器,在shell控制台输入各种脚本,软件。这里首先要解决的就是服务器信息的保存,操作。根据日常习惯归纳实现后,上图:

      每个服务器账户的信息,目录、并行的任务数、运行延迟,以及每个服务器对应的一组变量

    1. 首先这里实现了,服务器账户信息的管理,账户、主机名、端口、密钥、密码,这些信息为了保证安全,需要二次加密,不能将密码明文保存在数据库中,一旦泄漏危害巨大

    在这里插入图片描述

    1. 针对分析流程,按照约定定义了两个变量:${data}数据输入目录,${result}输出目录

    2. 考虑到并行运算,这里设置了该账户可以并行运行的任务数量,已经连续运行任务的最小时间间隔。

    3. 前文中,针对pipeline里的变量,每个服务器账户对应一组变量,彼此独立,互相隔离。

    4. 针对服务器状态,提供状态按钮来验证是否符合要求。网络状态、变量值是否符合要求

    5. Web终端特殊情况下,可以点击终端按钮直接打开shell,手动操作,见下图:

    运行的方式:

    之前系统设计时所做的准备:

    1. 通过图形化设计之后获得的pipeline脚本
    2. 对应于服务器账户信息中的变量
    3. 录入系统的样本信息:样本编号,${sn}Run ID ${runId}等等

    通过将保存的shell脚本,将脚本变量用以上信息替换为实际需要运行的脚本,通过远程连接发送指令在服务器上运行

    运行的过程:状态监控,结果的判断

    1. 发送完脚本,服务器端运行状态需要和控制端保持连接,监控运行状态,获取运行输出。
    2. 运行完成后服务器端推送信息到控制端,判断是否符合要求,输出文件是否存在
    3. 运行失败后服务器端推送信息到控制端,显示错误信息,错误日志,便于生信开发人员查找错误
    4. 统计每一个分析步骤的运行时间,便于统计分析

    运行的结果:

    1. 如果需要获取分析结果文件的,这时候需要将该文件下载至本系统指定目录中。

    2. 如果需要将分析结果vcf,csv等格式文件保存于数据库,按照前文中,pipeline图形化中设计格式,读取文件保存于系统数据库中。

      收集标准化的数据,累积数据,为以后数据挖掘,回归分析做好准备

    您可以下载PPT或加QQ群:853718264讨论

    展开全文
  • 接上两篇内容,本文主要讲述工作中NGS从科研进入医学临床领域,工作中接触到生信流程,以及最终在自动图形化开放式生信分析系统开发中生信workflow设计实现的过程。 接触二代测序,生信分析,那真是打开了一个新...

    接上两篇内容,本文主要讲述工作中NGS从科研进入医学临床领域,工作中接触到生信流程,以及最终在自动图形化开放式生信分析系统开发中生信workflow设计实现的过程。

    接触二代测序,生信分析,那真是打开了一个新世界的大门,各种名次术语满天飞,搞的头晕脑胀。什么“什么是高通量测序/NGS”、Sanger法测序(一代测序)、外显子测序(whole exon sequencing)、mRNA测序 (RNA-seq)、SNP/SNV(单核苷酸位点变异)、
    INDEL (基因组小片段插入)、copy number variation (CNV)基因组拷贝数变异、structure variation (SV)基因组结构变异等等。

    百度了各种相关的分析软件和文件格式,什么fastq,fastq,bam,vcf等等。下面分阶段描述生信分析流程升级/进化的过程:

    软件获取:到官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363

    1.手动命令行运行

    经过几个月接触,自学、爬坑,慢慢搞清楚了部分内容,在似懂非懂之间开始了生信流程分析,终于有一天明白过来,这所谓的pipeline其实就是基于文件的工作流啊。
    比如其中一个步骤:
    fastqc

    QC 完成后,然后运行下一个步骤:
    mapping to reference

    运行模式,一个输入或者多个输入文件,通过软件分析/计算得到一个或者多个输出文件。
    然后输出文件部分或者全部作为下一个步骤的输入文件。这时候手动分析的话,只能手动的一个一个输入命令,完成每一个步骤,直到得到最后结果。

    如下面代码:
    bwa mem -t 8 -M -R \ 
      "@RG\tID:0bdd6f55\tLB:5fba\tPL:Illumina\tPU:3102\tSM: B1701" \
      B1701_R1.fq.gz B1701_R2.fq.gz | samtools view -bS - > B1701.bam
    
    gatk ReorderSam \ 
      -R /opt/ref/hg19.fa \ 
      -I B1701.bam \ 
      -O B1701_reordered.bam
    
    gatk SortSam \ 
      -I B1701_reordered.bam \ 
      -O B1701_sorted.bam \ 
      -SO coordinate
    
    

    2. 脚本连续运行

    随着熟练程度提高,生信分析上用到的软件/工具也熟悉起来了,但是问题也暴露出来了,
    简单的一套 GATK Best Practice 肿瘤突变分析流程,加上CNVSV 分析从 fastq 文件开始到最后得到过滤的 vcf 结果,一共有 30 多个步骤。自己一条一条输入次数多了就开始烦躁了。

    这时候自然会考虑,如何减少手动输入,将这些脚本自动化。

    脚本自动运行:当然这需要一点编程基础了。其实总的来看,每一个步骤的输入和输出可
    以根据最开始的输入文件来判断。
    例如 B1701_R1.fastq.gz,bwa map 之后得到B1701_R1.bam,所以只需要获得最初的文件前缀,作为 SampleNumber 字段,后续的中间输出,最终的输出文件都以这个 SampleNumber 为前缀,以扩展名作为区分。这时候脚本就可以连续运行了。
    以 shell 为例:总的脚本运行:

    workrun.sh B1701_R1.fastq.gz B1701_R2.fastq.gz

    脚本的第一步,就是获取输入文件:B1701_R1.fastq.gz B1701_R2.fastq.gz经过匹配计算,可以得到 B1701 作为 SampleNumber,并保存在变量$SN中。后续的输出都以$SN.bam $SN_sortted.bam $SN_marked.bam等等,这样后续的步骤可以作为一个列表来表示:

    export SN=1701
    
    bwa mem -t 8 -M -R \ 
      "@RG\tID:0bdd6f55\tLB:5fba\tPL:Illumina\tPU:3102\tSM:$SN" \
      $SN_R1.fq.gz $SN_R2.fq.gz | samtools view -bS - >$SN.bam
    
    gatk ReorderSam \ 
      -R /opt/ref/hg19.fa \ 
      -I /opt/result/$SN.bam \ 
      -O $SN_reordered.bam
    
    gatk SortSam \ 
      -I $SN_reordered.bam \ 
      -O $SN_sorted.bam \ 
      -SO coordinate
    

    运行脚本之前使用 B1701 替换变量$SN 得到要运行的真实的 shell 命令

    bwa mem -t 8 -M -R \ 
      "@RG\tID:0bdd6f55\tLB:5fba\tPL:Illumina\tPU:3102\tSM: B1701" \
      B1701_R1.fq.gz B1701_R2.fq.gz | samtools view -bS - > B1701.bam
    
    gatk ReorderSam \ 
      -R /opt/ref/hg19.fa \ 
      -I B1701.bam \ 
      -O B1701_reordered.bam
    
    gatk SortSam \ 
      -I B1701_reordered.bam \ 
      -O B1701_sorted.bam \ 
      -SO coordinate
    
    继续完善:
    • 如何判断这一步是否真正完成了,运行过程有没有错误。如果有错误,停止后续步骤运行:这里首先想到的是,运行结束后,判断预期的输出文件是否存在,文件大小是否大于 0,有些软件即使运行错误也会创建一个大小为 0 的文件。
    • 比如计算这一步骤运行需要多少时间。在命令行 shell 前面加上 time
    time gatk SortSam \ 
      -I B1701_reordered.bam \ 
      -O B1701_sorted.bam \ 
      -SO coordinate
    

    3.一个脚本 shell 文件运行整个分析流程

    上面的内容解决了 shell 脚本连续运行的问题,但是还有一些遗留问题可以改进:

    • 输入文件如果指定一个目录是否更好一些? 如: $data
    • 输出文件如果指定一个目录是否更好一些? 如: $result
    • 运行的软件/工具/脚本路径使用变量替代,这样便于升级维护,升级时候只需要修改
      该变量的值就可以了。如:$bwa $samtools $gatk
    • 运行过程中引用的 reference 文件,数据库文件的路径也用变量替代,升级版本的时
      候只需要修改变量的路径就可以了,这样便于升级维护 如 $hg19 (hg19.fa)
    • 运行中的重要参数,一些 cutoff 值,配置的运行资源 如: $threads

    这样经过以上替换,前面的 shell 脚本就替换为:

    export SN=B1701
    export data=/opt/data
    export result=/opt/result
    export bwa=/opt/tools/bwa
    export samtools=/opt/tools/samtools
    export bwa=/opt/tools/gatk
    export hg19=/opt/ref/hg19.fa
    export threads=8
    
    time $bwa mem -t $threads -M -R \ 
      "@RG\tID:0bdd6f55\tLB:5fba\tPL:Illumina\tPU:3102\tSM:$SN" \
      $data/$SN_R1.fq.gz $data/$SN_R2.fq.gz \
      | $samtools view -bS - >$result/$SN.bam
    
    time $gatk ReorderSam \ 
      -R $hg19 \ 
      -I $result/$SN.bam \ 
      -O $result/$SN_reordered.bam
    
    time $gatk SortSam \ 
      -I $result/$SN_reordered.bam \ 
      -O $result/$SN_sorted.bam \ 
      -SO coordinate
    

    这时候已经将整套流程简单精简为一个 shell 脚本,如命名为 workrun.sh,每次运行整套
    流程之前,将变量$SN 的值修改为需要的值就可以了。如果要升级软件、升级 reference 文件
    版本,修改 shell 脚本相应变量值即可。

    到这里就结束了么?还能继续改进么?请继续往下看。

    4. 自动扫描文件并运行脚本

    前面我们通过变量定义两个目录$data$result分别来表示,分析流程的输入文件目录$data和分析输出文件目录$result,这时候如果我们写一个脚本,按照一定周期判断$data目录下是否有符合要求的文件,如果有文件符合要求,就运行前面的 workrun.sh启动分析流程。
    待整个分析流程结束后,将$SN对应的 SampleNumber 值写入一个文件,下次扫描判断文件对应的 SampleNumber是否已经分析过。

    ##5. 带报告的自动扫描并触发运行脚本
    前面已经实现了自动扫描并分析文件,这时候我们需要将保存$SN的文件完善一下,在分析之前录入样本信息,具体样本信息的记录和操作。

    参照文章:自动化图形生物信息分析系统开发-2 样本信息处理

    运行分析之前,用 SampleReport字段表示分析状态,扫描脚本根据 SampleReport字段是否为空判断,该样本编号 SampleNumber对应的文件是否已经分析过。分析开始后,更新SampleReport字段为当前日期,分析完成后,再更新为分析完成时的日期。

    分析报告,首先我们准备一个分析报告模板,将需要填充的字段,用变量的形式表示,如
    ${sn}${sampleReport}等等,包括

    • 样本信息
    • 患者信息
    • 分析结果
    • 用药信息
    • 引用文章链接
    • 审核签名 等等

    等分析结束后,从样本保存文件,和分析流程最终输出文件中获取数据并填充,得到整个分析报告。像这些数据处理过程,使用 shell就有些吃力了,我这里使用 python改写了上面的脚本,并实现了对数据处理,报告填充功能。

    到这里,基本上就达到绝大多数公司的生信自动化分析水平了

    6. 然而到这里就足够了么?

    这里讲的生信的应用领域是医学临床领域,然而上述水平到这里最多也就是“工具”、“脚本”的水平,真要应用于临床,作为一个 “医疗产品”来要求,还有相当远的的距离。毕竟医学是严肃的事情,直接影响到人的健康和生命,希望各位生信大佬理解。

    从“软件工程”的角度,上述内容也远远达不到一个软件产品的标准:

    • 首先这些脚本都是生信开发人员编写的,绝大多数没有测试,从单元测试、集成测
      试、功能测试、压力测试、稳定性测试都没有,一旦,项目复杂度上升,这些脚本/
      工具的代码质量堪忧,很多公司都是一边运行一边调试。
    • 其次基于命令行脚本的运行环境,没有友好的交互界面,对于使用者要求过高,难以普及大范围推广。对于使用者的要求基本上就是一个生信开发人员的要求:熟悉Linux 操作系统,熟悉各种常用分析软件和工具,能够从脚本错误输出中判断出原因并调试解决。

    以上缺陷也是笔者开发“自动图形化生物信息分析系统”的初衷,后续内容生信流程的图形化实现请继续关注本系列文章。

    您可以下载PPT或加QQ群:853718264讨论

    展开全文
  • Bioconductor做生信分析入门介绍.md
  • 图形化开放式生信分析云平台产品开发 - 3 生信分析流程的进化 图形化开放式生信分析云平台产品开发 - 4 生信分析流程的图形化 图形化开放式生信分析云平台产品开发 - 5 生信分析流程服务器端运行 图形化开放式生信...
  • 我有一台苹果电脑我想学习生信分析,该怎么办哈哈哈哈吃啊彼此彼此哈彼此彼此
  • 生信分析是个什么玩意儿?

    千次阅读 多人点赞 2020-12-23 10:10:34
    生信小白:老板最近说...生信小白:肉哥好,能跟我讲讲生信分析到底是个啥玩意儿吗? 西克孚肉:白白好,那我先跟你捋捋如何读取生命的密码吧。且听我慢慢道来... Q:如何读取生命的密码? 西克孚肉: DNA序列承载
  • 图形化开放式生信分析云平台产品开发 - 3 生信分析流程的进化 图形化开放式生信分析云平台产品开发 - 4 生信分析流程的图形化 图形化开放式生信分析云平台产品开发 - 5 生信分析流程服务器端运行 图形化开放式生信...
  • R语言中生物基因的富集分析 给生物信息学的爱好者
  • mRNA生信分析详解
  • 生信分析流程设计器校验规则优化
  • 生信分析平台方案推介,助力科研专注 专业 共赢目前生信分析对计算性能和存储高并发性能都提出来新的要求,例如在基因测序分析中,基因序列数目庞大,对基因进行同源性搜寻、比对、分析、系统发育分...
  • 图形化开放式生信分析系统开发 - 3 生信分析流程的进化 图形化开放式生信分析系统开发 - 4 生信分析流程的图形化 图形化开放式生信分析系统开发 - 5 生信分析流程服务器端运行 图形化开放式生信分析系统开发 - 6 ...
  • 生信分析常用软件记录

    千次阅读 2019-07-27 13:25:28
    因此今天记录一些生信分析过程(主要是二代测序)中常用的软件,若有时间去查看一下每个软件的功能、官方介绍和算法等。 不按顺序的杂乱记录 sd linux安装软件 R, tanperl5lib, augustus-3.3.2, bamtools-2.4.2, bed...
  • 1.进行数据预处理(在生信中聚类分析的预处理是使用PCA进行主成分分析) 2.进行数据的标准化 主要的聚类算法都包括: 1.基于划分的的聚类方法(这主要就是生信聚类分析的主要算法):对给定的包含n个样本的数据集...
  • 生信分析学习笔记:(2)GO KEGG分析介绍教程1、富集分析 (Over-Representation Analysis )2、GSEA(Gene Set Enrichment Analysis)3、可视化实战练手项目 介绍 通常用的富集分析有ORA、FCS和拓扑三种方法。ORA...
  • RNA-seq生信分析流程

    2021-01-12 21:25:48
    RNA-seq生信分析流程 RNA-seq是近些年发展起来的针对转录组的测序技术,其能够获得mRNA、smallRNA以及各种非编码RNA的序列。 在不同细胞或者在相同细胞的不同发育阶段细胞中这些RNA的表达水平是不同的...
  • 生信分析脚本

    2018-04-16 17:17:52
    RNA数据格式转换脚本 在linux系统上使用python进行RNA数据格式转换
  • 0525 Cloudy 说到编程语言,其实大致可以分成两种,一种是计算机编译器语言,比方说C,C++,优点在于基于计算机...比起编译器语言,生信分析中给我们带来阻碍更多的是脚本语言。 当然也不是说每一个编程语言都需要用的风
  • r语言生信分析

    2019-04-22 17:06:44
    R语言生物信息分析之一 运用vegan加载包 进行Anosim analysis
  • 嘻嘻嘻~~~,晚上秒变生信分析小白,一个游走在生物学和计算机变成之间的小白,享受着里面的快乐和痛苦。不停的挣扎,不停的成长,多学习,多尝试,一定会有意想不到的收获。加油!!! 首先,需要先说明的是本作图经验...
  • 我的课题方向是生信分析为主,要进行RNAseq分析和pyhton编程,请问有哪些好的台式电脑,求推荐。
  • 生信分析过程中这些常见文件的格式以及查看方式 生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式。在分析的过程中还会有众多中间...
  • 一、基于生信分析云平台的需求,在下图中可以看出样本信息在整个软件中的作用 样本信息用于数据拆分、运行运行流程、分析报告,是整个系统的基础数据之一。 下面来具体归纳一下样本信息在软件系统的作用并列出...
  • 捋一下测序后生信分析内容及其常用软件 当我们测完序拿到原始数据之后,第一件事肯定是进行rawdata进行过滤。质控过滤软件如fastqc、multiQC、trimmomatic等。 得到基因组的clean reads后,无非两件事,一是denovo...
  • 生信分析工具

    千次阅读 2020-02-04 21:12:17
    再一次提醒我,生信分析重要的是想法,你想分析什么,可以通过实验设计来实现,实验的创新也离不开对工具酶的使用 。 snakemake搭建pipeline 二代测序快速比对算法软件BWA,Bowtie,Bowtie2比对算法的原理。 ...
  • Docker,使生信分析更简单、可重复

    千次阅读 2019-06-21 10:35:53
    先抛一个主题:每一个跑生信分析的人都应该知道Docker技术。然后我再来介绍什么是Docker,以及为什么我们应该了解Docker。 首先,从事基因分析的研究者,起码有80%的人之前是没有接受过计算机科学培训的。很多人都...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,400
精华内容 2,560
关键字:

生信分析