精华内容
下载资源
问答
  • TCGA 数据下载

    2020-05-20 17:06:29
    数据下载 肿瘤研究经常需要下载相关数据,目前可以通过官网(http://www.cbioportal.org/)直接下载,或者xenabrowser 下载。 xena下载比较简单,选择需要研究的癌症种类,直接下载所需的文件就可以了。 ...
    TCGA

    TCGA 数据库是目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上,还体现在多组学数据,包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP。

    数据下载

    肿瘤研究经常需要下载相关数据,目前可以通过官网(http://www.cbioportal.org/)直接下载,或者xenabrowser 下载。

    xena下载比较简单,选择需要研究的癌症种类,直接下载所需的文件就可以了。
    https://xenabrowser.net/datapages/?hub=https://tcga.xenahubs.net:443

    官网下载稍微复杂些,
    1.进入官网 https://portal.gdc.cancer.gov/repository,点击 repository
    2.File 里面选择数据类型,文件类型等
    在这里插入图片描述
    3.Case 里面选择肿瘤类型,项目等
    在这里插入图片描述
    4.将挑选的文件加入Cart
    在这里插入图片描述
    5.下载manifest,或者直接下载cart,数据量较小时可行
    在这里插入图片描述
    6.安装gdc-client,linux下建议使用conda 安装, 然后下载所需文件

    ./conda install gdc-client
    ./gdc-client download -m gdc_manifest.2020-05-20.txt
    
    展开全文
  • TCGA数据下载教程:使用官方gdc-client软件下载

    万次阅读 多人点赞 2018-07-02 13:18:20
    3. 使用gdc-client下载TCGA数据 本教程使用原生态的TCGA官方数据下载方式,比使用第三方的工具具有数据更新快,真实的特点,当然如果觉得麻烦可以使用第三方的一些工具,单对于想要真正了解TCGA数据库的人,还是...

    前言

    本教程涉及内容:

    1. TCGA网页数据下载,检索方式
    2. gdc-client软件安装和配置
    3. 使用gdc-client下载TCGA数据

    [补充]

    1. 怎么根据TCGA官方的API下载数据?简单几句命令轻轻松松下载想要的TCGA大数据
    2. Python脚本下载TCGA大数据,非常简单,开放源代码
    3. 图形界面下载TCGA大数据,GitHub项目
    4. 插播CPI Retrieval System
      自己搭建的化合物和 蛋白质相互作用关系检索系统。本系统是基于深度学习模型自动提取文献摘要中的关系而来。欢迎访问指教。
      这里写图片描述

    正文开始

    本教程使用原生态的TCGA官方数据下载方式,比使用第三方的工具具有数据更新快,真实的特点,当然如果觉得麻烦可以使用第三方的一些工具,单对于想要真正了解TCGA数据库的人,还是使用原生态的TCGA方式。

    TCGA改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中。
    TCGA官网:https://cancergenome.nih.gov/
    TCGA数据下载网址:https://portal.gdc.cancer.gov/
    Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
    如果下载慢,我这提供一份下载好的连接:
    https://github.com/chenwi/TCGAD/blob/master/gdc-client_v1.3.0_Windows_x64.zip

    TCGA官网数据检索

    如果在官网下,需要点击右边的Launch Data Portal,也就是上面TCGA数据下载的网址
    这里写图片描述
    进入到数据下载页面(可以直接点击上面TCGA数据下载网址)后,看到的目前版本如下,目前已有40个project,32555个case。
    这里写图片描述

    我以白血病(AML)为例,下载与白血病相关的miRNA数据。
    首先点击上图的Repository进入数据检索界面,你看到的界面如下:
    这里写图片描述
    File栏目下,选择Experiment StrategymiRNA-Seq 还有Data TypemiRNA Expression Quantification;然后在Case栏目下选择Primary Site 中的BloodBone Marrow,和Disease TypeAcute Myeloid Leukemia,这时候你会看到界面变成下面这样了:
    这里写图片描述
    因为一般只能下载open数据,所有,可以再上面图中Access Level的地方点击一下 ,就会得到知识open的数据了(不点击也没关系,反正后期只会下载open的数据)

    这次选择下载的是miRNA-Seq数据,上图显示共有265个case,301个文件,为什么会比case数多呢,说明一些case不止对应1个miRNA-Seq样本的文件,有些是重复。所有数据一共15.14MB,也不大,可以直接在网页下载,但是,本教程是讲解使用官方API下载,数据小更好演示,下面具体讲解使用gdc-client下载数据。(TCGA数据库在数据下载有规定:让Cart文件夹大于50M时,只能通过Data Transfer Tool工具进行下载。所以我这次要使用Data Transfer Tool工具来下载数据。)

    首先点击上图中Manifest 这时候会下载一个包含所有文件名的小txt文件,是后面下载TCGA数据所必须准备的。我下载保存到下面文件夹了:
    这里写图片描述

    安装配置 Data Transfer Tool

    如何安装Data Transfer Tool,也就是gdc-client这个接口软件呢?
    要安装Data Transfer Tool,需要到下载页面下载该工具。
    Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
    进去界面后,找到下图的地方,并选择windows环境下的工具,也就是打钩的那个。下载后解压缩即可使用。至于怎么用,我刚开始看到是.exe文件,但是这个软件是需要用命令行来使用的。

    这里写图片描述
    我把该工具解压到下面这个文件夹,根据图标,说明这个软件是用Python写的,然后使用Pyinstaller打包的。
    !!!!!!!!!!!!!!!**注意**!!!!!!!!!!!!!!!!!
    该软件不能解压到含有中文名的文件夹下,否则会报错,不能使用!!!
    这里写图片描述
    具体使用:打开CMD命令行窗口,输入-h命令,可以看软件是否能使用。
    这里写图片描述

    把gdc-client加入环境变量

    有没有发现我的这个命令很长?那是因为,我还没把这个软件加入环境变量,如果以后想在任何一个路劲简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:
    打开电脑控制面板——》系统和安全——》系统——》高级系统设置——》环境变量——》Path——》“加入你的gdc-client所在路径” ,然后应用保存。

    1. 打开电脑控制面板
      这里写图片描述
    2. 系统和安全
      这里写图片描述
    3. 系统
      这里写图片描述
    4. 高级系统设置
      这里写图片描述
    5. 环境变量
      这里写图片描述
    6. Path
      这里写图片描述

    上面配置都完成后,看下图,现在简单输入gdc-client -h 就行了。
    这里写图片描述

    使用gdc-client下载TCGA数据

    下载方式很简单,还记得上文中下载的Manifest文件吧,然后在windows下打开cmd,并在其中输入下载命令:

    gdc-client download -m gdc_manifest.2018-07-02.txt

    然后就是慢慢下载了,如果中间有报错断了,一般就是网络不好的原因,重新下载或者换个时间段就行了。
    最后就下载完了,一共301个文件,命令行界面和文件夹界面如下所示:
    这里写图片描述
    这里写图片描述

    此教程结束。

    其他使用python自定义脚本下载,以及将多个文件合并到一起的教程,请参考我的其他博文。

    展开全文
  • TCGA数据下载和整理工具----GDCRNATools

    万次阅读 2018-01-04 15:29:18
    TCGA数据下载和整理的网站及软件发表很多了,比如Broad GDAC Firehose, Oncomine, TCGAbiolinks,TCGA-Assembler, TCGA2STAT,RTCGAToolbox等等,这些网站或软件要么使用的是TCGA更新前的数据,要么运行起来比较繁琐...
    TCGA数据下载和整理的网站及软件发表很多了,比如Broad GDAC Firehose, Oncomine, TCGAbiolinks,TCGA-Assembler, TCGA2STAT,RTCGAToolbox等等,这些网站或软件要么使用的是TCGA更新前的数据,要么运行起来比较繁琐。当然各个工具都有其优势所在。

    之前在论坛里分享了自己下载和整理TCGA数据的Python代码。最近忙里偷闲重新写了个R包,GDCRNATools,主要功能是寻找lncRNAs相关的ceRNAs。为方便用户使用,其中也加入了TCGA数据下载、整理和常规分析工具。整个流程都非常容易上手,只要有一点R编程基础就可以。目前R包还在Bioconductor under review。在这里先提前分享一下,方便大家更好的对TCGA数据进行挖掘。个人认为这是目前使用起来最方便的TCGA工具。

    先上GDCRNATools流程图:

     


    1. GDCRNATools下载与安装
    因为该R包还未在Bioconductor公布,因此暂时只能先将其下载到本地进行安装。
    下载地址:GDCRNATools
    安装说明:GDCRNATools安装说明
    在Linux和Mac系统的安装比较容易,只要把压缩包下载,运行一条命令就可以。
    [AppleScript] 纯文本查看 复制代码
    ?
    1
    install.packages('GDCRNATools_0.99.0.tar.gz', repos = NULL, type='source')

    Windows系统下需要先安装Rtools,把R和Rtools加入环境变量,然后在command prompt里输入
    [AppleScript] 纯文本查看 复制代码
    ?
    1
    R CMD INSTALL GDCRNATools_0.99.0.tar.gz

    具体请参照GDCRNATools安装说明

    2. GDCRNATools使用说明
    详细的使用说明为一个html文件,可以将该文件下载到本地然后用任意浏览器打开即可。
    使用说明:GDCRNATools使用说明


    3. GDCRNATools数据下载
    GDCRNATools提供了两种数据下载方式:(1) 用户可以到GDC网站将所需数据加入购物车,下载manifest文件以及metadata文件(后续分析需要),然后在gdcRNADownload里提供该manifest文件即可; (2)用户也可以直接在gdcRNADownload里指定需要下载的project id及data type,数据便可自动下载。第2种方式只能下载RNA HTseq-Counts数据以及Isoform Expression Quantification数据。临床数据需要使用gdcClinicalDownload下载。

    4.GDCRNATools数据整理
    前面提到的metadata里有所下载数据的基本信息以及一些临床信息。GDCRNATools中的gdcParseMetadata可以将其中的信息整理成表格,同上,用户可以提供metadata文件,也可以直接指定project id及data type。提取出的metadata在后续分析会经常用到。
    gdcRNAMerge可以将RNA counts数据整理成表格,也可以提取成熟miRNAs的数据并整理成表格。gdcClinicalMerge专门用于临床数据的整理。

    5. GDCRNATools数据分析
    (1)差异基因分析:用户可以在gdcDEAnalysis中自选limma,edgeR,或DESeq2进行差异基因分析
    (2)生存分析:gdcSurvivalAnalysis可以进行基因批量生存分析,包括CoxPH及KM分析
    (3)功能富集分析:gdcEnrichAnalysis可以同时进行GO, KEGG, DO分析,功能富集分析基于Y叔的两个R包ClusterProfiler和DOSE,这两个包使用的都是最新的数据
    (4)内源竞争性RNA分析:gdcCEAnalysis是GDCRNATools的主打功能,通过lncRNA与mRNA共有的miRNA,lncRNA与mRNA表达相关性,以及共有miRNAs对lncRNA以及mRNA的调控相似性来寻找lncRNA相关的ceRNA。gdcCEAnalysis中整合了spongeScanstarBase V2.0, mirTarBase,以及miRcode四个数据库中miRNA与lncRNA、mRNA的互作关系。所有基因的ID都更新到了Ensembl 90, miRNA的ID更新到了最新的miRBase release 21。

    (5)其他功能:除上述分析外,用户可能感兴趣lncRNA,pseudogene等的其他分析,GDCRNATools可以帮用户提取这些基因

    6. GDCRNATools的视图功能
    常规的火山图,柱状图,散点图,富集分析气泡图,生存曲线等等都可以在GDCRNATools中实现。用户也可以使用GDCRNATools中三个简单的shiny工具在网页上选取感兴趣的基因,通路来观察他们的生存曲线,表达相关性,及富集的KEGG通路map。

    详细流程及运行代码请参考:GDCRNATools使用说明

    最后欢迎使用GDCRNATools,希望多多交流指正~
    展开全文
  • TCGA数据下载:R包TCGAbiolinks介绍

    万次阅读 2016-10-14 23:56:15
    昨天介绍了TCGA2STAT这个R包,今天来继续根据博文 TCGA数据下载方法简介中的顺序来介绍R包TCGAbiolinks包,其下载数据类型类似于TCGA2STAT,但是又比它难懂。 R包的下载 ## try ...

    昨天介绍了TCGA2STAT这个R包,今天来继续根据博文 TCGA数据下载方法简介中的顺序来介绍R包TCGAbiolinks包,其下载数据类型类似于TCGA2STAT,但是又比它难懂。

    R包的下载

    ## try http:// if https:// URLs are not supported
    source("https://bioc.ism.ac.jp/biocLite.R")
    biocLite("TCGAbiolinks")

    涉及的包很多,可能很久才能下载完,下载建议使用R,不要用Rstudio,效果更好。

    可下载的数据

    这里请参考TCGA2STAT对数据的介绍。TCGAbiolinks包的最新文档http://www.bioconductor.org/packages/release/bioc/manuals/TCGAbiolinks/man/TCGAbiolinks.pdf ,对下载数据做了介绍,还有涉及到不同的平台,下载什么样的数据。

    一个案例

    query <- GDCquery(project = "TCGA-ACC",data.category = "Copy Number Variation",data.type = "Copy Number Segment")
    
    GDCdownload(query)
    query.met <- GDCquery(project = "TCGA-GBM",legacy = TRUE,data.category = "DNA methylation",platform = "Illumina Human Methylation 450")
    
    GDCdownload(query)

    具体的情况,请多做实验来验证。

    展开全文
  • TCGA数据下载方法简介

    万次阅读 2016-10-12 09:12:22
    TCGA数据,指癌症测序数据,TCGA的全称为The Cancer Genome Atlas,癌症基因组图谱(TCGA)是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)已生成的33种癌症的基因组的关键变化全方位,多三维地图之间的...
  • TCGA数据下载:R包RTCGA介绍

    千次阅读 2016-10-23 13:24:16
    前几天去外地参加婚礼,中间耽误了好些时间,没能做好持续更新...根据博文 TCGA数据下载方法简介中的顺序J继续来介绍R包RTCGA包。 R包下载 ## try http:// if https:// URLs are not supported source("https://bio
  • TCGA数据下载及矩阵整理

    千次阅读 多人点赞 2019-12-24 16:43:36
    首先我们进入TCGA数据库TCGA官网 首先看一下文件类型,悬着数据处理方式及工作流程 看一下例子里面各种类型,有组织是什么,癌症项目。 点击进入购物车 下载所有文件点击cart 所有压缩文件合并到一个文件内 ###...
  • 一、GDCRNATools包下载 首先下载R包 if (!requireNamespace...下载好之后运行,以COAD数据为例,下载: library(GDCRNATools) gdcRNADownload(project.id = TCGA-COADREAD, data.type = RNAseq, write.ma
  • 最新TCGA数据下载与整理

    万次阅读 2018-05-02 11:45:59
    http://www.bioinfo-scrounger.com/archives/317本人尝试了用最原始的方法下载,速度稳定,下载也快,但需要整理的地方很多,首先是文件与样本id的匹配,再一个就是数据提取与标准化。最终整合到一个文件中。如果用...
  • TCGA数据下载:R包TCGA2STAT介绍

    千次阅读 2016-10-13 23:18:10
    上期介绍了若干种获取TCGA数据的方法,今天这期会落点于TCGA2STAT这个R包的介绍上,一步步的来说明下载方法,哪些数据是可以下载到的。 R包的下载 install.packages("TCGA2STAT")选择如何的镜像,咱们在中国,就...
  • TCGA数据下载:R包RTCGAToolbox介绍

    千次阅读 热门讨论 2016-10-24 18:35:12
    前面介绍了3种获取TCGA数据的方法:使用TCGA2STAT、TCGAbiolinks、RTCGA。这里再介绍一个包:RTCGAToolbox包,这个包是我最为推荐的,原因是我使用时它下载数据最快、最为稳定可靠。 RTCGAToolbox下载方法 ## try ...
  • gdcRNADownload(manifest = 'TCGA-PRAD/TCGA-PRAD.Clinical.gdc_manifest.2017-11-23T14-42-01.txt', directory = 'TCGA-PRAD/Clinical') 1.2 Automatic download gdcRNADownload()  will ...
  • TCGA数据文件下载

    千次阅读 2017-12-04 16:57:37
    TCGA数据文件下载 maf格式的mutation记录文件在TCGA里面已经是level4的数据啦,所以是完全open的,可以随意下载,只需要去其GDC官网简单点击,选择即可。 主要步骤就是在...
  • TCGA数据批量下载

    2018-10-01 14:16:00
    由于经常需要涉及到TCGA数据的分析,我简单的整理了一下数据批量下载的文件后缀。 cancer_name <- "SKCM" output_path <- paste0("/home/wang/Documents/课题/data/zip/", cancer_name) system(paste0(...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 137
精华内容 54
关键字:

tcga数据下载