精华内容
下载资源
问答
  • TCGA数据库详解

    万次阅读 2018-10-30 16:26:06
    TCGA(The cancer genome atlas,癌症基因组图谱)由National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的...

    TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

    TCGA官网:https://portal.gdc.cancer.gov/

    1. 数据等级和分类:

    TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。这些数据可分为三个级别:

    Level 1: 原始的测序数据(fasta,fastq等)

    Level 2:比对好的bam文件

    Level 3:为经过处理及标准化的数据


    2.1 如何进入Project2.如何寻找数据:

    如图1所示,点击以下五个标注的地方都可以找到自己需要的Project。1会把所有的Project全部列出,然后点击自己需要的ProjectID;2会列出所有的case,在左侧的导航栏可以选择自己需要的条件,然后点击自己需要的ProjectID;3可以直接搜索ProjectID;4可以直接点击身体器官进入对应的一个或多个Project,然后点击自己需要的ProjectID;5和4是一样的,只不过变成了文字。进入某一个Project的页面如图2(Project ID为TCGA-BRCA)所示。

     

    2.2 如何选择数据

    如图2所示,从自己所需数据类型的Files属性点进去,也可以点击右上角的FILES,然后通过左侧导航栏筛选。如图3、图4所示,导航栏分为Cases和Files两部分,Cases的筛选条件有Case ID、Primary Site、Program、Project、Disease Type、Gender、Age at Diagnosis、Vital Status、Days to Death、Race、Ethnicity;Files的筛选条件有Data Category、Data Type、Experimental Strategy、Workflow Type、Data Format、Platform、Access。

    在网页上方会显示出勾选条件,如图5所示,选择条件是TCGA-BRCA中用MuTect2 call出的原始体细胞变异的SNV文件,文件数量是1080个,然后我们可以通过购物车按钮单个添加或全部添加到我们的下载清单中,下载清单可以通过页面右上角的Cart查看。

    3.如何下载数据:

    TCGA中的数据分为controlled和open,controlled数据需要申请账号才可以下载,open数据不需要账号。数据下载支持本地下载和官方下载工具下载,官方下载工具支持Windows、Ubuntu、OSX和CentOS系统。

    官方下载工具下载页面:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

    点开Cart页面后,如图6所示,可以点击Download=>Cart本地下载,也可以下载Manifest文件后用官方下载工具下载,如果数据是controlled并且用官方下载工具下载,需要下载token文件作为身份验证,下载方式如图7所示。

    Centos命令行下载示例

    gdc-client download -t gdc-user-token.2018-10-25T07_07_18.260Z.txt -m gdc_manifest_20181025_070650.txt

    展开全文
  • TCGA数据库

    千次阅读 2019-09-03 20:55:30
    1 TCGA Code Table 1.1 Data Levels Level Number Definition 1 Raw data 2 Normalized data 3 Aggregated data 4 Regions of Interest data 0 No Level 1.2 ...

    1 TCGA Code Table

    1.1 Data Levels

    Level Number Definition
    1 Raw data
    2 Normalized data
    3 Aggregated data
    4 Regions of Interest data
    0 No Level

    1.2 Portion / Analyte Codes

    Code Definition
    D DNA
    G Whole Genome Amplification (WGA) produced using GenomePlex (Rubicon) DNA
    H mirVana RNA (Allprep DNA) produced by hybrid protocol
    R RNA
    T Total RNA
    W Whole Genome Amplification (WGA) produced using Repli-G (Qiagen) DNA
    X Whole Genome Amplification (WGA) produced using Repli-G X (Qiagen) DNA (2nd Reaction)

    1.3 Sample Type Codes

    Code Definition
    01 Primary Solid Tumor(原发性实体肿瘤)
    02 Recurrent Solid Tumor(复发性实体肿瘤)
    03 Primary Blood Derived Cancer - Peripheral Blood(原发性血源性癌症 - 外周血)
    04 Recurrent Blood Derived Cancer - Bone Marrow(复发性血源性癌症 - 骨髓)
    05 Additional - New Primary
    06 Metastatic(转移肿瘤)
    07 Additional Metastatic
    08 Human Tumor Original Cells(肿瘤原始细胞)
    09 Primary Blood Derived Cancer - Bone Marrow(原发性血源性癌 - 骨髓)
    10 Blood Derived Normal
    11 Solid Tissue Normal(癌旁组织)

    1.4 TCGA Study Abbreviations

    Study Abbreviation Study Name
    LAML Acute Myeloid Leukemia
    ACC Adrenocortical carcinoma
    BLCA Bladder Urothelial Carcinoma
    LGG Brain Lower Grade Glioma
    BRCA Breast invasive carcinoma
    CESC Cervical squamous cell carcinoma and endocervical adenocarcinoma
    CHOL Cholangiocarcinoma
    LCML Chronic Myelogenous Leukemia
    COAD Colon adenocarcinoma
    CNTL Controls
    ESCA Esophageal carcinoma
    FPPP FFPE Pilot Phase II
    GBM Glioblastoma multiforme
    HNSC Head and Neck squamous cell carcinoma
    KICH Kidney Chromophobe
    KIRC Kidney renal clear cell carcinoma
    KIRP Kidney renal papillary cell carcinoma
    LIHC Liver hepatocellular carcinoma
    LUAD Lung adenocarcinoma
    LUSC Lung squamous cell carcinoma
    DLBC Lymphoid Neoplasm Diffuse Large B-cell Lymphoma
    MESO Mesothelioma
    MISC Miscellaneous
    OV Ovarian serous cystadenocarcinoma
    PAAD Pancreatic adenocarcinoma
    PCPG Pheochromocytoma and Paraganglioma
    PRAD Prostate adenocarcinoma
    READ Rectum adenocarcinoma
    SARC Sarcoma
    SKCM Skin Cutaneous Melanoma
    STAD Stomach adenocarcinoma
    TGCT Testicular Germ Cell Tumors
    THYM Thymoma
    THCA Thyroid carcinoma
    UCS Uterine Carcinosarcoma
    UCEC Uterine Corpus Endometrial Carcinoma
    UVM Uveal Melanoma
    • 01A:癌症组织
    • 01B:福尔马林浸泡样品
    • 02A:复发组织
    • 06A:转移组织

    一般只留下01A样品的肿瘤组织样品做差异表达和生存分析并且对于重复样品,随机选取一个

    参考文章:

    TCGA官网

    2 表达信息VS临床信息

    • cases表示患者个数
    • files表示样品个数

    TCGA数据库不是所有患者都有表达信息,有的患者只有临床信息而没有表达信息。如TCGA-LUAD数据集,RNA-seq-data中有515个cases594个files。而clinical-data却有522个cases
    在这里插入图片描述
    在这里插入图片描述

    3 TCGA样本命名详解

    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07
    • TCGA-A6-6650-01B-02R-A277-07

    一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个。

    TCGA-A6-6650-01A-11R-1774-07
    TCGA Project 所有TCGA样本名均以这个开头
    A6 Tissue source site 组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织
    6650 Participant 参与者编号
    01 Sample 编号01~09为癌症组织,10~19表示正常对照
    A Vial 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据
    11 Portion 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
    R Analyte 分析的分子类型,对应RNA
    1774 Plate 在一系列96孔板中的顺序,值大表示制板越晚
    07 Center 测序或鉴定中心编码

    所以现在看这三个样本:
    TCGA-A6-6650-01A-11R-1774-07
    TCGA-A6-6650-01A-11R-A278-07
    TCGA-A6-6650-01B-02R-A277-07
    其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板
    理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07

    先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

    1. 对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高
    2. 如果Analyte相同,那就选择Portion和/或Plate值更大的。 所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚。

    然后是cBioPortal中的处理方式

    • 随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大。

    参考文章:

    TCGA样本命名详解

    本博客内容将同步更新到个人微信公众号生信玩家。欢迎大家关注~~~
    在这里插入图片描述

    展开全文
  • TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07TCGA-A6-6650-01A-11R-A278-07TCGA-A6-6650-01B-02R-A277-07大家知道一般在做TCGA数据分析的时候样本名...

    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

    TCGA-A6-6650-01A-11R-1774-07

    TCGA-A6-6650-01A-11R-A278-07

    TCGA-A6-6650-01B-02R-A277-07

    大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

    在取舍之前,当然要先搞清楚样本命名方式:

    我们将此示图以”-“分割,具体拆开解读一下:

    TCGA:Project, 所有TCGA样本名均以这个开头,标志

    A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见:

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

    6650:Participant, 参与者编号

    01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下:

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes

    所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字

    A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:

    所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

    11:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用

    R:Analyte, 分析的分子类型,对应关系如下所示:

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes

    1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚

    07:Center, 测序或鉴定中心编码,更多编码详见:

    https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center

    一个借鉴的图片:

    更多内容详见:

    https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

    http://docs.cavatica.org/docs/tcga-grch38-metadata

    所以现在看这三个样本:

    TCGA-A6-6650-01A-11R-1774-07

    TCGA-A6-6650-01A-11R-A278-07

    TCGA-A6-6650-01B-02R-A277-07

    其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

    理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

    TCGA-A6-6650-01A-11R-1774-07

    TCGA-A6-6650-01A-11R-A278-07

    先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

    1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。

    2、如果Analyte相同,那就选择Portion和/或Plate值更大的。

    所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚:

    https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163

    虽然看起来可能这么选比较准确,但是稍微有些麻烦~

    然后是cBioPortal中的处理方式:

    随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。

    ---------------------

    作者:Mr番茄蛋

    来源:CSDN

    原文:https://blog.csdn.net/qq_35203425/article/details/80851862

    版权声明:本文为博主原创文章,转载请附上博文链接!

    展开全文
  • TCGA_RNAseqMapping-源码

    2021-02-18 15:42:10
    TCGA_RNAseqMapping
  • <div><p>After we removed the option to select all studies and replace it with TCGA PanCancer Atlas studies, a number of users complained. <p><img alt="image" src=...
  • TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07TCGA-A6-6650-01A-11R-A278-07TCGA-A6-6650-01B-02R-A277-07大家知道一般在做TCGA数据分析的时候样本名...

    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

    TCGA-A6-6650-01A-11R-1774-07

    TCGA-A6-6650-01A-11R-A278-07

    TCGA-A6-6650-01B-02R-A277-07

    大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

    在取舍之前,当然要先搞清楚样本命名方式:

    我们将此示图以”-“分割,具体拆开解读一下:

    TCGA:Project, 所有TCGA样本名均以这个开头,标志

    A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见:

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

    6650:Participant, 参与者编号

    01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下:

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes

    所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字

    A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:

    所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

    11:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用

    R:Analyte, 分析的分子类型,对应关系如下所示:

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes

    1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚

    07:Center, 测序或鉴定中心编码,更多编码详见:

    https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center

    一个借鉴的图片:

    更多内容详见:

    https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

    http://docs.cavatica.org/docs/tcga-grch38-metadata

    所以现在看这三个样本:

    TCGA-A6-6650-01A-11R-1774-07

    TCGA-A6-6650-01A-11R-A278-07

    TCGA-A6-6650-01B-02R-A277-07

    其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

    理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

    TCGA-A6-6650-01A-11R-1774-07

    TCGA-A6-6650-01A-11R-A278-07

    先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

    1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。

    2、如果Analyte相同,那就选择Portion和/或Plate值更大的。

    所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚:

    https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163

    虽然看起来可能这么选比较准确,但是稍微有些麻烦~

    然后是cBioPortal中的处理方式:

    随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。

    所以如果遇到需要选择的时候,就仁者见仁了,建议天秤座的小伙伴们也不要太纠结到底哪个最好,当然如果你有不同的意见和看法,欢迎交流讨论!

    ————————————————

    版权声明:本文为CSDN博主「Mr番茄蛋」的原创文章,遵循 CC 4.0 BY-SA 版权协议。

    原文链接:https://blog.csdn.net/qq_35203425/article/details/80851862

    展开全文
  • TCGA简易下载工具

    2018-08-31 09:31:51
    该工具可以简化TCGA数据库的下载步骤,合并TCGA数据库中下载的文件
  • 下载TCGA工具

    2018-03-26 09:04:14
    下载TCGA数据用,这个优点我觉得在于下载数据的实时性有保证,并且它也是从官网下载的,最主要它支持断点下载。。。就算你网再不稳定。。睡一觉总能下好了
  • 自己编写程序,对TCGA的临床信息进行整理和提取,便于做生存分析
  • 下载TCGA数据的方式很多种,这里再介绍如何使用python对TCGA中的各种数据进行下载。01 Manifest文件同样需要你准备好manifest文件,或者至少是带有fileid的txt文件,文件名为:gdc_manifest.txt02 Python脚本脚本名...
  • TCGA临床数据提取

    2019-04-12 18:32:52
    自己编写程序,对TCGA的临床信息进行整理和提取,便于做生存分析
  • TCGA.intent-crx插件

    2021-03-10 05:59:35
    TCGA.intent使用Web Intents,这是一种针对Web应用程序的服务发现和轻量级RPC机制。 在Web应用程序中使用TCGA.intent所需要做的就是创建使用以下操作类型组合的Intent:http://mathbiol.org/intents/tcga/download ...
  • tcga官方下载工具

    2018-11-04 17:15:53
    tcga官方下载工具 最近服务器不稳定 有时候下载很慢 如果很难下载可以试试从这里下载
  • Shiny_tcga_tsne:tSNE框架,用于TCGA和其他大型患者数据集的可视化和分析
  • TCGA小工具

    2021-04-26 22:15:21
    sangerbox 第三方软件下载TCGA数据 http://sangerbox.com/
  • TCGA 命名详解

    2019-11-12 08:48:48
    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本...在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6...
  • TCGA 样本名构成以TCGA-OR-A5J1-01A-11R-A29W-13为例,按照“-”分割为7个不同部分。TCGA是项目名称“The Cancer Genome Atlas”简写,又称为癌症数据库。OR 是组织来源编码,如OR就表示来源于University of ...
  • TCGA肺癌数据分析 该数据分析项目已在密歇根大学的2020年秋季我的Stats 600回归分析课程中完成。 分析的数据包含肺癌患者的样本以及不同的临床因素及其基因组信息。 在此分析中,我想回答以下问题:哪些mRNA基因表达...
  • TCGA样本命名详解

    万次阅读 多人点赞 2018-06-29 09:17:40
    TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6-6650-01A-11R-A278-07 TCGA-A6-6650-01B-02R-A277-07 大家知道一般在做TCGA数据分析的时候...
  • 进入GDC网页...以结肠癌为例,主要参数:【Primary Site】:colon;【Program】:TCGA;【Program】:TCGA-COAD;点击Files,选择文件类型。主要参数:【Dta Category】:transcriptome profil...
  • TCGA 数据下载

    2020-05-20 17:06:29
    TCGA TCGA 数据库是目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上,还体现在多组学数据,包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP。 数据下载 肿瘤研究经常需要下载相关...
  • 用R包TCGA-Assembler下载TCGA数据

    千次阅读 2018-07-18 19:20:50
    今天师兄发给我一个TCGA网址,让我想办法把胰腺癌的所有RNA-Seq数据下载下来,可是界面是这样的: 这么多样本有各自的测序数据,甲基化数据,突变数据和临床数据等,不可能一个个去点开下载,那么批量下载就可以...
  • TCGA简易下载工具.zip

    2019-12-03 14:09:06
    该工具可以简化TCGA数据库的下载步骤,合并TCGA数据库中下载的文件挺不错的一个资源,亲测可用,如果需要的话,就赶紧来下载吧!!
  • TCGA数据库的利用(一)—— 数据下载!

    万次阅读 多人点赞 2019-04-20 12:05:08
    前序还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽...
  • 原标题:《TCGA数据下载的终极篇》作为GEO数据的姊妹TCGA数据库中的数据也是生信分析常用的数据之一。TCGA(The Cancer Genome Atlas )是由National Cancer Institute ( NCI, 美国国家癌症研究所)和 National Human ...
  • 经常有人问怎么下载正常样本,疾病样本之类的,这里就给大家一个参考使用TCGA简易下载工具可以下载所有的样本类型,具体看样本编号,在界面中只列了几个常见的,不常见的可以下载全部然后自己筛选样本编号模式如下:...
  • 原标题:数据挖掘专题 | 一文搞懂TCGA数据整理本文经授权转载自生信控我们已经通过前两期数据下载(一)和数据下载(二)介绍了TCGA数据下载方法,并最终得到每个样本一个独立文件夹形式的数据,整理成表达矩阵的格式将...
  • 在获得显著性差异表达基因后,这里我们再根据padj值,由差异分析结果中筛选10例显著...1.筛选10例显著差异表达基因#差异表达的3584基因表达谱x_d_selected=x_d[match(TCGA_result_genesymbol$ensembl_gene_id,rown...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 830
精华内容 332
关键字:

tcga