精华内容
下载资源
问答
  • 现在做生物信息学分析发SCI文章非常火,我们检索了下这两年5分以上的杂志发表数据挖掘为主的文章已经有不下80篇了,其中Oncotarget占了不少,这些文章主要以GEO和TCGA数据库中的数据挖掘为主,分析工具包括了...

    现在做生物信息学分析发SCI文章非常火,我们检索了下这两年5分以上的杂志发表数据挖掘为主的文章已经有不下80篇了,其中Oncotarget占了不少,这些文章主要以GEO和TCGA数据库中的数据挖掘为主,分析工具包括了Cbioportal等网站以及R语言。

    今天我们就从TCGA这个数据库挖掘用的最多的一个工具——Cbioportal开始为大家做一下介绍。

    Cbioportal的网址:http://www.cbioportal.org/

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    这是改版以后的新界面,既可以查询,又可以下载数据

    下面我们主要查一下STAT家族几个分子在TCGA肝癌数据中的情况,主要是STAT1,STAT2,STAT3,STAT4,STAT5A,STAT5B和STAT6这7个分子。

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    在左侧我们选择Liver后右侧出现了5个dataset,右侧红框里面是这个dataset的介绍,我们勾选最后一个后在Select Data Type Priority下面出现了四个选项:Mutation(突变)、CNA(拷贝数变异)、mRNA表达和蛋白表达,

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    这里我们可以设置差异表达的倍数,默认的数值是2倍。

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    接下来我们可以选择数据集合,我们默认全选,然后是下面红框里面需要输入基因名,我们输入STAT1,STAT2,STAT3,STAT4,STAT5A,STAT5B和STAT6(分子之间用tab键做区分,或者直接从excel中复制进来),下面就识别好了:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    接着我们单击提交submit query就好了,会打开一个新界面如下:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    我们看到第一个是OncoPrint,这张图在文章里面出现频率很高,可以直接用,展示的是这7个基因扩增(amplification)、缺失(deletion),mRNA表达以及蛋白表达上调和下调,truncation突变和misense突变的情况。

    接下来Cancer Types Summary是每个基因的变异占比:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    接下来是Mutual Exclusivity,说的是排他和共存,简单来理解就是情敌和朋友,这个对于我们研究这7个基因之间的调控关系是有很重要的参考意义的,如果两个基因老是一起出现,他俩之间总是有点暧昧的:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    在Plot这一栏里面:我们可以看到基因mRNA表达、拷贝数、DNA甲基化以及蛋白表达的关系:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    比如这里我们横轴选择mRNA表达,纵轴选择DNA甲基化,展示的就是STAT1基因mRNA表达与DNA甲基化的相关性,我们看到pearson和spearman相关性系数是-0.46和-0.59,也就是负相关,说明DNA甲基化可能是导致STAT1低表达的原因之一,后面我们在研究STAT1低表达时就可以考虑DNA甲基化对其调控的影响了。

    下面我们看共表达co-expression:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    这里分别展示在TCGA的这组肝癌数据中与每个基因之间共表达的分子,可以选择正相关,也可以选择负相关。这个数据可以帮我们建立以查询基因为主题的共表达网络network图(前提是在TCGA这组数据里面),当然有了这些基因的信息还可以做功能注释,比如Pathway分析,GO分析等,从而明确STAT可能参与的功能和信号通路。另外,我们知道STAT是转录因子,再结合靶基因预测还可以寻找潜在的靶基因。所以这个数据非常有用。

    下面我们看Survival:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    这里展示的是7个基因的组合与肝癌病人预后的关系,有OS和DFS这两个指标,这站图在文章里面出现的频率也很高,可以直接用。

    最后我们看Network:

    8d8fcb5fcb43a43abf14187a5fc459e6.gif

    这里展示了这7个基因与50个基因以及药物的Network,结果可以导出到cytoscape。

    展开全文
  • TCGA数据库

    千次阅读 2019-09-03 20:55:30
    1 TCGA Code Table 1.1 Data Levels Level Number Definition 1 Raw data 2 Normalized data 3 Aggregated data 4 Regions of Interest data 0 No Level 1.2 ...

    1 TCGA Code Table

    1.1 Data Levels

    Level Number Definition
    1 Raw data
    2 Normalized data
    3 Aggregated data
    4 Regions of Interest data
    0 No Level

    1.2 Portion / Analyte Codes

    Code Definition
    D DNA
    G Whole Genome Amplification (WGA) produced using GenomePlex (Rubicon) DNA
    H mirVana RNA (Allprep DNA) produced by hybrid protocol
    R RNA
    T Total RNA
    W Whole Genome Amplification (WGA) produced using Repli-G (Qiagen) DNA
    X Whole Genome Amplification (WGA) produced using Repli-G X (Qiagen) DNA (2nd Reaction)

    1.3 Sample Type Codes

    Code Definition
    01 Primary Solid Tumor(原发性实体肿瘤)
    02 Recurrent Solid Tumor(复发性实体肿瘤)
    03 Primary Blood Derived Cancer - Peripheral Blood(原发性血源性癌症 - 外周血)
    04 Recurrent Blood Derived Cancer - Bone Marrow(复发性血源性癌症 - 骨髓)
    05 Additional - New Primary
    06 Metastatic(转移肿瘤)
    07 Additional Metastatic
    08 Human Tumor Original Cells(肿瘤原始细胞)
    09 Primary Blood Derived Cancer - Bone Marrow(原发性血源性癌 - 骨髓)
    10 Blood Derived Normal
    11 Solid Tissue Normal(癌旁组织)

    1.4 TCGA Study Abbreviations

    Study Abbreviation Study Name
    LAML Acute Myeloid Leukemia
    ACC Adrenocortical carcinoma
    BLCA Bladder Urothelial Carcinoma
    LGG Brain Lower Grade Glioma
    BRCA Breast invasive carcinoma
    CESC Cervical squamous cell carcinoma and endocervical adenocarcinoma
    CHOL Cholangiocarcinoma
    LCML Chronic Myelogenous Leukemia
    COAD Colon adenocarcinoma
    CNTL Controls
    ESCA Esophageal carcinoma
    FPPP FFPE Pilot Phase II
    GBM Glioblastoma multiforme
    HNSC Head and Neck squamous cell carcinoma
    KICH Kidney Chromophobe
    KIRC Kidney renal clear cell carcinoma
    KIRP Kidney renal papillary cell carcinoma
    LIHC Liver hepatocellular carcinoma
    LUAD Lung adenocarcinoma
    LUSC Lung squamous cell carcinoma
    DLBC Lymphoid Neoplasm Diffuse Large B-cell Lymphoma
    MESO Mesothelioma
    MISC Miscellaneous
    OV Ovarian serous cystadenocarcinoma
    PAAD Pancreatic adenocarcinoma
    PCPG Pheochromocytoma and Paraganglioma
    PRAD Prostate adenocarcinoma
    READ Rectum adenocarcinoma
    SARC Sarcoma
    SKCM Skin Cutaneous Melanoma
    STAD Stomach adenocarcinoma
    TGCT Testicular Germ Cell Tumors
    THYM Thymoma
    THCA Thyroid carcinoma
    UCS Uterine Carcinosarcoma
    UCEC Uterine Corpus Endometrial Carcinoma
    UVM Uveal Melanoma
    • 01A:癌症组织
    • 01B:福尔马林浸泡样品
    • 02A:复发组织
    • 06A:转移组织

    一般只留下01A样品的肿瘤组织样品做差异表达和生存分析并且对于重复样品,随机选取一个

    参考文章:

    TCGA官网

    2 表达信息VS临床信息

    • cases表示患者个数
    • files表示样品个数

    TCGA数据库不是所有患者都有表达信息,有的患者只有临床信息而没有表达信息。如TCGA-LUAD数据集,RNA-seq-data中有515个cases594个files。而clinical-data却有522个cases
    在这里插入图片描述
    在这里插入图片描述

    3 TCGA样本命名详解

    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07
    • TCGA-A6-6650-01B-02R-A277-07

    一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个。

    TCGA-A6-6650-01A-11R-1774-07
    TCGA Project 所有TCGA样本名均以这个开头
    A6 Tissue source site 组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织
    6650 Participant 参与者编号
    01 Sample 编号01~09为癌症组织,10~19表示正常对照
    A Vial 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据
    11 Portion 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
    R Analyte 分析的分子类型,对应RNA
    1774 Plate 在一系列96孔板中的顺序,值大表示制板越晚
    07 Center 测序或鉴定中心编码

    所以现在看这三个样本:
    TCGA-A6-6650-01A-11R-1774-07
    TCGA-A6-6650-01A-11R-A278-07
    TCGA-A6-6650-01B-02R-A277-07
    其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板
    理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07

    先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

    1. 对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高
    2. 如果Analyte相同,那就选择Portion和/或Plate值更大的。 所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚。

    然后是cBioPortal中的处理方式

    • 随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大。

    参考文章:

    TCGA样本命名详解

    本博客内容将同步更新到个人微信公众号生信玩家。欢迎大家关注~~~
    在这里插入图片描述

    展开全文
  • TCGA数据库挖掘.mp4

    2021-06-18 17:17:25
    TCGA数据库挖掘.mp4
  • 原标题:开启数据挖掘之门:TCGA数据库入门必看! 喜欢我的都关注我了~在肿瘤研究领域,相信没有人不知道The Cancer Genome Atlas (TCGA)。TCGA是美国国家癌症研究所(National Cancer Institute)和美国人类基因组...

    原标题:开启数据挖掘之门:TCGA数据库入门必看!

    dd9d5afc2bd8b3579fe5efafcd332bc2.gif

    喜欢我的都关注我了~

    在肿瘤研究领域,相信没有人不知道The Cancer Genome Atlas (TCGA)。

    TCGA是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。

    作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上(覆盖33种癌症类型,超过30000例肿瘤样本,超过20000个基因的表达信息),还体现在多组学数据(包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等)。

    TCGA作为肿瘤研究中资源最丰富,数据最权威的数据库,自然受到广大科研工作者的深入挖掘。无数的文章脱胎于通过挖掘TCGA数据,同时也促使了不计其数的衍生的数据库用于挖掘可视化TCGA这个巨大的资源。

    TCGA相关数据库

    1

    综合型数据库

    在这些不计其数的数据库中,有那么几个数据库由于其超强实用的功能,为肿瘤研究者青睐,受到普遍关注。

    ➱TCGA官方网站

    官网https://portal.gdc.cancer.gov/

    最权威的网站资源(数据可以无代码下载,当数据较大时也可以通过GDCRNAtools工具包下载)

    ➱cBioPortal

    官网http://www.cbioportal.org/

    一个基于TCGA数据库,进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。业界人称“TCGA数据挖掘终结者”。(数据可以无代码下载,也可以通过CGDSR工具包下载)

    ➱Oncomine

    官网

    https://www.oncomine.org/resource/login.html

    目前最大的癌症基因芯片数据库,里面不仅包含TCGA数据,还包括了其他有关的肿瘤的数据信息,非常全面(对于普通免费用户而言,里面的TCGA数据不支持批量下载,但是其他项目中肿瘤数据可以链接到GEO数据库中下载)

    ➱GEPIA

    官网http://gepia.cancer-pku.cn/

    国人开发的TCGA数据库可视化网站,方便快速可视化肿瘤与癌旁组织的基因表达量

    ➱UCSC Xena

    官网https://xena.ucsc.edu/

    集合TCGA,ICGC(International Cancer Genome Consortium/国际癌症基因组联合体)资源大成的数据库(数据可以无代码下载,也可以通过UCSCXenaTools工具包下载)

    ➱Broad GDAC Firehose

    官网http://gdac.broadinstitute.org/

    最人性化的TCGAR语言工具包下载,下文实例讲解)

    2

    专一型数据库

    除上文的综合型数据库之外,还包括一些特异分析TCGA某一数据的数据库,比如:

    ➱TCGA生存分析oncolnc

    官网http://www.oncolnc.org/

    ➱基于TCGA的蛋白芯片分析神器TCPA

    官网http://www.tcpaportal.org/tcpa/

    ➱基于TCGA的甲基化神器mexpress

    官网http://mexpress.be/

    接下来,本文通过RTCGAToolbox这个R语言包/数据下载和分析操作简便,向大家演示怎样从Broad GDAC Firehose下载TCGA数据为自己所用。

    RTCGAToolbox操作TCGA数据

    因为TCGA数据量庞大,分析的手段多样复杂,并非所有人都可以轻松的下载与管理数据库中的数据。RTCGAToolbox是Firehose项目科学家专门开发供科研工作者下载感兴趣的TCGA level 3/4数据(将原始数据预处理后的数据量小很多的数据)的一个工具包。该包主要包括以下几个功能:

    查询Firehose项目提供的TCGA数据的信息

    下载数据

    后续数据分析与可视化

    安装与加载RTCGAToolbox

    81788cdcc126b82506103f79fa05631a.png

    1

    查询Firehose中TCGA数据

    ⑴ 查看肿瘤类型(以下都是肿瘤简称)

    d30871481e1dce44287791448471be9c.png

    ⑵ 查看数据库中的更新情况

    (每个日期代表着一批数据,因为TCGA数据在不断的测序更新,所以可得到的数据也在不断的更新,最新版的结果就会覆盖所有TCGA中的样本)

    c75f3e4b01538f55d989340a746c993e.png

    RTCGAToolbox可下载的数据类型包括:

    RNAseqGene 来源于RNA测序的基因表达数据,原始数据

    Clinical 临床信息,包括样本的分期,生存信息,年龄,性别等

    miRNASeqGene miRNA测序数据

    RNAseq2GeneNorm RNA测序的基因表达数据,标准化处理后的值

    CNASNP 体细胞拷贝数变异数据

    CNVSNP 生殖细胞拷贝数变异数据

    CNASeq 体细胞拷贝数测序数据

    CNACGH CGH芯片测序的体细胞拷贝数据

    Methylation 芯片分析的甲基化数据

    Mutation 基因水平的突变数据

    mRNAArray 芯片分析的基因表达数据

    miRNAArray 芯片分析的miRNA表达数据

    RPPAArray 蛋白质芯片测序结果

    2

    下载TCGA数据

    ⑴ 下载结肠癌数据

    (你可以下载自己感兴趣的任何肿瘤类型,此处自己选择结肠癌)

    4d6dc7fd46317c7471803ed2da2bdfb1.png

    代码中:

    getFirehoseData() 函数是该包最核心的函数。通过此函数,我们可以从Firehose中下载我们感兴趣的数据

    dataset="COAD" 选择自己感兴趣的肿瘤类型

    runDate="20160128" 数据的版本号

    forceDownload=TRUE 设置分析的时候重新下载数据

    clinical=TRUE 获临床数据(临床数据默认值TRUE,其他数据类型默认值FALSE)

    Mutation=TRUE 获取突变数据

    当然,你可以选择任何自己感兴趣的数据类型下载,此处仅下载结肠癌的临床信息与突变数据。(但是不是所有的TCGA数据在Firehose中的数据都可以下载,有的数据还是需要权限,具体可以下载的数据列表如下图,最新版的可供下载的数据信息)

    7ba1b083467d8c9bb4dc7f7b89ad1d3f.png

    ⑵ 数据下载结果

    af97a4a82625afd8f03844f065233d1a.png

    可以看到下载的数据中包含三种类型的数据:临床信息,体细胞拷贝数变化情况,基因突变信息(GISTIC:用于在肿瘤的众多SCNA/somatic copy number alteration中选择出具有统计意义的SCNA的方法)

    数据简单分析与可视化

    1

    提取下载的结肠癌数据中的临床数据子集

    (同理,可以提取自己感兴趣的任何数据)

    RTCGAToolbox不仅可以下载的数据,还贴心的提供了5个基本的数据分析工具:

    差异表达分析 比较肿瘤组织与癌旁组织的基因表达量,且根据不同的平台会自动选择合适的分析工具

    基因表达量与拷贝数的相关性分析

    基因突变频率分析

    生存分析

    数据的简单可视化报告

    因为本例中,我们仅仅是下载了数据量比较小的结肠癌的突变数据与临床数据,所以可以操作的分析局限于基因的突变频率与基于临床资料的简单生存分析

    2

    基因突变频率分析

    793949f55bddf36f3898be40e94e7e97.png

    3

    查看生存情况

    15e7beb30b99d5496eb8bc7475c8a78c.png

    RTCGAToolbox给我们提供了一条下载,管理TCGA数据相对便捷的方式。你自己也可以结合其他工具包来灵活操作TCGA的数据,比如可以用RTCGAToolbox下载数据,但是用suivival工具包来更灵活做生存分析,用ggplot2来绘制火山图,热图,柱状图等。(当然,RTCGAToolbox自带的数据分析工具也很强大,做的图一样美观,以下图都是该包可视化分析的图)

    e709b72fc9c6a14483716af67b0bb105.png

    RTCGAToolbox可以通过一个函数便捷的完成所有数据的下载,包括下载并解压缩,读入R环境,非常方便。另外,下载的各种类型的数据会被自动封装在一个文件中,比如上文中的COADData数据包括三种数据类型。

    本文,主要分为两部分介绍了TCGA数据库。第一部分,向大家介绍了一些基于TCGA数据库衍生的一些在肿瘤研究领域受到普遍认可与欢迎的数据库,包括综合性的可下载数据的数据库与一些专一性分析的数据库;第二部分,向大家演示怎样通过RTCGAToolbox这个R语言工具包随心所欲快速下载与分析自己想要的数据。相信大家通过本文的阅读,都可以轻松迈过TCGA数据下载这一步,灵活的操作自己的数据为自己所用!

    若对本文内容有任何疑问,欢迎交流!

    征 稿 启 事

    「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳。

    “医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。返回搜狐,查看更多

    责任编辑:

    展开全文
  • TCGA数据库详解

    万次阅读 多人点赞 2018-10-30 16:26:06
    TCGA(The cancer genome atlas,癌症基因组图谱)由National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的...

    TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

    TCGA官网:https://portal.gdc.cancer.gov/

    1. 数据等级和分类:

    TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。这些数据可分为三个级别:

    Level 1: 原始的测序数据(fasta,fastq等)

    Level 2:比对好的bam文件

    Level 3:为经过处理及标准化的数据


    2.如何寻找数据:

    2.1 如何进入Project

    如图1所示,点击以下五个标注的地方都可以找到自己需要的Project。1会把所有的Project全部列出,然后点击自己需要的ProjectID;2会列出所有的case,在左侧的导航栏可以选择自己需要的条件,然后点击自己需要的ProjectID;3可以直接搜索ProjectID;4可以直接点击身体器官进入对应的一个或多个Project,然后点击自己需要的ProjectID;5和4是一样的,只不过变成了文字。进入某一个Project的页面如图2(Project ID为TCGA-BRCA)所示。

     

    2.2 如何选择数据

    如图2所示,从自己所需数据类型的Files属性点进去,也可以点击右上角的FILES,然后通过左侧导航栏筛选。如图3、图4所示,导航栏分为Cases和Files两部分,Cases的筛选条件有Case ID、Primary Site、Program、Project、Disease Type、Gender、Age at Diagnosis、Vital Status、Days to Death、Race、Ethnicity;Files的筛选条件有Data Category、Data Type、Experimental Strategy、Workflow Type、Data Format、Platform、Access。

    在网页上方会显示出勾选条件,如图5所示,选择条件是TCGA-BRCA中用MuTect2 call出的原始体细胞变异的SNV文件,文件数量是1080个,然后我们可以通过购物车按钮单个添加或全部添加到我们的下载清单中,下载清单可以通过页面右上角的Cart查看。

    3.如何下载数据:

    TCGA中的数据分为controlled和open,controlled数据需要申请账号才可以下载,open数据不需要账号。数据下载支持本地下载和官方下载工具下载,官方下载工具支持Windows、Ubuntu、OSX和CentOS系统。

    官方下载工具下载页面:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

    点开Cart页面后,如图6所示,可以点击Download=>Cart本地下载,也可以下载Manifest文件后用官方下载工具下载,如果数据是controlled并且用官方下载工具下载,需要下载token文件作为身份验证,下载方式如图7所示。

    Centos命令行下载示例

    gdc-client download -t gdc-user-token.2018-10-25T07_07_18.260Z.txt -m gdc_manifest_20181025_070650.txt

    展开全文
  • TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。但是,如果你是刚入门的新手,不用担心,跟着我们的系列推文,...
  • 原标题:TCGA数据库挖掘分析,这个网站好用到爆!关于数据库挖掘和分析,我们分别介绍过GEO和TCGA数据分析的多个工具了(如gene vesitigator,GEO2R,KM plotter,oncolnc,CRN等等),也准备了5分生信文章的还原(免费...
  • TCGA数据库的利用(二)—— 数据处理!

    万次阅读 多人点赞 2019-05-13 14:17:30
    上一篇文章介绍的是关于TCGA数据的下载,如果不太清楚怎么下载数据的读者请参考这篇文章:TCGA数据库的利用(一)—— 数据下载!,而本篇文章主要介绍一下数据的处理过程,因为数据下载之后都是单一样本存储而且样本...
  • 最近有两年前的学生过来寻求合作,让我想想给我tcga数据库过万病人的原始测序数据,我可以做什么方法学的创新。我想把这个问题抛给粉丝:假设给你tcga数据库过万病人的原始测序数据你可以做什么???大家应该是都...
  • TCGA数据库的基因表达情况分析

    万次阅读 2019-01-11 10:04:28
    TCGA数据库的基因表达情况分析 数据内容 TGGA、GTEX数据库下载的数据内容形式如下: A:样品 B:表达水平 C:样品类型(正常组织和癌组织) D:数据源 乳腺癌的基因表达情况 以乳腺癌为例: 筛选出ATGC的乳腺癌...
  • 利用UCSC Xena做TCGA数据库的生存曲线分析 UCSC的分析入口 打开UCSC Xena网站:UCSC Xena。(网页速度可能不太稳定) 点击界面的GET STARTED,在打开的界面右上角点Launch Xena Browser,界面如图,进入分析界面。 ...
  • TCGA数据库的利用(一)—— 数据下载! TCGA数据库的利用(二)—— 数据处理! 但在实际的操作中,也发现了第二篇文章中的一些小问题,因此将其转载到公众号后稍加改进,但是基因注释这部分中,第三方包的安装方法...
  • TCGA数据库甲基化数据的下载1、登陆TCGA官网2、选择下载DNA Methylation3、选择癌症4、添加到cart5、点开cart就可以下载了然后把得到cart文件和gdc-manifest文件放在同一个文件夹,然后按住shif键同时点击鼠标右键,...
  • 之前我们介绍过一些用来预测基因在肿瘤当中表达情况的数据库。例如,GEPIA、UALCAN这些的。这些的数据库主要是通过输入目标基因,同时点击想要进行分析的模块就可以返回相关的结果。如果厌倦了点点点的话,那可以...
  • 今天更新TCGA数据库的利用系列第三篇文章,在对TCGA数据进行挖掘时,通常会筛选出来一些表达量显著异常的基因,作为后续研究的对象,这个筛选过程叫做差异分析;本篇文章将分为三大模块对差异分析进行介绍关于差异...
  • TCGA数据库的利用(一)—— 数据下载!

    万次阅读 多人点赞 2019-04-20 12:05:08
    前序还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽...
  • TCGA数据库的挖掘工具层出不穷,从数据下载到数据挖掘,这里小编给大家整理一份官网的数据挖掘工具大全:1. http://www.cancerimagingarchive.net/ The Cancer Imaging Archive (TCIA) TCIA存储了TCGA病人的影像学...
  • TCGA数据库简介

    千次阅读 2019-06-09 19:56:00
    欢迎关注”生信修炼手册”!TCGA全称如下The Cancer Genome Atlas是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 ...
  • 癌症基因组图谱(The Cancer Genome Atlas,...于是,GEPIA等基于TCGA数据库的可视化网络平台给我们带了极大的便利,能够简单快速的预测或分析绘图。今天我又为大家带来一款2020年最新的基于TCGA数据库的网络分析工具.
  • 上周收到一条求助信息:“如何用TCGA数据库分析LINC00152在卵巢癌与正常组织的的表达差异?” 所以以这个题目为记录分析过程如下: 一、下载数据 a)进入网站https://cancergenome.nih.gov/ 网页截图如下: ...
  • 背景介绍TCGA数据库作为癌症研究的首选公共数据库,整合了各种癌症的多组学数据,主要包含DNA、mRNA、miRNA、total RNA sequencing以及甲基化、拷贝数等多种数据类型,今天小编给大家带来的是一个针对TCGA多种数据...
  • TCGA 数据库下载使用

    2021-01-05 16:06:44
    先存着:链接
  • 本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/-amtbxvk0mC2Nv-bwt1BeQ 2018...文章对TCGA中33种癌症,超过10,000个肿瘤样本进行了免疫原性分析,将所有肿瘤分成6种免疫亚型,即:wound he...
  • TCGA数据库的学习-系列一

    千次阅读 2019-04-26 11:19:47
    以前也只是知道TCGA是权威癌症数据库,平时的工作也只是在里面找下癌症的热点基因和位点,以及看下文章。 原来还可以下载TCGA数据库,做一些其他的事,比如:拿这些数据进行自己研究结论的论证,或者是全面比较...
  • To get started simply input either a Tier 3 TCGA mRNA, miRNA, or MiTranscriptome beta lncRNA. 最权威,https://portal.gdc.cancer.gov/ 特色:TCGA官网上是这么介绍的:这是一个交互的数据系统,可以供研究者...
  • The Cancer Genome Atlas (TCGA) cancer genomics dataset includes over 10,000 tumor-normal exome pairs across 33 different cancer types, in total >400 TB of raw data files requiring analysis. Here we...
  • <p>TCGA样品名:TCGA-H6-8124-11A-01R-2404-07;TCGA-H6-8124-01A-01R-2404-07 按“-”分隔,第四组11A,1开头为正常样品,01A,0开头为肿瘤样品。选择0开头样品。 <p>#按“-”分隔&...
  • TCGA数据下载有很多方式,比如说使用生信人小工具下载,比如说使用R语言下载等等,但是在这里我想说的如何使用TCGA官网下载数据。(在官网下载数据的一大优势在哪里呢?这里我不做过多的解释) 首先,先进入TCGA官网...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 942
精华内容 376
关键字:

tcga数据库