精华内容
下载资源
问答
  • TCGA样本编号

    千次阅读 2018-11-29 20:19:48
    TCGA常用的样本编号为:TCGA - 06 - 0681 - 11A - 41R - A36H - 07 最为重要的是标黄的两处。 第一处为样本类型,前面的数字1-9为肿瘤,10-29为正常或癌旁样本。字母代表质量,A为佳,B次之。 第二处为处理样本时...

    TCGA样本编号为:TCGA - A6 - 6650 - 01A - 11R - 1774 - 07

    详解:
    TCGA:Project 项目名称
    A6:TSS 组织来源代码
    6650:Participant 科研参与者
    01A:样本类型,前面的数字1-9为肿瘤,10-29为正常或癌旁样本。字母代表质量,A为佳,B次之。
    11R:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用。R为分析的分子类型。
    174:Plate, 在一系列96孔板中的顺序,值大表示制板越晚。即为去除batch effect时的batch依据
    07:Center, 测序或鉴定中心编码.

    另附:TCGA中数据下载

    ps:各种癌症缩写
    ACC 腺样囊性癌
    BLCA 膀胱癌
    BRCA 乳腺癌
    CESC 宫颈鳞状细胞癌
    CHOL 胆癌
    COAD 结肠癌
    DLBC 淋巴癌
    ESCA 食管癌
    GBMLGG 脑癌
    HNSC 头颈部鳞癌
    KICH 嫌色细胞癌
    KIRC 肾透明细胞癌
    KIRP 乳头状肾细胞癌
    LAML 骨髓癌
    LIHC 肝癌
    LUAD 肺腺癌
    LUSC 肺鳞状细胞癌
    MESO 胸膜癌
    OV 卵巢癌
    PAAD 胰腺癌
    PCPG 肾上腺癌
    PRAD 前列腺癌
    READ 直肠癌
    SARC 软组织癌
    SKCM 皮肤癌
    STAD 胃癌
    TGCT 睾丸癌
    THCA 甲状腺癌
    THYM 胸腺癌
    UCEC 子宫内膜癌
    UCS 子宫癌
    UVM 眼癌

    展开全文
  • TCGA样本命名详解

    万次阅读 多人点赞 2018-06-29 09:17:40
    TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6-6650-01A-11R-A278-07 TCGA-A6-6650-01B-02R-A277-07 大家知道一般在做TCGA数据分析的时候...

    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07
    • TCGA-A6-6650-01B-02R-A277-07

    大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

    在取舍之前,当然要先搞清楚样本命名方式:

    我们将此示图以”-“分割,具体拆开解读一下:

    • TCGA:Project, 所有TCGA样本名均以这个开头,标志
    • A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见:
      https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
    • 6650:Participant, 参与者编号
    • 01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下:
      https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
      所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字
    • A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:

    所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

    一个借鉴的图片:
    这里写图片描述
    更多内容详见:
    https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
    http://docs.cavatica.org/docs/tcga-grch38-metadata

    所以现在看这三个样本:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07
    • TCGA-A6-6650-01B-02R-A277-07

    其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

    理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

    • TCGA-A6-6650-01A-11R-1774-07
    • TCGA-A6-6650-01A-11R-A278-07

    先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

    1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。
    2、如果Analyte相同,那就选择Portion和/或Plate值更大的。
    所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚:
    https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
    虽然看起来可能这么选比较准确,但是稍微有些麻烦~

    然后是cBioPortal中的处理方式:

    随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。

    所以如果遇到需要选择的时候,就仁者见仁了,建议天秤座的小伙伴们也不要太纠结到底哪个最好,当然如果你有不同的意见和看法,欢迎交流讨论!

    展开全文
  • TCGA肿瘤样本基因信息库(一)

    千次阅读 2019-07-03 11:37:27
    最近开始分析TCGA这个数据库中的一些... TCGA中的样本来源和编号 TCGA中各样本的突变类型 肿瘤的突变频率举例 1. TCGA的全称和目的 全称- The Cancer Genome Atlas, 译作癌症基因组图谱,是美国国立...

    最近开始分析TCGA这个数据库中的一些SNV信息(single nucleotide variation).

    先整理出第一篇知识列表,如下:

    1. TCGA的全称和目的

    2. TCGA中的样本来源和编号

    3. TCGA中各样本的突变类型

    4. 肿瘤的突变频率举例

    1. TCGA的全称和目的

    全称- The Cancer Genome Atlas, 译作癌症基因组图谱,是美国国立癌症研究所(NCI,National Cancer Institute)和美国国立人类基因组研究所(NHGIRI,National Human Genome Research Institute)启动的肿瘤研究项目。主要是通过大规模的基因组测序和分析技术去研究癌症致病的分子基础,提高我们对癌症的诊断,治疗和预防能力。

    2. TCGA中的样本来源和编号

    TCGA中的样本来自美国以及全世界的各个医院,主要由亚利桑那州,菲尼克斯的International Genomics Consortium (IGC) 和俄亥俄州的哥伦布市的Nationwide Children's Hospital (NCH) 的生物标本核心资源库(Biospecimen Core Resource ,BCR)提供,包含了37种肿瘤类型,总样本接近15000例子。

    初期样本编号采用一种 7个字段的barcode进行管理

    barcode.png

    第一个字段是项目简称,都是TCGA

    第二个字段是TSS号, Tissue source site, 指代肿瘤组织来源, 参考 

    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

    第三个字段是参与人的编号,即肿瘤病人编号

    第四个字段是样本类型,主要分为正常组织和实体瘤组织,01-09是肿瘤, 10-19是正常, 20-29是对照样本, https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/

    第五个字段是将一块组织切分后的每一小部分的组织的编号

    第六个字段plate是该块样品测序的时候在测序仪器的点样孔的位置

    第七个字段是进行测序和样品特征分析的单位编号

    3. TCGA中各样本的突变类型

    突变类型主要由点突变(SNV/INDEL),CNV(也叫做CNA, Copy number alterations/variations), SV(gene fusion, 基因融合), 融合参考 https://bbs.huaweicloud.com/blogs/5e9159221fc111e9bd5a7ca23e93a891

    CNV,将会在下一篇博客中介绍。 

    4. 肿瘤的突变频率举例

    已知一个人的基因组有3137161264(hg19基因组), 在肺腺癌病人中EGFR突变比较常见, 那么患同一位点突变的比例有多少呢?

    这个问题可以直接统计TCGA-LUAD(LUAD是Lung adenocarcinoma的简称)中的数据得到。

    EGFR的基因全长为3363bp, 编码的氨基酸序列长度为1120 aa.  hg19坐标: chr7:55,086,725-55,275,031(+);  hg38坐标:chr7:55019278-55205617(+)

    在chr7:55191822 这个位点发生c.2573T>G   突变的人数比例实际上却只有1.81%, 当然这实际上是很高的数值了, 这个突变发生后导致第858个aa发生了变化,正常是L氨基酸,突变后编码的氨基酸是R, 所以叫做L858R突变。

    当然后来综合更多的肿瘤数据集,发现这个点的突变在肺腺癌人群中的比例为4.18%(112/2678), 参考

    http://www.cbioportal.org/results/mutations?Action=Submit&RPPA_SCORE_THRESHOLD=2.0&Z_SCORE_THRESHOLD=2.0&cancer_study_list=luad_broad%2Cluad_mskcc_2015%2Cluad_tcga_pub%2Cluad_tcga_pan_can_atlas_2018%2Cluad_tcga%2Cluad_tsp%2Clung_msk_2017&case_set_id=all&data_priority=0&gene_list=EGFR&geneset_list=%20&tab_index=tab_visualize

     当然,在这个突变位点附近还有一个T790M突变也常在肺癌病人中发现。

    关于TCGA的常见知识先总结到这里。

    来源:华为云社区  作者:benymorre

    展开全文
  • TCGA数据库的利用(二)—— 数据处理!

    万次阅读 多人点赞 2019-05-13 14:17:30
    ,而本篇文章主要介绍一下数据的处理过程,因为数据下载之后都是单一样本存储而且样本名称都是以非规则性超长字符命名,进行数据分析之前需要把样本名称转化为TCGA样本编号,例如这种形式的:TCGA-A8-A07I-01A-11R-...

    上一篇文章介绍的是关于TCGA数据的下载,如果不太清楚怎么下载数据的读者请参考这篇文章:TCGA数据库的利用(一)—— 数据下载!,而本篇文章主要介绍一下数据的处理过程,因为数据下载之后都是单一样本存储而且样本名称都是以非规则性超长字符命名,进行数据分析之前需要把样本名称转化为TCGA样本编号,例如这种形式的:TCGA-A8-A07I-01A-11R-A00Z-07;这里我以乳腺癌的RNA-seq数据作为样例,从数据库中下载了200个乳腺癌样本,每个样本中都含6万多个基因的表达数据。

    样本名称转化为TCGA样本编号

    数据下载之后如下,每个样本有一个文件夹,里面都会有一个压缩包,解压后会生成一个txt文本,里面含有我们需要的数据;

    Snipaste_2019-05-11_23-24-53.png

    把每个压缩包的名称变成TCGA样本编号需要借助我们之前从网站下载数据相应的json文件:TCGA数据库的利用(一)—— 数据下载!json文件打开后,会发现每个样本名称跟它的TCGA样本编号被一个大括号所包含,形成一一对应的关系;

    Snipaste_2019-05-11_23-25-33.png

    这里我就利用了python脚本把样本名与TCGA样本编号建立一个字典,然后进行逐一修改,

    Snipaste_2019-05-12_07-28-24.png

    修改后的结果如下(注意:修改后的文件还是一个以.gz结尾的压缩包,这里只是修改了前面的名称而已):

    Snipaste_2019-05-11_23-27-24.png

    数据合并

    把下载的所有样本名称转化为TCGA样本编号之后,就需要进行数据整合,把所有样本数据整合到一个文件中;

    这里先创建一个空矩阵作为公共矩阵,利用R语言中的gzfile函数读取第一个样本压缩包里面的数据转化为一个二维矩阵,TCGA样本编号设置为数据的列名,基因的ensembl编号设置为数据的行名;

    Snipaste_2019-05-12_23-14-08.png

    把这个二维矩阵赋给那个公共矩阵,随后的样本数据写一个for循环,读取方式跟第一个相同,不同的是这里创建好的二维矩阵不是赋给公公矩阵,而是以第一列为参照列与前面合成的公共矩阵进行合并,最终可以把最后的矩阵写入一个csv文件夹中;

    数据合并结果如下:

    Snipaste_2019-05-13_13-52-30.png

    基因注释

    这一步是把行名为基因的ensembl编号转化为基因官方id,这里利用的是R程序包clusterProfiler和org.Hs.eg.db(这种注释方法会导致注释的基因大大减少):

    Snipaste_2019-05-11_23-17-12.png

    以上使用的R程序包基本上都需要下载,R语言自身没有,下载方式参照下面的两行代码(把里面的包的名称换成自己需要的名称即可)

    Snipaste_2019-05-11_23-21-54.png

    最终处理后的数据如下,接下来我们既可以正常地进行分析了,最好在分析之前把处理好的数据备份一下防止数据损坏。

    Snipaste_2019-05-13_13-54-58.png

    以上涉及的python和R语言代码的完整版,获取方式为:关注微信公众号:小张Python,后台回复关键字  TCGA处理  即可。TCGA系列的下一篇文章将介绍怎么利用程序包limma、edgeR和DESeq2作差异分析,想了解的读者可以提前关注一下。

    展开全文
  • TCGA的样品编码方式(barcode)
  • TCGA数据库

    千次阅读 2019-09-03 20:55:30
    1 TCGA Code Table 1.1 Data Levels Level Number Definition 1 Raw data 2 Normalized data 3 Aggregated data 4 Regions of Interest data 0 No Level 1.2 ...
  • TCGA 命名详解

    2019-11-12 08:48:48
    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本...在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6...
  • TCGA_RNAseqMapping-源码

    2021-02-18 15:42:10
    TCGA_RNAseqMapping
  • TCGA-命名小介

    2019-11-14 10:41:35
    TCGA是生信或者医学行业常见的公共数据库,在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据: TCGA-A6-6650-01A-11R-1774-07 TCGA-A6-6650-01A-11R-A278-07 TCGA-A6-6650-01B-02R-A277-...
  • TCGA的RNA-seq数据id转换

    2019-04-12 18:38:06
    TCGA 的 RNA-seq 文件的 gene id 是 ENSEMBL 的 RNA id,使用的时候常常需要转化成 gene symbol。此文档介绍了id转换的方法
  • 例如,此请求将下载旧版拷贝编号分段文件及其关联的MAGE-TAB元数据文件:(你可以点开下面的连接,这个就是TCGA的一个文件,TCGA上每一个文件都有一个连接,我们可以直接根据连接下载文件。仔细看看这个连接有什么...
  • - 当我们TCGA官方下载数据miRNA表达数据时,这些数据大多都位于多个文件夹下,而且有类似文件容易混淆。 - 说实话,R处理文件并没有perl好用,但并不代表不能处理 f1 <- list.files(pattern="isoforms....
  • 目录一、TCGA数据集介绍1.1 数据集介绍1.2 File介绍1.2.1 Data Category(数据类别)1.2.2 Data Type(数据类型)1.2.3 Experimental Strategy(实验策略)1.2.4 Workflow Type(工作流类型)1.2.5 Data Format...
  • 样本编号对应的样本名可以在后缀为id的文件中找到,其内容示意如下 第一列为family id, 第二列为individual Id, 样本所在的行数就是对应的编号。计算出样本间的亲缘关系之后,我们可以绘制如下所示的密度分布图,来...
  • 我们开发了一种深度学习方法,使用来自癌症基因组图谱项目 (TCGA) 的 32 种癌症类型的注释原发肿瘤的转录谱来识别原发部位。 此外,给定一个假定的起源组织,我们开发了模型来对 11 种原发性癌症类型的样本的分子...
  • 在TGCA数据库中一个患者至多对应两个样本,但在原始选区的时候,一共是有多个样本可以选取的,从这多个样本中选取阴性(癌旁组织)和阳性(癌组织)最好的那个,当然,如果只有阳性或阴性的话,那么至多只有1个样本...
  • 欢迎关注”生信修炼手册”!mutagene是一个肿瘤突变频谱数据库,从ICGA, TCGA等肿瘤项目中收集整理蛋白编码基因上的体细胞突变数据,分析识别对应的突变频谱,对应的文章发表在Nu...
  • 生物信息学数据库资源 {#database}

    万次阅读 2018-11-06 19:54:20
    TCGA 1000 GENOME ##前言 做数据分析常常会需要用到参考基因组和注释文件,还会需要分析公共数据,了解常见的生物信息学数据库资源也是非常有必要的!故本章首先介绍常用的参考基因组和注释文件,然后介绍生物...
  • 说来惭愧,感觉读到研究生,说来说去张口闭口也就是TCGA、GEO、ARRAYEXPRESS、GTEX数据库,感觉还不如一些临床医生自学生物信息学的,平常都没去探索一些新的数据库,这边做个记录.黑色部分代表我查到的简介,而红色...
  • EXCEL自动编号填充?个性化设置表格、单色输出以提高数据的录入效率? 利用科研上常用的函数自定义随机及有序生产新数据? 如何制作Excel数据透视表? 实验图表可按照“图型Graph类”、“照片Photo类”、“表格...
  • ID: 如果call出来的SNP存在于dbSNP数据库里,就会显示相应的dbSNP里的rs编号。 REF和REF: 在这个变异位点处,参考基因组中所对应的碱基和研究对象基因组中所对应的碱基。 QUAL: 可以理解为所call出来的变异...
  • 融合基因数据库大全

    2018-11-15 19:12:00
    通过PRADA这款软件对TCGA中肿瘤的RNA-seq数据进行分析, 过滤和整理,就得到了一个可行度较高的融合基因列表,网址如下 http://www.tumorfusions.org/ 由于是利用肿瘤样本进行的分析,所以每个融合基因都提供了对应的...
  • 编号 内容 简介 01 预习Linux基础 预付后提供学习视频 02 预习R基础 预付后提供学习视频 03 软件安装 预付后提供安装视频 11 转录组概述 转录组设计、应用、批次效应等 12 转录组分析流程简介 基于/不基于比对的...
  • 点击上方菜单栏中的pathology可进入到蛋白质的癌症相关研究,在这里可以查看不同肿瘤样品中蛋白的表达情况,该栏中数据整合了Atlas另一强大数据库,The Cancer Genome Atlas (TCGA),可查询各类肿瘤样本免疫组化...
  • TCIA-TCGA-OV 癌症CT影像数据 TCIA RIDER NEURO 癌症MRI影像数据 QIN Beast 乳腺癌MRI影像数据 图像数据 综合图像 Visual Genome 图像数据 Visual7w 图像数据 COCO 图像数据 SUFR 图像数据 ILSVRC 2014 训练数据...
  • BRAF蛋白V600E突变的影响

    千次阅读 2018-06-05 20:08:05
    经过一系列仔细审查,最终选择编号“4MNE的BRAF+MEK1蛋白质复合物”以及“4WO5的BRAF蛋白质单体”。 三、cBioPortal可视化 由于记录总数达到50046条,因此选择至少在两个样本中出现的突变,共计78种突变类型,转化成...

空空如也

空空如也

1 2 3
收藏数 46
精华内容 18
关键字:

tcga样本编号