精华内容
下载资源
问答
  • TCGA数据分析.mp4

    2021-06-18 17:14:29
    TCGA数据分析
  • 公众号“生信小课堂”TCGA数据分析课程:生物信息学教学我们的TCGA数据分析系列已经出过几期TCGA数据分析系列(一)TCGA数据分析系列(二):数据库之GEPIA2TCGA数据分析系列(二):UALCAN数据库TCGA数据分析系列...

    公众号“生信小课堂”

    TCGA数据分析课程:生物信息学教学

    我们的TCGA数据分析系列已经出过几期

    TCGA数据分析系列(一)

    TCGA数据分析系列(二):数据库之GEPIA2

    TCGA数据分析系列(二):UALCAN数据库

    TCGA数据分析系列(二):LinkedOmics

    TCGA数据下载与ID转换

    TCGA差异分析及ggplot作图验证

    TCGA数据分析系列之火山图

    之前我们已经得到了差异分析结果,接下来我们做差异基因的蛋白相互作用网络

    v2-ac4d4a5c660451fbf0399dc2404d76ff_b.jpg

    首先我们筛选adj.P.Val<0.01,logFC<-3和>3的基因,共有457个。接下来我们介绍两种方法进行蛋白相互作用网络的构建,并用cytoscape软件作图

    1 Metascape数据库

    http://metascape.org/gp/index.html#/main/step1

    打开网站,将基因集复制进去

    v2-4e4ef18b655a0d86912dceab9718845b_b.jpg

    物种选择人,点击Expression Analysis

    v2-3b9d16e16df744f0c5f9f92040d158f1_b.jpg

    运行一会后,出现黄色按钮即可

    v2-7f4ebbb74263c0c047796cc528d8b8d3_b.jpg

    这个网站不仅可以做蛋白相互作用分析,还可以富集分析,点击All in One Zip File可以下载所有分析结果和图,这里展示了富集分析中P值最小的前20个,值得一提的是,这个网站的富集分析吧所有的项目放在一起作图,包括Canonical Pathways, CORUM,GO Biological Processes,KEGG Pathway,Reactome Gene Sets

    v2-e6b4ee4f41b6daa83c1e9e8fdf5491c0_b.jpg

    还有通路之间的网络关系

    v2-0ee2f6975d55e87c1f0fc60798e2b09c_b.jpg

    下面就是今天的主角,蛋白相互作用网络

    v2-6a3db95b036d1da16eb1b4bc89a087b1_b.jpg

    PPI网络默认用了MCODE算法来识别网络的关键亚集,很多人选择hub基因就是通过这个方法选择

    另外每个MCODE亚集还有单独的富集分析结果显示,不过这个图是没有高清的图可以使用的。

    v2-ee17a34994e7d561a4c87648623416d8_b.jpg

    昨天组内课题汇报,也看到有人用这个网站做PPI分析,跟图里面一样,基因多的时候就都挤在一块了,那么有没有方法可以将图改变一下呢?

    可以看到箭头指的方向可以下载CYS文件,而这个文件就是大名鼎鼎的可视化软件cytoscape的格式

    v2-57f23ca5945670698af1b022604561c4_b.jpg

    我们下载后打开是这个样子的(需要提前安装cytoscape软件,百度搜索官网下载即可)

    v2-321ba466299ca1b63be6752d57ac9713_b.jpg

    选中第一个MCODE,点击上面这个箭头所指的按钮

    v2-5afd27591a92200659539113cd56d8f5_b.jpg

    这样我们就吧MCODE1新开了一个界面

    v2-feec1fa468b206ebe196fb5312bb7c06_b.jpg

    如图所示,就可以用自带的显示方式来显示MCODE1

    v2-7bacd47d805634daa0a6268fda7faa5f_b.jpg

    字母被挡到了怎么办呢,选择Label Position可以进行调节

    v2-44ccbdc76fb83b16da3e95ae7c16a905_b.jpg

    全部都选Center

    v2-ae28fdf5b9f8280ba1d8f9f370aa6e2e_b.jpg

    出来是这个样子

    v2-239b0bf65511d8027d7e8e553d70e25c_b.jpg

    再调整字体大小

    v2-8712922dce2c4f012851c79d2ecaef5f_b.jpg

    这样就好看多了

    v2-cc549868491ab4192d8d5e354182f1f1_b.jpg

    然还有其他很多展示方式可以选择,比如Circular

    v2-afdceaa94c8aa403e84a11ba1035476e_b.jpg

    出来是这个效果,其实跟刚刚的图是一样的,只是半径变大了,半径可是可以设置的

    v2-d68535904a84f6da22a4420c0d4b6f12_b.jpg

    再比如Radial

    v2-e5cefbfca59eb3e65be848c4e36100d1_b.jpg

    出来是这个效果

    v2-8df56ab5472a1503b7e23e1cb465271f_b.jpg

    2 STRING数据库

    https://string-db.org/

    打开网站,输入基因集

    v2-2391ee5edd1ee35c03fbaa099d755ce9_b.jpg

    选择物种

    v2-4fc5739bf60253576875f38e69dc53cf_b.jpg

    继续

    v2-f95741c7f8c06df10e153569463de7a2_b.jpg

    出来的效果

    v2-2700719278964ed7f567eaf73f572297_b.jpg

    去掉没有连线的基因

    v2-3793ae080b0046ca8f8f639dd7b982a7_b.jpg

    得到下图

    v2-f66ba29d145d1ceebe1b057720ac2ee9_b.jpg

    下载TSV格式的文件

    v2-dbe2295bdab97385eb23d4f42588612e_b.jpg

    拖到cytoscape软件中

    v2-459bf7002ade28485097096d01cfd71d_b.jpg

    打开是这样的

    v2-491daeb2a231a3d1c2469df1d7fa6705_b.jpg

    然后经过一步步调整,利用到cytoHubba和MCODE这两个插件得到下面的几张图。(这个过程比较复杂,实在不适合用文字和图来描述。其实我也之前也录过视频,在公众号的在线课程中的TCGA数据分析大全中有,点击阅读原文可直达)

    v2-f13cb76c249675854fd42170632405fd_b.jpg

    v2-8ba6b713aec4221f908bb0ff2ad6a634_b.jpg

    v2-b6ef41fc79fbf68a5513e100991018a3_b.jpg

    好了,蛋白相互作用网络就分享到这了。

    公众号“生信小课堂”

    TCGA数据分析课程:生物信息学教学

    展开全文
  • R语言:TCGA数据分析

    千次阅读 2016-08-13 12:44:09
    引言我最近在做TCGA数据分析,在处理中遇到的问题及其收获。主要包括: case ID 大小写处理 数据的匹配 涉及到的函数有:小写 tolower 大写 toupper 单一的局部匹配 grep 多个全局匹配 match 保留固定长度的字符 ...

    引言

    我最近在做TCGA数据分析,在处理中遇到的问题及其收获。主要包括:

    • case ID 大小写处理

    • 数据的匹配

    涉及到的函数有:

    小写

    • tolower

    大写

    • toupper

    单一的局部匹配

    • grep

    多个全局匹配

    • match

    保留固定长度的字符

    • substr

    大小写处理

    在RANseqGene中case ID 为大写的,而Clincial中为小写的。需要对case ID 做转换。

    方案一:大写变小写

    tolower(colnames(LUAD_RNAseqGene))

    方案二:小写变大写

    toupper(rownames(LUAD_Clinical))

    匹配

    grep

    在找tumor 的case ID 时,需要采用这个函数将所有的tumor 找出来。

    grep("\\.01A",colnames(LUAD_RNAseqGene))

    对于normal的查找类似处理。

    substr

    由于case ID 很长,我们只需要前面的12或16个字符来作为识别验证。

    substr(colnames(LUAD_Clinical),1,12) # 保留12位

    match

    RNA中映射到Clinical中,采用这个函数

    例子

    #定义a
    > a<-c(1,2,3,4)
    #定义b
    > b<-c(3,4,5,6,7)
    #匹配
    > match(a,b)  
    [1] NA NA  1  2  
    #a和b中共同的元素
    > a[-which(is.na(match(a,b)))]
    [1] 3 4
    #a和b中共同的元素
    > b[match(a,b)]
    [1] NA NA  3  4
    #a中有的元素而不在b中
    > a[is.na(match(a,b))]
    [1] 1 2

    注:match的结果长度与a保持一致,NA表示该位置元素不在b中,非NA表示该元素在b中的位置。

    展开全文
  • GEPIA(http://gepia.cancer-pku.cn/index.html)这个工具可以说是分析TCGA数据库数据分析工具中比较简单好用的工具了,包括生存分析,表达差异分析,相...

    GEPIA(http://gepia.cancer-pku.cn/index.html)这个工具可以说是分析TCGA数据库数据分析工具中比较简单好用的工具了,包括生存分析,表达差异分析,相关性分析等,现在,这个数据库又更新了新功能,那就是免疫细胞浸润评估,之前可能大家用TIMER2.0 (http://timer.cistrome.org/) 和CIBERSORT等工具,现在GEPIA也能做啦。我们先来看看一下。

    在老版本首页右上角有入口,不过,目前应该还是在测试中。

    进去后可以看见,该工具分析的流程图。方法是通过EPIC,其实,这个在TIMER2.0 中也有这个方法。

    一.介绍

    GEPIA(基因表达谱交互分析)是一个有价值和被高度引用的资源,用于基于TCGA和GTEx数据库中肿瘤和正常样本的基因表达分析。该工具提供了GEPIA2021,一个针对GEPIA的独立扩展,具有多重基于反卷积的分析。使用生物信息学工具EPIC将TCGA/GTEx中的每个样本工具解卷成7种细胞类型(B细胞、CD4 T细胞、CD8 T细胞、巨噬细胞、NK细胞、内皮细胞和癌症相关的成纤维细胞)。根据我们推断的每个RNA样本中的细胞比例,我们可以进行多个下游分析:

    下面介绍一下怎么使用。

    二.组分分析

    用交互式箱线图可视化每个单元格类型的比例。用户可以对细胞类型或TCGA/GTEx子数据集之间的比例进行定量比较(ANOVA)。

    根据你的研究,选择合适的数据集。点击plot就行啦。

    然后会得到各种细胞组分的比例。

    三.相关性分析

    同时可视化两种细胞类型的比例。用户可以根据皮尔逊相关系数进行定量比较。

    然后会得到2种免疫细胞的相关性结果图。

    四.细胞类型表达水平分析

    通过交互箱线图将选择的每个细胞类型的基因表达可视化,并进行细胞类型水平差异表达分析。与比例分析类似。

    输入要分析的基因会得到该基因在所选肿瘤中,各种免疫细胞中的表达水平。

    五.生存分析

    根据选择的细胞类型或子表达比例将样本分为两组。然后用生存数据绘制各组的Kaplan-Meier曲线。曲线间的统计差异可以通过log-rank检验来测量。

    上面就是该数据库更新的内容,在帮助页面中可以看到详细的文档、使用示例和常见的问题。以获得进一步的支持。如果觉得图片不好看,可以通过Plotly进行美化,在图形结果的右上角。

    展开全文
  • 欢迎关注”生信修炼手册”!Broad GDAC对TCGA的结果进行了整理和深入分析,相关的原始数据分析结果可以通过网页的方式进行查看和下载,网址如下http://gdac.broadi...

    欢迎关注”生信修炼手册”!

    Broad GDAC对TCGA的结果进行了整理和深入分析,相关的原始数据和分析结果可以通过网页的方式进行查看和下载,网址如下

    http://gdac.broadinstitute.org/

    点击Cases可以查看对应的样本信息,点击Data可以下载对应的结果文件,点击Browse可以通过FireBowse查看分析结果,网址如下

    http://firebrowse.org/

    以Adrenocortical carcinoma为例,在左侧的下拉框中选择对应的疾病,然后在右侧会看到如下所示的柱状图


    每个柱子代表了该疾病不同组学的数据,点击柱子可以下载对应的数据。左侧是详细的分析结果

    1. Clinical Analyses

    分析内容如下

    1. Aggregate AnalysisFeatures

    2. Correlate Clinical vs CopyNumber Arm

    3. Correlate Clinical vs CopyNumber Focal

    4. Correlate Clinical vs Methylation

    5. Correlate Clinical vs miRseq

    6. Correlate Clinical vs Molecular Subtypes

    7. Correlate Clinical vs mRNAseq

    8. Correlate Clinical vs Mutation

    9. Correlate Clinical vs MutationRate

    10. Correlate Clinical vs RPPA

    提供了临床数据与拷贝数,甲基化, mRNA/miRNA表达谱, 突变信息,蛋白质表达谱等多种数据的相关性分析。

    2. CopyNumber Analyses

    分析内容如下

    1. Aggregate AnalysisFeatures

    2. CopyNumber Clustering CNMF

    3. CopyNumber Clustering CNMF thresholded

    4. CopyNumber Gistic2

    5. Correlate Clinical vs CopyNumber Arm

    6. Correlate Clinical vs CopyNumber Focal

    7. Correlate CopyNumber vs mRNAseq

    8. Correlate molecularSubtype vs CopyNumber Arm

    9. Correlate molecularSubtype vs CopyNumber Focal

    10. Pathway Paradigm RNASeq And Copy Number

    提供了基于拷贝数的聚类,以及拷贝数与临床数据,mRNA表达谱的相关性等分析。

    3.  Correlations Analyses

    分析内容如下

    1. Correlate Clinical vs CopyNumber Arm

    2. Correlate Clinical vs CopyNumber Focal

    3. Correlate Clinical vs Methylation

    4. Correlate Clinical vs miRseq

    5. Correlate Clinical vs Molecular Subtypes

    6. Correlate Clinical vs mRNAseq

    7. Correlate Clinical vs Mutation

    8. Correlate Clinical vs MutationRate

    9. Correlate Clinical vs RPPA

    10. Correlate CopyNumber vs mRNAseq

    11. Correlate Methylation vs mRNA

    12. Correlate molecularSubtype vs CopyNumber Arm

    13. Correlate molecularSubtype vs CopyNumber Focal

    14. Correlate molecularSubtype vs Mutation

    提供了各种数据间的相关性分析。

    4. Methylation Analyses

    分析内容如下

    1. Correlate Clinical vs Methylation

    2. Correlate Methylation vs mRNA

    3. Methylation Clustering CNMF

    提供了基于甲基化数据的聚类,以及甲基化与临床数据,mRNA表达谱数据的相关性分析。

    5. miRseq Analyses

    分析内容如下

    1. Aggregate AnalysisFeatures

    2. Correlate Clinical vs miRseq

    3. miRseq Clustering CNMF

    4. miRseq Clustering Consensus Plus

    5. miRseq FindDirectTargets

    6. miRseq Mature Clustering CNMF

    7. miRseq Mature Clustering Consensus Plus

    提供了基于miRNA表达谱数据的聚类,以及miRNA靶基因预测, miRNA与临床数据的相关性等分析。

    6. mRNA Analyses

    分析内容如下

    1. Correlate Methylation vs mRNA

    2. Pathway GSEA mRNAseq

    提供了mRNA芯片表达谱数据与甲基化数据的相关性分析,以及GSEA基因集富集分析。

    7. mRNAseq Analyses

    分析内容如下

    1. Aggregate AnalysisFeatures

    2. Correlate Clinical vs mRNAseq

    3. Correlate CopyNumber vs mRNAseq

    4. miRseq FindDirectTargets

    5. mRNAseq Clustering CNMF

    6. mRNAseq Clustering Consensus Plus

    7. Pathway Paradigm RNASeq

    8. Pathway Paradigm RNASeq And Copy Number

    提供了基于mRNA测序表达谱的聚类,mRNA表达谱数据与拷贝数,临床数据的相关性分析,以及miRNA与mRNA相互作用网络等分析。

    8. Mutation Analyses

    分析内容如下

    1. Aggregate AnalysisFeatures

    2. Correlate Clinical vs Mutation

    3. Correlate Clinical vs MutationRate

    4. Correlate molecularSubtype vs Mutation

    5. Mutation APOBEC

    6. Mutation Assessor

    7. Mutation CHASM

    8. MutSig2.0

    9. MutSig2CV

    10. MutSigCV

    11. Pathway Overlaps MSigDB MutSig2CV

    提供了突变信息与临床数据的相关性分析等分析内容。

    9. Pathway Analyses

    分析内容如下

    1. Pathway GSEA mRNAseq

    2. Pathway Overlaps MSigDB MutSig2CV

    3. Pathway Paradigm RNASeq

    4. Pathway Paradigm RNASeq And Copy Number

    提供了mRNA表达谱的GSEA等分析内容。

    10. RPPA Analyses

    分析内容如下

    1. Correlate Clinical vs RPPA

    2. RPPA Clustering CNMF

    3. RPPA Clustering Consensus Plus

    提供了基于蛋白质芯片数据的聚类,以及蛋白表达谱与临床数据的相关性分析。
    以甲基化与mRNA表达谱的相关性分析为例,结果如下所示

    对于每个分析内容,都分为了以下3个部分

    1. overview

    2. results

    3. methods & data

    overview部分提供了结果的简要描述信息,示意如下


    results部分可以查看详细的分析结果,示意如下

    methods & data部分可以查看分析的方法,以及下载分析结果,示意如下

    通过Broad GDAC, 不仅可以下载TCGA的数据,还可以进行数据挖掘,其提供的分析内容和方法都值得借鉴。

    ·end·

    —如果喜欢,快分享给你的朋友们吧—

    扫描关注微信号,更多精彩内容等着你!

    展开全文
  • 所谓工欲善其事,必先利其器,从今天开始,我们来介绍TCGA数据库的...TCGA我们已经介绍过,不过GEPIA2对TCGA数据经过了筛选,具体筛选标准并没有详细介绍。比如肝癌TCGA有372例肿瘤组织,这里只有369例。 下面简单介...
  • TCGA肺癌数据分析数据分析项目已在密歇根大学的2020年秋季我的Stats 600回归分析课程中完成。 分析的数据包含肺癌患者的样本以及不同的临床因素及其基因组信息。 在此分析中,我想回答以下问题:哪些mRNA基因表达...
  • 今天继续我们的TCGA数据分析系列。TCGA数据下载TCGA数据下载的方式有很多,本次我们利用UCSC Xena数据库下载数据.该平台内置了一些公共数据集,比如来自TCGA, ICGC等大型癌症研究项目的数据,不仅可以对数据进行分析...
  • 除了之前提到的,使用GDC 官方提供的gdc-client.exe对TCGA数据进行下载外(TCGA数据分析(1)),还可以使用R包对TCGA数据进行下载,这个神奇的R包叫做TCGAbiolinks。注: 它下载数据成功率非常低,官方API中也未推荐,...
  • 在下载TCGA数据过程中,有很多小伙伴参考这个教程:TCGA数据分析(1),TCGA数据分析 (3),进行数据处理时,会出现很多0kb的文件。前两行0kb文件,多数是下载不稳定,出现问题。中间两行的文件,是我们最终需要的文件...
  • 关于TCGA数据库的教程,前期我们已经推出了一些文章:【1】TCGA数据库使用教程【2】R语言TCGA-...表达差异分析【6】TCGA数据挖掘(四):表达差异分析(2)【7】TCGA数据挖掘(四):表达差异分析(3)【8】TCGA数据...
  • 块约束鲁棒主成分分析及其在TCGA数据综合分析中的应用
  • 下载TCGA数据的方式很多种,这里再介绍如何使用python对TCGA中的各种数据进行下载。01 Manifest文件同样需要你准备好manifest文件,或者至少是带有fileid的txt文件,文件名为:gdc_manifest.txt02 Python脚本脚本名...
  • 关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用教程。在线下载以及官方下载...
  • 文章发布于简书博客:柳叶刀与小鼠标(单基因生信分析流程(1)一文解决TCGA数据下载整理问题)原因在平常科研工作中,经常有师兄师姐师弟师妹问我:我现在有一个单基因,我该怎么开展生信研究?出现这个问题的原因...
  • 基于Oncomine和TCGA数据挖掘分析MTERF2在胰腺癌中的表达及临床意义.pdf
  • 用于准备 TCGA 数据以进行分析的 Python。 概括: combineMeth.py 和 combineExpr.py 可用于组合从 TCGA 下载的表达和甲基化数据。 只需在名为“data”(如代码中所写)的单独文件夹中包含所有 TCGA 数据的目录中...
  • TCGA肿瘤数据分析专题

    2019-12-05 19:45:00
    欢迎关注”生信修炼手册”!癌症作为人类健康的头号杀手,其研究的意义不言而喻。目前世界范围内已经有大量的肿瘤相关数据,鉴于公共数据库的数据挖掘成为一种趋势。GEO是一个国际化的开源项目,允...
  • (不要问我怎么发现的,就是懒,加上网不是太好,下载不了tcga数据,总要搞点事情) ualcan 简述下来,就一句话,可以分析一些基因,乃至一个参与同一通路的基因集,在不同肿瘤里的表达和预后,并且可以分析这个...
  • 利用tcga数据做生存分析

    千次阅读 2019-09-21 17:56:20
    ####teach code####library(survival)#read expression data and modify its class and colnames/...#PAAD_gene_expression.csv数据已经经过Z_转换的数据。 z_rna <- read.csv(file="PAAD_gene_expression.csv",...
  • 一、GDCRNATools包下载 首先下载R包 if (!requireNamespace...下载好之后运行,以COAD数据为例,下载: library(GDCRNATools) gdcRNADownload(project.id = TCGA-COADREAD, data.type = RNAseq, write.ma
  • TCGA数据库有大量开放的甲基化数据,对我们科研非常有利,但是怎么挖掘呢?是不是去参加培训班就可以了?答案肯定不是的。有很多人去参加了培训班,然后学会了分析。但是搞了两三个月,还是没有结果。导致结果出不来...
  • 典型相关分析matlab实现代码提取TCGA数据以进行生存分析的脚本。 有关与癌症有关的更多说明,请参见 资料说明 可通过,获取公开数据。 首先,安装BiocManager::install("CNTools") ,克隆存储库git clone ...
  • 作为新手,下载什么水平的数据最易上手3、TCGA文件ID介绍,让你不在懵圈实例演示TCGA数据下载、整合1、单个癌症特定类型数据下载(基因表达数据),可直接下载或借助下载工具GDC Data Transfer Tool2、R处理数据的...
  • PGM_BRCA 使用 DFG PGM 框架分析 BRCA TCGA 数据集的模型

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,199
精华内容 479
关键字:

tcga数据分析