精华内容
下载资源
问答
  • 关于TCGA数据库的教程,前期我们已经推出了一些文章:【1】TCGA数据库使用教程【2】R语言TCGA-Assembler包下载TCGA数据【3】TCGA数据挖掘(一):TCGAbiolinks包介绍【4】TCGA数据挖掘(二):数据下载与整理【5】...

    关于TCGA数据库的教程,前期我们已经推出了一些文章:

    【1】TCGA数据库使用教程

    【2】R语言TCGA-Assembler包下载TCGA数据

    【3】TCGA数据挖掘(一):TCGAbiolinks包介绍

    【4】TCGA数据挖掘(二):数据下载与整理

    【5】TCGA数据挖掘(三):表达差异分析

    【6】TCGA数据挖掘(四):表达差异分析(2)

    【7】TCGA数据挖掘(四):表达差异分析(3)

    【8】TCGA数据挖掘(四):表达差异分析(4)

    【9】TCGA数据挖掘(五):miRNA差异分析

    【10】TCGA数据挖掘(六):WGCNA(加权基因共表达网络分析)

    这次,我们推出了TCGA数据挖掘之基因表达差异分析视频教程,来弥补之前文章的不系统和缺陷。这门课程需要有一定的R语言基础,熟悉TCGA数据库,可以先通过前面的文章【1】了解该数据库的使用教程。

    课程主要内容包括:数据下载、数据整理、数据融合、基因ID转换和表达差异分析。

    课程内容:

    TCGA数据挖掘之基因表达差异分析

    一.数据下载

    1. 官网在线下载

    2. 官网下载工具下载

    3. R语言TCGAbiolinks包下载

    二. 数据的整理

    1. 移动文件2. 解压文件3. 处理json文件

    三. 数据融合

    四. ID转换

    通过gtf文件进行基因ID转换

    五. 表达差异分析

    1.利用edgeR包2.利用DESeq2包

    差异表达分析我们利用DESeq2和EdgeR包,其实在我们前面基因芯片数据挖掘序列文章中都已介绍,如果你能从TCGA得到原始的Counts表达矩阵文件,能利用DESeq2和EdgeR包进行差异表达分析,可以不考虑本视频教程,本视频的第5部分内容和下面文章(七)和(八)一样,只是矩阵文件不一样。所以考虑清楚。

    基因芯片数据分析(一):芯片数据初探

    基因芯片数据分析(二):读取芯片数据

    基因芯片数据分析(三):数据质控

    基因芯片数据分析(四):获取差异表达基因

    基因芯片数据分析(五):edgeR包的基本原理

    基因芯片数据分析(六):DESeq2包的基本原理

    基因芯片数据分析(七):edgeR差异分析实战案例

    基因芯片数据分析(八):DESeq2差异分析实战案例
    视频价格只需要18元,也是给我一点辛苦费,购买地址:https://t.1yb.co/4K3

    e0cbe15959f2bb431bcbbc815dff9e0f.png
    展开全文
  • 基于TCGA数据挖掘的乳腺癌预后相关mRNA研究.pdf
  • 基于TCGA数据挖掘筛选肺鳞癌预后相关lncRNA分子标签.pdf
  • 基于Oncomine和TCGA数据挖掘分析MTERF2在胰腺癌中的表达及临床意义.pdf
  • 关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用教程。在线下载以及官方下载...

    关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用教程。在线下载以及官方下载工具下载的数据是分开的,每个样本的数据的独立的,需要自己合并,这需要会R,Python 或者 perl 等编程语言(文末补充内容介绍)。

    这里我们先介绍TCGAbiolinks包下载数据。因为这个包下载的数据是合并好的,不需要整理。

    TCGAbiolinks下载TCGA数据

    在第一讲我们介绍TCGAbiolinks包的时候,介绍了GDCquery这个函数,这是下载数据时要用到的函数,除此以外,我们还需要GDCdownload函数。GDCdownload函数使用GDC API或GDC传输工具下载GDC数据,用户可以使用查询参数查询的数据将保存在一个文件夹中:project/data.category。函数的整体框架为:

    GDCdownload(query, token.file, method ="api", directory ="GDCdata",files.per.chunk =NULL)

    各个参数介绍如下:

    query:这个参数就是来自GDCquery的结果。

    token.file:这个是下载受限的文件(仅适用于method=“client”),一般下载用不到。

    method:使用API (POST方法)或gdc客户端工具。选择“api”,“client”。API更快,但是下载过程中数据可能会损坏,可能需要重新执行。

    directory:下载数据的存放目录/文件夹。默认:GDCdata。

    files.per.chunk:这将使API方法一次只下载n个(files.per.chunk)文件。当数据量过大时,可能会下载出错,可设置files.per.chunk参数减少下载问题。值为整数,即可将文件拆分为几个文件下载,如files.per.chunk = 6。

    下面是一个下载数据的案例:

    query <- GDCquery(project ="TCGA-ACC",data.category ="Copy number variation",legacy = TRUE,file.type ="hg19.seg",barcode = c("TCGA-OR-A5LR-01A-11D-A29H-01","TCGA-OR-A5LJ-10A-01D-A29K-01"))

    # 数据将被保存在 GDCdata/TCGA-ACC/legacy/Copy_number_variation/Copy_number_segmentation

    GDCdownload(query, method ="api")

    ## Not run:# 从XML下载临床数据

    query <- GDCquery(project ="TCGA-COAD", data.category ="Clinical")GDCdownload(query, files.per.chunk = 200)

    query <- GDCquery(project ="TARGET-AML",data.category ="Transcriptome Profiling",data.type ="miRNA Expression Quantification",workflow.type ="BCGSC miRNA Profiling",barcode = c("TARGET-20-PARUDL-03A-01R","TARGET-20-PASRRB-03A-01R"))

    # 数据将被保存在:# example_data_dir/TARGET-AML/harmonized/Transcriptome_Profiling/miRNA_Expression_Quantification

    GDCdownload(query, method ="client", directory ="example_data_dir")

    acc.gbm <- GDCquery(project = c("TCGA-ACC","TCGA-GBM"),data.category ="Transcriptome Profiling",data.type ="Gene Expression Quantification",workflow.type ="HTSeq - Counts")

    总之,TCGAbiolinks包下载数据很简单,首先得明确自己要的是什么数据,通过GDCquery函数获取后,关于GDCquery请认真去学习上一讲:TCGA数据挖掘(一):TCGAbiolinks包介绍。对GDCquery了解后,再利用GDCdownload函数下载。这里说的相当简单,但聪明的人应该已经明白了。当然,我们后续的数据分析教程中还会更详细的介绍。

    对于下载数据的分析可能会因自己的研究方向有所不同,有做甲基化的,有做SNP的等等,可以不用掌握全部,只需要会自己研究方向的即可,其他的做个了解,自己需要的时候,再学也不迟。

    当然,我们后面会介绍一下常用的分析。

    数据下载补充:数据整理

    TCGAbiolinks包下载的数据是合并了的,不需要整理。在线下载或者官方工具下载的数据是分开的。我们介绍一下在线下载以及官方下载工具下载的数据怎么合并,这里用的是perl脚本,没有安装perl的可去官网:http://www.perl.org/get.html自行下载安装。这里你不需要懂perl语法,只需要知道DOS命令行的使用即可,脚本文末获取。

    在线下载以及官方下载工具下载的数据是这样的。每一个文件夹是每个样本的数据,而且文件夹的名称和样本的barcode还不一致。

    v2-736ec2d85297e928cc28e3576a749ca7_b.jpg

    每一个文件夹里面的数据都是压缩包:

    v2-eb9e966424b84cfea373ba537e36c968_b.png

    所以我们需要整理,要整理这些数据,首先我们在网页上筛选数据的时候,同时也要下载metadata这个文件。

    v2-51fc8017b1f0cfcfc898633d4b760812_b.jpg

    下载metadata文件、数据文件以及脚本文件putFilesToOneDir.pl和mRNA_merge.pl在同一个文件夹。

    v2-cdf85e943586b632ddeadd02c558ac82_b.jpg

    打开dos窗口,进入文件目录,键入:perl putFilesToOneDir.pl,回车。一会就会看见文件夹中多了一个files的文件夹,即我们将所有的数据都移动到了同一个文件夹下,当然,这个过程你可以手动。样本多的话,好像不科学。

    v2-7c92d1b6d90e579da504a892a5a59f2f_b.png

    进入files文件夹,里面全是压缩包,我们需要解压。这个就真的可以手动,因为每个人安装的压缩软件可能不一样,写脚本的话可能会报错,所以全选,解压到当前文件夹,也不是很费事。

    v2-d94f2a2761c59b74cf917dd1cf1c8e43_b.jpg

    下载metadata文件和perl脚本文件mRNA_merge.pl复制到files文件夹。

    v2-4f4c970f578535f472b4931ab66bbf2d_b.jpg

    dos命令窗口下进入files文件夹,键入:perl mRNA_merge.pl metadata.cart.2016-06-22T05_18_51.550750.json,然后回车。等待时间与数据量有关。

    运行结束后,在dos窗口会显示运行结果。normal count: 4;tumor count: 178,这里自己记下这2个参数,后面做分析的时候可能用到。

    v2-35c42a3049a3402dad24c3b6c31f3792_b.jpg

    同时在files文件夹下生成了一个矩阵文件。这个文件我们后面做数据分析的时候可能会用到。

    v2-b8c2df8a6aa3f4728aa70f38ea5b6da5_b.png

    这里需要说明的是,这个脚本只适用于mRNA的Counts的数据。不适用于其他类型的数据。

    扫码关注,后台回复:TCGA-mRNA_merge,领取案例文件和脚本文件。

    v2-94e5740a1b84252eb9ba872dcef084c6_b.jpg
    展开全文
  • TCGA数据挖掘--神经胶质瘤(GBM)差异mRNA分析

    千次阅读 多人点赞 2019-07-29 02:04:41
    1.TCGA-GBM数据数据 { library(TCGAbiolinks) library(SummarizedExperiment) query <- GDCquery(project = 'TCGA-GBM', data.category = "Transcriptome Profiling", ...

    1.TCGA-GBM数据下载

    {
      library(TCGAbiolinks)
      library(SummarizedExperiment)
      query <- GDCquery(project = 'TCGA-GBM', 
                        data.category = "Transcriptome Profiling", 
                        data.type = "Gene Expression Quantification", 
                        workflow.type = "HTSeq - Counts")
      
      GDCdownload(query, method = "api", files.per.chunk = 100)
      expdat <- GDCprepare(query = query)
      expr = assay(expdat)
      expr = as.data.frame(expr)
      save(expr,file = 'expr.Rdata')
    }
    

    2.提取mRNA数据

    
    {
      library(rtracklayer)
      library(dplyr)
      gtf <- import('Homo_sapiens.GRCh38.97.chr.gtf') 
      gtf_df <- as.data.frame(gtf)  
      gene_df <- select(gtf_df,
                        c(gene_id,gene_name,gene_biotype))  
      index <- duplicated(gene_df$gene_id) 
      gene_df = gene_df[!index,]
      dim(gene_df)
      mRNA_df = gene_df[gene_df$gene_biotype == 'protein_coding',]  
      dim(mRNA_df)
      save(mRNA_df,file = 'mRNA_df.Rdata')
    
      load("D:/个人空间/文件保存/R-project/GBM/expr.Rdata")
      exprSet = expr[match(mRNA_df$gene_id,rownames(expr)),]
      dim(exprSet)
      exprSet = na.omit(exprSet)
      dim(exprSet)
      save(exprSet, file = 'exprSet.Rdata')
    }
    
    

    3.ID转换,ensemblID转换为symbolID

     {
      library(limma)
      load("D:/个人空间/文件保存/R-project/GBM/exprSet.Rdata")
      exprSet$names = rownames(exprSet)
      exprSet$names = mRNA_df[match(exprSet$names,mRNA_df$gene_id),2]
      dim(exprSet)
      table(duplicated(exprSet$names)) # 有3个重复的基因名
      # 对重复基因名取平均表达量,然后将基因名作为行名
      exprSet = avereps(exprSet[,-ncol(exprSet)],ID = exprSet$names) 
      dim(exprSet)
      save(exprSet, file = 'exprSet_names_by_symbol.Rdata')
    }
    
    

    4.数据整理

    {
      # 4.1 去除低表达量的基因
      load("D:/个人空间/文件保存/R-project/GBM/exprSet_names_by_symbol.Rdata")
      pick_row <- apply(exprSet, 1, function(x){
        sum(x == 0) < 40
      })
      exprSet1 <- exprSet[pick_row,]
    
      # 4.2 分组(癌症组织和癌旁组织)
      library(stringr)
      tumor <- colnames(exprSet1)[as.integer(substr(colnames(exprSet1),14,15)) < 10]
      normal <- colnames(exprSet1)[as.integer(substr(colnames(exprSet1),14,15)) >= 10]
    
      tumor_sample <- exprSet1[,tumor]
      normal_sample <- exprSet1[,normal]
    
      exprSet_by_group <- cbind(tumor_sample,normal_sample)
      group_list <- c(rep('tumor',ncol(tumor_sample)),rep('normal',ncol(normal_sample)))
    
      save(exprSet_by_group, group_list, file = 'exprSet_by_group_list.Rdata')
    }
    
    
    

    5.PCA

    {
      library(FactoMineR)
      library(factoextra)
      load("D:/个人空间/文件保存/R-project/GBM/exprSet_by_group_list.Rdata")
      data = as.data.frame(t(exprSet_by_group))
      data <- cbind(data,group = as.factor(group_list))
    
      pca <- PCA(data[,-ncol(data)], graph = FALSE)
      eig.val <- get_eigenvalue(pca)# 一列:特征值,二列:特征值的方差贡献度,三列:累计方差贡献度
      fviz_eig(pca, addlabels = TRUE, ylim = c(0, 100))
      fviz_pca_ind(pca,
                   geom.ind = "point", 
                   col.ind = data$group, 
                   palette = "jco", 
                   addEllipses = TRUE, 
                   legend.title = "Groups",
                   title = 'PCA')
        }
    

    在这里插入图片描述
    在这里插入图片描述

    6.差异表达

    • 差异表达
     {
      library(limma)
      library(edgeR)
      DGElist <- DGEList( counts = exprSet_by_group, group = factor(group_list))
    
      # 挑选感兴趣基因
      keep_gene <- rowSums( cpm(DGElist) > 1 ) >= 2 
      table(keep_gene)
      DGElist <- DGElist[ keep_gene,keep.lib.sizes = FALSE]
    
      DGElist <- calcNormFactors(DGElist) # 计算归一化因子以对齐计数矩阵的列
      DGElist$samples
      design <- model.matrix( ~0 + factor(group_list))
      rownames(design) <- colnames(DGElist)
      colnames(design) <- levels(factor(group_list))
    
      # 转换RNA-Seq数据为线性建模做好准备
      v <- voom(DGElist, design, plot = TRUE, normalize = "quantile")
      # 给出一系列阵列,为每个基因拟合线性模型
      fit <- lmFit(v, design)
      # 构造对应于一组参数的指定对比的对比矩阵。
      cont.matrix <- makeContrasts(contrasts = c('tumor-normal'), levels = design)
      # 给定适合微阵列数据的线性模型,计算给定对比组的估计系数和标准误差
      fit2 <- contrasts.fit(fit, cont.matrix)
      # 差分表达的经验贝叶斯统计
      fit2 <- eBayes(fit2)
      nrDEG_limma_voom = topTable(fit2, coef = 'tumor-normal', n = Inf)
      nrDEG_limma_voom = na.omit(nrDEG_limma_voom)
      head(nrDEG_limma_voom)
      save(nrDEG_limma_voom,file = 'nrDEG.Rdata')
     }
    
    
    • 火山图
    library(ggplot2)
      library(ggrepel)
      nrDEG <- nrDEG_limma_voom
      nrDEG$change <- ifelse(nrDEG$adj.P.Val < 0.01 & abs(nrDEG$logFC) > 2.5,
                             ifelse(nrDEG$logFC > 2.5,'UP','DOWN'),
                                      'NOT')
      table(nrDEG$change)
      save(nrDEG,file = 'nrDEG_by_group.Rdata')
    
      # 重点关注基因
      nrDEG$sign <- ifelse(nrDEG$adj.P.Val < 0.001 & abs(nrDEG$logFC) > 6.5,
                           rownames(nrDEG),
                           NA)
      table(nrDEG$sign)
      ggplot(data= nrDEG, aes(x = logFC, y = -log10(adj.P.Val), color = change)) +
        geom_point(alpha=0.8, size = 1) +
        theme_bw(base_size = 15) +
        theme(plot.title=element_text(hjust=0.5),   #  标题居中
              panel.grid.minor = element_blank(),
              panel.grid.major = element_blank()) + # 网格线设置为空白
        geom_hline(yintercept=2 ,linetype=4) +
        geom_vline(xintercept=c(-2.5,2.5) ,linetype=4 ) +
        scale_color_manual(name = "", 
                           values = c("red", "green", "black"),
                           limits = c("UP", "DOWN", "NOT")) +
        geom_label_repel(aes(label=sign), # 防止标签过多重叠
                         fontface="bold",
                         color="grey50",
                         box.padding=unit(0.35, "lines"),  # 文本框周边填充
                         point.padding=unit(0.5, "lines"), # 点周边填充
                         segment.colour = "grey50", # 连接点与标签的线段的颜色
                         force = T) + 
        labs(title = 'GBM DEG volcano')
    

    在这里插入图片描述

    • 热图
    library( "pheatmap" )
      nrDEG_Z = nrDEG[ order( nrDEG$logFC ), ]
      nrDEG_F = nrDEG[ order( -nrDEG$logFC ), ]
      choose_gene = c( rownames( nrDEG_Z )[1:50], rownames( nrDEG_F )[1:50] )
      choose_matrix = exprSet_by_group[ choose_gene, ]
      choose_matrix = t( scale( t( choose_matrix ) ) )
    
      choose_matrix[choose_matrix > 2] = 2
      choose_matrix[choose_matrix < -2] = -2
    
      annotation_col = data.frame( group = factor( group_list ) )
      rownames( annotation_col ) = colnames( exprSet_by_group )
    
      pheatmap( fontsize_row = 4,
                choose_matrix, 
                annotation_col = annotation_col, 
                show_rownames = T,
                show_colnames = F,
                annotation_legend = T, 
                cluster_cols = T,
                filename = 'heatmap.png')
    
    

    在这里插入图片描述

    7.富集分析

    • kegg_enrichment_analysis
      library( "clusterProfiler" )
      library( "org.Hs.eg.db" )
      load("nrDEG_by_group.Rdata")
      nrDEG$SYMBOL <- rownames(nrDEG)
      df <- bitr( rownames( nrDEG ), fromType = "SYMBOL", toType = c( "ENTREZID" ), 
                  OrgDb = org.Hs.eg.db )
      head( df )
      nrDEG = merge( nrDEG, df, by = 'SYMBOL' )
      head( nrDEG )
    
      gene_up = nrDEG[ nrDEG$change == 'UP', 'ENTREZID' ] 
      gene_down = nrDEG[ nrDEG$change == 'DOWN', 'ENTREZID' ]
      gene_diff = c( gene_up, gene_down )
      gene_all = as.character(nrDEG[ ,'ENTREZID'] )
      g_list = list( gene_up = gene_up, gene_down = gene_down, gene_diff = gene_diff)
    
      kk.up <- enrichKEGG(gene = gene_up,
                          organism = 'hsa',
                          universe = gene_all,
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.01)
      kk.dowm <- enrichKEGG(gene = gene_down,
                          organism = 'hsa',
                          universe = gene_all,
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.01)
      
      kegg_down_dt <- as.data.frame(kk.dowm)
      kegg_up_dt <- as.data.frame( kk.up )
      down_kegg <- kegg_down_dt[ kegg_down_dt$pvalue < 0.05, ]
      down_kegg$group <- 'down_pathway'
      up_kegg <- kegg_up_dt[ kegg_up_dt$pvalue < 0.05, ]
      up_kegg$group <- 'up_pathway'
      dat = rbind(up_kegg,down_kegg)
      dat$pvalue = -log10(dat$pvalue)
      dat$group =  factor(dat$group)
    
      library(ggpubr)
      ggbarplot(dat,x = 'Description',y = 'pvalue',
                fill = 'group',
                color = 'white',
                palette = 'jco',
                sort.val = 'asc',
                xlab = 'Pathway names',
                ylab = '-log10 P-value',
                title = 'Pathway enrichment') +
        rotate() +
        theme_minimal()
    
    

    在这里插入图片描述

    • GO_enrichment_analysis
    BP <- enrichGO( gene          =  gene_diff,
                      universe      =  gene_all,
                      OrgDb         =  org.Hs.eg.db,
                      keyType       = 'ENTREZID',
                      ont           =  'BP',
                      pAdjustMethod = "BH",
                      pvalueCutoff  =  0.01,
                      qvalueCutoff  =  0.01,
                      readable      =  TRUE)
      barplot(BP,showCategory=20)
      dotplot(BP,showCategory=20)
    

    在这里插入图片描述
    在这里插入图片描述

    CC <- enrichGO( gene          =  gene_diff,
                      universe      =  gene_all,
                      OrgDb         =  org.Hs.eg.db,
                      keyType       = 'ENTREZID',
                      ont           =  'CC',
                      pAdjustMethod = "BH",
                      pvalueCutoff  =  0.01,
                      qvalueCutoff  =  0.01,
                      readable      =  TRUE)
     barplot(CC,showCategory=20)
     dotplot(CC,showCategory=20)
    

    在这里插入图片描述
    在这里插入图片描述

     MF <- enrichGO( gene          =  gene_diff,
                      universe      =  gene_all,
                      OrgDb         =  org.Hs.eg.db,
                      keyType       = 'ENTREZID',
                      ont           =  'MF',
                      pAdjustMethod = "BH",
                      pvalueCutoff  =  0.01,
                      qvalueCutoff  =  0.01,
                      readable      =  TRUE)
      barplot(MF,showCategory=20) 
      dotplot(MF,showCategory=20) +
        scale_x_continuous(limits = c(0,0.08), breaks = c(0.00,0.04,0.08))
    

    0MzcwMDA1MA==,size_16,color_FFFFFF,t_70)
    在这里插入图片描述

    • DO_enrichment_analysis
    library(DOSE)
      enrich.do <- enrichDO(gene = gene_diff,
                            universe = gene_all,
                            ont = 'DO',
                            pvalueCutoff = 0.05,
                            pAdjustMethod = 'BH',
                            minGSSize = 5,
                            maxGSSize = 500,
                            qvalueCutoff = 0.05,
                            readable = F)
      barplot(enrich.do)
      dotplot(enrich.do)
    

    在这里插入图片描述
    在这里插入图片描述

    本博客内容将同步更新到个人微信公众号生信玩家。欢迎大家关注~~~
    在这里插入图片描述

    展开全文
  • TCGA数据库的挖掘工具层出不穷,从数据下载到数据挖掘,这里小编给大家整理一份官网的数据挖掘工具大全:1. http://www.cancerimagingarchive.net/ The Cancer Imaging Archive (TCIA) TCIA存储了TCGA病人的影像学...

    v2-605670d1072ec996efde9031b8ae0978_b.jpg

    TCGA数据库的挖掘工具层出不穷,从数据下载到数据挖掘,这里小编给大家整理一份官网的数据挖掘工具大全:

    1. http://www.cancerimagingarchive.net/ The Cancer Imaging Archive (TCIA) TCIA存储了TCGA病人的影像学资料,如MRI,CT等,以DICOM文件格式存储,还提供与患者结果,治疗细节,基因组学,病理学和专家分析等图像相关的信息。

    v2-914316561666b227b275bb7684da48e0_b.jpg

    1. https://www.tcpaportal.org/ The Cancer Proteome Atlas (TCPA), 由MD Anderson Cancer Center开发的用于TCGA蛋白质组学数据下载,挖掘可视化的网站。

    v2-0c5245fdd0cfa44fd835e553220bfb4a_b.jpg

    1. http://www.cbioportal.org/ cbioportal大家比较熟悉啦,由Memorial Sloan-Kettering Cancer Center开发的用于TCGA数据下载,分析挖掘可视化的强大工具。

    v2-aae7cfc9ca6282a6a7ea67a90c85caf9_b.jpg

    1. http://portals.broadinstitute.org/tcga/home Copy Number Portal,由大名鼎鼎的Broad 研究所开发的用于探索TCGA数据拷贝数变异的网站,支持GISTIC 分析。

    v2-93322bedeed0d557ec953fb9969a987e_b.jpg

    1. https://bioinformatics.mdanderson.org/main/FASMIC FASMIC数据库,由MD Anderson Cancer Center开发的用于分析突变数据的网络平台。

    v2-f724d9b4c8daccfc50511a8692abf8e2_b.jpg

    1. https://bioinformatics.mdanderson.org/main/DeMixT DeMixT是一个R软件包,可对来自两个或三个组分混合物的转录组数据进行解卷积,估计单个样品的组分特异性比例和表达谱。

    2. http://gdac.broadinstitute.org/ Firehose 由Broad 研究所开发的一套处理和分析大规模基因组和蛋白质组数据的方法和流程,可提供数据下载。

    v2-ef32f1d756773d2576303ca5301e540e_b.jpg

    1. http://firebrowse.org/ Firebrowse 由 Broad研究所开发的用于TCGA数据挖掘可视化的网络平台,提供基因表达,突变等综合挖掘分析功能,类似于cBioportal.

    v2-8f1022fede0f8acba0c74d84bbb57ccb_b.jpg

    1. https://github.com/khuranalab/FunSeq2_DC FunSeq2 由Weill Cornell Medicine 开发的一个用于探索突变和非编码变异的工具,以多种肿瘤基因组数据为背景。

    2. http://software.broadinstitute.org/software/igv/ 由Broad研究所开发的Integrative Genomics Viewer (IGV) 一种高性能可视化工具,用于交互式探索大型集成数据集。

    v2-029c235f7de5f33bf96cac3d9131a18d_b.jpg

    1. https://bioinformatics.mdanderson.org/tcgambatch/ MBatch由MD Anderson Cancer Center开发的基于Web的工具,用于识别和量化处理的TCGA数据中存在的批处理效果,支持分层聚类分析和增强的PCA分析。

    2. http://explorer.cancerregulome.org/ 由Center for Systems Analysis of the Cancer Regulome开发的基于Web的交互式工具,用于可视化和探索临床和分子TCGA数据之间的关联。

    v2-7e8a2723d59eca7409f09286e96455b3_b.jpg

    1. https://bioinformatics.mdanderson.org/survnet/ SurvNet 由Anderson Cancer Center开发的基于网络的工具,用于识别与患者生存数据相关的基于网络的生物标记物。

    2. https://ibl.mdanderson.org/tanric/_design/basic/index.html TANRIC由MD Anderson Cancer Center开发的LncRNA数据挖掘工具,支持多种数据挖掘,可视化分析。

    v2-ce242535a01a2dd0aa22a3a16072e5f6_b.jpg

    15. https://tumormap.ucsc.edu/ TumorMap 由UC Santa Cruz开发的一个强大的数据挖掘工具

    v2-97af87541909ddd7666f09f280934e72_b.jpg

    16. http://xena.ucsc.edu/ Xena就更不用说,集数据下载,挖掘可视化于一体的强大工具

    v2-ebfce70d38195321032a2f63bf6b17c2_b.jpg

    当然啦,数据库虽多,不要贪杯哦,内容就分享到这,希望对大家有帮助。更多内容欢迎关注我们,我们公众号(医科研)里还有很多很多干货。

    展开全文
  • GEO TCGA公共数据挖掘培训

    千次阅读 2019-03-04 17:18:50
    TCGA数据库包含11,000个病人的33种肿瘤的7个不同层面的基因数据 (包括基因表达、CNV,SNP,DNA甲基化,miRNA,外显子组等)和临床数据,意在解析癌症发生的分子机制、肿瘤的亚型和治疗靶点等。 这两个来源的数据都是...
  • 这篇文章主要是目录我会分为11篇文章向大家介绍使用GEO,TCGA,Oncomine联合进行数据挖掘 ...(十)TCGA数据的整理和基因的注释 (十一)寻找差异基因和生存率制作 我所做的所有分析与教程的代码都会在我的个人公众号
  • 本文从GDC直接获取TCGA数据,不同于cbioportal、Xeon等TCGA下载工具,GDC数据是实时更新的最原始的数据。下载数据GDC的综合数据下载页面为https://portal.gdc.cancer.gov/repository打开后可见页面如下所示,左侧为...
  • 基于TCGA和GEO数据挖掘分析PRC1在肺腺癌中的表达及预后意义.pdf
  • 数据挖掘​概述:使用计算机技术手段从大数据集中寻找规律的技术,由于大数据具有高价值,低密度的特性所以它的规律并不是很简单就可以看出来的,而是隐含在大数据之中,所以我们需要一定的技术手段进行对我们所需要...
  • 原标题:开启数据挖掘之门:TCGA数据库入门必看! 喜欢我的都关注我了~在肿瘤研究领域,相信没有人不知道The Cancer Genome Atlas (TCGA)。TCGA是美国国家癌症研究所(National Cancer Institute)和美国人类基因组...
  • TCGA数据库甲基化数据的下载1、登陆TCGA官网2、选择下载DNA Methylation3、选择癌症4、添加到cart5、点开cart就可以下载了然后把得到cart文件和gdc-manifest文件放在同一个文件夹,然后按住shif键同时点击鼠标右键,...
  • TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。但是,如果你是刚入门的新手,不用担心,跟着我们的系列推文,...
  • 今天是生信星球陪你的第520天 大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像... 生信零基础入门学习小组长期报名中 GEO数据挖掘广州专场课程 再给生信技能树打个call! 全球公益巡讲、招学徒

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 383
精华内容 153
关键字:

tcga数据挖掘