订阅云计算RSS CSDN首页> 云计算

AWS全新公共数据集–TCGA与ICGC

发表于2015-12-04 18:40| 次阅读| 来源blog| 0 条评论| 作者Jeff

摘要:今天我们很高兴地宣布,作为AWS公共数据集项目的一部分,合格的研究者现在可以在AWS上免费访问两个世界上最大的癌症基因组数据集了。

今天我们很高兴地宣布,作为AWS公共数据集项目的一部分,合格的研究者现在可以在AWS上免费访问两个世界上最大的癌症基因组数据集了。在AWS上将这些拍字节规模的基因组数据作为共享资源,提供对它们的访问权降低了访问障碍,因此扩展了研究团体,在为癌症患者开发新的治疗方案的进程中加速了研究和探索的步伐。

TCGA(癌症基因组地图集)语料库囊括了从数以千计的癌症患者处收集来的原始和加工过的基因组,转录基因组,和表观基因组数据,现在在AWS S3上对 Cancer Genomics Cloud(CGC)的用户免费开放。 Cancer Genomics Cloud是一个试点云项目,由美国国家癌症研究所资助,在 Seven Bridges Genomics平台上运行。

ICGC(国际肿瘤基因组协作组)泛癌症数据集因PCAWG(全基因组泛癌症分析)研究产生,现在在AWS上也可用,使癌症研究者可以访问2400多组被持续分析的基因组,这些基因组对应于1100多位独特的ICGC捐赠者。这些数据也将在AWS S3上对那些符合ICGC数据共享策略,受到信任的研究者免费开放。

这两个数据集代表第一批受控访问的基因组数据,它们已在云中被重新传播到更加广泛的研究受众中。以前,研究人员在可以开始实验前需要下载和存储自己的数据副本。现在,有了为这一团体在AWS中托管的数据,研究人员可以马上开始他们的研究了。他们也可以访问该团体在AWS中托管和共享的更加广泛的工具集。这意味着一个低的多的访问障碍和更多的研究时间。

使这些数据和工具在云中可用,也可以实现更高水平的跨研究团体合作,因为他们将有一个共同的数据访问和共享的场所。最后,研究人员也将能够安全地将自己的数据和工具带入到AWS中,将它们与现存的公共数据结合,进行更强健的分析。无成本数据访问,更加广泛的可用数据集,和增强的协作能力将使研究人员能够聚焦于他们的科学研究而不是基础设施,允许他们在更短的时间内取得更多的成果,最终加快癌症研究领域的研究和探索步伐。

在AWS中访问TCGA和ICGC

TCGA和ICGC与之前发布的AWS公共数据集,如NIH(国立卫生研究院) 千人基因组计划,GIAB(瓶中基因组),和3000水稻基因组,之间的差异决定了需要限制那些为了使用这些数据已经经历了审查过程的研究者的访问权限。由于这个要求的限制,在AWS中访问TCGA和ICGC也将分别由第三方合作伙伴, Seven Bridges GenomicsOntario Institute for Cancer Research管理。这些合作伙伴有权代表源数据提供者重新分布数据。它们也将随时间的推移管理和更新数据,扩展用户团体,使他们可以分享基于云的工具和最优实践,以加快数据的使用,促进我们对癌症的了解。

你可以在 TCGA on AWSICGC on AWS页面了解更多关于数据集的信息和访问细节。

使用数据所需的工具和资源

TCGA数据将会对CGC用户开放。研究人员可以在这里申请提早访问。一旦申请被接受,用户将能够通过CGC Web入口访问数据或使用CGC的API对数据进行程序性地访问。CGC已将一组数据分析管道与平台集成以便用户现在就可以使用最普通的工具开始工作。


用户将可以使用一个可下载的命令行工具普遍性地访问ICGC数据。用户可以使用 ICGC Data Portal(ICGC数据入口)搜索文件,通过 ICGC Storage Client(ICGC存储客户端)访问单独的或相关的校准和变体文件集。校准文件和Sanger体细胞变体调用现在在亚马逊S3中已可用。更多的变体调用将跟随附加的质量检查,确认,和分析被发布。想要了解更多信息,参见 ICGC on the Cloud页面和ICGC存储客户端文档。

一如既往地,当在AWS上使用敏感的基因组数据时,你应该注意保护你的存储和计算资源的安全。如果你不熟悉安全地使用数据所必需的业务特性和工具,AWS白皮书中的 Architecting for Genomic Data Security and Compliance(基因组数据安全和合规性架构)是一个很好的起点。基因组平台,如CGC,注意满足这些种类的要求,以其作为它们的价值主题。例如,DNAnexus在这里已提供了关于如何在平台内利用ICGC存储客户端的用户文档。


认识到以这种规模使用数据并不是简单的任务,PCAWG团体也正在发布 PanCancer Launcher(泛癌症启动器)。这是一个开源系统,用来创建EC2实例,对分析项目进行排队,触发基于Docker的分析管道,在计算任务完成时清理已启动的资源。


目前,PanCancer Launcher支持基于BWA-MEM的校准管道和它关联的质量控制步骤。将来的发布版本将会支持项目创建的变体调用管道。这些管道包括了来自四大学术组织的最优实践变体调用管道:DKFZ(德国癌症研究中心),位于海德尔堡的EMBL(欧洲分子生物学实验室),韦尔科姆基金会桑格研究所,和布罗德研究所。你可以在Launcher HOWTO Guide中了解更多关于如何利用PanCancer Launcher的信息。

云计算时代的基因组学

在过去的十年中见证基因组学和云计算的平行演进一直是非常有趣的。二者都由利用规模经济的新技术所驱动。它们都已从根本上改变了可能被问到的问题的类型,仅仅是因为我们现在能够在同一个地方收集和分析数据了。

在新的化学工具发布时,基因组学研究团体已见证了它们的存储和计算需求一夜之间翻番。它们在很久以前就意识到,与必须提前规划,并在三到五年内摊销的大量资本购买相比,可伸缩的云计算模型是一个更适合的选择。现在,习惯做法是,使用达到成百上千太字节的数据集和达到拍字节的一些重要的数据集,如TCGA和ICGC。对基因组学而言,云已经成为如何进行科学研究的新标准。

你可以在下面的这个新视频中了解基因组学思想领袖们是如何使用云在基因组学领域进行创新的:


一定也要访问 Scientific Computing on AWSGenomics on AWS页面了解更多的用户故事和工具。

活动推荐:          AWS Summit AWS技术峰会2015(上海)

                         AWS因云而变创业大赛

                           2015云届先锋女性论坛

                      云计算平台及AWS云服务使用情况调查问卷

立即免费注册AWS账号,获得12个月免费套餐

有云计算问题?立刻联系AWS云计算专家

                         

                                                                                              (  翻译/吕东梅  责编/王鑫贺)


订阅“AWS中文技术社区”微信公众号,实时掌握AWS技术及产品消息!

AWS中文技术社区为广大开发者提供了一个Amazon Web Service技术交流平台,推送AWS最新资讯、技术视频、技术文档、精彩技术博文等相关精彩内容,更有AWS社区专家与您直接沟通交流!快加入AWS中文技术社区,更快更好的了解AWS云计算技术。


第九届中国大数据技术大会将于2015年12月10-12日在北京隆重举办。在主会之外,会议还设立了16大分论坛,包含数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育等7大应用论坛和3大热点议题论坛,票价折扣中预购从速