TCGA联合GTEX分析流程
引言
高通量RNA测序(RNA-Seq)已成为转录组分析的强大方法(1),广泛用于了解基因功能和生物模式,找到候选药物靶点,并识别疾病分类和诊断的生物标志物(2)。近年来,癌症基因组图谱(TCGA)(3)和基因型组织表达(GTEx)(4,5)项目为数万个癌症和非癌症样本提供了RNA-Seq数据,为包括癌症生物学在内的许多相关领域提供了前所未有的机会。到目前为止,TCGA已经为33种癌症类型的9736个肿瘤样本提供了RNA-Seq数据,此外还有726个相邻正常组织的数据。肿瘤和正常数据之间的不平衡可能导致各种差异分析的效率低下。幸运的是,GTEx项目为8000多个正常样本提供了RNA-Seq数据,尽管这些样本来自不相关的捐赠者。由于数据处理管道和基因模型等方面的许多差异,此类数据无法直接组合进行综合分析。为了使来自不同来源的数据更加兼容,UCSC Xena项目(http://xena.ucsc.edu/)基于标准管道重新计算了所有表达式原始数据,以尽量减少与不同来源的差异,从而允许形成最新的最全面的表达式数据。
效果展示
过程
获取UCSC数据
数据可以直接从https://xenabrowser.net/datapages/网站获得。
获得合并后数据或者分别获得TCGA和GTEx数据均可,为确保可以比较,本文选择直接下载合并数据TCGA TARGET GTEx (13 datasets). 网页提供了gene expression RNAseq的RSEM expected_count (DESeq2 standardized), 可以直接用于差异分析。
插曲
1 | gzip -d TcgaTargetGtex_rsem_gene_tpm.gz |
很奇怪的是,无论使用readr
的read.delim
函数,还是data.table
的fread
函数,都无法读取成功。
而read.table
显示信息是:
1 | r$> data <- read.table(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.l |
1 | data <- readr::read.delim(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz"), header = TRUE, as.is = TRUE) |
Brain组织数量与GEPIA不一致的处理方法
在经过UCSC处理GTEx中,Brain分为13个组织1148个样本,但GEPIA2将他们分成了由207+945=1152两组,那么哪些是可以作为LGG或GBM的对照的呢?
从TCGA中下载LGG的临床数据,可得都来源于额叶、顶叶、颞叶和枕叶四个脑叶,也就是说都来源于大脑 (Cerebrum), 因此我们要找的也是Cerebrum.
GTEx Brain的13个组织:
1 | Brain - Amygdala |
首先,小脑 (Cerebellum) 和小脑半球 (Cerebellar Hemisphere) 显然属于小脑半球,所以214例属于945组。
而后,根据 基底核 - 维基百科,自由的百科全书 的说明,
基底核(basal ganglia)包括尾/壳/黑质,共393例,因此属于945组。
最后,海马,下丘脑,脊髓,杏仁核,前扣带都属于单独的结构,所以推测只有皮质(Cortex)和额叶皮质(Ba9)属于大脑 (Cerebrum), 样本量为206, 在误差范围内,可以被认为是LGG或GBM的对照组。
基底核(basal ganglia):
- 前侧
- 纹状体(Striatum)包括
- 尾状核(Caudate nucleus)
- 壳(Putamen)
- 伏隔核(Nucleus accumbens)
- 外苍白球(External segment of globus pallidus,GPe)
- 内苍白球(Internal segment of globus pallidus,GPi)
- 纹状体(Striatum)包括
- 后侧,以下这些结构在大脑中更靠下,靠后。
- 丘脑下核(Subthalamic nucleus, STN)
- 黑质(Substantia nigra, SN),根据内部结构可分为
- 黑质致密部(Substantia nigra pars compacta,SNc)
- 黑质网状部(Substantia nigra pars reticulata,SNr)
- 黑质侧部(Substantia nigra pars lateralis,SNl)