TCGA联合GTEX分析流程

引言

高通量RNA测序（RNA-Seq）已成为转录组分析的强大方法（1），广泛用于了解基因功能和生物模式，找到候选药物靶点，并识别疾病分类和诊断的生物标志物（2）。近年来，癌症基因组图谱（TCGA）（3）和基因型组织表达（GTEx）（4,5）项目为数万个癌症和非癌症样本提供了RNA-Seq数据，为包括癌症生物学在内的许多相关领域提供了前所未有的机会。到目前为止，TCGA已经为33种癌症类型的9736个肿瘤样本提供了RNA-Seq数据，此外还有726个相邻正常组织的数据。肿瘤和正常数据之间的不平衡可能导致各种差异分析的效率低下。幸运的是，GTEx项目为8000多个正常样本提供了RNA-Seq数据，尽管这些样本来自不相关的捐赠者。由于数据处理管道和基因模型等方面的许多差异，此类数据无法直接组合进行综合分析。为了使来自不同来源的数据更加兼容，UCSC Xena项目（http://xena.ucsc.edu/）基于标准管道重新计算了所有表达式原始数据，以尽量减少与不同来源的差异，从而允许形成最新的最全面的表达式数据。

效果展示

过程

获取UCSC数据

数据可以直接从https://xenabrowser.net/datapages/网站获得。

获得合并后数据或者分别获得TCGA和GTEx数据均可，为确保可以比较，本文选择直接下载合并数据TCGA TARGET GTEx (13 datasets). 网页提供了gene expression RNAseq的RSEM expected_count (DESeq2 standardized), 可以直接用于差异分析。

插曲

1 2	gzip -d TcgaTargetGtex_rsem_gene_tpm.gz gzip -d TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz

很奇怪的是，无论使用readr的read.delim函数，还是data.table的fread函数，都无法读取成功。

而read.table显示信息是：

r$> data <- read.table(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.l
    og2.gz"), sep = "\t")
Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  : 
  line 11069 did not have 19040 elements

1
2

data <- readr::read.delim(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz"), header = TRUE, as.is = TRUE)
data <- data.table::fread(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz"), data.table = FALSE)

Brain组织数量与GEPIA不一致的处理方法

在经过UCSC处理GTEx中，Brain分为13个组织1148个样本，但GEPIA2将他们分成了由207+945=1152两组，那么哪些是可以作为LGG或GBM的对照的呢？

从TCGA中下载LGG的临床数据，可得都来源于额叶、顶叶、颞叶和枕叶四个脑叶，也就是说都来源于大脑 (Cerebrum), 因此我们要找的也是Cerebrum.

GTEx Brain的13个组织：

Brain - Amygdala
脑杏仁核（Amygdala）69 正常组织
Brain - Anterior Cingulate Cortex (Ba24)
大脑前扣带皮质（Ba24）83 正常组织
Brain - Caudate (Basal Ganglia)
脑尾（基底神经节）（Caudate）108 正常组织
Brain - Cerebellar Hemisphere
小脑半球（Cerebellar Hemisphere）97 正常组织
Brain - Cerebellum
小脑（Cerebellum）117 正常组织
Brain - Cortex
大脑皮质（Cortex）105 正常组织
Brain - Frontal Cortex (Ba9)
大脑额叶皮质（Ba9）101 正常组织
Brain - Hippocampus
大脑海马（Hippocampus）84 正常组织
Brain - Hypothalamus
大脑下丘脑（Hypothalamus）82 正常组织
Brain - Nucleus Accumbens (Basal Ganglia)
脑积聚核（基底神经节）（Nucleus Accumbens）104 正常组织
Brain - Putamen (Basal Ganglia)
脑壳Putamen（基底神经节）81 正常组织
Brain - Spinal Cord (Cervical C-1)
脊髓（颈C-1）（Spinal Cord）60 正常组织
Brain - Substantia Nigra
大脑黑质（Substantia Nigra）57 正常组织

首先，小脑 (Cerebellum) 和小脑半球 (Cerebellar Hemisphere) 显然属于小脑半球，所以214例属于945组。

而后，根据基底核 - 维基百科，自由的百科全书的说明，
基底核（basal ganglia）包括尾/壳/黑质，共393例，因此属于945组。

最后，海马，下丘脑，脊髓，杏仁核，前扣带都属于单独的结构，所以推测只有皮质（Cortex）和额叶皮质（Ba9）属于大脑 (Cerebrum), 样本量为206, 在误差范围内，可以被认为是LGG或GBM的对照组。

基底核（basal ganglia）:

前侧
- 纹状体（Striatum）包括
  - 尾状核（Caudate nucleus）
  - 壳（Putamen）
  - 伏隔核（Nucleus accumbens）
  - 外苍白球（External segment of globus pallidus，GPe）
  - 内苍白球（Internal segment of globus pallidus，GPi）
后侧，以下这些结构在大脑中更靠下，靠后。
- 丘脑下核（Subthalamic nucleus, STN）
- 黑质（Substantia nigra, SN），根据内部结构可分为
  - 黑质致密部（Substantia nigra pars compacta，SNc）
  - 黑质网状部（Substantia nigra pars reticulata，SNr）
  - 黑质侧部（Substantia nigra pars lateralis，SNl）

TCGA联合GTEX分析流程

引言

效果展示

过程

获取UCSC数据

插曲

Brain组织数量与GEPIA不一致的处理方法

结论

引用