引言

高通量RNA测序(RNA-Seq)已成为转录组分析的强大方法(1),广泛用于了解基因功能和生物模式,找到候选药物靶点,并识别疾病分类和诊断的生物标志物(2)。近年来,癌症基因组图谱(TCGA)(3)和基因型组织表达(GTEx)(4,5)项目为数万个癌症和非癌症样本提供了RNA-Seq数据,为包括癌症生物学在内的许多相关领域提供了前所未有的机会。到目前为止,TCGA已经为33种癌症类型的9736个肿瘤样本提供了RNA-Seq数据,此外还有726个相邻正常组织的数据。肿瘤和正常数据之间的不平衡可能导致各种差异分析的效率低下。幸运的是,GTEx项目为8000多个正常样本提供了RNA-Seq数据,尽管这些样本来自不相关的捐赠者。由于数据处理管道和基因模型等方面的许多差异,此类数据无法直接组合进行综合分析。为了使来自不同来源的数据更加兼容,UCSC Xena项目(http://xena.ucsc.edu/)基于标准管道重新计算了所有表达式原始数据,以尽量减少与不同来源的差异,从而允许形成最新的最全面的表达式数据。

效果展示

过程

获取UCSC数据

数据可以直接从https://xenabrowser.net/datapages/网站获得。

获得合并后数据或者分别获得TCGA和GTEx数据均可,为确保可以比较,本文选择直接下载合并数据TCGA TARGET GTEx (13 datasets). 网页提供了gene expression RNAseq的RSEM expected_count (DESeq2 standardized), 可以直接用于差异分析。

插曲

1
2
gzip -d TcgaTargetGtex_rsem_gene_tpm.gz
gzip -d TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz

很奇怪的是,无论使用readrread.delim函数,还是data.tablefread函数,都无法读取成功。

read.table显示信息是:

1
2
3
4
r$> data <- read.table(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.l
og2.gz"), sep = "\t")
Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
line 11069 did not have 19040 elements
1
2
data <- readr::read.delim(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz"), header = TRUE, as.is = TRUE)
data <- data.table::fread(file.path(data_folder, "TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz"), data.table = FALSE)

Brain组织数量与GEPIA不一致的处理方法

在经过UCSC处理GTEx中,Brain分为13个组织1148个样本,但GEPIA2将他们分成了由207+945=1152两组,那么哪些是可以作为LGG或GBM的对照的呢?

从TCGA中下载LGG的临床数据,可得都来源于额叶、顶叶、颞叶和枕叶四个脑叶,也就是说都来源于大脑 (Cerebrum), 因此我们要找的也是Cerebrum.

GTEx Brain的13个组织:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Brain - Amygdala
脑杏仁核(Amygdala)69 正常组织
Brain - Anterior Cingulate Cortex (Ba24)
大脑前扣带皮质(Ba24)83 正常组织
Brain - Caudate (Basal Ganglia)
脑尾(基底神经节)(Caudate)108 正常组织
Brain - Cerebellar Hemisphere
小脑半球(Cerebellar Hemisphere)97 正常组织
Brain - Cerebellum
小脑(Cerebellum)117 正常组织
Brain - Cortex
大脑皮质(Cortex)105 正常组织
Brain - Frontal Cortex (Ba9)
大脑额叶皮质(Ba9)101 正常组织
Brain - Hippocampus
大脑海马(Hippocampus)84 正常组织
Brain - Hypothalamus
大脑下丘脑(Hypothalamus)82 正常组织
Brain - Nucleus Accumbens (Basal Ganglia)
脑积聚核(基底神经节)(Nucleus Accumbens)104 正常组织
Brain - Putamen (Basal Ganglia)
脑壳Putamen(基底神经节)81 正常组织
Brain - Spinal Cord (Cervical C-1)
脊髓(颈C-1)(Spinal Cord)60 正常组织
Brain - Substantia Nigra
大脑黑质(Substantia Nigra)57 正常组织

首先,小脑 (Cerebellum) 和小脑半球 (Cerebellar Hemisphere) 显然属于小脑半球,所以214例属于945组。

而后,根据 基底核 - 维基百科,自由的百科全书 的说明,
基底核(basal ganglia)包括尾/壳/黑质,共393例,因此属于945组。

最后,海马,下丘脑,脊髓,杏仁核,前扣带都属于单独的结构,所以推测只有皮质(Cortex)和额叶皮质(Ba9)属于大脑 (Cerebrum), 样本量为206, 在误差范围内,可以被认为是LGG或GBM的对照组。

基底核(basal ganglia):

  • 前侧
    • 纹状体(Striatum)包括
      • 尾状核(Caudate nucleus)
      • 壳(Putamen)
      • 伏隔核(Nucleus accumbens)
      • 外苍白球(External segment of globus pallidus,GPe)
      • 内苍白球(Internal segment of globus pallidus,GPi)
  • 后侧,以下这些结构在大脑中更靠下,靠后。
    • 丘脑下核(Subthalamic nucleus, STN)
    • 黑质(Substantia nigra, SN),根据内部结构可分为
      • 黑质致密部(Substantia nigra pars compacta,SNc)
      • 黑质网状部(Substantia nigra pars reticulata,SNr)
      • 黑质侧部(Substantia nigra pars lateralis,SNl)

结论

引用

  1. GEPIA:用于癌症和正常基因表达分析和交互式分析的网络服务器
  2. 3大数据库超2万RNA-seq数据重新统一处理——关于TCGA-GTEx是否需要标准化 – 王进的个人网站
  3. GTEx联合TCGA数据库差异分析(更新) – 王进的个人网站
  4. TCGA和GTEx的数据联合分析实战 - 简书
  5. GitHub - xjsun1221/RSEM_with_limma_edgeR_Deseq2
  6. GEPIA 2 - Dataset Sources