本研究开发的MethylationToActive克服了从DNA甲基化特征系统表征启动子活性的独特挑战。它在各种儿童和成人癌症(包括实体和血液系统恶性肿瘤)中实现了准确、稳健和可推广的性能。
导语
尽管全基因组DNA甲基化组已经证明了其作为肿瘤检测中分亚型和分类的可靠生物标志物的临床价值,但它们在个体基因水平上的直接生物学影响仍然难以捉摸。在这里,本研究提出了MethylationToActivity(M2A),这是一个机器学习框架,它使用卷积神经网络从单个基因的DNA甲基化模式中推断基于H3K4me3和H3K27ac富集的启动子活性。通过公开可用数据集的测试,本研究证明了M2A在揭示各种癌症(包括实体和血液系统恶性肿瘤)中的启动子活性景观方面具有高度的准确性和稳健性。
背景介绍
今天小编为大家带来一篇基于深度学习算法预测单个肿瘤中DNA甲基化组启动子活性景观发表在10分+ Genome Biology 的思路。题目为 MethylationToActivity: a deep-learning framework that reveals promoter activity landscapes from DNA methylomes in individual tumors 。
数据介绍
本研究使用了五个独立的公开数据集,包括儿科NBL O-PDX数据集(N = 16);RMS O-PDX数据集(N = 16);使用匹配的H3K27ac和H3K4me3组蛋白标记ChIP-seq,RNA-seq和WGBS实验数据(N = 9)对数据集进行编码;DCC蓝图反洗钱数据集(N = 19);和儿科 EWS 数据集 (N = 140)。在 EWS 队列中的 140 个样本中,只有 3 个样本具有匹配的 ChIP-seq 和减少代表性的亚硫酸氢盐测序 (RRBS) 数据;对于其余137个样本,只有RRBS数据可用。所有其他队列数据集(即RMS,NBL,ENCODE和AML数据集)包含匹配的H3K27ac和H3K4me3谱,以及RNA-seq和WGBS实验数据。
研究设计
DNAm在确定给定细胞/细胞状态的基因表达框架中起着关键作用。然而,DNAm模式和HMs之间高度复杂和非线性的关系严重阻碍了差异DNA模式生物学影响的可解释性。先前的研究表明,提取高阶甲基化特征对于预测基因表达是有用的。此外,最近的研究应用深度学习方法从其局部序列组成和相邻DNAm状态推断DNAm状态。我们假设这些高级DNAm特征(从启动子及其附近区域的DNAm模式捕获空间信息)也可以提供准确推断启动子活性(如H3K27ac和H3K4me3富集)的机会。研究建议使用基于卷积神经网络(CNN)的深度学习框架来提取这些特征。
M2A 概念框架和工作流程如图所示。M2A从大约单个TSS中提取原始DNAm特征开始。随后通过CNN层进行高级特征提取,并在全连接(FC)层中广义特征和最终输出(即启动子的H3K4me3和H3K27ac)之间进行映射。本报告中描述的香草模型在六个NBL PDX肿瘤(SJNBL046_X, SJNBL013761_X1,SJNBL012401_X1,SJNBL013762_X1,SJNBL013763_X1和SJNBL015724_X1上进行了训练),其中有全面的基因组和表观基因组分析数据,包括八个组蛋白标记(H3K4me1、H3K4me2、H3K4me3、H3K27me3、H3K27ac、H3K36me3、H3K9/14 ac 和 H3K9me3)、CTCF、BRD4 和 RNA 聚合酶 II (PolII) 的全基因组测序、全外显子组测序、RNA 测序、WGBS 和 ChIP-seq 的结果。
研究首先通过检查不同窗口中的输入特征分布来分析DNAm模式中的信息内容,在六个NBL O-PDX训练样本中的活性(高H3K27ac),阳性(高H3K4me3和低H3K27ac)和非活性启动子(低H3K4me3和低H3K27ac)之间。这些特征显示了三种启动子类别之间的不同模式,表明从DNAm模式建模启动子活性的可行性。尽管CNN提取的特征的可解释性仍然是深度学习的一个活跃研究领域,但我们研究了CNN提取的特征在模拟启动子活动方面的功效。我们首先比较了训练集中每个特征(原始输入和CNN提取的特征)和响应变量(H3K27ac)之间的皮尔逊相关性(R)的平方,分析表明CNN提取的特征具有显着更高的R2响应。我们进一步评估了验证样本中原始输入和CNN提取特征的最佳特征,CNN提取的特征再次显着优于原始输入特征。
结果解析
01MYCN扩增的NBL细胞系和O-PDX模型中启动子活性的广泛多样性
迄今为止,大多数癌症HM分析研究都利用了肿瘤模型,包括细胞系,异种移植物以及最近的类器官。处理人类肿瘤组织时的技术限制和挑战阻碍了为原发性患者标本生成高质量的ChIP-seq谱。尽管有记录的表观遗传异质性,但破译各种癌症中主要的HM失调的常见做法是从相关的癌症模型(替代模型)中推断表观遗传谱。许多研究在突变,基因表达和DNAm特征等特征方面将模型系统与原发性肿瘤进行了比较。在这项研究中,我们首先评估了密切相关的NBL模型中启动子活性多样性的水平。具体来说,我们评估了通过H3K27ac水平测量的启动子活性,在三个O-PDX模型(SJNBL046,SJNBL108和SJNBL013763)和三个细胞系模型(IMR-32,NB-5和SKNBE2)中,这些模型具有MYCN扩增,没有其他主要的致癌突变。所有样本均显示启动子H3K27ac水平在整个基因组中的双峰分布,O-PDX模型的活性启动子比例(平均值31.9%,范围27.6-36.1%)略高于细胞系模型(平均值26.1%,范围25.6%-26.7%)(P = 0.14,学生t检验)。然而,细胞系模型(如图)和O-PDX模型的启动子活性存在很大差异。此外,观察到细胞系模型和O-PDX模型之间的差异(平均值34.9%,范围29.9-39.0%)大于两个细胞系模型之间的差异(平均值31.0%,范围29.2-32.1%;P = 0.44,学生 t 检验)或两个 O-PDX 模型之间(平均值 31.0%,范围 22.9–37。0%;P = 0.02,学生的 t 检验)(图f)。启动子活性的变化可能在单个肿瘤的转录失调中发挥重要作用,作为已建立的癌症共识基因的很大一部分(O-PDX模型中为22.4%,细胞系模型中为31.1%,包括APOBEC3B,TGFBR2,PAX7,HOXA11,PDCD1LG2,PTK6,BCL11B,FAS和MYC;在所调查的肿瘤模型中显示了异质启动子活性。因此,本研究试图开发一种计算方法来推断单个肿瘤的启动子活性景观。
02M2A在儿科NBL中产生高度准确的启动子活性景观
为了评估M2A的性能,本研究首先探索了其在队列(验证集)中其余NBL样本中的表现,包括一个O-PDX肿瘤,一个原发性尸检肿瘤和八个细胞系。使用验证集,我们将三个CNN层和两个FC层的M2A框架的性能与三种常用的统计和机器学习方法(基线模型)进行了比较,即多变量自适应回归样条(MARS),随机森林和仅由两个FC层组成的人工神经网络(ANN)。在每种情况下,M2A框架的表现都优于基线模型。从定性角度来看,M2A正确揭示了H3K4me3和H3K27ac在所有样品中启动子活性的双峰分布,从定量角度来看,推断的全基因组启动子活性图对于H3K4me3的单个样品都非常准确(R2= 0.933±0.019; RMSE=0.621±0.072)和H3K27ac(R2=0.799±0.053; RMSE=0.644± 0.074)。此外,对于H3K4me3和H3K27ac的模型拓扑,预测误差分别比下一个表现最好的人减少了17.8%和12.4%。
研究对MYCN扩增的NBL细胞系和O-PDX模型的分析揭示了其启动子活性的实质性差异,这是替代模型(通过一些分析模型代表原发性肿瘤表观基因组)实践的潜在警告。相反,M2A产生了高度准确的启动子活性景观,显着优于H3K4me3和H3K27ac。值得注意的是,在9个(共10个)测试样本中,M2A推断的启动子H3K27ac活性的准确性优于任何单个训练样本获得的最高相似性(P = 0.027,Wilcoxon符号秩检验)。在H3K4me3水平上观察到相同的模式,M2A对于10个样品中的9个更准确(P = 0.037,Wilcoxon符号秩检验),证明了M2A在揭示个体肿瘤启动子活动景观方面的准确性。最后,M2A 的预测准确性与 H3K4me3 在 ENCODE 中分析的相同细胞系的重复之间观察到的实验一致性相当(R2=0.933 ± M2A为0.018,而ENCODE重复为0.922 ± 0.056 [N = 25])。M2A 的准确性也接近 H3K27ac 的重复一致性。
03M2A 可泛化和可扩展性
除了模型准确性之外,在实际应用中部署机器学习模型(如M2A)还有两个具有实际重要性的额外要求:(1)可推广性,即M2A需要通过一组看不见的测试样本(包括模型训练中未使用的肿瘤/组织类型)实现类似的性能,以及(2)可扩展性,即 M2A必须能够有效地应用于外部数据。 研究首先通过使用横纹肌肉瘤(RMS)O-PDX肿瘤的测试样本证明了M2A的准确性,可推广性和可扩展性。RMS O-PDX 数据集由 16 个儿科 RMS 肿瘤组成(11 个胚胎、4 个肺泡和 1 个纺锤体亚型,分别称为 ERMS、ARMS 和纺锤体亚型)。与NBL队列一样,每个RMS样本都经过广泛分析,包括H3K4me3和H3K27ac的WGBS,RNA-seq和ChIP-seq。使用原版 M2A 模型(在六个 NBL PDX 样本上训练的 3CNN-FC 模型),M2A 在 RMS 数据集上实现了与 NBL 测试组对 H3K4me3 的总体预测准确性相当,其与H3K4me3两种不同RMS肿瘤之间观察到的相似性相当或显着优于。推断的H3K4me3活性的准确性与ENCODE样品的重复间一致性相当(P = 0.83,Wilcoxon秩和检验)。 根据定义,只有在没有过度拟合的情况下才能实现泛化。神经网络经常通过多种因素成为这个问题的受害者,包括相对较小的训练数据集和/或过度参数化。管家基因在不同组织中的相对一致的表达可能导致对此类模型中性能测量的不准确(通常被夸大)的解释,如随机RMS测试肿瘤的启动子H3K27ac水平与最相似的NBL训练肿瘤之间的相对较高的R2值(0.663±0.040)所证明的那样。因此,我们专注于RMS和NBL PDX样本中差异表达(DE)的一组基因,过度拟合或记忆模型在这些基因中表现不佳。毫不奇怪,当测量仅限于编码DE基因的启动子时,NBL验证样本和最相似的NBL训练样本之间的平均相关一致性从0.755下降到0.599,而RMS测试肿瘤也观察到急剧下降(从0.663下降到0.259)。相反,六PDX NBL训练的M2A模型在NBL验证集(R = 0.729 ± 0.071)和RMS测试集(R 2 = 0.715 ± 0.044)中都保持了DE基因启动子的高精度,进一步证明了M2A的可推广性。
04迁移学习提高了 M2A 的性能,同时在目标域中减少了额外的输入
尽管我们已经在RMS数据集中证明了M2A的普遍性,但表观遗传基因在儿科肿瘤中经常发生突变的事实增加了单个肿瘤类型对DNA模式进行类型特异性解释的可能性。当ChIP-seq测量可用于足够的样品时,需要特定类型的模型。然而,尽管小儿实体瘤作为一个群体构成了一种罕见的疾病,但它们包括许多不同的肿瘤类型,并且很少有足够分析的样本可用于其中许多。在应对这一挑战时,我们假设固定特征提取策略(迁移学习)可以通过使用小标记数据集来实现推导出有效的肿瘤类型特异性模型的目标。这里的主要假设是,基于大型数据集提取的广义特征对于明显不同的任务具有类似的信息。CNN的特征学习和选择特性在具有极小标记数据集的各种任务中提供了出色的可移植性。 在M2A中,CNN层捕获广义DNAm特征,FC层学习DNAm特征和启动子活动之间的映射功能。在这里,我们从预训练的原版M2A模型开始,固定特征提取层(CNN层),并使用目标肿瘤类型的单个样本来更新映射函数(FC层的权重和偏差)。由于 H3K4me3 的 M2A 一致性接近 NBL 和 RMS 数据集中的重复间一致性,因此我们专注于迁移学习的 H3K27ac 推理。在RMS数据集中使用单个样本进行迁移学习后,我们观察到准确性显着提高。此外,该模型明显优于具有相同模型架构的单个RMS样本模型,其中CNN层和FC层均来自RMS训练样本,并且略高于观察到的不同RMS肿瘤之间的相似性。该分析证明了预训练的CNN层对一般特征提取和目标域中的单个剖析样本的价值。因此,我们将迁移学习应用于EWS和AML数据集。然而,在ENCODE数据集中转移是不可行的,因为这些细胞系来自不同的组织。
05M2A推断的启动子活性图概括了胚胎和肺泡横纹肌肉瘤之间的亚型差异
识别复发性表观遗传失调(表观驱动因素)是癌症表观基因组研究的主要研究重点。为此,我们研究了是否在RMS O-PDX肿瘤中M2A揭示的启动子景观中捕获了亚型特异性表观遗传失调。使用M2A推断的启动子活动景观(来自NBL训练的模型)的tSNE嵌入概括了DNAm谱中ARMS和ERMS肿瘤的明确分离,这进一步证明了CNN提取的高阶DNAm特征的可推广性。重要的是,当关注ARMS和ERMS亚型中DE基因的启动子时,M2A模型忠实地保留了亚型特异性启动子活性模式。使用来自单个RMS的数据进行迁移学习进一步提高了一致性。
GAS2是一种在ERMS中选择性表达的基因。尽管在ARMS肿瘤中发现了启动子低甲基化,但M2A模型正确预测了ERMS肿瘤中启动子活性明显更强(P = 0.01,Wilcoxon秩和检验)。同样,尽管ERMS和ARMS肿瘤都具有NOS1-005启动子低甲基化,但仅在ARMS肿瘤中预测了强启动子活性(P = 0.0015,Wilcoxon秩和检验),与ChIP-seq测量一致。
05M2A 识别横纹肌肉瘤中编码不同蛋白质亚型的亚型特异性启动子用法
可变启动子的使用是组织特异性调节的重要翻译前机制,因为它会影响可用亚型的多样性。最近,人们揭示了替代启动子在癌症中的普遍性;在某些情况下,启动子的使用比基因表达更准确地反映患者生存率。在RMS数据集中具有多个注释启动子的10,835个活性基因中,我们发现16个样本中有2584个基因(24%)具有替代的主要启动子使用。我们专注于562个基因,这些基因(1)在ERMS和ARMS亚型中均活跃,(2)具有亚型特异性启动子的使用。我们探讨了M2A在预测ARMS和ERMS中可变启动子使用的准确性。 根据测量的启动子活性,428个基因在两种亚型之间表现出显着的使用差异(FDR < 0.1)。M2A推断的启动子活性景观显示276个基因,其亚型之间的启动子使用率存在显着差异(FDR < 0.1),其中210个与基本事实相匹配(精度= 0.76,召回率= 0.49,F1得分= 0.60)。 PDZ结构域含无名指3(PDZRN3)是PAX3/7–FOXO1融合蛋白的已知靶标,可阻断肌生成的末端分化。M2A预测了PDZRN3中亚型特异性启动子的使用模式。功能研究表明,PDZRN3通过Id2的转录和翻译后调控来调节肌母细胞分化为肌管。它在ARMS中的过表达主要是由位于典型启动子(PDZRN3-001)下游191 kbp的替代启动子(PDZRN3-006)相邻的融合蛋白结合驱动的。亚型特异性亚型的使用伴随着替代启动子及其直接下游区域的DMR,并通过RNA-seq读段比对进一步确认。与ERMS中表达的典型亚型相比,ARMS首选的PDZRN3-006亚型在N端缺乏无名指和Sina结构域,并且具有较短的PDZ结构域。亚型之间的亚型差异以及表达水平的差异可能导致ARMS和ERMS肿瘤发展不同阶段的肌生成受损。
讨论
本研究开发的MethylationToActive克服了从DNA甲基化特征系统表征启动子活性的独特挑战。它在各种儿童和成人癌症(包括实体和血液系统恶性肿瘤)中实现了准确、稳健和可推广的性能。MethylationToActive将作为一种有价值的工具,提供DNAm失调的功能解释,表征启动子活性与DNAm模式的差异,并揭示患者肿瘤中的替代启动子使用,这将通过基于遗传变异和表观遗传失调的定制治疗来促进精准医疗。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您