申请认证 退出

您的申请提交成功

确定 取消

10分+ 识别关键的CpG甲基化特征

2023-07-29 14:08

尽管有大量基于大CpG特征的DNAm生物标志物,但几乎没有一个被转化为临床实践。许多表观遗传特征包含大量CpG,这需要微阵列或深度测序方法,这些方法在常规应用中难以实施且成本高昂。

导语

DNA甲基化特征通常基于需要数百个位点进行预测的多变量方法。本研究提出了一个名为CimpleG的计算框架,检测用于细胞类型分类和反卷积的小CpG甲基化特征。研究结果表明,CimpleG在血细胞和其他体细胞的细胞类型分类中既具有时间效率,又具有与最佳性能一样,同时基于每种细胞类型的单个DNA甲基化位点进行预测。总之,CimpleG为DNAm特征和细胞反卷积的描述提供了一个完整的计算框架。

背景介绍

今天小编为大家带来一篇研究CPG甲基化特征的发表在10分+ Genome Biology的思路。题目为 CimpleG: fin ding simp le CpG methylation signatures。

41761690587690181

数据介绍

本研究使用了来自GEO的以下数据集:GSE103253,GSE107226,GSE40699,GSE41933,GSE43976 等。此外将收集和策划的用于对细胞类型分类进行基准测试的数据集作为准备用于分析的离散文件。这些可以从Zenodo获得。

研究设计

研究提出了一个名为CimpleG的计算框架,用于检测用于细胞类型分类和反卷积的小CpG甲基化特征。小signature很重要,因为它们在临床中的潜在应用。研究对细胞类型检测和细胞反卷积的广泛基准测试表明,CimpleG速度快,可以与需要大DNA甲基化特征的最先进的方法一样执行。这项工作还提供了两个包含白细胞和上皮细胞的大型基准数据集,这为未来方法提供了有用的基准资源。综上所述,CimpleG为临床医生科学家提供了一个有价值的工具,作为一个易于使用的独立框架,用于鉴定最适合作为靶向DNAm分析生物标志物的CpG位点。

结果解析

01CimpleG计算框架

CimpleG是一个计算框架,用于选择用于细胞类型分类的DNAm特征(图1A)。它提供了一种新颖的特征选择指标来选择小的DNAm特征。CimpleG 最初使用 t 统计分数来预选活动特征,后跟精确召回率曲线下面积 (AUPR) 以进行特征选择。由于DNAm细胞分类问题中的类别高度不平衡,即一个阳性示例平均对应15个阴性,因此采用了精确召回曲线而不是通常的ROC曲线进行特征选择。接下来,CimpleG通过结合分数和AUPR值排名并选择最优的CpG位点。这些用于构建单变量细胞类型特定的分类器和细胞反卷积(图1A)。此外,CimpleG框架还促进了特征选择和分类方法的使用(例如随机森林,弹性网络和提升树)。 此外,CimpleG提供了两个精选和预处理的DNA数据集,其中包含14种体细胞类型和8种不同白细胞的DNAm阵列纲要(图1B-C)。这些数据是用众所周知的最先进的基于DNA的方法预处理的,如SeSAMe,minfi 。最终的体细胞和白细胞数据集分别有576个和365个样本,分别有143,291个和284,706个CpG位点。研究在训练和测试样本中对这些数据集进行了分层,以便来自同一研究的数据仅作为测试或训练数据找到。此外,训练和测试数据是独立预处理的,以避免泄漏预处理。这两个数据集的主成分分析显示主要细胞类型之间存在分离(图1B-C),而密切相关的细胞(体细胞数据中的成纤维细胞和MSC细胞;白细胞数据中的CD4和CD8 T细胞)只能用额外的PC来区分。

12241690587691117

图1

02对细胞类型预测问题进行基准测试

CimpleG与生成表观遗传特征的不同替代方法进行了比较:决策树,随机森林,增强树,神经网络和弹性网络。我们还考虑将单特征DNAm暴力破解分类器作为基线。研究评估所有可能的单个标记,并按 AUPR 对这些标记进行排名。此外还评估了仅考虑AUPR(CimpleG AUPR)或t统计量(CimpleG评分)的CimpleG变体,这相当于使用最先进的DNA分析和细胞反卷积方法。这是为了确保这些指标的组合比它们的单个个体使用更强。值得注意的是,一些模型(神经网络、随机森林和决策树)无法应对数据集的高维特征。这主要是由于内存使用量非常大或执行时间天数。因此,对于这些模型,作为预训练步骤,研究进行了考虑DNAm位点方差和协方差的无监督特征选择。接下来,研究使用交叉验证框架来优化所有方法的参数。我们评估了三个主要的基准指标,AUPR衡量的分类性能,所需的计算时间和每个模型使用的特征数量。研究只为训练数据中至少有 10 个样本的细胞类型构建分类器/特征(体细胞中14个样本中的10个,血细胞中 8个样本中的6个),但是,我们仍然保留样本量小的细胞作为负示例(非目标类)。

研究观察到Elastic Net,CimpleG和CimpleG(score)在体细胞和白细胞数据集中具有最高的中位数AUPR(图2A-B),表明这些是表现最佳的模型。通过考虑排名的方法,我们观察到 Elastic Net、CimpleG 和 CimpleG(score)是测试数据集准确性的三个最佳分类器。由于靶标样本的数量因靶细胞类型而异,因此一个相关的问题是阳性样本(靶标样本)的数量与分类器对单个方法的准确性之间是否存在任何关联。研究观察到,表现最佳的方法(弹性网络和CimpleG)在正样本数中具有稳定的AUPR值,这表明它们在少量阳性样本中是稳健的。关于计算时间,每个签名,CimpleG 平均需要 55.3 秒,弹性网络平均需要 37.6 分钟,而蛮力算法平均需要 6.61 小时才能生成签名(图 2C–D)。值得注意的是,此处介绍的算法的计算时间并不代表分析的关键方面。这是因为计算时间远低于测量或预处理DNA甲基化数据所需的时间。这些结果表明,这三种方法在基于DNAm的细胞分类问题中表现同样出色,而CimpleG为特征选择问题提供了显着的速度。

20161690587691201

图2

03DNA甲基化位点的选择

另一个相关点是在通过不同方法得出的签名中实现的 CpG 的数量。Elastic Net 选择了数量最多的特征,白细胞的所有六个模型中有 3378 个独特特征(图 3A),体细胞的所有 10 个模型中有 2345 个独特特征。这比所有其他型号的总和还要多。单特征分类器(CimpleG和蛮力)分别在体细胞和白细胞数据的总共10个和6个DNAm位点中选择,每种细胞类型一个CpG。我们观察到这些特征与弹性网络选择的特征高度重叠,即CimpleG选择的所有16个DNAm也是弹性网络选择的DNAm位点的一部分。有趣的是,随机森林、神经网络或决策树选择的特征与其他方法截然不同。这是因为这些方法需要以前使用单变量滤波器,因为它们无法处理大维输入。总之,这些结果显示了CimpleG在描绘小DNAm特征方面的能力。 此外,看看CimpleG生成的特定签名也很有趣(图3B-G),因为这些基因组位置可以提供细胞本身的生物学见解。一些DNAm位点接近与细胞功能相关的基因,即选择与CD4(cg05044173,图3C)和CD8(cg04329870,图3D)基因接近的DNAm位点作为CD4+和CD8+ T细胞的标记。DNAm位点(cg01537765)在LIPE(脂肪酶E,激素敏感型)体内被选为脂肪细胞的标志物。已知该基因通过在脂肪组织中水解储存的甘油三酯以游离脂肪酸来发挥作用。最后,一个CpG(cg10624122)在上皮间充质转换相关转录因子的启动子TWIST1中被选为间充质干细胞的标志物。此外,根据人类蛋白质图谱,其他CpG接近具有细胞特异性表达模式的基因。一个例子是CpG cg10673833接近基因MYO1G,是淋巴细胞的良好标志物和 CpG cg23882131接近MRGPRF,MRGPRF是成纤维细胞的标志物。虽然其他标记的功能关联并不明显,但需要考虑的是,DNAm状态通常不会直接转化为邻近基因的表达。值得注意的是,白细胞数据中使用的一些样本来自脐带血或非健康样本。一个重要的问题是造血或特定疾病的个体发育差异是否会影响选定的特征。在我们的分析中,没有一个协变量影响CimpleG派生的签名的DNAm值。

75861690587691281

图3

04对细胞型反卷积问题进行基准测试

接下来,我们评估DNAm特征和对白细胞细胞反卷积问题的模型预测。为此,我们使用DNAm位点(对于具有小签名的模型;CimpleG,蛮力)或模型预测分数(弹性网络、随机森林、增强树和神经网络),以为每个模型与细胞类型构建参考矩阵。我们使用这些作为反卷积方法的输入,即非负最小二乘(NNLS)算法,这是DNAm的常见反卷积方法,因为它简单,并且在最近的基准研究中表现最佳。我们检查了最先进的反卷积方法和框架的性能(IDOL;ENmix)。在扩展的白细胞参考数据集上训练方法,其中56个样本包含12种不同的细胞类型。这与我们为分类问题编译的数据集形成鲜明对比,该数据集具有更多样本,但仅涵盖六种主要的白细胞类型。接下来,根据对Salas等人最近报道的两种人工血液样本混合物(白细胞数据集1和2)和真实混合物数据集(白细胞数据集3)的预测评估所有方法。白细胞1和2数据集基于十二种不同细胞类型的混合物。一些反卷积方法(EpiDISH,ENmix和minfi)基于只有六七个主要白细胞的预训练签名/参考数据集。因此,我们简化了白细胞1和2数据集的细胞注释,将它们对六种主要细胞类型的注释结合起来,以评估这些方法。在白细胞数据集3中也进行了类似的程序,该数据集仅具有五个主要淋巴细胞群的混合值。对于所有可以控制CpG位点数量(CimpleG,IDOL和ENmix)的方法,我们使用大特征(默认参数和CimpleG的每个细胞10-CpG位点)或小特征(每个细胞1-2个位点) 来评估它们。 考虑到主要白细胞的反卷积问题,我们观察到IDOL在考虑最低预测误差(最低RMSE)时排名最高。IDOL在3个数据集中的2个中排名第一,其次是CimpleG,有10个CpG(在2个数据集中排名第二)和minfi(一次第一,另一次第三)(图4)。如果我们只考虑基于小签名的方法(CimpleG,IDOLmin,ENmix.min),我们观察到,一般来说,CimpleG的RMSE低于竞争方法。在这些数据集中,CimpleG的平均RMSE平均为0.0561,而前三种方法IDOL,CimpleG.10和minfi的平均RMSE分别为0.0188,0.0240和0.0281,使用更大的签名。IDOLmin和ENmix.min的平均RMSE分别为0.0668和0.0743。在基于统计数据的 𝑅2 排名中也观察到了类似的结果。 研究还评估了两种人工混合物数据集(白细胞1和2)的方法选择。在这里,反卷积问题在于更精细的注释,具有 12 种不同的白细胞类型。IDOL获得的RMSE最低(平均值为0.0199),其次是CimpleG,为10个CpG(平均值为0.0253)。与以前一样,与其他小特征方法相比,每种细胞类型具有单个CpG的CimpleG获得了最低的平均RMSE。CimpleG的平均RMSE为0.0549,而IDOLmins为0.0633。 一个关键的方面是用于每种方法的DNA位点的数量。CimpleG只需要12个位点,而IDOLmin,ENmix.min,minfi,ENmix,CimpleG.10,EpiDISH和IDOL分别需要13个,24个,100个,100个,120个,333个和1200个DNAm位点。因此,CimpleG所需的DNAm位点至少比性能最佳的IDOL,CimpleG.10和minfi少10倍。总之,我们观察到CimpleG是一种有竞争力的细胞反卷积方法,当基于每种细胞类型10个CpG位点时,同时是最小特征数目的最佳方法。

24551690587691359

图4

讨论

尽管有大量基于大CpG特征的DNAm生物标志物,但几乎没有一个被转化为临床实践。许多表观遗传特征包含大量CpG,这需要微阵列或深度测序方法,这些方法在常规应用中难以实施且成本高昂。研究在这里建议CimpleG,它探索t统计量和AUPR评分,为每种感兴趣的细胞类型选择一个DNAm位点。在细胞签名选择的背景下,CimpleG的性能与其他最先进的方法(如t统计,弹性网络,随机森林,增强树和神经网络)进行了对比。结果表明弹性网络是总体上最好的方法,但倾向于选择相对较大的特征数,这些特征可以包含数千个DNAm位点进行预测。CimpleG的性能与Elastic Net一样准确,同时每种细胞类型仅关注一个DNAm位点。一个重要但探索不足的方面是生物变异性对细胞特征和解卷积方法的影响。目前尚不清楚年龄,健康状况(即感染或生理疾病)如何影响细胞特异性特征。虽然研究在数据集中观察到某些协变量的影响较低,例如疾病与健康和年龄(新生儿与成人),但需要进行具有丰富临床和样本注释的更大DNA甲基化数据以进行深入分析。

未来还有更多方面需要探索。在基于阵列的DNA甲基化数据集中通常遇到的一个技术问题是缺失值,该值通常随着数据集大小的增加而增加。目前,除CimpleG外,所有评估的反卷积工作流程都不支持通过插补进行缺失值的预测。进一步的问题是缺少参考细胞类型或使用CimpleG签名从循环细胞游离DNA中检测细胞来源的影响。从技术角度来看,需要数据结构来有效处理不断增长的DNAm数据集。另一个相关问题是与数据存储库(如Gene Expression Omnibus)自动集成的方法。然而,请注意,在此类存储库上缺乏一致的细胞类型注释,即在细胞本体中提供,使得手动细胞类型注释仍然是一个要求。

不感兴趣

看过了

取消

甲基化,白细胞,类型,样本

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交