申请认证 退出

您的申请提交成功

确定 取消

科研丨江南大学:通过多视图学习的基于分类和功能特征的人类肠道微生物组衰老时钟(国人佳作)

2022-10-17 10:37

当前研究包括一个多视图数据适应的集成机器学习框架。通过异构模型和数据的整合,我们观察到肠道微生物组在衰老过程中的广泛变化模式,并阐明在这一过程中物种和功能的影响。

导读  

人体肠道微生物组是一个与衰老过程密切相关的复杂生态系统。然而,目前尚无可靠方法可以充分利用肠道微生物组的宏基因组数据来确定宿主的年龄。本研究考虑了地理因素对肠道微生物组的影响,利用共计2604个筛选过的肠道微生物组宏基因组数据构建了年龄预测模型。然后研究者开发了一个包含多种异构算法并结合物种和通路谱的集成模型用于多视图学习。通过整合肠道微生物组宏基因组数据和调整宿主混杂因素,该模型显示出较高的准确度(R2=0.599,平均绝对误差=8.33年)。此外,研究者进一步解释了该模型并确定了衰老过程的潜在生物标志物。在这些鉴定的生物标志物中,研究者发现老年人中Finegoldia magna、Bifidobacterium dentium和Clostridium clostridioforme的丰度增加。此外,肠道微生物组对氨基酸的利用随着年龄的增长发生显著变化,这已被报道为年龄相关营养不良和炎症的危险因素。该模型将有助于多组学数据的综合利用,更好地了解微生物与年龄之间的相互作用,从而实现对衰老的靶向干预。

论文ID

名:Human gut microbiome aging clocks based on taxonomic and functional signatures through multi-view learning

通过多视图学习的基于分类和功能特征的人类肠道微生物组衰老时钟

期刊Gut Microbes

IF:9.434

发表时间:2022.1

通讯作者:王鸿超,陆文伟

通讯作者单位:江南大学食品科学与技术国家重点实验室,江南大学食品学院

DOI号:10.1080/19490976.2021.2025016

 

实验设计

16981665792095831

结果

1. 宿主相关因素对微生物组的影响

从覆盖13个分区的31个研究队列中收集了总共4478份粪便样本(图1a),所有样本均来自年龄≥18岁的个体。采用置换多元方差分析(PERMANOVA)来分析年龄和其他宿主相关因素对肠道微生物组的分类和代谢通路谱的影响。包括国家和分区等的地理因素与肠道微生物组组成和功能的相互作用最大,其次是西方化和年龄(图2b)。总体而言,这些结果表明年龄是造成成人肠道微生物组显著差异的主要因素(针对DNA提取试剂盒和测序平台进行调整;Bonferroni校正p<0.001)。

随后我们研究了地理因素的分布是否以年龄为导向。一般来说,子区域间年龄分布趋势的性质导致年龄预测模型的性能下降,很难证明与年龄相关的标志物不是由地理因素决定的。此外,鉴于国家和年龄之间分布特征的差异,将地理因素作为额外特征添加到预测模型中会导致假阳性情况,这是由于特征本身的数据趋势而不是特征和肠道菌群之间的学习关联。出于这些原因,我们使用了两种不同的算法(线性回归[LR]和随机森林[RF])来评估国家和年龄之间的关联。两种算法都表明在某些国家数据集中一定年龄范围内确实存在特定的样本富集趋势(R2>0.1;图2c),这导致国家和年龄因素之间的错误相关性。

我们结合两种方法来减少地理位置和年龄之间的相关性,以避免年龄区域分布问题。首先我们根据地理位置将国家分为不同的子区域级别;这确保了在减少具有特殊分布的区域之后,仍能维持大多数样本。聚类后分区因素仍是影响肠道微生物组物种和通路的重要因素(图2b)。并且分区层面仍然存在一定的相关性(LR,0.016±0.007;RF,0.110±0.019)。因此,我们根据聚类结果筛选每个数据集。为确保统计功效,样本大小>200的子区域被考虑用于后续分析。利用特征重要性评分依次移除与年龄相关最密切的子区域,RF模型进一步判断子区域与年龄因素之间的关联强度(图2d)。最后,我们确定了与年龄无有明显相关性的子区域子集(R2<0.01;图2e),包括东亚(EA)、北美(NA)、北欧(NE)和南欧(SE)。我们评估了这个子集在不同机器学习算法上的相关性(图2f)。与国家层面相比,在所有模型中筛选的数据子集有效地避免了分布问题(R2<0.01)。

14791665792095918

图1 堆叠集成结构示意图:(a)模型集成的第一阶段(b)模型集成的第二阶段。

83231665792096104

图2 样本数据以及宿主因素与年龄间关联的概述。

(a)本研究中使用的肠道微生物组宏基因组数据的采样区域(重新分组到亚区域水平)和样本量。(b)使用Adonis计算宿主因子与微生物组物种和通路组成的影响。(c)利用国家和年龄因素的线性回归和随机森林模型计算相关性。(d)各分区对年龄分布的影响程度按特征重要性得分排序。(e)在每个筛选时期,采样亚区和样本子集的年龄因素之间的影响。(f)采用不同算法计算的样本子集国家/地区和年龄因素之间的影响。以上所有模型的性能均通过10次5倍交叉验证进行评估。缩写:WE,西欧;CE,中欧;SE,南欧;EA,东亚;NE,北欧;NA,北美。 

2. 基于分类谱的年龄回归模型构建

因为期望异构算法获得更多的多样性,因此需要基本回归量的多样性来实现有效的模型集成,从而通过集成减少偏差。因此,我们对调整后的数据集进行不同机器学习算法的系统评估(总共2604个样本;数据集中的所有个体的年龄在18到107岁之间,中位年龄为52岁)。

首先,我们旨在确定哪些模型能够实现对肠道微生物组物种水平谱的年龄预测。总共考虑了11个模型,包括LR、Lasso、Elastic Net(EN)、Bayesian Ridge(BR)、Support Vector Machine(SVM)、Decision Tree(DT)、RF、Gradient Boosted Regression Trees(GBRT)、eXtreme Gradient Boosting(XGB和XGBRF)和LightGBM(LGB)。除了LR和DT模型,其他几个模型都可以实现年龄预测(图3a);事实上,我们发现基于树的算法(RF、GBRT、XGB、XGBRF和LGB)较其他模型具有更好的预测性能,并且LGB模型的性能最高(R2=0.5,MAE=9.48)。

其次,我们采用了一系列特征选择方法,旨在减少特征维度并降低计算成本。其中基于GBRT的选择方法在不降低性能的情况下降低了数据特征维度(图3b)。因此,考虑到降低模型计算成本,我们使用GBRT选择的数据作为后续模型集成的输入。

此外,基于过滤后的数据,我们比较了额外子区域标签特征对模型性能的影响(图3c)。基于树的方法(RF、GBRT、XGB、XGBRF和LGB)对附加特征更敏感,结果表明子区域信息可以显著提高模型性能。

22521665792096203

图3 基于肠道菌群物种组成的年龄预测模型的性能。

(a)不同机器算法预测物种组成年龄的能力(评估指标为R2和MAE)。(b)不同特征选择算法对不同模型性能的影响(用年龄预测能力过滤,评估指标为R2)。(c)额外子区域特征对年龄预测性能的影响(基于特征选择后的物种组成)。

3. 基于代谢通路谱的年龄回归模型构建

为构建基于肠道微生物组宏基因组数据的高精度年龄回归模型,并提高数据利用率,除了前面提到的分类学特征外,我们还进一步考虑了菌群代谢通路的组成,且对代谢途径注释结果进行了不同机器学习算法的系统评估。

如前所述,我们首先判断这一系列算法是否可以根据通路数据预测年龄。经过10次5倍交叉验证,除LR和DT之外的算法均表现出不同程度的年龄回归能力(图4a)。有趣的是,与分类谱相比,通路谱的特征维数较少,但在大多数算法中具有更好的预测精确度(原始物种和通路数据的特征维数分别为904和468)。然而,尽管这两种数据类型在LGB模型中表现出了最好的预测能力,但物种和通路间仍然存在很大的性能差距。总之,在这些不同的数据类型中,基于树的算法表现出更好的预测能力,而LGB模型具有最好的性能(R2=0.42,MAE=10.21)。

随后实施了相同的特征选择策略,基于GBRT的选择方法具有最小的特征维度且不影响每个模型的预测性能(图4b)。因此,GBRT选择的数据被用于后续模型集合。我们根据筛选的数据比较了额外的地理特征对模型性能的影响(图4c)。与物种建模现象类似,基于树的方法更容易了解子区域特征的影响。相比之下在通路建模过程中地理因素表现出更高的性能改善。

98701665792096297

图4 基于肠道微生物组通路组成的年龄预测模型的性能。

(a)不同机器算法预测通路组成年龄的能力(评估指标为R2和MAE)。(b)不同特征选择算法对不同模型性能的影响(用年龄预测能力过滤,评估指标为R2)。(c)额外子区域特征对年龄预测性能的影响(基于特征选择后的通路组成)。

4. 基于肠道微生物组宏基因组数据的集成和多视图学习

之后我们检测了与单个模型相比多个模型的融合是否可以提高预测精确度。为此,应用9种预验证回归方法(Lasso、EN、BR、SVM、RF、GBRT、XGB、XGBRF和LGB)构建集成模型,并使用LR作为泛化器的权值学习算法。首先,我们比较了单一算法和集成算法在多种数据类型(分别使用物种集和通路集建模,以及使用多个数据集建模)下的预测准确性。为评估性能,我们将在两个数据集上显示出最高准确度的LGB确定为比较的基准。结果表明,集成方法在所有数据类型中都可以显著提高预测精确度,这说明了该方法的可行性(图5a)。另外,多集合的结果表明基于多视图的方法可以进一步提高性能。

需要注意的是,由于集成算法是对两个数据集同时独立建模,然后将结果进行加权作为预测结果,而目前的大多数模型都不是同时对多个数据集进行建模,这意味着对应的多个数据集不适用于LGB模型。因此,由于数据结构的限制,很难直接比较集成模型和LGB的性能差异。为了解决这个问题,我们采用了另一种数据融合方式来比较LGB模型和集成模型的预测能力。为了实现物种和通路数据的综合利用,我们直接连接两个数据集。使用之前用于子区域特征的同样方法将每个样本的代谢通路数据与物种数据作为附加特征进行聚合。我们使用连接数据集构建LGB和集成模型(缩写为EM1),并将它们与使用上述整合策略的集成模型(EM2;先独立训练,然后加权结果)进行比较。结果我们发现特征的扩展也可以提高回归的精确度。在这一整合策略下,集成模型的性能仍显著高于LGB,并且与原始集成方法的性能没有显著差异(图5b)。

我们还测试了不同的权重学习方法判断集成效果的变化。将简单平均数(SA)结果作为不同加权方法的基线,非集成树模型被认为是潜在的泛化器,包括LR、Lasso、BR、SVM with linear kernel(LSVM)和SVM with non-linear kernel(SVM)。这背后的基本原理是避免在泛化过程中复杂模型的过度拟合而导致性能损失。我们观察到与SA相比,基本线性模型(LR、Lasso、BR、LSVM和SVM)能够获得理想的整合效果,并且这些方法之间没有显著差异(图5c)。值得注意的是,DT的性能严重下降,低于基准,这意味着DT可能存在严重的过拟合问题。结合上述结果,我们确定了最简单的LR算法作为集成模型的泛化器,在此基础上,基础学习者可以获得理想性能。我们的集成模型在所有年龄范围内都表现出稳定的预测效果,在任何特定年龄范围内都没有异常的预测偏差(图5d)。

19221665792096374

图5 建模方法的预测精确度。

(a)单个和集合模型分析的不同数据集的精确度。(b)不同数据融合方法对模型预测性能的影响。(c)扩展数据集中不同加权方法的预测精确度。未标记组之间的预测性能存在显著差异。(d)集成模型的真实年龄和预测年龄散点图。Origin,仅特征选择后的数据集;Extended,具有额外子区域标签的特征选择后的数据集。采用配对Wilcoxon秩和检验分析每组数据之间的差异。 

5. 基于集成模型解读肠道微生物组的年龄相关生物标志物

我们试图解释集成模型进而识别包括物种和通路两方面的与年龄相关的特征。使用置换特征重要性(PFI)方法来研究单个特征与衰老之间的关系。我们获得了一组与衰老过程显著相关的生物标志物(图6a)。其中肠道微生物组的物种和通路对年龄预测显示出不同程度的影响。我们发现共有102种微生物和41种代谢通路对年龄预测有显著影响。最具预测性的因素是乙酰辅酶A生物合成、烟酸盐降解和Finegoldia magna。其余因素包括紫杉烯生物合成、Streptococcus thermophilus、Prevotella copri、己糖醇发酵、Bifidobacterium dentium和Streptococcus infants。

在这些已确定的生物标志物中,我们发现许多物种和通路随着年龄的增长呈现特定趋势。例如,在老年人中F. magna、B. dentium和Clostridium clostridioforme的丰度增加,而P. copri和Burkholderialse bacterium 1_1_47的丰度随着年龄的增长而降低(图6b)。在代谢通路中也可观察到类似的年龄分布特征;随着年龄的增长,乙酰辅酶A生物合成、烟酸盐降解和L-亮氨酸降解在肠道中富集的可能性随着年龄增长而增加。相比之下,紫杉烯生物合成、tRNA加工和L-异亮氨酸生物合成功能丧失的可能性随着年龄的增长而增高(图6c)。

15381665792096524

图6 衰老相关生物标志物显著影响模型预测性能。

(a)年龄预测集成模型中对模型预测性能影响最大的前20个生物标志物。(b)影响最大的8种微生物物种;(c)影响最大的8种微生物通路。以spearman’s rho (ρ)表示物种/通路和年龄间的相关性。使用Bonferroni校正调整所有p值以进行多重比较,且显示样条拟合数据(蓝色曲线)。

讨论

机器学习算法的发展为全面深入分析肠道微生物组数据提供了新的机遇,并使我们能将微生物的复杂物种和通路组成与宿主状态相关联。在这项研究中,我们利用超过2500个肠道微生物组的大规模宏基因组测序数据,构建并评估了一个用于普遍年龄回归的新型集成建模框架。本研究中的集成模型较现有方法具有更好的预测精确度和更高的数据利用能力。本研究的独特之处在于,我们不仅修正了地理因素对宿主菌群的影响,且在肠道微生物组研究领域整合了异质性算法和多视图学习。

基于肠道微生物组的衰老时钟的精确构建对于解释肠道菌群在衰老过程中的作用非常重要,因为它可以指导后续抗衰弱干预措施。宿主背景信息的多样性使得每个样本都拥有独特的肠道微生物群,这将影响基于肠道菌群的诊断准确性。事实上,在某些情况下,这种个体差异甚至可能掩盖微生物组与宿主状态间的实际关系。因此,为构建精确的年龄预测模型,应避免因背景因素分布特征而导致的无效相关性。既往研究表明纠正混杂因素可以改善肠道微生物组改变的识别和解释效果。在众多因素中,地理因素被认为是影响肠道微生物组结构的主要混杂因素。因此,我们进行了一项聚焦于整个年龄范围(未成年人除外)的全面的荟萃分析,进而将这一发现扩展到更广泛的人类老龄化领域;这可能会导致与年龄相关的微生物组变化的更普遍模式的发现。同时,我们采用两步筛选法实现样本年龄与国家的解耦。我们的结果表明上述方法可以将地理和年龄因素解耦(图2e)。更重要的是,通过在肠道微生物组物种或通路组成中添加子区域的额外特征所实现的性能改善并不是由子区域和年龄之间的直接关系引起,而是通过学习不同地理区域的独特菌群特征来实现的。

使用现代高通量测序技术可以进行整个微生物群落的全基因组分析;然而,相应的菌群序列数据集的规模和复杂性也在增加,如何有效地管理、分析和整合这些高维度大数据已成为一个重大挑战。最近,机器学习已被用来解决这些问题,因为它能够解释菌群之间的相互作用,进而增加我们对现有数据结构的理解。大量微生物组研究已将机器学习方法应用于建立疾病诊断模型并探索潜在的相关性,例如癌症、心血管疾病和糖尿病。因此,在对区域因素影响进行去卷积后,我们系统比较了多种异构模型算法,其中每个回归量都被广泛应用于宏基因组数据分析。由于不同的算法机制,对于相同的输入数据集每个回归量可能有不同的输出。然而,通过利用模型的多样性可以构建一个更准确、偏差更小的回归模型。因此,确定可以完成年龄预测的基本回归量是实现模型集成的关键。除了考虑模型算法之外,我们进一步构建了基于肠道微生物群代谢功能的预测模型。有人提出,微生物功能可能比分类组成更能提供信息且更保守。这两种数据类型的建模结果表明大多数模型都可以实现基于肠道微生物组宏基因组数据的年龄预测,并且在大多数模型中这些通路显示出更好的结果(图3a,图4a)。进行了额外的测试用于比较子区域因素校正的预测精确度,结果表明考虑宿主混杂因素可以进一步提高预测精确度。总之,我们的综合分析表明,物种和通路都与人类衰老过程有关,调整地点因素可以改善对衰老过程中肠道微生物组变化的识别(图3c,图4c)。

为提高精确度并实现多组数据的综合利用,采用堆叠策略构建集成模型。因集成方法具有高效又易于实现的特点,现已被广泛应用于增强模型预测能力。尽管集成学习已逐渐应用于生物学分析,例如基于基因表达的癌症诊断,但目前微生物学研究还局限于单个模型。但与建模过程中的单一算法相比,集成算法的相应成本导致数据计算开支大幅增加。为减少模型构建的运行时间,使用不同的特征选择方法来减少特征维度。经过特征过滤后,所选数据集的计算时间有所减少,模型性能略有提高,从而实现了性能和速度间的平衡。所提出的实验有力地证实了整合方法在三个数据集上(包括物种、通路和两个集合的组合)的有效性,并表明多模型集成的精确度高于任何一个单独应用于所有数据集的单个回归量(图5a)。然而,既往研究通常侧重于物种或基因来分析微生物与宿主状态之间的关系;因此包含大量肠道微生物组信息的宏基因组测序数据无法得到充分利用。在这项研究中,我们不仅仅局限于集成异构模型,还同时集成了不同类型的数据,从而可以实现多视图建模。我们的结果表明物种和通路的组合使模型具有更好的预测能力,并证实以不同方式综合考虑注释数据可以描述宿主肠道微生物组的整体状态。我们解决了以往研究中解释潜力弱(扩增子测序分类注释水平低)和预测精度低的局限性。我们还判断了不同的数据融合策略,以证明方法之间没有性能差异。在集成之前对每个数据集进行建模的优点在于,与先合并数据集相比,解耦数据集可以提高数据利用率;确实,独立建模在多组间的样本不完全匹配时具有更好的适应性。但连接优先策略无法处理大量缺失值,这是由于样本不一致造成的,例如样本只提供了物种组成而缺乏功能注释,或样本已经进行全基因组测序但代谢组数据未测序。因此只能直接丢弃这些样本,最终造成数据的浪费。通过利用所有数据构建模型,模型优先策略可以有效地解决这个问题。在该策略中,最终的泛化器训练只需要部分匹配数据将单独训练的模型组合起来,能最大限度地利用数据集。虽然本研究未涉及这种情况,但数据的高利用率是必要的,虽然肠道菌群组学技术不断发展并为相关研究提供数据支持,但同一样本的多组学数据,如宏基因组学、元转录组学和代谢组学等数据仍然非常稀缺。此外,之前的大多数多组学研究都分别揭示了每个数据集的模式;因此,可能很难检测一些通过挖掘单一组学数据类型未暴露的微调结构。本研究的计算框架可以实现多组学数据的有效利用进而分析肠道微生物组与宿主状态之间的综合关联,并可能有助于阐明跨组学的复杂机制。

通过更精确的年龄预测模型,我们利用具有广泛年龄范围的综合宏基因组学注释数据揭示了潜在的衰老生物标志物。共有102个物种和41个通路被认为与衰老过程密切相关。值得注意的是,许多生物标志物与衰老相关疾病或老年人更普遍的疾病相关(图6a)。例如,Klebsiella pneumoniae是血液革兰氏阴性菌感染的主要原因之一,老年患者感染风险较高。此外,F. magna和P. copri与关节炎相关,与此一致的是,与乙酸盐产生(与关节炎相关)相关通路也被鉴定为生物标志物。与先前的一项研究一致,本研究发现的大部分物种和通路与老年人群的虚弱有关,包括C. clostridioforme、Clostridium hathewayi、Clostridium bolteae、Clostridium leptum、Clostridiales bacterium1_7_47FAA和丙酮酸发酵生成丙酮的途径。此外有一些指标可阐明肠道环境的共同特征。在先前获得的生物标志物中,我们观察到肠道微生物组对氨基酸的利用随着年龄的增长而发生显著变化。这种导致氨基酸减少的代谢特性可能会加剧衰老过程中的营养不良,不利于维持免疫系统功能和预防虚弱。应该注意的是,支链氨基酸(BCAAs)的消耗随着年龄的增长而增加,尤其是亮氨酸代谢的富集和异亮氨酸合成途径的丧失。BCAAs被认为可以促进肌肉蛋白质合成,相关研究表明老年人需要摄入更高水平的亮氨酸;这些发现与我们的分析所揭示的关键代谢特征一致。此外,与色氨酸生物合成相关的通路也被认为与衰老有关。犬尿氨酸途径被认为是人类主要的色氨酸代谢途径。犬尿氨酸具有神经毒性,可直接损害线粒体,进而导致与衰老相关的炎症。肠道菌群中色氨酸的合成可能导致犬尿氨酸在体内蓄积。这些与年龄相关的变化最终可能导致疾病。这些与年龄相关的生物标志物阐明了肠道微生物组在衰老过程中的潜在作用,而整合方法使我们能够对不同类型的数据进行排序,以实现更精细的衰老定向控制。

当前研究包括一个多视图数据适应的集成机器学习框架。通过异构模型和数据的整合,我们观察到肠道微生物组在衰老过程中的广泛变化模式,并阐明在这一过程中物种和功能的影响。未来的研究应聚焦于进一步完善肠道微生物组大数据的收集。尽管在本研究中我们去除了一些宿主混杂因素,但仍需要更多高质量和多样化的数据来探索肠道细菌与年龄之间的深入关联。机器学习框架也需要改进。事实上,新算法不断被提出,尤其是在其他领域显示巨大的预测潜力的神经网络模型。改进方法将有可能实现数据扩展进而确保结论的可靠性并最大限度地发挥其效用。

编译:微科盟蔚蓝,编辑:微科盟居居、江舜尧。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

不感兴趣

看过了

取消

微生物,肠道,科研,模型,预测,因素

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交