首页
快讯
关注
资讯
- 健康
- 科技
- 热点
- 视频
- 产业
- 政策
- 护理
- 投资
- 医改
- 养老
- 疫情
- 人物
- 医保
- 疾病
- 管理
- English
- 临床
- 心血管
- 肿瘤
- 内分泌
- 妇儿
- 感染
专题
专区
知识

欢迎登录体验更多功能

搜索

科研 | 国人作品：肝硬化患者肠道微生物普氏栖粪杆菌的综合菌株水平分析

2021

09/26

微生态

A-

A+

肝硬化（LC）与肠道微生物有关。但是，微生物的菌株多样性及其与LC的关系很少受到关注。

编译：微科盟yuan，编辑：微科盟汤貝、江舜尧。

微科盟原创微文，欢迎转发转载，转载须注明来源《微生态》公众号。

导读

肝硬化（LC）与肠道微生物有关。但是，微生物的菌株多样性及其与LC的关系很少受到关注。在此，我们构建了一个计算框架来研究LC患者肠道微生物群中的菌株异质性。在LC组和健康对照（HC）组之间，只有普氏栖粪杆菌（Faecalibacterium prausnitzii）显示出不同的单核苷酸多态性（SNP）模式。菌株多样性分析发现，尽管LC组的大多数F. prausnitzii菌株比HC组少，但是有19株在两组间无明显差别，这与种水平研究结果并不一致。该群与其他菌株之间的功能差异可能涉及短链脂肪酸产生和氯相关途径。这些发现表明 F. prausnitzii 亚群存在功能差异，扩展了目前关于LC和F. prausnitzii菌株的关联与异质性的理解。

论文ID

原名：Comprehensive Strain-Level Analysis of the Gut Microbe Faecalibacterium prausnitzii in Patients with Liver Cirrhosis

译名：肝硬化患者肠道微生物普氏栖粪杆菌的综合菌株水平分析

期刊：mSystems

IF：6.496

发表时间：2021.8.3

通讯作者：应晓敏

通讯作者单位：北京基础医学研究所计算生物学中心

实验设计

结果

1 疾病相关微生物的SNP分析框架和菌株多样性估计

为了发现人类肠道微生物的菌株多样性以及菌株异质性与疾病之间的潜在联系，我们构建了一个两步分析框架。首先，我们试图找到疾病组和对照组之间可能存在菌株多样性差异的微生物，该步骤通过宏基因组SNP分析完成。随后，对于疾病组和正常组之间具有不同SNP模式的微生物，我们收集所有已测序基因组，通过无偏序再分配算法来估计样本中可能存在不同菌株的概率（图1A）。简言之，第一步是在疾病组和健康组中筛选出具有菌株异质性的物种；第二步是详细探索目标物种菌株的异质性及其与疾病的关系。

我们调查了LC和HC样本的微生物SNP模式。首先，我们从不同物种中选择了13个代表性菌株，要求这些物种在每组至少20个样本中的基因组覆盖率>40%并且测序深度>10×。此阈值是根据2012年Schloissnig等人发表的一项关于微生物SNPs研究确定的。基于这13个菌株的基因组（每个菌株都是其相应物种的参考基因组），我们检测到共有394万个高质量的SNP。只有F. prausnitzii的SNP密度分布在两组间存在显著差异（P=4.7×10^-7；q=6.5×10^-6，图1B），这暗示HC和LC组的F. prausnitzii菌株组成可能不同。

然后，我们构建了一个基于序列再分配的分析流程（即构建人工样本），并检测了肠道微生物的菌株多样性。由于F. prausnitzii被认为是LC和HC组间具有明显菌株组成差异的物种，我们将F. prausnitzii作为我们后续分析的目标。为了评估序列再分配算法的可靠性，我们生成了模拟的宏基因组测序数据来测试我们分析流程的性能。总共从国家生物技术信息中心收集了136个组装的F. prausnitzii基因组。我们试图模拟一个场景，一个样本中存在的F. prausnitzii菌株是1-10的随机数，并且存在1-100个在真实肠道宏基因组样本中检测到的其他细菌物种。由于我们知道了上述人工样本的真实群落组成，我们将人工样本的菌株信息估算值和真实样本进行比较；估算值（覆盖率、深度和丰度）和实际值的相关性为0.92，表明我们的分析流程运行可靠（图1C）。相关系数散点图显示，估计的覆盖率值通常略大于实际值（图1C，顶部），因为共存的相似基因组可能有助于彼此间的序列覆盖率。然而，我们认为，这一微小偏差不应被视为错误，而应被视为数据固有信息，因为高度相似的共存菌株增加了彼此识别的概率。

应该注意的是我们分析流程估计的菌株的特征，如估计的覆盖率、深度和丰度，更像是样本中出现菌株概率的指标。以基因组覆盖率为例，估计的覆盖率越高，样本中存在菌株的可能性越大。在实际情况下，当我们事先不知道样本的菌株组成时，我们可以预测样本中存在已知菌株的概率；我们还可以根据相应的估计值（如覆盖率、深度和丰度）推断样本中的实际菌株与数据库中的已知菌株之间的相似性。

图1. 疾病相关微生物的菌株多样性分析框架。（A）菌株多样性分析工具的流程。红点表示与参考菌株不匹配，短直线表示序列，其中黑色序列是分配给当前菌株基因组，灰色序列则是分配给其他菌株基因组，虚线连接相同序列。（B）健康对照组和肝硬化组的13种常见SNP密度的差异。（C）菌株多样性分析工具与合成数据的性能。（顶部）实际覆盖率和估计覆盖率之间的相关性。（左下角）实际丰度和估计丰度之间的相关性。（右下角）实际深度和估计深度之间的相关性。

2 LC 组和HC组中F. prausnitzii的不同菌株谱

采用上述分析工具来推断 LC组和HC组中136株F. prausnitzii的存在概率。图2A显示了队列中F. prausnitzii菌株的估计覆盖率、深度和丰度分布。与深度和丰度相比，样本中的估计覆盖率值显示出明显的双峰分布，表明异质性可能是通过基因组覆盖率来反映。因此，我们选择菌株的估计覆盖率作为后续分析的目标。图2B展示了两组的菌株平均覆盖率的比较，也表明两组的菌株存在明显的异质性。我们根据覆盖率将基因组聚类成五个群（图2C），其中聚类群4（C4）菌株的覆盖率在HC与LC样本中相似，而其他四个聚类群菌株在LC组中的覆盖率远低于HC组，这与其他研究人员先前报告的物种水平结果一致（图2D，左图）。

既往研究也报道过F. prausnitzii基因组差异性。然而，这些研究只包含了34个已知F. prausnitzii基因组中的17个，并将菌株分为两个群——Phylogroup I和Phylogroup II。本研究包含了最全面的F. prausnitzii基因组（136个基因组），这允许我们对F. prausnitzii菌株多样性进行更整体的探索。在我们的研究中，Phylogroup I的菌株都被分在聚类群1，而Phylogroup II的菌株被更进一步地分为不同的群。我们的聚类结果可能是目前最全面的对已知的与LC相关的F. prausnitzii菌株多样性研究。

我们还分析了另一个关于克罗恩病（CD）患者和健康对照的宏基因组数据。我们发现，与LC不同，C4菌株在CD样本中的含量明显低于健康对照（P=2.2×10^-4，Mann-Whitney检验；图2D，右）。这一结果表明，C4菌株可能在LC患者和CD患者的肠道微环境中发挥不同的功能。

图2. 疾病组和健康组中F. prausnitzii菌株的异质性。（A）真实样本中136个F. prausnitzii菌株的估计覆盖率、深度和相对丰度分布。（B）136个F. prausnitzii菌株的估计序列覆盖率。（C）根据样本中F. prausnitzii菌株含量的聚类结果。（D）健康对照组和肝硬化组（左）以及健康对照组和克罗恩病组（右）菌株群的估计覆盖率分布。

3 不同聚类群间F. prausnitzii的功能差异

我们使用 HMP统一代谢分析网络（HUMAnN）数据文件将136株F. prausnitzii菌株的蛋白质序列注释为UniRef90和GO术语。C4群是聚类结果中最特殊的亚组，我们发现了一些只在C4群基因组中存在的GO术语（Fisher精确检验，P=1.32×10^-23），以及在其他群中存在但不在C4中存在的 GO 术语（图3）。Khan及其同事报告称，F. prausnitzii菌株A2-165和HTF-F在有氧生长条件和富马酸存在的缺氧条件下，显示出不同的短链脂肪酸（SCFA）生产效率，其中NADH向NAD⁺的转化和细胞外电子转移起着重要作用。在我们的结果中，F. prausnitzii菌株A2-165和HTF-F属于不同的群。此外，我们发现了与NAD⁺和跨膜转运体相关的几种生理活动是导致C4群和其他群之间功能差异的原因，这意味着C4群和其他群之间的功能差异可能涉及SCFA的产生过程。

我们还研究了不同聚类群中F. prausnitzii基因组的KEGG通路差异。我们发现聚类群2（C2）基因组中缺乏关于丙酸代谢、精氨酸生物合成以及D-谷氨酰胺和D-谷氨酸代谢的通路（Fisher精确检验，P=7.76×10^-33）。而氯代烷烃和氯烯烃降解（主要是2-卤代酸脱卤酶）、氯代环己烷和氯苯降解（也是2-卤代酸脱卤酶）以及RNA转运（主要是RNase Z）通路仅在C4基因组中被发现。

然后，我们比较了在不同聚类群菌株中鉴定的保守F. prausnitzii基因拷贝数。平均群间距离和群内距离差异最小的基因（在序列和功能上更为保守）主要编码50S核糖体蛋白、30S核糖体蛋白和翻译起始因子IF-1。差异最大的基因（保守程度较低或在单个聚类群中更具特异性）主要是编码几种完整膜成分的蛋白质（GO no.0016021），如FeoB相关富Cys膜蛋白。还在不同聚类群间检测到不同序列的 TrkA 家族钾吸收蛋白。根据UniProtKB，该蛋白可与NAD⁺和NADH结合，并参与钾离子跨膜转运蛋白活性（GO no.0015079）；这一发现与我们的GO注释结果一致。我们还观察到，与膜蛋白相关的几个保守基因在C4菌株中更保守（几乎相同），但在其他群菌株中更为多样。这些结果表明，各聚类群间的F. prausnitzii存在生理差异。具有不同通路的不同菌株的联系也可能有助于研究F. prausnitzii和LC之间的关联。

图3. 聚类群4（C4）菌株中缺乏和特异性的GO术语。蓝色方块表示该群中存在右侧对应的GO术语。

4 F. prausnitzii菌株区分LC和HC样本的能力

为了确定是否可以通过本研究的分析工具估计的菌株特征来鉴别HC和LC样本，我们用不同的特征组合（覆盖率、深度和丰度）作为输入参数，用样本状态（LC或HC）作为输出结果，来训练机器学习模型。结果表明，无论是使用支持向量机（SVM）还是随机森林（RF）模型，仅以覆盖率作为输入参数都可以获得最佳的预测性能（图4A）。基于覆盖率的SVM模型的AUC中值为0.77，高于其他数据模型组合的AUC中值。RF模型显示预测性能的最重要特征是GenBank登录号GCA_001406615.2（C5菌株2789STDY5834930）的估计覆盖率。然后，我们仅使用GCA_001406615.2的估计覆盖率，而不是所有136株菌株的覆盖率，对疾病状态进行建模也获得了较好的结果（SVM AUC=0.76，图4B；RF AUC=0.72；图S4A）。这一结果显示仅参考单一F. prausnitzii菌株在区分LC和HC样品方面具有令人印象深刻的能力。若将GCA_001406615.2基因组替换为另一菌株基因组，如GenBank登录号GCA_902388275.1，鉴别性能下降（SVM AUC=0.52，图4C；RF AUC=0.52，图S4B），这表明F. prausnitzii菌株的异质性。值得注意的是，我们检查了混杂因素（年龄、性别和BMI）的影响，并确认混杂因素对真实样本中F. prausnitzii菌株的估计覆盖率几乎没有影响。

为了说明菌株水平分辨率的必要性，我们比较了MetaPhlAn2计算的F. prausnitzii物种丰度以及本研究分析工具计算的菌株覆盖率。当使用MetaPhlAn2结果建模，该模型的性能远低于菌株水平模型（SVM AUC=0.59，图4D；RF AUC=0.54，图S4C）。表明物种水平的数据对疾病状态的预测并不敏感。

应该注意的是，在我们的分析完成后，我们发现GCA_001406615.2在RefSeq数据库中被标记为“异常组装”并被删除，但在GenBank数据库中仍保留着。因此，在排除该菌株的基因组后，我们重新进行了分析。我们使用剩余135株基因组的估计覆盖率来模拟疾病状态，也可以获得较好的结果（平均SVM AUC=0.73，平均RF AUC=0.72）；同时，我们发现GCA_002549905.1菌株的建模性能最佳（以估计深度作为输入，SVM AUC=0.76，RF AUC=0.74），该菌株同时包含在GenBank和RefSeq数据库中。这些结果与先前的结论一致。然而，由于GCA_001406615.2在我们的分析中属于聚类群5，研究人员可能需要注意聚类群5中其他菌株基因组可能存在的异常；另一方面，考虑到来自一个群的菌株的基因组高度相似，我们还需要讨论这些菌株的所谓“异常组装”是来自污染还是来自基因组整合，如微生物群落的水平基因转移。

图4. 区分疾病状态的机器学习模型性能。（A）菌株水平数据（覆盖率、深度和丰度）的不同组合的机器学习模型性能。（B）为区分样本，使用样本GCA_001406615.2估计覆盖率建立支持向量机（SVM）模型的接ROC曲线。（C）为区分样本，使用样本GCA_902388275.1估计覆盖率建立SVM模型的ROC曲线。（D）为区分样本，使用MetaPhlAn2结果中的F. prausnitzii物种丰度建立SVM模型的ROC曲线。

讨论

本研究为肠道基因组菌株水平分析建立了计算框架，并报告了与LC相关的 F. prausnitzii菌株多样性的系统分析。我们的结果表明，同一细菌物种中的不同菌株可能发挥不同的功能，某些菌株而不是整个细菌物种可能为LC的诊断和治疗提供有用的信息。在既往的宏基因组研究中，菌株异质性可能被忽略。

SCFA在有益微生物和宿主之间的相互作用中起重要作用，而F. prausnitzii是SCFA的主要细菌生产者之一。基于我们对不同菌株基因组的功能通路的注释，我们得出结论，SCFA代谢可能因菌株聚类群而异。此外，C4群中的微生物与氯相关化合物的代谢途径特别相关，这可能与LC组和HC组之间缺乏丰度差异有关。然而，与HC患者相比，CD患者的C4菌株数量减少，这和上述LC结果相反。这些发现表明C4菌株可能在不同疾病中发挥不同的功能。此外，其他聚类群之间的功能差异也表明了不同菌株在人类健康中可能发挥的不同作用。

为了证实F. prausnitzii菌株聚类群之间生理差异的假设，还需要进行更多的实验。需要指出的是，我们估计的菌株覆盖率只能表明样本中相应菌株的当前概率，或者样本中的实际菌株与数据库中已知菌株或聚类群之间的相似性。尽管如此，我们的结果表明菌株异质性应该得到更多的关注。最近开发的单细胞微生物测序技术似乎更有希望用于宏基因组分析，尤其是在菌株水平上。随着测序技术和实验方法的迅速发展，越来越多的宏基因组研究将涉及菌株水平分析。从微生物学的角度来看，这种对人类宏基因组的分析可以帮助研究人员开发出更可靠的疾病诊断和治疗方法（例如，益生菌的使用和菌群移植）。