数字土壤制图技术和优化后的CNNs深度学习算法为估算土壤细菌群落的相对丰度和多样性提供了一种可行方法。
编译:微科盟Moon,编辑:微科盟居居、江舜尧。
微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。
导读 土壤细菌在生态系统中发挥着重要的功能作用,但由于实验室分析费时费力,研究起来很有难度。数字土壤制图(DSM)技术是一种新兴的有效土壤细菌区划工具。该方法具有快速、经济的优点,已被视为传统土壤性质空间分布表达方法的可行补充方法。本研究旨在开发一种分析优势细菌门相对丰度和群落多样性的策略,以更好地了解中国西藏东南部高度异质性地区的细菌生物地理学。本研究利用已有的预测变量以及土壤、气候、生物和地形等公开的土壤和环境指数,开发了状态-因子模型。我们评估了7种统计和机器学习算法:即偏最小二乘回归(PLSR)、随机森林(RF)、Cubist、支持向量机(SVM)、高斯过程回归(GPR)、XG-boost(XGB)和卷积神经网络(CNNs)。所有观测数据的十倍交叉验证表明,CNNs优于其他算法,可以解释细菌丰度和多样性变化的48%-72%。对放线菌门和变形菌门相对丰度的估计产生了最大的R2值(≥0.70),而对酸杆菌门、芽单胞菌门、绿弯菌门和浮霉菌门的估计产生的R2值处于0.6-0.7之间,对疣微菌门、拟杆菌门、硝化螺旋菌门、OTUs和Shannon多样性的估计产生的R2值处于0.5-0.6之间。对厚壁菌门的估计产生的R2值最低,小于0.5。我们估测的细菌门丰度和多样性明显表现出区域分布模式和局部性特征。土壤全氮(TN)、碳氮比(C/N)、pH、粘土含量和温度是控制细菌群落分布的主要因素。
论文ID
原名:Estimating soil bacterial abundance and diversity in the South east Qinghai-Tibet Plateau
译名:青藏高原东南部土壤细菌丰度和多样性估算
期刊:Geoderma
IF:7.422
发表时间:2022.3
通讯作者:史舟
通讯作者单位:浙江大学环境与资源学院
DOI号:10.1016/j.geoderma.2022.115807
实验设计
图1 (a)西藏东南部沿研究横断面自东向西的重点研究区域分布。S1 Demula(海拔4900米),S2 Galongla(海拔4200米),S3 Sygera山(海拔4900米),S4 Mila山(海拔5013米)。(b)各研究区沿海拔梯度的垂直分区和采样。
结果
1 土壤细菌数据的统计学描述
我们在所有样本中测得六百多万条高质量序列,每个样本有33,732条序列。当对这些序列以97%的相似度进行聚类时,在数据集中检测到7228个OTUs,每个样本有756-2553个OTUs(平均值1608)。我们总共鉴定到45个细菌门,其中有10个优势细菌门(相对丰度>1%),存在于大多数土壤中。这些优势细菌门占总序列的91%左右。表2展示了优势细菌门的相对丰度。变形菌门(平均值0.26,SD=0.07)是丰度最高的细菌门,其次是酸杆菌门(平均值0.25,SD=0.08)。优势门变异程度较高,平均变异系数为81%(CV)。群落丰富度OTUs跨度较大,为756-2553(平均值1608,SD=396)。数据中土壤细菌群落丰度和多样性的高度变化是由于研究区域内高度异质性的环境以及来自不同植被、土壤和气候的广泛土壤样本采集。
表1 优势细菌门丰度和群落多样性的描述性统计。(原表2)
2 建模
在使用不同算法的情况下,模型可以解释28%-72%的细菌门相对丰度和群落多样性的变化(图3)。拟杆菌门的模型预测效果最差,使用PLSR的R2值为0.28,而使用CNNs的R2为0.50;放线菌门模型的R2值最大,从使用GPR的0.50到使用CNN的0.72。OTUs和Shannon多样性模型的R2值在0.41到0.58之间。
在多数情况下,PLSR和GPR算法效果最差,而SVM、RF、Cubist和XGBoost在估计细菌门的相对丰度和群落多样性方面效果相似。CNNs模型比其他机器学习方法效果好15%-29%,可以解释48%-72%的细菌相对丰度和多样性的变化(图3)。
图2 实验室测量的土壤协变量与从数字土壤制图数据中提取的土壤协变量的比较。
图3 本研究中使用的统计和机器学习方法(PLSR、GPR、SVM、RF、Cubist、XGBoost和CNNs)的决定系数(R2)值。
3 CNNs模型
附表1列出了CNNs的最终架构和优化超参数。由于深度学习模型依赖于数据集,优化后的架构对每个响应变量都是不同的。总体而言,CNN使用了卷积层少于四个的简单架构。使用CNNs模型获得的相对丰度和多样性的测量值与估计值的散点图及其统计验证如图4所示。对放线菌门和变形菌门相对丰度的估计产生的R2值最大(≥0.70),而对酸杆菌门、芽单胞菌门、绿弯菌门和浮霉菌门相对丰度的估计产生的R2值在0.6到0.7之间(0.6 ≤ R2 < 0.7),对疣微菌门、拟杆菌门、硝化螺旋菌门、OTUs和Shannon多样性的估计产生的R2值在0.5到0.6之间(0.5 ≤ R2< 0.6)。对厚壁菌门的估计产生的R2值最小(<0.5)。这些估计值相对无偏(small ME),尽管通常小值被高估,大值被低估(图4)。我们的估计值相对无偏,尽管出现了一些平滑现象,小值被高估,大值被低估。不精确性(SDE)是造成均方根误差(RMSE)的主要因素。
图4 CNNs模型在估算优势细菌门相对丰度和多样性指数方面的性能。图中显示使用10倍交叉验证获得的测量值与估计值。
4 细菌相对丰度和多样性的环境影响因素
影响OTUs和Shannon多样性的主要因素是碳氮比(C/N)、pH、全氮和温度(图5)。C/N对于预测变形菌门、放线菌门、绿弯菌门、浮霉菌门和拟杆菌门也很重要。此外,土壤pH值也是酸杆菌门和放线菌门的主要影响因素。其他土壤性质,如全氮(TN)和土壤粘土含量,也是重要的影响因素。TN对于估测硝化螺旋菌门很重要,而土壤粘土含量对于估测疣微菌门很重要。气候因素,如温度和植被(以NPP为代表)也显著影响细菌门丰度和群落多样性。地形变量对细菌丰度和多样性的影响小于土壤、气候和植被。
图5 用CNNs模型的变量重要性描述了西藏东南部土壤细菌相对丰度和多样性的重要影响因素。
5 西藏东南部的土壤和环境条件
西藏东南部具有明显的热带季风气候特征,有原始热带雨林和常绿阔叶林(图6a和b)。该地区以腐殖质积累较多的酸性深褐色土壤为主。图6c展示了典型横断面从南到北的的土壤变化。雅鲁藏布江下游的热带雨林和常绿阔叶林土壤通常比研究区北部其他山地植被土壤的酸性更强,养分有效性更低。
图6 西藏东南部沿着典型横断面从南到北的年平均温度(a)、植被类型(b)、土壤C/N和pH值变化(c)的空间分布。
6 西藏东南部细菌相对丰度和多样性的空间分布
图7展示了西藏东南地区优势细菌门的相对丰度和群落多样性的估计值和空间分布。西藏东南地区细菌群落在气候和植被水平地带性上表现出明显的空间变异。酸杆菌门、浮霉菌门、绿弯菌门、硝化螺旋菌门和厚壁菌门的群落多样性和丰度由北向南递增,其中雅鲁藏布江下游南部热带雨林和亚热带常绿阔叶林土壤的群落多样性和丰度最高。变形菌门、放线菌门、芽单胞菌门和拟杆菌门则呈现出相反的趋势,在研究区北部广袤的温带高山植被类型的土壤中富集程度较高。
计算不同植被类型下细菌门相对丰度和群落多样性的统计特征,如表3所示。拟杆菌门(平均值0.20-0.40)和变形菌门(平均值0.14-0.22)是不同植被类型中的优势菌群。酸杆菌门的相对丰度(F=9.58,P≤0.001)在热带雨林土壤中显著较高(平均值0.40),而在高山稀疏植被土壤中丰度最低(平均值0.20)。热带雨林和常绿阔叶林土壤中绿弯菌门(F=5.72,P≤0.01)、厚壁菌门(F=6.23,P≤0.01)和浮霉菌门(F=4.27,P≤0.05)的相对丰度也高于高山植被土壤。相比之下,高山植被类型土壤细菌群落中放线菌门(F=9.83,P≤0.001)和芽单胞菌门(F=4.84,P≤0.05)的相对丰度较高。变形菌门(F=8.63,P≤0.01)在高山针叶林土壤中的丰度也明显较高(平均值0.25),在热带雨林土壤中的丰度较低(平均0.14)。疣微菌门(F=6.43,P≤0.01)在高山稀疏植被土壤中丰度较高(平均0.22),在高山针叶林土壤中丰度较低(平均0.08)。OTUs(F=10.97,P≤0.001)和Shannon指数(F=11.72,P≤0.001)值在不同植被类型间差异较大,最大值出现在热带雨林土壤中(平均值分别为2100和6.74)。 除了水平分布模式外,我们的方法还有效地发现了细菌群落的局部变化和垂直地带性。我们的估算方法在雅鲁藏布江及其支流沿线的陡峭山谷地区尤其有效,那里的气候、植被和土壤的垂直地带性非常明显。计算不同海拔带下细菌门的相对丰度和群落多样性的统计特征,见表4。细菌门相对丰度和群落多样性沿海拔梯度显示出明显的差异。变形菌门的相对丰度(F=7.87,P≤0.01)呈现出明显的单峰模式,最大值出现在中海拔(3000-4000 m),放线菌门(F=9.72,P≤0.01)和拟杆菌门(F=3.61,P≤0.05)显示出与变形菌门相似的海拔分布模式。疣微菌门(F=6.42,P≤0.01)和芽单胞菌门(F=4.05,P≤0.05)的相对丰度随海拔升高呈上升趋势,在较高海拔处(>4000 m)观察到最大值。而酸杆菌门(F=10.37,P≤0.001)、绿弯菌门(F=6.62,P≤0.01)、浮霉菌门(F=4.14,P≤0.05)、厚壁菌门(F=6.82,P≤0.01)则呈现相反趋势,在较低海拔处(<3000米)观察到最大值。细菌群落Shannon多样性(F=12.82,P≤0.001)和丰富度OTUs(F=14.92,P≤0.001)沿海拔梯度呈显著下降趋势。
图7 西藏东南地区优势细菌门丰度和群落多样性的空间分布。
表2 不同植被类型下细菌门相对丰度和群落多样性的统计特征(均值±标准差)。(原表3)
表3 不同海拔带下细菌门相对丰度和群落多样性的的统计特征(均值±标准差)。(原表4)
讨论
土壤细菌在生态系统中发挥着重要且多样的功能作用,然而,研究它们具有挑战性。我们在本研究中使用公共土壤和环境变量开发的模型能够估算细菌门相对丰度和群落多样性。这种方法相对较快,可作为分子方法的补充,用于评估、表征和改善对土壤细菌群落及其不同尺度相关功能的理解。 细菌随空间和时间变化而变化,它们在不同生境中的流行程度也随季节而变化。在各种生态系统中观察到的微生物与气候的相关性并不一致,这可能是由于单一时间点研究的季节性变化和空间异质性所致。
因此,我们需要进行时间顺序取样来捕捉微生物群落的季节性动态。本研究使用单一时间点的土壤细菌数据,尽管有这个缺点,但是我们可以以较低的成本更简单地推断出土壤细菌群落的分布和多样性,以更好地了解不同生境中土壤细菌的多样性和生物地理学特征。模型中的土壤协变量来自于数字土壤制图。尽管已有研究通过验证测量数据证明数字土壤图谱的空间精度是足够的,但数字土壤制图中预测因子的不确定性将被转移到模型中,并降低估算的精度。即使在建模方面有进一步的改进和更好的协变量,我们并不期望我们的方法能产生与传统分子学方法一样精确的估计值。
这是因为生物体的建模是动态的,而且非常复杂。我们希望我们的研究可以获得更广泛的细菌丰度和多样性的特征,这将有助于加深我们对细菌生物学、生物地理学及其环境影响因素的理解。 在测试的其他六个统计和机器学习模型中,优化后的CNNs在估计细菌门相对丰度和多样性方面最为成功,得出的交叉验证R2值最大。平均而言,这些CNNs模型可以解释60%的细菌门丰度和多样性变化(R2值为0.48-0.72)。 本研究的估计结果相对来说是无偏的,误差(RMSE)主要来自不精确性(SDE)。估计的准确性是接近真实值的程度,主要依赖于建模方法的选择和算法的有效校准。估计的精确性代表了结果的误差或可重复性,主要依赖于采样和处理程序。在我们的研究中,不精确性是导致所有结果不准确的主要因素,表明所选择的建模方法和算法校准是有效的。我们估计的不精确性可能是由于没有重复取样或微生物测序等程序的不标准和实验室操作不熟练造成的。此外,对各种环境具有高度适应性的土壤细菌也可能造成不精确的估计。
与其他大规模研究相比,我们的CNNs模型对细菌多样性变异的解释多了约20%,对细菌群落丰度变异的解释多了约10%。这可能是因为CNNs比其他机器学习方法更能自动“学习”土壤细菌和协变量之间的非线性和复杂关系。CNNs模型在卷积过程中提取主要特征,并在模型迭代过程中调整每个协变量的权重,这一过程也是反向传播的,而其他机器学习方法纯粹由数据驱动,倾向于寻找局部最优,没有反向传播。此外,CNNs将输入作为协变量的图像,通过识别相邻像素的非线性局部空间关系来探索空间背景信息。相反,传统的DSM模型,如统计和机器学习算法,通常使用与空间对应的点协变量相交的点观测值进行校准。最近的一项研究表明,CNNs比Cubist模型产生了更准确的土壤有机碳预测和图谱。
尽管CNNs已被用于土壤理化性质的建模,但据我们所知,本研究是第一个开发用于估算土壤细菌丰度和多样性的模型。 一般来说,土壤和气候特征被认为是影响细菌门丰度和多样性的最重要因素。这与其他大规模研究的结果基本一致,并强调了土壤环境和气候因素在影响细菌组成和群落多样性分布中的重要性。决定土壤肥力的土壤C/N比和全氮是影响细菌群落变化的主要土壤因子。众所周知,资源数量和元素化学计量在不同规模土壤中塑造微生物组成和多样性方面发挥着主要作用。Delgado-Baquerizo等人观察了土壤细菌群落组成和多样性沿土壤碳氮养分有效性的全球分布模式,提出了寡营养-富营养理论是土壤细菌的生态分类系统。细菌门对C源的偏好肯定受其富营养或寡营养模式生活史的控制。因此,某些细菌门可以被分为富营养和寡营养两类。在我们的研究中,富营养型和寡营养型菌群的相对丰度呈现出相反的分布趋势,反映了土壤C/N比模式。变形菌、芽单胞菌和拟杆菌被归类为富营养菌,它们生长快速,在营养丰富的环境中生长迅速。然而,浮霉菌门和绿弯菌门是典型的生长缓慢的寡营养生物,它们能很好地适应缺氮环境,其丰度随着氮供应的增加而减少。尽管在许多其他研究中已经观察到有机碳对决定细菌组成方面的重要性,但在本研究中细菌群落组成和多样性不受有机碳的影响。这可能是西藏东南部土壤中有机物含量高的结果,众所周知,那里的土壤富含碳但氮含量低。以前的研究表明,与有机物量相比,有机物的类型与微生物的活动和分布关系更为密切。土壤pH值是控制细菌多样性和组成的另一个重要土壤因子。
土壤细菌的栖息和生长需要严格的pH值范围,特别是一些嗜碱(如放线菌)或嗜酸(如酸杆菌)细菌,它们对pH值的变化很敏感。土壤pH值在调节细菌群落分布方面的重要性已在不同尺度的各种研究中得到证实。本研究发现,除了土壤养分和pH值外,土壤粘土含量是一个与细菌群落组成变化相关的重要土壤因子。土壤质地主要通过控制颗粒的物理排列和土壤聚集结构来限制细菌的活动和分布。土壤团聚体构成了空间上分离的微生物栖息地和生物地球化学反应的建筑单元。团聚体大小也通过调节土壤养分、土壤水分和氧气的可及性来调节微生物群落的组成和活动。Hemkemeyer等人发现,细菌对特定的土壤颗粒大小部分表现出明显的偏好,这可能有助于理解土壤中发现的空间异质性和细菌多样性。在本研究中,粘土含量对疣微菌门有相当大的影响。该门细菌在高山稀疏植被区较为丰富,该地区的特点是物理和冻融风化强烈,土壤质地粗糙,砾石和沙粒含量高。这一发现与以前的研究结果一致,即疣微菌门的丰度随土壤粘土含量的降低而增加。 温度是对细菌群落最重要的气候影响因素。温度直接影响细菌的代谢和活动,并通过调节植被和土壤微环境间接影响土壤细菌分布。在本研究中,群落多样性从热带到亚热带和温带气候区逐渐下降。这一结果与动植物研究相一致,即群落多样性从热带到极地地区随着纬度的升高而逐渐减少,这可能是由于气候稳定和长期的自然选择而造成的。具体来说,高纬度地区的气候不稳定,自然选择只有利于广泛适应的物种;而热带地区气候稳定,使得大量狭小的生态位可以被特殊物种所占据,从而产生了更高的生物多样性。 除水平纬度变化外,垂直海拔变化导致的气候变化也引起了细菌群落的变化。细菌丰度和群落多样性在不同海拔带有明显差异。本研究中确定的细菌门的海拔模式可以通过山区沿海拔梯度的离散抽样更好地检验。例如,细菌群落的Shannon多样性和丰富度在高海拔地区明显下降,这与Bryant等人的观察结果一致。Wang等人重点研究了西藏东南部的Sygera山(3000-4500 m),发现酸杆菌门的相对丰度在3900米处明显较高,变形菌门和放线菌门在低海拔处(3300 m)相对丰富,这些发现与我们的结果一致。此外,其他细菌门和多样性指数与以前的研究有类似的趋势。这些相关性进一步证实了海拔高度是调节细菌群落的一个影响因素,尽管所有地形因素的重要性都很低,其原因可能是地形,特别是海拔的影响被与气候、植被和土壤的相互作用所混淆了。例如,Shen等人证明,海拔高度通过强烈影响温度和土壤pH值间接影响土壤细菌的多样性和丰度。
结论
数字土壤制图技术和优化后的CNNs深度学习算法为估算土壤细菌群落的相对丰度和多样性提供了一种可行方法。CNNs的预测表现优于其他六种测试的机器学习方法,产生的R2值为0.48-0.72。估算出的细菌门丰度和群落多样性分布图清楚地显示了区域分布模式和局部性特征。土壤、气候和生物因素(土壤全氮(TN)、碳氮比(C/N)、pH值、粘土含量、温度和净初级生产力)是细菌群落分布的重要影响因素。本研究的结果将有助于补充土壤调查的方法和土壤细菌群落调查的分子方法,从而更好地了解大规模土壤细菌的多样性和生物地理学特征。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您