科研 | Water Research:CyanoMetDB,蓝细菌次级代谢产物的全面公共数据库

2021
05/19

+
分享
评论
微生态
A-
A+


编译:微科盟独世,编辑:微科盟木木夕、江舜尧。

微科盟原创微文,欢迎转发转载。

导读    
 
据报道,有害的蓝细菌在全世界水生环境中大量繁殖,从而产生有毒的次级代谢产物。在过去的五十年里,研究报道了不同来源的超过2000种蓝藻次级代谢产物。因此,亟需一个包含这些次级代谢产物且全面、可公开访问的数据库,这将有助于研究这些次级代谢产物的出现、功能和毒理学风险。为了满足这一需求,我们将1967年至2020年间发表的850篇经同行评审的文章整理成了一个精心挑选的平面文件且可公开访问的蓝细菌次级代谢物数据库CyanoMetDB,这其中包含2010种蓝细菌代谢产物和99种与结构相关的化合物。与先前可用的开放访问数据库相比,具有完整文献元数据和结构组成信息的条目数量几乎翻了一倍。数据集包括microcytsins, cyanopeptolins, depsipeptides, anabaenopeptins, microginins, aeruginosins, cyclamides, cryptophycins, saxitoxins, spumigins, microviridinsanatoxins等代谢物类别。建立专门用于蓝细菌次级代谢产物的综合数据库有助于:1)已知蓝细菌毒素和次级代谢产物的检测以及去重复化;(2)从蓝细菌中鉴定出新的天然产物;(3)蓝细菌次级代谢产物的生物合成研究,包括亚结构搜索;(4)调查其在自然环境中的丰度、持久性和毒性。  

 

论文ID


 

名:CyanoMetDB, a comprehensive public database of secondary metabolites from cyanobacteria

CyanoMetDB,蓝细菌次级代谢产物的全面公共数据库

期刊Water Research

IF:9.13

发表时间:2021.3

通讯作者:Elisabeth M.-L. Janssen

通讯作者单位:瑞士联邦水质科学技术研究所  
 

 

数据来源和程序策划


 

CyanoMetDB的建立是关于蓝藻次生代谢产物的多种不同信息来源的合并,包括CyanoMetDB管理团队成员的内部库和各种开放访问数据库(表1)。然后,将CyanoMetDB扩展为包括科学文献中报道的其他蓝细菌次级代谢产物。对于每种化合物,主要文献元数据均经过手动验证,并在需要时进行更正。记录从中提取和鉴定化合物的样品类型(例如,蓝细菌的属/种/株或田间样品),以及是否使用核磁共振波谱阐明其结构。此外,根据主要参考文献中提供的信息,手动绘制了每种化合物的2D化学结构(ChemDraw,ChemDraw Professional,ACD / ChemSketch),并由此生成了结构标识符,包括:简化分子线性输入规范(SMILES)字符串,国际纯粹与应用化学联合会(IUPAC)国际化学标识符(InChI)以及InChIkey和IUPAC的名称。在某些情况下,这更正了最初在合并数据源之一中报告的结构,例如aeruginosin 101和aeruginosin 98C的结构均包含D-allo-Ile,但先前在文献中被误认为是L-allo-Ile的衍生物。我们仔细检查了从Pub-Chem提取的条目,以验证原始文献中的结构。在最初编译和扩展CyanoMetDB之后,我们通过多轮数据库完整性检查确认了数据库中数据的准确性。在每一轮检查中,CyanoMetDB策划团队的成员都收到了CyanoMetDB化合物的子集,随后进行了评估,并在必要时更正了主要(和次要)文献来源和分子结构描述符(SMILES,InChI,InChIKey和IUPAC名称)。


 

结果与讨论


 
迄今为止,CyanoMetDB包括2010种蓝细菌次级代谢物,这些次级代谢物具有完整的文献和结构以及一些额外的信息:50个半合成和合成条目,表示仅是化学衍生的或化学修饰过蓝细菌代谢物的相关化合物;目前为止,仅在其他生物体中被鉴定出来的在结构上与蓝细菌的代谢物相关的41种代谢物;以及在以蓝细菌为食的其他生物中已鉴定出的5种代谢物。  
CyanoMetDB的最早条目发表于1967年,是发色团藻红素的一种,然后在1990年底添加了115种以上的化合物。1990年至2000年之间,所报告的蓝细菌代谢物的数量增加了四倍。1990年代报告的次级代谢产物数量的迅速增加,在某种程度上可能与人们认识到微囊藻毒素(MC)对人类构成重大肝毒性风险有关。这导致MC-LR被纳入WHO的水质指南(WHO2004年),从而促进了对蓝细菌的重大研究。到2010年,已鉴定出近一千种蓝细菌化合物,并且在随后的十年中又报告了一千种蓝细菌化合物。近年来,蓝藻水华的发生率不断增加,以及先进的分析仪器(例如,高分辨率质谱仪(HRMS)和具有低温探针的高场核磁共振NMR光谱仪)为蓝细菌的研究提供了一定的技术手段(图1A插图)。  
   

图1 (A)从蓝细菌(菱形)中鉴定出的次级代谢产物的累积总数;肽基化合物(空心三角形);非肽类化合物(空心圆圈);新出版物的数量(紫色十字形,第二Y轴)。插图显示了每年发布的新化合物的数量(非累积的黑色菱形)和仅使用质谱(MS)进行鉴定的那些化合物(蓝色菱形)。(B)1967年至2020年之间主要的氰肽类的累积总数:氰基肽(蓝色);厌氧多肽(紫色);microginins(黑色);铜菌绿素(橙色);微囊藻毒素(绿色)。(原文图2)  
 
   
1 出版趋势  
该领域的出版趋势表明,蓝藻代谢产物的发现尚未达到平稳状态(图2A)。那么问题出现了:我们离识别大多数蓝细菌次级代谢产物有多近?有多少新描述的化合物是已知家族的化学变体,又有多少描述了新的家族?在研究天然产物的一般领域中,这些也是最重要的问题。Pye及其同事最近调查了天然产物的化学空间,并发现新的家族在结构上与先前发表的化合物有关,即从自然界容易获得的支架范围是有限的。这种局限性并不意味着新的发现将消耗殆尽,而是意味着大多数新的次级代谢产物可能与先前报道的代谢产物具有相似的结构。在CyanoMetDB中,27%的条目已通过质谱法鉴定,并且此类数据采集或处理方法通常针对已知类别的化合物例如氰肽(例如微囊藻毒素)或低分子量分子(例如鱼腥藻毒素)进行了优化。这提高了识别这些类别的其他变体的可能性,而不是那些需要不同的LC-MS设置才能识别的具有结构差异的化合物。由于毒性取决于化学结构,因此在已知类别中发现新的化学变体仍然非常重要。例如,在18个微囊藻毒素同类物中,丝氨酸/苏氨酸-蛋白磷酸酶的酶抑制IC50值范围差异超过六个数量级。另一个原因可能是科学成果受到主要探索环境的限制,而迄今为止,人们对诸如来自陆地或极端环境的蓝细菌或与其他生物共生的蓝细菌的关注较少。其他细菌天然产物的发现始于1940年代,而蓝细菌代谢产物的发现仅始于1960年代末。总体趋势尤其受到肽基代谢物的发现的驱动,并且常见的氰肽类占CyanoMetDB中所有肽类代谢物的三分之一以上(图2B中排名前5位的类)。迄今为止,该数据库包含2010种化合物,包括   310   个微囊藻毒素,193个氰肽素(也称为微肽素),211个其他缩肽类,101个厌氧多肽,85microginins67个铜菌绿素,64cylamides38cryptophycins38个蛤蚌毒素,26spumigins25个微环素,16个节球藻毒素,11个鱼腥藻毒素,5个孢藻毒素。在每一类化合物中,化合物均表现出高度的结构相似性,从而支持了先前的观察结果,即对于天然产物,包括在蓝藻代谢产物库中,新型结构支架的贡献通常较低。  
   
2 化学空间  
CyanoMetDB表明蓝细菌次级代谢产物的分子量范围很广,介于1182708 Da之间。其中59%是环状化合物,而69%是肽。2010年化合物的分子量分布如图2A2B所示,这表明具有至少一个肽键的化合物占据大多数分子量为900 Da及更高的化合物。  
   

图2 蓝细菌次级代谢物的分子量分布:(A)所有代谢物(灰色),至少包含一个肽键的代谢物(蓝色)和所有其他非肽键的代谢物(红色)的分子量的箱形图;(B)这些类别的分子量的相对频率(%),数据(50-Da箱)的分布用菱形表示,拟合的正态分布密度用实线表示;(C)基于相同分子式的异构体化合物的数量。为具有4种以上异构体化合物的化合物分配了化合物类别。(原文图3)  
 
   
特别是在这些肽中,有许多化合物的分子量分布在1000-1100 Da范围内。这些肽可以在很大程度上归类为常见的肽类,包括微囊藻毒素,氰基肽和其他环状二肽,它们覆盖了大多数分子量大于900 Da的化合物(图3)。代谢物类别的分布情况表明微囊藻毒素和氰基肽类在已知分子量10001100 Da之间的代谢产物中具有较高的丰度。对于其他非肽类代谢物,分子量介于350500 Da之间的代谢物的频率特别高(图2B),其中线性非肽类占主导地位(图3)。先前已证明超过28,000种海洋天然产物的分子量分布也集中在350 Da附近,且产物的化学多样性与生物多样性保持一致。这些研究均指出与这种趋势背道而驰的高分子量化合物主要是由蓝细菌以及棘皮动物门、甲藻门和维管植物门(红树林)产生的。  
   

图3 CyanoMetDB中报告的所有分子量范围为100到2000 Da以上(bin大小为50 Da)的蓝藻次级代谢产物的分布情况,显示出重要的代谢产物类别以及其他线性和环状肽类和非肽类的贡献,以及在饼图显示了对所有数据库条目的相对贡献。(原文图4)  
   
非肽类次级代谢产物仅占CyanoMetDB中条目的41%,但这可能代表不足。通常,蓝细菌的非肽类代谢物较难分类,因为它们缺乏统一的结构特征。数据库中的结构信息(SMILES代码)允许子结构搜索以识别常见的分子基序。例如,在非肽类化合物中,15%具有酯键,11%具有吡咯烷环。大多数化合物为不饱和化合物,其中64%含有至少一个芳香环,30%具有1-2个芳香环,6%具有3-6个芳香环。卤族原子存在于35%的非肽类化合物(30%的氯原子和5%的溴原子)中,而12%的含硫原子。异构细菌,即具有相同分子式但原子连接性不同的化合物,在蓝细菌次级代谢产物中很常见。我们在270种独特的分子式中确定了211种异构体化合物,影响了数据库中的706种化合物。图3C中的数据显示异构化合物在分子量上的分布。微囊藻毒素在分子量约为1000 Da时显示出最高数量的异构化合物(5-11个)。该数据库包含179种分子式和2种异构体化合物,56种分子式和3种异构体化合物以及20种分子式和4种异构体化合物。异构化合物的存在使得基于质谱分析方法鉴定单个化合物变得困难,并强调了了MS / MS数据解释的重要性以及保留时间匹配的真是标准的可用性。  
蓝细菌的次级代谢产物主要是通过自上而下的方法从生物质的提取和分析中发现的,这些方法是通过化学基序(例如肽,分子量组,常用质谱产品)或MS进行的非针对性检索进行指导的。在CyanoMetDB中,首先是从田间样品中鉴定出12%的化合物,而其余的化合物则是从实验室的培养物中鉴定出来的。考虑到相关出版物首次列出了该结构,因此总共使用了50多个不同的蓝细菌属。请注意,分类学分类随后已更改了某些属,并且可能会根据将来对蓝细菌分类学的进一步认识而引入其他更改。占优势的属依次为:Moorea/Lyngbya, Microcystis, Nostoc, Anabaena/Dolichospermum, Oscillatoria/Planktothrix,Nodularia, Scytonema, Fischerella, Symploca(按总条目的降序排列)。这些属不一定是各个代谢产物的主要生产者,而是主要用于阐明初始结构。  
CyanoMetDB的化合物过去未在天然产物数据库中列出的但满足收录要求现已添加到此细菌次级代谢产物在线存储库中。通过比较蓝细菌的这1640种天然产物与其它任何细菌的28,000种以上的天然产物的化学空间,NP Atlas指出蓝细菌代谢产物的分布相对均匀,支持了其高度的结构多样性(图4)。球形图使用分子组成基于CH比(xy平面中的径向值),CO比(与z轴的夹角)和CN比(距原点的距离)来定位每种化合物,并且节点说明了簇之间的结构相似性关系。Natural ProductsAtlas存储库中的6800个节点中有239个节点链接了蓝细菌的次级代谢产物。  
   

图4 全局视图,全球视野,突出显示了来自蓝细菌(红色)的CyanoMetDB的1640种次级代谢产物的初步集合在天然产物图谱中28,000多种化合物的化学空间中的位置,涵盖6800个节点中的239个,这些结构指示结构相似性(直径与属于该节点的化合物的数量成比例)。数据对应于2020年7月首次在CyanoMetDB添加的内容。(原文图5)  
   
3 蓝细菌研究的意义  
CyanoMetDB作为支持各个领域中蓝细菌研究的工具,具有巨大的潜力,例如:协助鉴定已知和新型的蓝细菌代谢产物;探索生物合成途径对蓝藻代谢产物谱和动力学的影响;可以围绕该框架收集有关蓝细菌代谢产物的结构特征和生物学活性的信息;了解蓝细菌次生代谢产物的环境发生,命运和转化。我们将在下面的内容中更详细地探讨。  
   
4 液相色谱-质谱法(LC-MS)鉴定  
正如基于质谱的分析方法在快速发现CyanoMetDB中包含的许多蓝细菌代谢产物中发挥了重要作用一样,现代LC-MS/ MS)方法也是该数据库的主要应用之一。对源自培养物或田间样品的蓝细菌次级代谢产物进行全面筛选是一个重大的分析挑战,部分原因是存在大量不同的化合物及许多异构体化合物。而且,对于绝大数这类化合物,不存在商品化的化学标准品。综合这些因素使得针对三重四极杆的靶向LC-MS / MS方法对更广泛范围的蓝藻代谢物的分析效率较低。取而代之的是能够高效分离和选择性检测复杂基质中有或没有碎片的可电离化学物质的LC-HRMS方法。一种通过LC-HRMS分析化合物的流行方法称为可疑筛查。此方法涉及在全扫描HRMS数据中搜索感兴趣的确切m/z值,通常使用商业或开源软件(例如分别使用Thermo Trace FinderCompound DiscovererSkyline)进行。检测到的目标化合物需要进一步确认,理想情况下是通过与化学标准品匹配的保留时间并检测特征性MS / MS碎片质谱图,并应用标准化标准指定化合物鉴定的可信度。可以使用与数据相关或与数据无关的HRMS / MS采集方法来采集相对全面的全扫描和串联HRMS数据,这些方法适用于可疑筛查和认定丰富的蓝细菌次级代谢产物。CyanoMetDB将大大扩展此类基于LC-HRMS的可疑筛查工作流程的功能,从而可以更常规地检测已知代谢物,避免重新发现已知化合物。对于非独立数据的采集,可以将CyanoMetDB中的m/z值用作包含列表,以优先触发感兴趣的m/z值在全扫描中检测到的前体的MS / MS碎片。  
除了可疑筛查之外,还可以以更全面的方式询问LC–HRMS数据集,称为无目标或非目标分析。非目标筛选主要使用商业或开源代谢组学软件包或专用的定制工具(例如全球天然产物社会分子网络,GNPS)完成。这些工作流程通常以可疑筛选方法为基础,从识别预期化合物开始,然后扩展搜索空间以检测已知化合物范围之外的化合物(由已知化合物的列表或数据库定义)。在这里,通过类似于MS / MS数据,质量缺陷分析,搜索保留时间或感兴趣的分子式范围以及评估数据集内样本组之间的统计差异,揭示了新型化合物。例如,已经报道了微囊藻毒素的无针对性的工作流程,其可以基于对大多数已知微囊藻毒素敏感地检测到的特征产物离子来检测新的类似物。CyanoMetDB中全面的结构和分子式数据将使开发此类非目标性工作流程成为可能,并改善对培养和环境样品中已知和新的蓝细菌次级代谢产物的检测。此外,该信息还可以与计算机上的MS / MS碎片化工具(例如Mass FrontiermMassMetFrag)结合使用,以预测MS / MS产物离子的可能结构,即有助于化合物注释。目前,可以在Met-Fraghttps://msbi.ipb-halle.de/MetFragBeta/)中可用的数据库中找到CyanoMetDB,以生成预测的MS / MS数据。机器学习指导的MS / MS数据解释领域的最新发展在提高基于计算机的化合物识别工作的准确性方面具有巨大潜力,特别是通过它们能够预测从给定的结构可能产生的产物离子的类型和强度的能力,例如竞争碎片模型,CFM-ID。自然,这些方法的有效性取决于MS / MS数据的可用性和质量,在具有低丰富代谢产物或复杂基质的环境样品中,情况并非总是如此。  
   
5 生物合成分析  
基于遗传信息鉴别次级别代谢物是一种非常有前景的“自下而上”方法,可以发现更多未知的化合物。微生物基因组学的最新进展促进了我们对蓝细菌天然产物生物合成的生化机制的理解。这些天然产物中的大多数是通过配位酶级联的次级代谢途径合成的。CyanoMetDB数据集中约75%的天然产物可分配给一个或多个报告了其代表的生物合成途径的结构家族。许多次级蓝细菌代谢物家族表现出广泛的化学变异,但它们共享一个定义了这个家族的结构核心(图5)。通常,一个家族中化合物的生物合成共享一组用于合成确定结构核心的保守酶,但也共享一组并非普遍保守的剪切辅助酶。现在人们已经很清楚地了解最常见的蓝藻毒素地生物合成逻辑,包括微囊藻毒素、节球藻毒素、蛤蚌毒素、孢藻毒素和鱼腥藻毒素。然而,在许多情况下,特定化学变体生物合成的基础是不完整的。基于生物合成基因聚类,许多分子生态学方法已经被用来描述水华中毒素产生者的类型。CyanoMetDB的编译表明,主要次级代谢物的化学变体比先认为的更为广泛。全面了解蓝细菌次级代谢物的化学变体的生物合成基础是必要的,以确保直接从环境样品中无偏见地检测其生物合成途径。  
   

图5 9种蓝细菌次级代谢产物家族的代表化合物:microcystin-LR,cyanopeptolin A, anabaenopeptin A , aerucyclamide A , cryptophycin 1,aeruginosin 98A, microginin 713, saxitoxin, anatoxin-a. 每个类别中多数变体共享的核心结构用蓝色标记。括号中的数字表示亚基剩余数。(原文图1)  
   
6 生物活性和结构  
随着新的蓝细菌次级代谢物数量的快速增长以及人们对其生物活性认识的不断提高,建立一个全面的数据库至关重要。蓝细菌代谢物具有细胞毒性、皮肤毒性、肝毒性、神经毒性、酶抑制、抗菌、抗真菌、抗原生动物和抗炎活性,制药工业也可以利用这些活性开发对人类有益的新药。未来新发现的代谢物很可能与先前发现的代谢物在结构上有相似之处,但可能表现出不同的效力,因此很有必要加以鉴别。对结构的任何修饰,如氨基酸被其他残基取代、甲基化、卤化或氧化取代以及构型的改变,都会显著影响蓝细菌代谢物引起生物或毒性反应的能力。代谢物与细胞分子的相互作用导致可观察到的不良后果(即毒代动力学),在很大程度上取决于代谢物的结构。在硅研究中,所谓的虚拟筛选(以目标为基础或以配体为基础)是利用数据库中储存的化合物的结构信息来克服化学标准可得性有限和缺乏其物理化学性质信息的问题。在从氰基肽开发新药的情况下,虚拟筛选也有助于降低成本并且提高过程的成功率。化学信息学也可以帮助在所谓的反向分子对接中发现未知的蓝细菌代谢物。现代机器学习技术可以帮助预测一个未知代谢物在用已知化合物训练模型后的效果,最近对微囊藻毒素的实验证明了这一点。CyanoMetDB提供了一个数据库,包括每个代谢物的结构信息,这些代谢物以软件工具可以立即访问的格式存放。CyanoMetDB中存储的结构也可以作为这些方法的模板,设计具有理想特性和配体-靶相互作用的新化学实体。  
   
7 环境行为  
从蓝藻中已鉴定出数千种次生代谢物,现在我们面临的问题是:它们的持久性如何?它们在地表水中的稳定性如何?在开花期间它们的浓度如何变化?它们能否到达水处理厂的进水口,并且在处理过程中是否可以充分减少?我们需要这些问题的答案,以量化风险评估方程式的暴露面,并优先考虑蓝细菌代谢物的毒性测试,地表水监测和评估工程水处理系统中的去除率。理化性质,在地表水和水处理过程中与氧化剂的反应性以及生物转化机制与预测次级代谢产物的行为有关。利用已知的化学结构,可以开发模型从定量结构-活性关系(QSAR)预测物理化学性质。例如,使用三种不同的模型(KOWWINACD / PerceptaChemicalize)预测了45种极性植物毒素的辛醇水分配系数,其结果与经验推导值非常吻合。在与结构相关的有机微污染物之间以及它们与(高级)水处理中使用的氧化剂(例如O3ClO3HOClHFeO4-)的反应中也观察到了良好的相关性,即QSAR。使用训练集可以对此类模型进行校准,并提高其对未知化合物性质的预测能力。机器学习可以与此类建模相结合来训练QSAR,例如预测超过6000种有机分子的pKa值。同样,可以部分预测具有已知结构的化合物的生物转化机制。例如,EnviPath提供了一种开放访问工具,该工具使用已知的转换规则来提出有机分子的降解途径,这还可以帮助寻找已知代谢物的转化产物。 CyanoMetDB中的结构信息允许亚结构搜索在生物和非生物转化过程中具有已知反应性的部分,并且转化产物可以包含在QSAR模型中。QSAR模型尤其对共享核心结构的化合物类别有用,但是经验参数仅适用于某些同类对象。通过探索此类模型并根据其预期的毒性,持久性和在环境中的移动性,对蓝细菌次级代谢产物进行优先级排序,以进行进一步的研究和监控。  
   

评论


 
蓝细菌代谢物已被研究了60多年。在此期间,数百篇主要研究文章中已报道了成千上万种化学结构,各个研究小组仅将其部分纳入了精选列表中。在这项工作中,为了促进有效分析和交换有关蓝细菌代谢产物的信息,我们手动整理和评估了这些不同的资源(截至202012月,包括850篇主要研究文章),以生成一个蓝细菌次级代谢产物的数据库。该数据库被称为CyanoMetDB,包含2010个单独的记录,每个记录都对应一个唯一的蓝细菌次级代谢产物和相关的化学描述符:SMILES字符串、分子量、单同位素质量、分子式等。我们将CyanoMetDB设为开放获取资源,以确保它是广泛的受众可以访问,同时还实现了将来支持分析和鉴定蓝细菌次生代谢产物的目标。CyanoMetDB的持续开发将丰富现有资源并建立新的合作研究成果,提高分配化合物注释的频率,并帮助沟通、比较和解释结果。用于构建CyanoMetDB数据集的方法也可以应用于构建包含来自其他生物的毒素和次级代谢产物(例如海洋微藻产生的毒素和次级代谢产物)的相关数据集。这有利于促进食品链中海洋微藻毒素的监测和研究。  

 

本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
化合物,产物,蓝细菌,代谢,结构

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!