一个关于人体内微生物及其与健康和疾病关系的数据库-mBodyMap

2022
01/15

+
分享
评论
微生态
A-
A+

mBodyMap,一个针对人体内微生物及其与健康和疾病的关系的精心统筹的数据库

编译:微科盟弈轩,编辑:微科盟茗溪、江舜尧。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

导读  

mBodyMap是一个精心筛选的数据库,用于研究人体内的微生物及其与健康和疾病的关系。其主要目的是促进人类相关宏基因组数据的可重用性,并通过使用最先进的工具集对采集样本的微生物含量进行一致的注释,并且手动管理相应人类宿主的元数据,协助识别与疾病相关的微生物。mBodyMap根据采集的样本与人类疾病和身体部位的关联来组织样本,以实现跨数据集集成和比较。为了帮助用户找到感兴趣的微生物,并可视化和比较它们在不同身体部位和各种疾病中的分布和丰度/患病率,mBodyMap数据库配备了直观的界面和收集数据的广泛图形表示。到目前为止,它总共包含63148个序列,包括14401个宏基因组和48747个与健康和56种人类疾病相关的扩增子,来自136个项目的22个人体部位。数据库中还提供了按身体部位和疾病分层的6247种(隶属于1645属)的预先计算的丰度和流行率。

论文ID 

名:mBodyMap: a curated database for microbes across human body and their associations with health and diseases 

mBodyMap:一个关于人体内微生物及其与健康和疾病关系的精心统筹的数据库

期刊Nucleic Acids Research

IF:16.971

发表时间:2021.10.28

通讯作者:刘智、陈卫华和赵兴明

通讯作者单位:华中科技大学和复旦大学类脑智能科学与技术研究院

DOI号:10.1093/nar/gkab973

综述目录

71701642288387877

主要内容

1 介绍

微生物几乎存在于人体的所有部位,在人类健康和疾病中起着至关重要的作用。人类微生物群主要位于肠道,从胃到结肠的数量和多样性不断增加。然而,其他解剖部位,包括肺、皮肤、阴道、眼睛、胎盘、耳朵、口腔和鼻腔也含有微生物群。微生物组的组成取决于解剖结构(例如肠和肺之间)、个体之间甚至随时间而变化;它可以通过饮食变化(包括益生菌的使用、抗生素和其他药物的使用、年龄或疾病)和其他因素来改变,并且也是动态的。例如,人体皮肤微生物组高度个性化,取决于多种因素,如身体部位、年龄、性别和生活方式因素。除了个别微生物(如已知的致病细菌)外,在许多疾病中,如结直肠癌(CRC)、2型糖尿病(T2D)和炎症性肠病(IBD),微生物组成的变化(即失调)也越来越多地被观察并发现。因此,尽管“健康微生物群”的确切定义仍有待确定,但多年来,保持健康微生物群的重要性已经引起了人们的关注。益生菌、益生元和合生元的开发和使用引起了越来越多的关注,用于在多种疾病的情况下干预微生物失调和/或恢复“健康微生物群”。

目前已经建立了公共数据库,如HMDAD(人类微生物疾病协会数据库)、Disbiome和MicroPhenoDB,用于存储人体各部位的人类疾病和微生物之间的关联。表1总结了它们的主要特点。简而言之,HMDAD和Disbiome从同行评审的出版物中收集基于文本挖掘的微生物疾病关联,并根据数据源的可信度确定这些关联的强度。MicroPhenoDB从HMDAD和Disbiome数据库以及其他开放资源中获取微生物与疾病的关系,因此,它是迄今为止最大的微生物与疾病关联数据库。然而,尽管这些数据库对微生物-疾病关联做出了重要贡献,但它们往往通过文本挖掘主要关注单个致病微生物,而在很大程度上忽视了微生物群落作为一个整体对健康和疾病的重要贡献。因此,目前尚无法获得一套全面的、经过策划和一致注释的宏基因组数据集,以将全身不同部位的人类相关微生物与健康和疾病联系起来。

  表1. mBodyMap的主要特征以及与微生物-人类疾病关联的类似数据库的比较。

89211642288389179

在这方面,我们开发了mBodyMap,这是一个针对22个人体部位的微生物及其与健康和疾病关系的统筹数据库。总体而言,我们从136个项目的16S rRNA和宏基因组下一代测序(mNGS)中收集了63148个宏基因组样本/序列。mBodyMap的核心功能包括:(i)为每次采集的序列/样本以及所有可能的相关元数据(如年龄、性别、国家和体重指数(BMI))手动收集健康和疾病信息;(ii)始终如一地注释微生物内容,包括使用最先进的工具集对测序读数和预先计算的物种/属相对丰度进行分类分配;(iii) 根据相关的健康控制和疾病、样本采集地点和统计数据收集样本,包括物种流行率和丰度;(iv)具有直观图形表示人体内微生物分布和丰度/流行度的设备,使用户能够浏览人体内微生物的分布,并直观地比较微生物在各种疾病和健康中的分布。

  2 数据库创建:序列读取的数据收集和相关元数据的手动整理

为了识别与人类相关的宏基因组数据集,我们系统地搜索了公共数据库,包括NCBI生物项目(https://www.ncbi.nlm.nih.gov/bioproject/) 和EBI ENA(欧洲核苷酸档案,https://www.ebi.ac.uk/ena) 并手动检查相关项目信息,以确定数据集作为人类相关宏基因组数据集的准确性。

接下来,我们从EBI ENA(序列读取存档)和NCBI SRA(https://www.ncbi.nlm.nih.gov/sra)下载了原始序列数据,使用由Aspera(一种高速数据传输工具)提供支持的浏览器工具 (https://github.com/enasequence/enaBrowserTools) 和SRA工具 (https://github.com/ncbi/sra-tools) 进行处理。对于每次比对的数据和样本,我们还下载了相关元数据,包括技术元数据,如测序平台、读取次数和读取长度,以及生物元数据,如采集样本的身体部位,以及人体宿主的年龄、性别、国家、体重指数(BMI)和疾病。我们手动整理了两次元数据:第一轮包括在内部R或Perl脚本的帮助下手动检查提取的元数据,以找到所有感兴趣的元数据;如有必要,可查阅相关出版物、补充材料,甚至通讯作者。在第二轮手工策展期间,来自第一轮的不同策展人审查了收集的元数据并进行了必要的更正。

我们根据相关的人类健康或疾病以及采集样本的身体部位对样本进行分层。涉及的身体部位如下:耳朵、鼻子、口腔、气管、食道、上呼吸道、肺、胃、子宫、宫颈、输卵管、卵巢、阴道、尿道、皮肤、血液、腹腔液、大肠和小肠。

  3 原始序列读取的处理

我们使用 FastQC (v0.11.8, http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) 以 FASTQ 格式处理下载的原始测序读数以评估质量和 Trimmomatic,以去除低质量碱基和测序载体。短于原始读长三分之二的序列被排除在后续分析之外。

对于16S序列,我们在随后的分析中直接使用单端测序读取,但在随后的分析之前,在默认参数下使用Casper v0.8.2合并双端读取。包含单端和双端测序读数的宏基因组序列都直接进行了后续分析。

我们将结果序列称为“纯净数据(clean data)”,并将其用于进一步的检查。如有必要,我们还使用 Seqtk (https://github.com/lh3/seqtk) 在默认参数下将 FASTQ 序列转换为 FASTA 格式。

  4 已处理测序读数的分类注释和相对丰度的计算  

对于16S序列,我们使用MAPseq v1.2 分析除杂处理后的数据,并将分类分类信息分配给注释。正如MAPseq的创建者所指出的,我们在属水平应用了0.4的综合得分来注释分类分类。对于每个样本/序列,随后计算属和种水平的相对丰度,总丰度值为100%。

对于宏基因组序列,我们在默认参数下使用MetaPhlAn2将分类分类数据注释给测序读数,并计算物种的种水平和属水平的相对丰度。

  5 样品/序列的质量控制

我们进行了样本/序列水平质量控制以保证我们的数据质量:首先,我们从后续分析中排除了 <5000 个读数的扩增子样本/序列,并在 mBodyMap 中将它们标记为“失败的 QC(QC 状态 = 0)”,然后确保样本/序列仅包含单个分类单元,即我们还将占总丰度大于或等于 99.99% 的物种或属标记为“质量控制失败(QC 状态 = 0)”。

  6 数据库建设与web开发

我们将所有数据加载到 MySQL v5.7.25 (https://www.mysql.com/) 数据库中,并使用 HTML 和 JavaScript 对网站的前端(网页)进行编码,使用 Python v3.7.7 (https://www.mysql.com/) 对后端进行编码/www.python.org/) 使用 Flask v1.1.2 (https://flask.palletsprojects.com/) 框架来支持对 MySQL 数据库的查询。我们使用 Vue.js v 2.6.12 (https://cn.vuejs.org/) 框架桥接前端和后端,并使用 plotly.js v1.58.4 (https://github .com/plotly/plotly.js/)。我们还使用了其他几个开源 JavaScript 库,包括 Element UI v2.15.1 (https://element.eleme.io/)和BootstrapVue v2.21.2 (https://code.z01.com/bootstrap-vue/)。该网站托管在 Apache v2.4.29 (https://www.apache.org/) 服务器上。

  7 数据库概述和功能:mBodyMap概述

到目前为止,mBodyMap包含63 148个序列,包括14 401个宏基因组序列和48 747个与健康和56种人类疾病相关的扩增子序列,与136个项目中的22个人体部位相关(图1A)。根据我们的质量控制和后续分析流程,我们认为总共有61913个序列为“有效序列”。

58871642288389476

图1. mBodyMap中的数据概述。(A)左面板包含一个交互式身体地图,指示可点击的身体部位,可获得宏基因组数据;右侧面板包含每个身体部位的样本数量,按健康(深绿色)和疾病(黄色)分层。(B)总结我们为样本收集的元数据的条形图。Y轴表示元信息,X轴表示包含该元信息的样本的比例。(C)元数据的完整性根据年龄、性别和BMI进行评估。

 

通过多轮人工处理,我们将清晰的健康或疾病信息注释到了几乎所有采集的样本,随后使用MeSH系统描述和组织这些信息。我们从微生物组数据中确定了与健康和56种疾病相关的信息。表2列出了健康和mBodyMap中包括的前10种疾病;它们根据在我们的数据库中链接到的样本/序列数进行排序。

表2. 健康统计数据和纳入mBodyMap的前10种疾病。

31611642288389931

注释:相关部位数量:采集该健康/疾病样本的身体部位数量。已处理的运行次数:具有已处理序列数据的所有运行次数;所有的运行最终都会被处理。有效运行次数:其数据通过我们的质量控制程序的运行次数,以及我们数据库中相应物种属的相对丰度。相关物种数:与已处理和有效运行相关的物种数。关联的属数:与已处理和有效运行关联的属数。

 我们还努力为微生物组数据集收集尽可能多的元数据;然而,我们的努力只得到了三个最基本的宿主细节:年龄、性别和样本中很小比例(3.97%)的BMI(图1B)。22.61%的样本不包含任何基本元数据,而其余样本仅包含一个或两个(分别为64.23%和9.19%)(图1C)。这些结果与我们之前在肠道微生物组数据集中的发现一致。他们指出了重复使用宏基因组信息的困难,并呼吁指定说明宏信息或宏基因组样本的指导原则。

我们从数据库中的61913次有效序列中确定了6247个物种,隶属于1645个属,其中3710个物种隶属于1075个属,分别在一个或多个样本中确定(一个或多个健康/疾病的中位相对丰度高于0.01%);这些结果与我们之前在肠道宏基因组分析中的发现一致,即大约 50% 的微生物是个体特有的。虽然大多数物种的流行率较低,但我们的研究结果表明,少数物种在丰度限制下含有大量的分类群,从而扩大了人体各个部位公认的微生物群落物种。我们相信,进一步分析样本将增加人体各部位的物种/菌株总数。

  8 网络使用 mBodyMap为浏览和查询宏基因组数据及相关信息提供了一个用户友好的交互式门户。为了帮助研究人员找到身体部位健康/疾病关联,mBodyMap为用户提供了两种搜索选项:一种需要点击头版人体图片上描述感兴趣身体部位的指示,以查看相关的健康或疾病,另一种要求是在“健康与疾病”页面上选择健康/疾病以查看相关身体部位。对于每个身体部位健康/疾病对,我们提供相关项目和样本/序列、相关物种/属及其相关样本中相对丰度和患病率的信息。例如,要查看肺的慢性阻塞性肺疾病的相关详细信息,用户可以在“健康与疾病”页面上选择慢性阻塞性肺疾病,然后选择肺作为身体部位,查询结果将显示有4026种相关微生物被分配到1270属。我们在一个以上的样本中仅鉴定了 274 个物种(占总数的 6.81%),属于 86 个属(占总数的 6.77%),中位相对丰度高于 0.01%。有关更多详细信息,请参阅https://mbodymap.microbiome.cloud/#/health&diseases/Lung/Chronic%20Obstructive%20Pulmonary%20Disease/D029424 。然后,用户可以选择一个物种,如链球菌(Streptococcus mitis),以获取更多信息,包括其在健康和疾病样本中的分布和丰度;有关详细信息,请参阅https://mbodymap.microbiome.cloud/#/taxon/species/Lung/D029424/28037。“分类群(Taxa)”页面包括“物种(Species)”和“属(Genera)”页面,用户可以浏览感兴趣的微生物,查看其所在宿主部位以及与之相关的健康或疾病。 “数据”页面提供了宏基因组项目和样本/序列的手动策划元数据,供用户下载。每个项目、序列和健康/疾病的NCBI BioProject、NCBI SRA和NCBI MeSH浏览器的附加链接可用于帮助研究人员下载数据和获取更多资料。此外,对于每个微生物分类单元(即物种和属),我们在公共数据库(如有)中包含了相应页面的链接,如NCBI分类法 (https://www.ncbi.nlm.nih.gov/taxonomy)、GMrepo (按人类表型分层的综合肠道微生物组数据库)和MVP(微生物-噬菌体关联数据库)。我们打算在继续改进网站的同时,创建更多到外部数据库的链接。   9 疾病和身体部位内部和之间的物种相对丰度和流行率

利用mBodyMap中所有有效序列的预先计算的相对丰度的可用性,用户可以可视化不同疾病中感兴趣的微生物的流行情况;为便于比较,还提供了健康个体中微生物的分布情况。图2A显示了副流感嗜血杆菌(Haemophilus parainfluenzae)的分布:条形图用于描述其在健康中的流行情况以及与上呼吸道相关的十种疾病(另见https://mbodymap.microbiome.cloud/#/taxon/species/Upper%20respiratory%20tract/729;默认情况下,此条形图中包含超过10次有效序列的疾病)。此外,我们可视化了健康对照组和其他疾病中选定身体部位的相对丰度,并在方框图中比较了结果(默认情况下,方框图中包括有效序列次数>10次的疾病;图2B)。为了更好地说明每个身体部位的一个物种/属在不同相对丰度阈值下的样本比例,我们创建了一个线图,其Y轴表示在一定相对丰度范围内每个有效序列的序列百分比,其X轴表示相对丰度阈值。线形图显示了所选分类单元在所选身体部位的相对丰度分布(图2C)。

18451642288390551

 图2. 所选分类单元的健康和疾病的丰度、流行度和分布的图形表示。这里,以上呼吸道副流感嗜血杆菌(Haemophilus parainfluenzae)为例。(A)它在健康和多种疾病中的流行。Y轴表示健康和各种疾病,X轴表示构成该健康或疾病的样本比例。(B)方框图的Y轴表示健康和其他疾病,X轴表示相对丰度。(C)它在健康和各种疾病中的分布。

 使用mBodyMap,用户还可以探索感兴趣的微生物在身体各部位的分布。图3为人体的图形表示,用于显示整个人体部位的链球菌的丰度和患病率。我们使用不同的颜色来表示不同的相对丰度和流行程度,使用户能够直观地浏览人体内微生物的分布情况,并排显示了健康和疾病部位的用户感兴趣的微生物分布。在我们的数据库中,在22个身体部位发现了微小链球菌,并将其与55种疾病联系起来(https://mbodymap.microbiome.cloud/#/taxon/species/28037)。在患病人群的多个身体部位,S. mitis的相对丰度和患病率高于相应的健康部位,这与S. mitis作为致病细菌的特征一致(图3)。

39971642288391013

 图3. S. mitis是一种已知的致病细菌,在mBodyMap的身体部位分布。在健康和患病人体的不同部位显示S. mitis的相对丰度(A)和患病率(B)。在患病人群的多个身体部位大量分离到S.mitis,这与其作为致病细菌的特征一致。

  10 未来发展方向 

除了在未来几年持续收集各种人体部位的新宏基因组数据外,我们计划在mBodyMap中添加新内容,包括(但不限于)所收集样本的病毒丰度、功能谱和代谢途径谱。我们还计划包括更多功能,允许用户执行现场交叉样本比较、差异丰度分析和数学建模。此外,我们将致力于确定身体部位特定或富集的物种和微生物疾病标记,并在数据集和项目中对它们进行比较。我们使用LEfSe(线性判别分析效应大小)方法在某些项目中识别健康控制和疾病之间的标志微生物,并将其可视化到网页上。这些发展将进一步促进人类宏基因组数据的可重用性和可访问性,并帮助用户更好地了解多个身体部位的微生物群失调与人类疾病之间的关系。

结论

这篇文章介绍了mBodyMap,一个针对人体内微生物及其与健康和疾病的关系的精心统筹的数据库。到目前为止,mBodyMap包含63148个序列,包括14001个宏基因组和48747个与健康和56种人类疾病相关的扩增子,与136个项目中的22个人体部位相关。我们的目标是为来自不同人体部位的精选和一致注释的微生物提供一个中心资源,这将允许用户快速找到感兴趣的微生物,并可视化其在整个人体内的分布,并有助于识别部位和/或疾病特异性标记微生物。我们从多个来源收集人类样本的宏基因组数据集,手动整理其元数据,并使用最先进的工具集对其微生物内容进行注释。然后,我们根据人类健康或疾病以及与之相关的身体部位对样本进行分层,并预先计算物种/属的相对丰度和患病率。与现有的微生物-人类疾病关联数据库相比,mBodyMap侧重于宏基因组学数据,并强调微生物群落作为一个整体在健康和疾病中的重要作用。未来,我们将向mBodyMap添加更多数据和功能。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
微生物,数据库,疾病,健康

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交