精准前沿丨Genomes OnLine Database(GOLD)的25年:数据更新和第9版的新功能
本期《精准前沿》栏目分享DOE Joint Genome Institute的Reddy研究团队发表于Nucleic Acids Research(IF=19.160)上的一篇研究[1],研究介绍了Genomes OnLine Database(GOLD)的现状和增加的第九版新功能。
研究背景
GOLD是一个基于网络的资源库,存储了来自世界各地测序项目的大量信息。GOLD的雏形可以追溯到1997年的一台个人电脑上Excel电子表格中的6个项目。该数据库的第一个发布版本包含20个完整的基因组,被组织成Flat file格式。25年后的今天,GOLD已经转变为一个关系型数据库,用户可以通过网络界面和应用编程接口(API)访问GOLD中仔细挑选的元数据。从1999年开始,GOLD在一些期刊上定期发表数据库的发展和增长情况。GOLD统计页面提供了关于不同类型项目随时间增长的更详细的信息。
在过去的25年中,测序领域发生了很多变化。序列数量的爆炸性增长是惊人的。为了跟上基因组数量和多样性的增长,GOLD数据库也发生了重大变化。没有改变的是GOLD的承诺,即没有任何限制地提供这些信息,并遵守FAIR(可查找、可访问、可互操作和可重用)原则。GOLD继续促进并遵守社区驱动的标准,包括关于任何(x)序列的最低信息(Minimum Information about any (x) Sequence, MIxS)标准,关于细菌和古细菌的单细胞扩增基因组(single amplified genome, MISAG)和宏基因组组装(metagenome-assembled genome, MIMAG)的标准,以及关于未培养的病毒基因组(uncultivated viral genomes, MIUViG)。GOLD的用户能够自由访问用户界面,与高级搜索功能交互,并下载用户研究领域相关的标准化元数据。
基因组数据共享和比较分析推动了所有形式的研究。当数据伴随着精心挑选的元数据时,就可以产生新的发现和让研究者有更好的洞察力。例如,在过去的几年里,COVID-19以难以想象的方式扰乱了我们的生活,这使得COVID-19是全世界病毒基因组测序最多的物种之一。事实上,如果每一个新的序列都伴随着一套精心策划的元数据,如病毒宿主、健康状况、地理位置等等,这将大大增强了数据的可用性。随着识别和跟踪病毒变异的复杂性,对相关元数据的准确记录在制定适当的流行病学对策方面起到了重要作用。元数据的不可用、不准确和管理不善都会造成损害,特别是在像COVID-19大流行这样的公共卫生紧急情况下,会产生深远的影响。因此,像GOLD这样大规模、人工校准的元数据管理系统的重要性怎么强调都不为过。下面本文将介绍GOLD的数据管理系统和过去两年的新更新。
研究结果
1. 数据管理
GOLD由各种元件组成,这些元件相互协作,能够浏览和搜索来自世界各地的挑选好的微生物组元数据。它作为联合基因组研究所(JGI)的一个面向公众的元数据中心,提供的服务包括(元)基因组数据的处理、分析和发布。GOLD的元数据也可以使用Excel格式下载或通过公共API访问,本文后面的章节将详细讨论。自动和手动步骤的组合将项目和它们的元数据添加到GOLD中。它们是通过以下三种途径之一导入的:(图1)(i)JGI项目中测序的样本;(ii)从公共资源库导入的项目,如GenBank和SRA;以及(iii)由GOLD用户手动添加的项目。用户手动添加的项目可以从综合微生物基因组(Integrated Microbial Genomes, IMG)数据管理系统获得其序列注释。在GOLD中定义一个项目以及所有需要的元数据是一个必要的步骤,然后才可以将序列提交给IMG进行注释。
GOLD的底层代码库是用Java、Python、Perl和Bash编程语言组合编写的。网站和API在Apache Tomcat容器内运行,并使用web框架,如Google Guice、Spring和各种Hibernate相关技术。GOLD的搜索和浏览能力是由Apache Lucene搜索引擎处理的。GOLD的内部组件包括一套提取-转换-加载(Extract-Transform-Load, ETL)流程,从各种来源提取数据。这些过程可以大致分为三个独立的阶段:(i)提取阶段。软件流程处理来自外部资源库如NCBI和内部JGI的元数据。GOLD的网站还允许用户向GOLD提交他们自己的私人数据,以便在JGI的系统中进行分析,如IMG和MycoCosm,仅此而已。(ii) 转换阶段。由于数据来自不同的来源,它往往有自己独特的术语和组织。在这些数据能够被导入GOLD之前,这些不同的模式必须被翻译成一个统一的模式。这是通过一套自动和半自动的管道,以及人工整理完成的。(iii) 加载阶段。在这个阶段,统一的数据被加载到GOLD的Oracle数据库,供用户使用。
图1. GOLD系统和处理流程的简介。
使用Oracle数据库和前台及后台组件组成的GOLD系统应用
2. 现状
在过去的几年里,GOLD数据大幅增加,从而跟上了全球基因组测序计划的增长。截至2022年8月,GOLD中共有54,052项研究,比2020年9月的最后一次发布增加了18%。测序项目(Sequencing Projects, SP)和分析项目(Analysis Projects, AP)的数量也大幅增加。目前,GOLD有485,203个SP,其中308,000个是基因组和转录组项目,67%的项目为细菌、28%为真核生物、4.2%为病毒和0.8%为古细菌;其次是149,642个宏基因组和27,560个宏转录组项目。最新发布的GOLD中还包含368,875个APs,与上一版本相比增加了36%以上。这些APs中大约42%已经提交给IMG,并且有IMG Taxon OID。大约61.5%的APs是单独的基因组,38%的APs是宏基因组和宏转录组,剩下的0.5%是组装的APs。GOLD中共有174,363个生物样本,43%为环境、47%与宿主相关,9%为工程生态系统。GOLD生物体的数量已经增加到468,058个,比以前的版本增加了21%。这主要归功于从Bacdive导入了超过30,000种有丰富元数据的生物。
3. 由GOLD元数据支持的研究
元数据在基因组数据分析中发挥着重要作用,它提供了更好的相关性、解释和对分析数据的洞察力。因此,精心准备的元数据促进了大规模的比较基因组研究和新的假设检验测验,如果没有这些元数据,这些分析都是不可能的。在此,想强调一些利用GOLD的元数据的论文。Edgar等人利用GOLD的病毒宿主元数据来描述新的病毒并确定其环境库。具体来说,作者研究了冠状病毒科的遗传多样性,以确定可能的动物到人类的传播途径。Vuong等人想要分析各种环境中潜在的生产PHA的细菌和古细菌的分布。为此,作者使用了基因组挖掘方法和GOLD元数据,特别是分类学和生态学(生态系统分类)的元数据。GOLD中的元数据帮助研究人员找到了哪些类别的PHA合成酶具有多样化的分布。在最近的另一项研究中,Yadav等人结合GOLD的生态系统分类的生态分布元数据,研究UBA6911酸杆菌家族的代谢和生态标记。
4. 新功能
在过去的两年里,GOLD小组已经开发部署了几个新的功能,其中一些后续进行描述。
扩大的下载文件:为了方便用户访问GOLD不断增长的项目和元数据列表,GOLD的主页上增加了一个专门的"下载"部分。用户可以下载四个独立的文件,每个文件都包含不同类型的公共GOLD数据,以及预先选择的关键元数据字段的列表。这些可下载的文件每天都会更新,并且在GOLD的用户中很受欢迎。为了回应用户的要求,在过去的几年里,GOLD大大扩展了可下载的元数据字段的清单。28个新的元数据字段被添加到包含GOLD生物体公共列表的下载文件中;生物体宿主名称、芽孢形成、盐浓度和运动能力是被要求最多的一些元数据字段。同样,与GOLD项目相关的基因组著作和JGI测序基因组的数据利用状况是被添加到下载文件中的两个额外字段。
升级可下载的搜索结果:为了实现之前V8版GOLD论文中未来计划部分的目标,GOLD小组对搜索结果的下载做了两个重要的改变:(i)在GOLD v.9中,用户可以下载他们搜索结果的额外10,000行,总共30,000条记录。(ii)GOLD的存储容量增加了一倍,用户现在可以在4周内访问他们的搜索结果,而不是早期版本的2周。
导入NCBI RefSeq病毒数据:从NCBI导入病毒基因组是一个长期的挑战,因为NCBI病毒项目和序列并不总是有NCBI/GenBank的访问号(accessions)。为了将越来越多的病毒序列纳入GOLD和IMG,GOLD小组设计了一个单独的NCBI病毒导入程序来规避上述挑战。因此,GOLD现在能够跟踪NCBI的参考序列(RefSeq)集合中的所有病毒基因组,并不断将它们加入数据库。
API:GOLD API模块的设计是为了向用户提供一种编程方式,以安全和可靠的方式访问GOLD的元数据(图2)。通过引用相关的GOLD ID,可以用JSON格式检索所有五个GOLD实体的元数据。API还包括一个处理用户行为的网站,比如使用JGI的单点登录系统登录,生成离线令牌以授权对API的元数据进行编程访问,以及查看开发者手册和API文档。
GOLD API使用Spring Boot 2.0,这是一个广泛使用的构建RESTful网络服务的框架。它的自动配置功能缩短了代码长度,减少了模板代码,使网络应用开发更快、更容易。API的数据访问层是在Hibernate ORM之上使用Spring Data JPA实现的。Spring Data JPA提供了增强的支持,如从资源库方法名中进行动态查询推导、减少CRUD操作的模板代码、分页、排序和审计。API的认证层利用了JGI的Keycloak单点登录系统,该系统作为一个集中的认证服务器,为API用户访问API的端点提供并验证token。Spring Boot Actuator用于监控API,收集运行中的应用程序的指标、流量和健康信息。API文档是通过使用Swagger(OpenAPI 3)技术实现的。它不仅为使用API的数据提供了详细的模式信息,而且还允许开发人员使用网络浏览器交互式地尝试API。
图2. GOLD API的部署示意图
MIxS包:输入GOLD生物样本或生物体的用户可以选择标准的字段列表,或从以下八个环境包中选择一个。土壤、水、沉积物、植物、水底、碳氢化合物核心、碳氢化合物FS、或宿主相关包。在GOLD的最新版本中增加了宿主-相关包。这个包有48个新的元数据字段,包括2个新的控制词汇(controlled vocabulary,CV)字段。所有这些环境包都被更新,以符合当前MIxS 6.0版的更新字段。
生态系统登陆页:GOLD的五级生态系统分类系统最初是为了系统地对宏基因组样本进行分类,而其他任何元数据本体系统都无法提供这种分类方式。因此,虽然它确实与环境本体(Environmental Ontology, ENVO)和地球微生物组项目本体(Earth Microbiome Project Ontology, EMPO)的分类系统有一些相似之处,但它在几个方面有所不同,例如在简易性和可变性方面。GOLD的生态系统术语并不意味着详尽无遗,也不包括来自一个特定环境的所有可能路径。相反,该系统包含一个有限的术语列表,涵盖了输入的样本的环境属性。随着越来越多来自新环境的样本被精心挑选出来,这些术语会定期被审查和更新。GOLD的生态系统分类是迄今为止最多样化和最具包容性的生境分类系统,并且在将环境、与宿主相关的生境和工程生境整合到一个本体中方面仍然是独一无二的。因此,顶层由三个广泛的生态系统术语组成。Environmental、Engineered和Host-Associated。每一个都被进一步细分为后续层次,称为 Ecosystem Category、Ecosystem Type、Ecosystem Subtype和Specific Ecosystem,以获取关于样本环境的更多细节。例如,一个从叶瘤中分离出来的样品,其GOLD生态系统分类为“Host-Associated: Plants: Phyllosphere: Phylloplane/Leaf: Leaf Nodule”(图3)。
图3. GOLD的5级生态系统分类路径的示例
GOLD中的模式菌株:细菌或古细菌模式菌株是按照《国际原核生物命名法》的规定,在首次报道、描述和正式命名一个物种时使用的菌株。它作为其物种的培养代表菌株,在原核生物的生命树中作为一个重要的分类标志。根据命名法以及DNA:DNA杂交和平均核苷酸一致性(Average Nucleotide Identity,ANI)比较的原则,没有两个模式菌株可以完全相似。因此,研究单个基因组序列并将其与新陈代谢和表型联系起来是非常重要的。在其主页上,GOLD维护着一个模式菌株追踪器,它被定期审查和更新。用户可以点击单个类型菌株生物并查看它们各自的元数据,访问带有IMG注释的类型菌株列表,或查看从GenBank导入的项目。截至2022年8月,GOLD中共有超过27000个模式菌株,包括将各自的模式材料存放在不同的培养物中的同源菌株。
帮助页面更新: GOLD的帮助页面 经常被新用户和老用户用来了解不同的GOLD实体; 它还教用户如何输入自己的项目或向GOLD的技术团队发送消息。 主登陆页面有五个子部分: (a)GOLD文档,(b)联系GOLD技术团队的反馈或问题,(c)GOLD术语,(d)常见问题,(e)培训和研讨会。 所有这些部分都根据用户的反馈定期更新以增加新的信息。 例如,在当前版本中,培训和研讨会部分是一个全新的补充。 它有一个视频教程的链接,介绍了GOLD的概况,并提供了如何进入不 同类型的测序和分析项目的分步指导。
5. 未来开发计划
微生物和微生物组研究的发展,无论是产生的数据量,还是新的计算和可视化工具的可用性,都使得对元数据的筛选需求比以往更有意义。为了支持研究领域的需求,GOLD计划继续筛选按和整合来自不同环境和来源的项目。这将包括获得元数据,与研究领域和其他资源合作。
扩展对元数据的访问:计划根据用户的要求,在下载文件和公共API应用中扩展元数据字段。
合作:GOLD与其他两个DOE资助的项目,如国家微生物组数据合作组织(National Microbiome Data Collaborative,NMDC)和DOE生物知识库(Knowledgebase,KBase)在元数据筛选、建立元数据标准和样本元数据交换方面密切合作。GOLD计划进一步扩大在这些元数据整理、共享和丰富领域的合作努力。
短视频:根据监督GOLD项目的原核生物咨询委员会的建议,GOLD小组计划开发简短的操作视频来帮助GOLD用户在GOLD中输入和更新元数据。这将是对GOLD目前拥有的帮助页面和全长帮助视频的补充。
软件包:如上所述,GOLD小组将所有现有的MIxS软件包更新到第6版。GOLD小组计划在不久的将来加入更多的软件包,如内置环境、人类相关的和农业微生物组软件包。
等价菌株和元数据的传播:一个菌株存放在多个培养基中,有不同的培养基编号,这是非常常见的。模式菌株的命名要求该菌株至少存放在两个培养基中。因此,等价菌株的扩散不仅导致了多个分类法,而且还导致了一个条目与另一个条目之间元数据的变化或遗漏。为了解决这个问题,GOLD将等价菌株组织到一个生物组中,并在该组中将元数据从一个菌株传播到另一个。这是一个持续的过程,GOLD将继续筛选等价菌株,并通过传播丰富元数据。
整合GTDB信息:基因组分类数据库( Genome Taxonomy Database, GTDB)建立了一个基于基因组系统发育的标准化的微生物分类法。用于构建系统发育的基因组包括来自GenBank的基因组以及从宏基因组和单细胞获得的未培养的微生物的基因组,以确保改进微生物世界的基因组。GOLD计划与GTDB建立更强的联系,包括导入和仔细筛选新的未培养的生物体作为模式菌株。
SeqCode:随着新的社区倡议被广泛接受,如SeqCode。GOLD计划为未培养的原核生物调整拟议的命名代码,以DNA序列作为种类。这意味着随着新的未培养的生物体被测序并被提议为模式菌株,GOLD将扩大其模式菌株目录以包括这些新条目。
END
参考文献: [1] Supratim Mukherjee, Dimitri Stamatis, Cindy Tianqing Li, Galina Ovchinnikova, Jon Bertsch, Jagadish Chandrabose Sundaramurthi, Mahathi Kandimalla, Paul A. Nicolopoulos, Alessandro Favognano, I-Min A. Chen , Nikos C. Kyrpides and T.B.K. Reddy. Twenty-five years of Genomes OnLine Database (GOLD): data updates and new features in v.9. Nucl. Acids Res. (2022) doi: doi.org/10.1093/nar/gkac974
撰写丨nomad 编辑、排版丨SX
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读