计算机辅助全细胞设计
引言 /Introduction
此篇文章来自 Frontiers 的 2020 年 8 月月刊内容「Computer-Aided Whole-Cell Design: Taking a Holistic Approach by Integrating Synthetic With Systems Biology」。这篇综述介绍了关于全细胞多尺度模型如何转变合成生物学中的设计-构建-测试-学习循环的观点,展示了其在基因组最小化,无细胞系统等案例的研究中如何在设计和学习阶段提供帮助并加快实验进度。文章还讨论了实现计算机辅助全细胞设计愿景面临的几个挑战。
Lucia Marucci 等人 / 作者
锐锐 / 编辑
计算辅助设计(CAD)在合成生物学中具有重要意义,它可以加快生物系统的理性设计。CAD 需要详细和定量的数学和实验模型来(重新)设计生物学,并提供用于基因工程和 DNA 组装的软件和工具。最终,设计阶段的精度提高将有助于设计更具有定制功能和模块化属性的细胞和生物体。CAD 策略需要能够捕捉多尺度过程并将基因型与表型联系起来的细胞定量模型。在计算机中描述和构建全细胞的可能性为开发日益自动化、精确且易于访问的 CAD 工具和策略提供了机会。
全细胞模型(WCM)是当今最先进的系统生物学形式:它是一种系统生物学研究中的计算模型,旨在表示和整合所有细胞功能,最终实现对细胞生物学的整体和定量理解。基于 WCM 生成的定量和高通量的模拟实验,有望显著缩短从假设/设计设定到实验测试之间的差距。
尽管在 30 多年前已经开发了特定细胞功能的简化模型(例如基因表达调控、信号传导、代谢途径、细胞生长和细胞周期),但第一个 WCM——E-Cell 模型,直到上世纪 90 年代才针对 Mycoplasma genitalium(在独立生存的生物中具有最小基因组)推导出来。所谓的虚拟自我生存细胞(SSC)模型是部分随机的;它仅包括蛋白编码基因的子集,并能够实现包含各种亚细胞过程的动态模拟,包括酶反应、复合物形成和物质易位。与此同时,第一个基因组规模的代谢模型(GSMMs)是由 Palsson 的研究小组在上世纪 90 年代使用通量平衡分析(FBA)开发的。
最近,多个科研团队已为不同的生物体重建了数百个 GSMMs,所代表的基因数量也在不断增加。GSMMs 已经与其他过程(如转录、翻译和信号传导)的数学描述相结合。几年前,Covert 的研究小组报告了更完整的混合 WCM,其代表了已知生物体的所有基因和分子功能。在这项开创性的工作中,Karr 和同事整合了 28 个子模型,以表示生殖支原体 (M. genitalium) 的一个细胞周期;每个子模型都以不同的形式表示,包括常微分方程(ODEs)、FBA、随机模拟和布尔规则。
提高 WCM 的描述能力和增加其所能代表的生物体的复杂性仍需要大量的研究和努力。开发 WCM 是一项具有挑战性的任务,需要收集大量的实验数据,整合亚细胞模型和硅基/体内模型验证。一个完整的 WCM 应理想地在细胞水平上整合多尺度相互作用,同时考虑整体细胞结构、分子相互作用的动态结构以及亚细胞成分的空间区域。确保精准地表示日益复杂的各种生物体的所有细胞过程是非常具有挑战性的。因此直到现在,只有 M. genitalium 和最近的大肠杆菌的 WCMs 正式发布,其余几个 WCMs 目前仍在开发中。本文将概述 WCM 开发的最新技术。
我们相信 WCMs 在集成合成生物学与系统生物学的设计-构建-测试循环中具有的巨大潜力(图1)。尽管应用领域各不相同,但它们具有共同的高复杂性,如果没有基于预测模型的强大计算设计算法,该过程将需要进行大量的试错实验循环。我们还在本文中讨论了跨学科社区必须解决的相关挑战,以及将全细胞模型通过合成生物学和系统生物学整合的未来发展方向。
▲ 图 1:合成生物学中整合的设计-构建-测试-学习循环,包括全细胞模型指导的方法及其相关应用。
以下为本文目录
请结合要点进行针对性阅读。
一、合成生物学领域的全细胞设计策略
01. 基因网络(重新)设计中的模型粒度
02. 参简化基因组的设计和工程
03. 无细胞系统的设计和原型
04. 全细胞生物传感器的设计和测试
05. 全细胞模型对工业应用的影响
二、接下来是什么?超越原型
三、重新思考系统方法:协同努力
四、讨论
一、合成生物学的全细胞设计策略
01、基因网络(重新)设计中的模型粒度
数学模型在(重新)设计能够重现明确生物功能的基因线路方面发挥了重要作用。通过将生物系统视为功能模块的组合,使用最简计算模型对其进行研究,可以获得对生物通路中调控机制的认知。例如,可控振荡器、生物钟、信号网络、代谢过程和转录调控等都是通过这种方法进行研究的。现有的最简和详细计算机模型在生化细节的粒度上涵盖了广泛的范围。然而可以预期,如果最简模型和详细模型的核心设计相似,它们的一般性质将相匹配。
在系统层面上对生物体的理解可以通过将生物体分解为功能模块来实现。生物体自主产生后代的能力是至关重要的。因此,WCMs 应该通过模拟细胞分裂来考虑这一点,细胞分裂与细胞调控的各个层面(代谢、信号传导、基因调控、转录等)紧密相连。Barberis、Tyson 和 Novák 的研究小组已经开发了一些关于真核细胞周期的最小模型。
目前,大多数多尺度模型(非 WCMs)缺乏能够桥接细胞网络或功能(细胞周期、代谢、信号传导、基因调控等)的组件。识别枢纽,即在细胞环境中具有高连接性的元素,是 WCMs 的关键特征。最近科研人员发现转录因子是整合多尺度网络的枢纽,很有可能将细胞周期和代谢联系起来,是影响细胞整体状态的关键组分。很多科研团队正在开发多尺度框架,通过识别共同网络节点中发生的相关调控以及使用不同的数学形式,将不同粒度的网络进行耦合。这些策略以及其他策略也被用来整合细胞功能模块网络。结合对细胞自主振荡网络的研究,这些策略可以合理化整细胞模型考虑的后代产生的正确时机。
通过对细胞功能模块进行建模并将其集成到 WCMs 中来设计合成基因网络,可以研究基因表达与密码子使用的相关性、探索可能的细胞负荷效应、研究合成基因网络的模块化属性,并预测可以在不同生物底盘中发挥作用的基因表达调控工具。
02、简化基因组的设计和工程
简化基因组(Minimal genomes)可以定义为仅包含细胞复制所必需的基因材料的简化基因组。研究和工程化最小基因组对于理解细胞为维持生命必须执行的最基本任务,以及获得合成生物学应用中具有降低细胞负担和更好稳定性的优化底盘至关重要。
对最小化基因组进行详尽的实验表征并不可行:即使是生殖支原体(M. genitalium(0.58 mb 和 525 个基因))这样的微生物,进行基因敲除的可能组合数量也有成千上万种。值得注意的是,这个数字很可能被低估,因为基因敲除的顺序可能会改变最终的表型。细胞的基因组规模计算模型有助于充分理解基因必需性的动态和环境依赖性,并可以在计算机中理性设计最小化基因组。与基于大量实验迭代的现有方法相比,计算机辅助的简化基因组工程可以显著减少最小化基因组过程的时间和成本。
据我们所知,目前已有两种基于基因组规模模型的自上而下基因组简化方法。MinGenome 算法将混合整数线性规划(MILP)算法应用于大肠杆菌的 GSMM 中,利用有关基因必需性和合成致死基因对的信息进行优化。相反,Minesweeper 和 GAMA 是基于 M. genitalium 的 WCM 的自上而下基因组最小化算法。它们分别采用分而治之方法和有偏差的遗传算法,通过迭代模拟简化基因组;它们的计算预测尚未在实验室中进行测试。
由于 GSMM 形式化方法的大量可用性,基于 GSMM 的基因组简化算法目前在各种生物体中更具广泛的适用性。然而,随着更多 WCMs 的推出,我们预计基于 WCM 的基因组简化算法将通过其丰富的多尺度细胞过程表示,提供对细胞过程和遗传相互作用的更准确的预测能力。
03、无细胞系统的设计与原型
基于粗制细胞提取物的无细胞转录/翻译系统是一种有前景的平台,可在可控和可重复的方式下探索基础生物学问题。近年来,随着这项技术成本的降低和合成产量能力的显著提高,无细胞系统在合成生物学中用于生物元件和网络的原型设计和测试方面越来越受欢迎。随着无细胞系统的潜在应用范围扩大,数学模型正在被开发用于定量化无细胞平台内的生物过程。
到目前为止,确定性模型(ODE 或基于约束的模型)已被提出用于描述细胞无法平台中的特定过程,如转录和翻译,资源竞争和代谢。在无细胞平台中跨尺度整合数学形式化方法,逐步建立 WCMs,将有益于促进基因线路的全新设计以及定量比较无细胞产物与其细胞内对应物之间的差异。
04、全细胞生物传感器的设计和测试
生物传感器是一种能将生化反应转化为可测量信号的分析装置。生物传感器中的识别单元可以由整个细胞、核酸、酶、蛋白质、抗体或其组合构成。合成生物学显著加速了生物传感器的发展;新一代的全细胞生物传感器(即在活细胞中安装的传感器)已被设计出来,例如:砷的检测、污染物和抗生素的检测、工业环境中的微生物检测以及体内诊断应用(在肠道中检测环境信号和诊断肝转移)。
将 WCMs 应用于全细胞生物传感器的设计、原型制作和测试中,可以理性地调节其灵敏度、稳定性和动态范围,同时有助于选择理想的底盘,并在需要时指导其重新设计以优化生物传感器的性能。如果 WCMs 可以用于不同底盘和整个生物体,它们还可以支持基因编码的生物传感器的靶向递送优化。
05、全细胞模型对工业应用影响
虽然追求计算机辅助全细胞设计方法在学术价值方面毋庸置疑,但该方法的成功最终将取决于其对科学、医学和工业的影响。随着计算机辅助设计(CAD)不断向“绿色”化学方法发展,基因合成速度和能力的提高以及相关成本的降低,生物合成正成为制造高附加值化学品的越来越有吸引力的途径。这包括制药、农化、日用化工和材料等领域的大量机会。
然而,一个主要挑战仍然是开发出稳健、可扩展的微生物底盘,并能够可预测地调节其代谢过程以实现预期的结果。目前,底盘的选择主要局限于一些遗传可追踪的微生物,它们的生理特征和发酵过程性能得到了很好的理解,并且存在可用于操作它们的有效分子遗传工具。到目前为止,底盘优化主要依赖于对所需宿主菌株特性的增量、逐步改进,包括生长速率、原料利用率和产物产量。由于这些原因,底盘优化过程仍然过于缓慢和昂贵,部分原因是当前使用合成生物学方法生产高价值小分子的数量有限。有针对性的操作通常会导致意想不到的脱靶效应,这与代谢过程的相互依赖性有关:代谢过程通常在相互依赖的细胞网络中协同运作,所以人为干扰可能会损害而不是增强,从而导致不希望的结果。显然,稳健、可预测的全细胞模型代表了解决底盘优化问题的一个有吸引力的解决方案——提供一个可用于解除依赖关系并确保满足性能标准的综合工具。
此外,我们必须解决在底盘发酵过程中存在的种群异质性相关的复杂性问题。为了使基于发酵的工业过程可行,产品产量必须足够高,使生物合成在经济上可行。应该通过在整个微生物群体中操作的调控过程来解决微生物群体中“作弊者”或生长缓慢的问题。引入这些特性对传统底盘设计方法来说是一个重大挑战。基于全细胞模型(WCMs)的方法可以更容易地实施和测试这些过程。
计算机辅助全细胞设计方法成功的关键在于所使用模型的质量。具有小基因组的微生物系统代表了一个引人注目的研究切入点,当前正在进行的关于建立功能基因组核心成分的研究可能有助于模型的发展。这些研究部是由基因组最小化实验驱动的,这反过来又可以用来进一步改进模型的性能。重要的是,我们对微生物代谢过程的理解仍然存在根本性的缺陷,这无疑会阻碍进展。然而,WCMs 的能力能够预测先前未知的代谢依赖性,这应该被视为模型有效性的一个重要检验。事实上,GSMMs 通常由于无法解释代谢依赖性而失败,这一特点导致工业界对此类模型的价值持怀疑态度。全细胞方法能够绕过这个问题。当开发“非自然”产物的底盘时,这一点尤为重要,因为此类产物的化学性质与自然代谢产物的化学性质可能存在较大差异。扩展底盘生物体的代谢能力以生产这些新产品会带来额外的复杂性,包括核心代谢产物池的过度耗竭或产生有毒产物或中间体。以 WCMs 为基础的设计方法在识别这些问题并提供解决途径方面具有独特的优势。
在工业应用中,设计明确控制细胞行为的能力对于模型衍生底盘的采用至关重要。可以说,调控细胞过程的能力与定义过程本身同样重要。可调控的调控系统必须具备内在控制和外在控制的能力。尽管仍存在一些问题,基于合成生物学的构建基因电路的方法现在正在使我们走上通用的细胞调控之路。由于核心代谢过程的差异,这些系统通常不够正交,因此需要为不同的底盘进行定制设计。全细胞设计方法可以解决这个问题,因为这些系统可以预先定义并在进行昂贵的实验室实验之前在计算机上进行功能测试。
二、接下来是什么?超越原型
近年来,基因组定量技术的进步、数据存储库的建立以及 WCM 模拟平台的发展,极大地促进了 WCMs 的发展。然而,在基于WCM的基因组规模工程中实施设计-构建-测试循环仍然需要解决进一步的挑战。
如果要将模型用于设计和构建工程化的生物系统的原型,那么这个模型必须是可靠的。即使对于一个简单的生物体,随着数学模型的复杂性和详细程度的增加,动力学参数的数量也会增加;因此,限制参数变得更加困难,并需要大量的实验数据。数学模型可以用来预测缺失数据,但它们通常使用简化假设来抽象物理过程,这些假设可能只在特定条件下成立。为了设置 M. genitalium WCM 的 1462 个定量参数,但由于缺乏特定生物体的数据,因此我们纳入相关生物体的数值数据;通过结合先前实验报告的参数值和对简化模型进行数值优化的方法来进行了参数值的估计。尽管理想情况下,我们希望能直接从实验中测量所有动力学参数,但我们仍然缺乏能够在各个细胞中随时间和环境条件的变化测量每个状态的能力。WCMs 可能需要直接实验估计和参数推断的组合。
敏感性分析通常通过扰动参数来理解不确定性对模型输出的影响,但在应用于基因组尺度模型时,这种方法可能会导致计算成本极高。相反,基于贝叶斯方法或费舍尔信息矩阵等统计方法可以在子模型层面上进行仔细的处理,然后可能扩展到 WCMs 的规模。Reverse Engineering Assessments and Methods(DREAM8)参数估计挑战赛便是针对 WCMs 新的参数估计技术开发。它提出了 WCM 参数化的潜在有趣的方法(例如模型简化和微分进化与随机森林的组合),并强调综合数据的可获得性对于 WCMs 非常关键。
研究人员已经开始将 WCM 开发所需的数据收集到公共数据存储库中;然而,用于推导和拟合 WCM 的数据分散在许多数据库和出版物中,并且通常没有注释或规范化,最终需要大量的手动工作。已经存在联邦存储库的归档系统,如用于存储综合/混合模型和相应数据的 PDB-Dev 系统,可能非常适合存档和传播数据和模型,同时使不同的研究人员尝试其他建模/参数化方法。Covert 的研究小组开发了 WholeCellKB 数据库,用于组织定量测量数据(超过 1400 个),这些数据用于构建 M. genitalium WCM。在此类数据库中启用自动访问和查询将是理想的选择。
为了增强 WCM 的可重复性和协作性,还需要新的标准和模拟软件。研究人员应该努力使用和扩展标准格式使其适用于 WCMs,如系统生物学标记语言(SBML)和系统生物学图形符号(SBGN)。例如,M. genitalium WCM 的多算法特性等一些方面无法通过 SBML 来表示。研究人员需要进一步开发标准建模格式,以实现可重复的 WCM 模拟,例如在 SBML 层次模型组合包中包含能够表示特定子模型所需算法的本体。在合成生物学应用领域,我们认为报告和存档与 WCM 生成的体外预测、体内测试和可能的模型/设计改进相关的数据将是适当且有益的;这将确立 WCMs 的预测能力,并揭示使设计-构建-测试-学习循环更加有效的步骤。
考虑模型中的结构不确定性同样重要,这取决于模型假设。尽管对于某些模型集合(例如信号通路的小型 ODE 系统),学术界已经提出了基于似然和贝叶斯方法的模型选择和基于半定规划的模型无效化,但至今还没有针对 WCM 的合适技术被提出。
我们预测自动化将在推动真核生物 WCMs 的衍生以及在设计复杂过程的应用中发挥重要作用。理想情况下,我们希望在不同阶段引入自动化,例如从文献中提取数据、模型推导以及模型/数据的整合,在模型拟合和验证步骤,以及在比较体外设计预测和体内测试时。这反过来将要求采用数据和模型存储库的标准。此外,实验室自动化与基于 WCM 的 CAD 相结合将有可能改变设计-构建-测试循环。随着机器人技术在学术界和工业界越来越普遍,用于 WCM 推导和验证所需的实验通量和可重复性可以显著提高,并且可以促进研究社区之间的协议共享。
为了促进 WCMs 在合成生物学应用中的采用,需要使用高性能并行计算集群来运行具有长运行时间的模型,协调相应的数据库,对模型进行参数化和验证,然后将 WCMs 与优化算法结合在设计循环中。
实施标准化工具来共享数据和模拟 WCMs 将进一步促进模型验证。这应涉及制定适当的度量标准和形式化模型验证技术,例如针对 SBML 编码模型开发的技术。
三、重新思考系统方法:协同努力
在应对上述挑战时,我们相信,重新思考所有用于生成基因组尺度模型(包括 WCM)的方法并促进多样的领域(包括软件工程师、计算机科学家、结构生物学家、生物信息学家以及系统和合成生物学家)进行合作,将会是一个巨大的机遇。
我们预计,在不同领域的研究人员相互协作的过程中,不同类型的形式化方法可能会融合到基因组规模模型中。符号推理提供了一系列表达能力强且直观的逻辑框架,可能有助于在不同尺度上整合和连接子模型。这些方法通常应用于电子和软件行业的复杂系统,并在生物系统中应用已经有近十年的历史。最近的研究表明,将逻辑编程方法应用于信号通路、代谢网络以及模拟生物体中自动化科学发现的机械哲学的可行性;在 WCM 框架内整合这些子模型是可行的。
我们相信,通过整合结构生物学和分子建模社区,可以进一步增强 WCMs 在空间和时间尺度上的描述和预测能力,不仅需要考虑细胞的生化成分,还包括物理、分子和结构组成,还可以进一步提高 WCMs 在空间和时间尺度上的描述和预测能力。所谓的“物理” WCMs 的发展是一个新兴领域,其中第一个模型以全原子层面详细描述了最小的细胞环境。为了最终将生化和物理 WCMs 整合到一个多尺度框架,我们需要能够应对生物分子的原子模型所面临的限制(主要是在计算资源方面),比如粗粒化或连续性方法。
通过与软件工程师的合作,我们需要开发能够在不同尺度上实现不同数据类型的集成、模型推导、拟合和验证、结果可视化和解释,还可以实现自动化这些过程的工具。
此外,基于规则的模型可能成为一种新标准,以达到所需的粒度和多算法子模型(例如 FBA 和随机动力学模型)来表示每个分子物种。最近已经开始开发将直观逻辑与基于规则的模型相结合的框架。
随着我们产生了越来越多的实验数据和日益复杂的计算工具来实现对实际细胞的详细和复杂的表示,为专注于对人工细胞系统进行有意义的抽象和简化模拟的方法提供了有价值的视角。这样的“玩具模型”可能对测试不同模型推导和拟合算法非常有价值,同时也提供了与更广泛的研究社区和公众进行互动的机会。
最后,我们相信将机器学习技术应用于 WCM 的推导及其在合成生物学的应用中具有巨大潜力。最近的两项研究表明,深度神经网络非常适合重建生物系统的结构(即核转录因子在细胞核和基本真核细胞中的分级组织)并预测细胞状态和表型。在这两种情况下,网络层的配置以及由此产生的生物结构都是使用广泛的先验知识制定的,最终实现了完全“可见”的系统,可以通过机械方式对所有内部生物状态进行研究。
机器学习可以有助于系统地处理大量体内和体外全细胞数据集,例如通过应用贝叶斯推断,整合来自多个来源的数据并补充稀缺数据,并帮助对 WCM 模拟进行自动分类并将表型与基因型关联起来。集成方法是将多个独立模型组合并为单个预测模型,以提高预测的整体鲁棒性。这种方法也可以用于开发亚细胞形式描述并支持其在不同底盘中的整合。此外,机器学习可以在 WCM 参数识别方面提供帮助,例如应用贝叶斯参数估计、回归模型和强化学习技术。优化实验设计技术也可能为模型识别和验证选择最佳实验数据集提供有价值的方法。
四、讨论
我们已经表明 WCMs 有助于指导整个合成生物学应用的设计-构建-测试循环。WCMs 可以加速实现针对特定功能定制的“设计者”细胞和生物体,减少实验迭代次数并提高目前使用的计算形式的预测能力。
在细胞网络功能的(重新)设计中,重要的是通过专门的建模策略,定量分析和预测各细胞调控层之间的动态相互作用。因此,WCMs 应考虑不同细胞层是如何整合的,以及这些层之间的调节反馈是如何及时发生的。这些挑战需要通过整合计算和实验协作努力来解决,其目标分别是:(i)通过预测系统生物学,实现自主振荡并维持后代的生成,以及(ii)通过新颖的多尺度建模框架,提取、可视化和功能探索细胞层次之间的调控相互作用。
随着合成生物学朝着(重新)设计全基因组和多细胞系统发展,跨学科的团队需要合作开发所需的工具,以提高 WCMs 的预测能力。尽管仍面临挑战,但很明显,采用基于模型的方法有可能改变基础研究和当前的生物生产开发过程,从而在工业规模上显著提高宿主性能和产品产量。
最终,随着人类基因组尺度动力学模型的开发变得更加可行,我们预计全细胞形式将成为研究人类变异、设计治疗方案和合成细胞筛选系统的不可或缺的工具。
来源:再创丨Regenesis 2023-07-11
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读