大型语言模型的下一个前沿——生物学
来源丨Forbes
编译丨智药邦
2023年7月16日,福布斯(Forbes)官网发表了一篇题为:The Next Frontier For Large Language Models Is Biology 的文章,探讨了大模型在生物学中的应用前景。
像GPT-4这样的大型语言模型凭借对自然语言的惊人驾驭能力风靡全球。然而,对于大语言模型(LLM)来说,最重要的长期机遇将是一种完全不同的语言:生物学语言。
在过去的一个世纪中,生物化学、分子生物学和遗传学的研究取得了长足的进步,其中一个引人注目的主题是:生物学原来是一个可破译、可编程,在某些方面甚至是数字化的系统。
DNA只用四个变量——A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶),就能为地球上的每一个生物体编码完整的遗传指令。与之相比,现代计算机系统使用两个变量——0和1来编码世界上所有的数字电子信息。一个系统是二进制的,另一个是四进制的,但两者在概念上有惊人的重叠,两个系统都可以恰当地视为数字系统。
再举个例子,每种生物体内的每种蛋白质都是由按特定顺序连接在一起的一维氨基酸串构成和定义的。蛋白质的长度从几十个到几千个氨基酸不等,有20种不同的氨基酸可供选择。
这也是一个极易计算的系统,语言模型非常适合学习。
正如DeepMind首席执行官兼创始人 Demis Hassabis 所说: 在最基本的层面上,我认为生物学可以被看作是一个信息处理系统,尽管它是一个异常复杂和动态的系统。正如数学被证明是物理学的正确描述语言一样,生物学也可能被证明是人工智能应用的完美机制类型。
David Baker、Demis Hassabis、George Church
当大型语言模型能够处理大量信号丰富的数据,推断出远远超出人类吸收能力的潜在模式和深层结构时,它们的功能最为强大。然后,它们可以利用这种对主题的复杂理解,生成新颖、令人叹为观止的复杂输出。
例如,通过摄取互联网上的所有文本,ChatGPT等工具学会了就任何可以想象到的话题进行深思熟虑、细致入微的对话。通过摄取数十亿幅图像,Midjourney等文本到图像模型学会了按需生成创造性的原始图像。
将大型语言模型指向生物数据--让它们学习生命语言--将释放出各种可能性,使自然语言和图像相比之下显得微不足道。
在短期内,在生命科学领域应用大型语言模型最有吸引力的机会是设计新型蛋白质。
蛋白质
蛋白质是生命本身的中心。正如著名生物学家 Arthur Lesk 所说: 在分子尺度的生命剧中,蛋白质是行动的中心。
蛋白质几乎参与了每种生物体内发生的所有重要活动:消化食物、收缩肌肉、将氧气输送到全身、攻击外来病毒。你的荷尔蒙是由蛋白质组成的,你的头发也是。
蛋白质之所以如此重要,是因为它们用途广泛。它们能够承担大量不同的结构和功能,远远超过任何其他类型的生物大分子。这种令人难以置信的多功能性是蛋白质构建方式的直接结果。
如上所述,每种蛋白质都由一串被称为氨基酸的构件按照特定顺序串联而成。根据氨基酸的一维序列,蛋白质折叠成复杂的三维形状,从而实现其生物功能。
蛋白质的形状与其功能密切相关。举个例子,抗体蛋白折叠成的形状使它们能够精确地识别和锁定异物,就像钥匙插入锁里一样。再比如,酶--加速生化反应的蛋白质--具有特殊形状,能与特定分子结合,从而催化特定反应。因此,了解蛋白质的折叠形状对于理解生物体的功能以及生命本身的运作方式至关重要。
半个多世纪以来,仅根据蛋白质的一维氨基酸序列确定其三维结构一直是生物学领域的一大挑战。这个被称为"蛋白质折叠问题"的难题困扰了几代科学家。2007 年,一位评论家将蛋白质折叠问题描述为"现代科学中最重要但尚未解决的问题之一"。
深度学习和蛋白质:天作之合
2020 年底,在生物学和计算机领域的一个分水岭时刻,一个名为AlphaFold的人工智能系统找到了蛋白质折叠问题的解决方案。AlphaFold由谷歌旗下的DeepMind公司打造,它能正确预测蛋白质的三维形状,精确到约一个原子的宽度,远远超过了人类设计出的任何其他方法。
AlphaFold的意义无论如何强调都不为过。长期从事蛋白质折叠研究的专家 John Moult 对此作了精辟的总结: 这是人工智能第一次解决了一个重要的科学问题。
然而,说到人工智能和蛋白质,AlphaFold只是一个开始。
AlphaFold并非使用大型语言模型构建而成。它依赖于一种更古老的生物信息学结构,即多序列比对 (MSA) ,将蛋白质的序列与进化过程中相似的蛋白质进行比较,从而推断其结构。
正如AlphaFold所表明的那样,多序列比对非常强大,但也有局限性。、
首先,它的速度很慢,而且计算密集,因为它需要参考许多不同的蛋白质序列才能确定任何一种蛋白质的结构。更重要的是,由于MSA需要存在大量在进化和结构上相似的蛋白质才能推理出新的蛋白质序列,因此它对所谓的 "孤儿蛋白质” (orphan proteins) ——很少或没有近似相似物的蛋白质——的作用有限。这种孤儿蛋白约占所有已知蛋白质序列的20%。
最近,研究人员开始探索一种有趣的替代方法: 使用大型语言模型而不是多序列比对来预测蛋白质结构。
"蛋白质语言模型"不是根据英语单词,而是根据蛋白质序列训练出来的,它展现出了惊人的能力,能够直观地发现蛋白质序列、结构和功能之间的复杂模式和相互关系:例如,改变蛋白质序列某些部分的某些氨基酸会如何影响蛋白质的折叠形状。可以说,蛋白质语言模型能够学习蛋白质的语法或语言学。
蛋白质语言模型的想法可以追溯到2019年哈佛大学 George Church 实验室的UniRep工作(不过UniRep使用的是LSTM,而不是如今最先进的变换器模型)。
2022年底,Meta首次发布了ESM-2和ESMFold,这是迄今为止发布的规模最大、最复杂的蛋白质语言模型之一,共有150亿参数 (ESM-2是LLM本身;ESMFold是其相关的结构预测工具) 。
在预测蛋白质三维结构方面,ESM-2/ESMFold与AlphaFold一样准确。但与AlphaFold不同的是,它能够根据单个蛋白质序列生成结构,而不需要输入任何结构信息。因此,它比AlphaFold快60倍。当研究人员希望在蛋白质工程工作流程中同时筛选数百万个蛋白质序列时,这种速度优势就会产生巨大的不同。对于缺乏进化相似类似物的孤儿蛋白,ESMFold也能比AlphaFold做出更准确的结构预测。
语言模型能够对蛋白质的“潜在空间”产生普遍的理解,这为蛋白质科学开辟了令人兴奋的可能性。
AlphaFold以来的几年里,更强大的概念进步已经发生。
简而言之,这些蛋白质模型可以反推:与其根据蛋白质序列预测其结构,不如反推ESM-2等模型,根据所需的特性生成自然界不存在的全新蛋白质序列。
设计全新蛋白质
当今世界上存在的所有蛋白质只是理论上可能存在的所有蛋白质的极小一部分。机会就在这里。
举几个粗略的数字:据估计,存在于人体中的全部蛋白质——即所谓的"人类蛋白质组"——的数量大约在8万到40万之间。与此同时,理论上可能存在的蛋白质数量大约在10^1300左右,这是一个深不可测的庞大数字,比宇宙中原子的数量还要多出许多倍。 (要明确的是,并非所有这 10^1300 种可能的氨基酸组合都会产生具有生物活性的蛋白质。) 。
在数百万年的时间里,蜿蜒曲折的进化过程偶然发现了数以万计或数十万计的可行组合。但这仅仅是冰山一角。
用领先的蛋白质人工智能初创公司 Generate Biomedicines 的联合创始人 Molly Gibson 的话来说: 大自然所能提供的序列空间是巨大的,大自然在生命史中采样的序列空间量,几乎只相当于地球上所有海洋中的一滴水。
我们有机会改进自然。毕竟,自然选择的进化虽然是一种强大的力量,但它并不是无所不知的,它并不预先计划,它并不以自上而下的方式进行推理或优化。它是随机的、机会主义的,传播的是碰巧有效的组合。
利用人工智能,我们可以首次系统而全面地探索蛋白质空间的广阔未知领域,从而设计出不同于自然界中存在过的任何蛋白质,满足我们的医疗和商业需求。
我们将能够设计出新的蛋白质疗法,以解决人类的各种疾病--从癌症到自身免疫性疾病,从糖尿病到神经退行性疾病。展望医学以外的领域,我们将能够创造出新的蛋白质类别,在农业、工业、材料科学、环境修复等领域实现变革性应用。
一些利用深度学习进行全新蛋白质设计的早期尝试并未使用大型语言模型。
举世闻名的华盛顿大学的 David Baker 实验室推出的ProteinMPNN就是一个突出的例子。ProteinMPNN架构没有使用大语言模型,而是主要依靠蛋白质结构数据来生成新蛋白质。
David Baker 实验室最近发布了 RFdiffusion ,这是一种更先进、更通用的蛋白质设计模型。顾名思义,RFdiffusion是利用扩散模型构建的,这种人工智能技术与Midjourney和Stable Diffusion等从文本生成图像的模型相同。RFdiffusion可以生成新颖的、可定制的蛋白质 "骨架" (即蛋白质的整体结构支架) 然后将序列分层。
ProteinMPNN和RFdiffusion等以结构为重点的模型取得了令人瞩目的成就,推动了基于人工智能的蛋白质设计技术的发展。然而,得益于大型语言模型的变革能力,我们可能正处于该领域新一轮变革的风口浪尖。
为什么与其他蛋白质设计计算方法相比,语言模型是一条前景光明的道路?一个关键原因是:扩展性。
扩展法则
人工智能最近取得的巨大进步背后的关键力量之一就是所谓的 "扩展定律(scaling laws)":随着语言模型参数数量、训练数据和计算量的不断增加,其性能的提高几乎令人难以置信。
每增加一个数量级的规模,语言模型都会展现出非凡的、意想不到的、新出现的能力,这些能力超越了在较小规模下可能实现的能力。
近年来,正是OpenAI对扩展原则的承诺,使该组织跃居人工智能领域的前沿。从GPT-2到GPT-3再到GPT-4以及更多,OpenAI构建了更大的模型,部署了更多的计算,并在更大的数据集上进行了训练,比世界上任何其他组织都更胜一筹,从而释放出令人惊叹、前所未有的人工智能能力。
扩展法则与蛋白质领域有何关联?
在过去二十年里,由于科学上的突破,基因测序的成本大大降低,而且更容易获得,因此可用于训练人工智能模型的DNA以及蛋白质序列数据量呈指数级增长,远远超过了蛋白质结构数据。
蛋白质序列数据可进行标记化处理,就所有意图和目的而言,可被视为文本数据;毕竟,它是由按一定顺序排列的氨基酸线性字符串组成的,就像句子中的单词一样。大型语言模型只需在蛋白质序列上进行训练,就能深入理解蛋白质结构和生物学。
因此,利用大语音模型对这一领域进行大规模扩展的时机已经成熟——这些努力可能会为蛋白质科学带来惊人的新见解和新能力。
第一项使用基于变换器的大语言模型设计全新蛋白质的研究是—— ProGen ,由 Salesforce Research 于2020年发布。最初的ProGen模型有12亿参数。
ProGen 的首席研究员 Ali Madani 后来成立了一家名为 Profluent Bio 的初创公司,致力于推进大语言模型驱动的蛋白质设计技术并将其商业化。
在率先将大语言模型用于蛋白质设计的同时,Ali Madani 也清醒地认识到,以原始蛋白质序列为基础训练的现成语言模型本身并不是应对这一挑战的最有力方法。结合结构和功能数据至关重要。
Ali Madani 表示: 蛋白质设计领域的最大进步将体现在对不同来源的数据进行仔细整理,以及能够灵活学习这些数据的多功能建模这两者之间的交叉点上。这就需要利用我们掌握的所有高信号数据,包括蛋白质结构和来自实验室的功能信息。
另一家应用大语言模型设计新型蛋白质疗法的早期初创公司是 Nabla Bio 。Nabla 公司从 George Church 在哈佛大学的实验室中分拆出来出来,由 UniRep 背后的团队领导,专门研究抗体。鉴于目前60%的蛋白质疗法都是抗体疗法,而且全球销售额最高的两种药物都是抗体药物,因此 Nabla 的选择也就不足为奇了。
但 Nabla 公司并不打算开发自己的疗法,而是向生物制药合作伙伴提供前沿技术,作为帮助他们开发自己药物的工具。
随着世界逐渐认识到蛋白质设计是一个巨大的、尚未被充分开发的领域,可以应用大型语言模型看似神奇的能力,预计在未来的几个月和几年里,这一领域会有更多的初创企业活动。
前方之路
Frances Arnold 在2018年诺贝尔化学奖的获奖感言中说道: 今天,我们可以读取、书写和编辑任何DNA序列,但我们无法创作它。生命密码是一部交响乐,由无数演奏者和乐器演奏出错综复杂的美妙乐章。也许我们可以从大自然的作品中剪切和粘贴片段,但我们不知道如何为单个酶通道编写小节。
在五年前,这还是事实。
但人工智能可能会让我们有能力,在生命史上第一次真正从头开始编写全新的蛋白质 (及其相关的遗传密码) ,专为我们的需求而生。这是一种令人惊叹的可能性。
这些新型蛋白质将成为治疗从传染病到癌症等各种人类疾病的药物;它们将帮助基因编辑成为现实;它们将改变材料科学;它们将提高农业产量;它们将中和环境中的污染物;还有更多我们甚至无法想象的东西。
由人工智能 (尤其是大语言模型) 驱动的蛋白质设计领域仍处于起步阶段,尚未得到证实。科学、工程、临床和商业领域仍然存在重大障碍。将这些新疗法和产品推向市场需要数年时间。
然而,从长远来看,人工智能的市场应用大有可为。
在今后的文章中,我们将深入研究用于蛋白质设计的大语言模型,包括探索该技术最引人注目的商业应用,以及计算结果与实际湿实验室实验之间的复杂关系。
最后,让我们放大视野。全新蛋白质设计并不是大型语言模型在生命科学领域唯一令人兴奋的机遇。
语言模型还可用于生成其他类别的生物分子,特别是核酸。例如,一家名为 Inceptive 的初创公司正在 应用大语言模型生成新型RNA疗法。
其他研究团队的目标更为宽广,旨在建立通用的"生物学基础模型",能够融合基因组学、蛋白质序列、细胞结构、表观遗传学状态、细胞图像、质谱分析、空间转录组学等各种数据类型。
最终目标是超越蛋白质等单个分子的建模,进而建立蛋白质与其他分子相互作用的模型,然后建立整个细胞、组织、器官的模型,最终建立整个生物体的模型。
建立一个能够理解和设计复杂生物系统每一个复杂细节的人工智能系统,这个想法令人匪夷所思。假以时日,这一切都将唾手可得。
从爱因斯坦的相对论到量子力学的发现,从核弹到晶体管,物理学的根本性进步定义了二十世纪。正如许多现代观察家所指出的, 二十一世纪正在成为生物学的世纪。在未来的几十年里,人工智能和大型语言模型将在揭开生物学的秘密和释放其可能性方面发挥核心作用。
现在,请系好安全带。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读