未来已来:论AlphaFold2带来的可能性

2021
09/09

+
分享
评论
生物世界
A-
A+

撰文|张孝春 田博学

来源 |  结构生物学高精尖创新中心


AlphaFold2这么准,我们接下来该怎么办?

代码已开源,所有蛋白结构都预测出来了,我们还能做什么?

计算真的就决定未来了?未来是什么?   
 
2021年的前三季度,结构生物学家们百感交集,有的焦虑,有的忙碌,有的躺平,又站起来憧憬未来。基于AlphaFold2的使用经验,以及与清华大学药学院、生命学院和医学院多位教授的讨论,我们在此展望未来,探讨AlphaFold2给生命科学、医药领域等带来的潜在变革。 
 
图1 AlphaFold2给生命科学、医药领域等带来的潜在变革   
 
背景:AlphaFold2横空出世   
 
1972年,美国科学家 Christian Anfinsen 提出一个著名的假设:   蛋白质的氨基酸序列决定其结构   。自此,根据蛋白质序列预测结构算法开发引起人们广泛关注。被称为蛋白质结构预测领域的奥林匹克竞赛的CASP   (Critical Assessment of protein Structure Prediction)   ,自1994年开始,每两年将举办一次。自举办以来,蛋白质结构预测精度稳步前进,诞生了I-TESSER、RaptorX、ROSETTA等经典模型。  

  随着深度学习技术的快速发展,2018年,谷歌 DeepMind 团队开发出的AlphaFold首次亮相便摘取CASP13的桂冠   [1]   。而两年后的AlphaFold2版本更是在CASP14中,针对比赛中提供的蛋白,预测准确性达到了可以与实验解析误差接近的水平。   
 
2021年7月15日, AlphaFold2的开发团队DeepMind在Nature杂志发文详细描述了AlphaFold2的详细设计思路,并提供了可供运行的模型和代码   [2]   。在公布源代码一周后,DeepMind团队再次在Nature发文,公布了AlphaFold2预测的人类和其他20种重要物种的蛋白质组的所有结构,并通过欧洲生物信息研究所   (EMBL-EBI)   托管的公用数据库免费向公众开放   [3]      
 
01  
蛋白质结构解析:从“闭卷考试”到“开卷考试”  

生命科学以实验为基础,结论需要提供实验数据支持,蛋白质结构主要通过X-射线衍射、冷冻电镜等实验技术解析。长期以来,理论预测的模型并不能等同于观测到的实验数据,但AlphaFold2实现的高精度的预测结构与实验误差接近,实验人员可能会先参考模型预测的结果,再对实验数据进行处理。因此AlphaFold2的出现可能会改变结构生物学的实验流程与实验结果。对于部分已有结构家族中的高度同源蛋白,可能不需要实验,直接拿满分。   
 
蛋白-蛋白相互作用是许多生命现象的基础,如信号传导、功能调控等。随着冷冻电镜技术的完善以及广泛应用,AI预测蛋白-蛋白复合物结构的准确性在未来也会随着实验数据的扩增而提高。基于当前的AlphaFold2程序,我们可以编辑包含两个互作蛋白的氨基酸序列输入AlphaFold2,来欺骗程序预测复合物,具体做法是将两个蛋白用一个较长的Linker   (50个甘氨酸)   ,以不同方式连接两个蛋白X和Y,比如XXX代表蛋白X的序列,GGG代表linker,YYY代表蛋白Y的序列,分别生成XXXGGGYYY与YYYGGGXXX进行建模。图2右侧为该方法预测的单克隆抗体结构,与实验结构非常接近   (TM-score = 0.94)      
 
图2 AlphaFold2预测的纳米抗体(左)及单克隆抗体结构(右)  

 
02  
蛋白质功能预测:结构与灵感   
 
序列决定结构,结构决定功能,所以序列决定功能!等等,为何预测功能一定要知道结构?   
 
从AI的角度,如果把蛋白功能预测看作分类问题   (如基因本体论)   ,在数据足够的情况下,可以直接从序列到功能端对端训练模型。近期发现结合蛋白结构信息的图网络模型能够实现更好的效果   [4]   。但是实际上,   AI预测大多数时候只能做功能的迁移   (Annotation Transfer)   ,比如数据集中有猫和狗,新来了一个老虎,程序会迅速回答“猫”,而不能回答“老虎”。以我们正在研究的萜类合成酶为例,这类酶可以合成很多不同的萜类天然产物,许多是重要的药物前体。AI并不能直接从序列预测新的萜类合成酶的产物,而加入结构信息则可以为功能预测提供更多可能性   [5]    

 
对人类来说,结构比序列具有更强的可读性。因此,基于结构,科学家可以做更多的假设,再加以实验验证,去发现新的蛋白功能。比如利用分子对接预测酶的功能,或者对接蛋白通路    (pathway docking)   ,通过人的逻辑,预测一条通路相关蛋白的功能,再实验验证   [6]   完整的蛋白质组结构将为蛋白质功能预测与实验验证提供有力支持,同时带给科学家们更多灵感   
 
03  
蛋白质设计:从功能逆推结构与序列  

“我需要一把椅子,坐着舒服就可以了!  

实现同一种功能存在多种结构,以舒适的椅子为例,符合这种功能的椅子有很多种。针对某种特定的功能,天然蛋白也许并不是最优解,就像天然存在的椅子,比如一个树桩,坐上去并不舒服。随着序列到结构、结构到功能关系的建立,人工改造或从头设计蛋白以实现预期的功能将更加容易   [7]     在酶工程领域   ,关键残基的空间结构信息对于酶的设计至关重要。天然酶经过设计或改造提高活性,与对应的表达系统适配时,会得到更高的效率。   在蛋白质材料领域   ,我们可以利用序列到结构的关系,对蛋白质结构进行模块化构建,在保持生物机械性与弹性功能的前提下还具有可降解性,伸缩性,生物相容性。  

04  
药物发现: 短期利好,长期来看新药发现难度增加   
 
当所有蛋白结构已知,对每一个蛋白都设计极好的分子来调控,药物发现需要做的仅仅是排列组合的使用这些分子?   
 
AlphaFold2已经预测了人类蛋白质组结构。由于每个蛋白都可能是某种疾病的靶点,科学家们后续可以针对每个蛋白都设计出对应的分子进行调控   (抑制或者激活)     这也将改变传统药物的研发过程,靶向单一蛋白的新药将越来越少,而靶向蛋白-蛋白相互作用的小分子或者抗体药物可能成为新药的主流   。与此同时,中医药的分子机制也可能会进一步完善,之前找不到靶点的活性分子,通过反向对接蛋白质组,可以确认潜在靶点。  

写在最后  

由于生命科学和药学实验中,获取足够的数据依旧充满挑战,利用自动化技术大批量生成实验数据或将解决这一难题。同时,小样本AI学习的算法或将成为热点。AI为生命科学和医药研究提供了便利条件,也将给科学家们带来更多灵感。对于未来,我们相信,AI是必要不充分条件,决定未来的永远都是人类的灵感与努力   
 
参考资料链接:  
1. https://doi.org/10.1093/bioinformatics/btz422  
2. https://www.nature.com/articles/s41586-021-03819-2  
3. https://www.nature.com/articles/s41586-021-03828-1  
4. https://pubmed.ncbi.nlm.nih.gov/34252926/  
5. https://www.nature.com/articles/nature12576  
6. https://www.pnas.org/content/112/18/5661  
7. https://doi.org/10.1002/pro.3588   

 
本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
结构,蛋白,预测,AlphaFold,功能

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!