
确定蛋白质的结构能为理解生物学过程提供宝贵信息,并有望指导药物研发。考虑到理解人类蛋白质组对健康和医药的重要性,研究人员付出了大量努力来确定这些蛋白质结构。截至目前,约有10万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数10亿计的蛋白质中只占了很小一部分。虽然已经开展了数十年的研究攻关,但通过实验方法确定的结构只覆盖了人类蛋白质组17%的氨基酸。利用实验方法解析结构需要跨越诸多十分耗时的障碍,因此,扩大蛋白质组覆盖面仍是一项艰巨挑战。2021年7月16日,谷歌公司旗下 DeepMind 团队在 Nature 发表论文,描述了神经网络AlphaFold2,AlphaFold2能以前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。 研究团队还在论文中公布了AlphaFold2的开源代码,并发表了系统的完整方法论,详尽细致说明AlphaFold是如何做到精确预测蛋白质3D结构的。就在同一天,华盛顿大学 David Baker 团队在 Science 期刊发表了蛋白质结构预测论文,开发了名为 RoseTTAFold 的蛋白质结构预测系统,该团队同样将 RoseTTAFold 系统免费开源。一周后的7月22日,DeepMind 团队在 Nature 发表了题为:Highly accurate protein structure prediction for the human proteome 的研究论文。这一次,研究团队描述了
AlphaFold对人类基因组编码的所有蛋白质
(人类蛋白质组)
的准确结构预测
。由此得到的数据集涵盖了人类蛋白质组近60%氨基酸的结构位置预测,且预测结果具有可信度。预测信息将通过欧洲生物信息研究所
(EMBL-EBI)
托管的公用数据库免费向公众开放。研究团队利用前沿机器学习方法AlphaFold确定了覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白)的蛋白质的结构。作者发现,AlphaFold能对人类蛋白质组58%的氨基酸的结构位置给出可信预测。其中,对35.7%的结构位置的预测达到了很高的置信度,是实验方法覆盖的结构数量的两倍。在蛋白水平上,AlphaFold对43.8%的蛋白的至少四分之三的氨基酸序列给出了可信预测。除了人类蛋白质组,AlphaFold还预测了各种其他生物的几乎完整的蛋白质组,从小鼠和玉米到疟疾寄生虫等等。

研究表示表示,照此速度,到今年年底将能完成对 1.3 亿个蛋白结构的预测,这有可能彻底改变生命科学。
研究团队表示,大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而AlphaFold的预测结果将帮助进一步阐明蛋白质的作用。https://www.nature.com/articles/s41586-021-03828-1