申请认证 退出

您的申请提交成功

确定 取消

Science六连发,补齐人类基因组缺失的拼图,更准确完整的人类基因组诞生

2022-04-02 10:41

1990 年,人类基因组计划正式启动。这项计划旨在揭开组成人体 2.5 万个基因的 30 亿个碱基对序列,绘制出人类基因图谱。

撰文 | Leo  

来源 | 丁香学术    

1990 年,人类基因组计划正式启动。这项计划旨在揭开组成人体 2.5 万个基因的 30 亿个碱基对序列,绘制出人类基因图谱。2003 年,科学家宣布人类基因组计划的测序工作已经完成。  

事实上,这一说法并不准确。确切地说,人类基因图谱仅涵盖基因组的常染色质部分,而重要的异染色质区域尚未完成,还有大约 8% 的基因组尚未被测序,这些缺失的区域中包含很多高度重复的序列。  

2022 年伊始,   Nature   杂志对「可能在未来一年对科学产生影响」的 7 项技术进行了展望。其中,完整版人类基因组位居 7 大技术展望之首。  

北京时间 2022 年 4 月 1 日凌晨,加州大学圣克鲁兹分校 Karen Miga 教授和国家人类基因组研究所   (NHGRI)   的 Adam M. Phillippy 领导的百人国际研究团队——端粒到端粒   (T2T)   联盟,   首次破译了完整的人类基因组,提供了完整的 30.55 亿碱基对序列   。在生命的遗传图谱中,看到了以前从未读过的章节。  

这一系列研究成果以六篇研究长文的形式发表在   Science   期刊,另外还有十几篇相关论文发表在其他多个期刊当中。  

70631648854738498  

6 篇 Science 论文  

16791648854739128  

42861648854739234  

73001648854739317  

36681648854739369  

46051648854739492  

84221648854739538  

新的参考基因组被称为 T2T-CHM13增加了近 2 亿个碱基对的新 DNA 序列,包括 99 个可能编码蛋白质的基因和近 2000 个需要进一步研究的候选基因,它还纠正了当前参考序列中的数千个结构错误。  

由新序列填补的空白包括五条人类染色体的整个短臂,并覆盖了基因组中一些最复杂的区域,包括染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒中高度重复的 DNA 序列。T2T-CHM13 还揭示了以前未检测到的节段重复,即在基因组中复制的长段 DNA,并且部分 DNA 已知在进化和疾病中发挥重要作用。  

错综复杂的谜题  

人类基因组由超过 60 亿个单独的 DNA 碱基组成,分布在 23 对染色体中。为了读取基因组,研究人员首先将所有 DNA 切成数百至数千个碱基长的片段。然后,测序机读取每一片段上的单个碱基。研究人员再试图以正确的顺序组装这些碎片,就像把杂乱无章的拼图拼在一起一样。  

破译人类完整基因组的一个挑战是基因组的某些区域不断重复相同的碱基。重复区域包括着丝粒、核糖体 DNA,还有一些重复部分可能包含帮助物种适应的新基因。过去,这些重复使得分段的 DNA 序列无法以正确的顺序组装。这就像拥有一块相同的拼图,但是不知道哪一块应该放在哪里,因此在过去的基因组图谱中留下了很大的空白。  

另一个障碍是大多数细胞包含两个基因组,一个来自父亲,另一个来自母亲。当研究人员试图组装所有 DNA 片段时,来自两个亲本的序列会混合在一起,从而掩盖了每个个体基因组中的实际变异。  

科学家们试图克服这些障碍。人类基因组计划的参与者之一 Evan Eichler 说,「我们想出了一个想法,即通过对其中一个基因组进行测序,而不是同时求解两个基因组,来获得完整的基因组」。  

对此,他们利用了来自匹兹堡大学的生殖遗传学家 Urvashi Surti 正在研究的一组细胞系——由于正常发育中罕见的障碍,细胞最终有两个父亲的 DNA 拷贝,而没有母亲 DNA 拷贝。这种只有一个基因组的细胞系使得这种基因组组装成为可能。  

48311648854739587  

图源:参考资料 2(Credit by Ernesto del Aguila III, NHGRI.)  

测序技术的进步  

科学的进步一直伴随着技术的突破,人类基因组项目的完成也不例外。  

过去,仅使用短读技术对人类基因组进行测序,在基因组序列中留下了一部分空白。随着 DNA 测序成本的大幅下降和对新 DNA 测序技术的投资增加,新的 DNA 测序技术不断出现,可以在保证准确性的情况下读取更长的 DNA 序列。  

长读测序技术被证明是既有规则的「改变者」,是绘制人类完整基因组的必备工具。其中,Oxford Nanopore DNA   (牛津纳米孔)   测序技术可以一次读取长达 100 万个碱基的序列,精度适中;PacBio 公司开发的 HiFi 测序技术可以读取超过 20Kb,准确度在 99.9% 以上的测序序列。研究者利用两者的优势互补来完成人类基因组的最后剩余,使其能够跨越 DNA 重复区域并确保序列的高度准确。  

「使用长读技术,我们在理解人类基因组中最困难的重复部分方面取得了突破,」T2T 联盟的联合主席 Karen Miga 说,「这个完整的人类基因组序列已经为基因组生物学提供了新的见解,我期待着下一个十年对这些新揭示区域的全新发现。」  

75241648854740170  

Karen Miga(图源:参考资料 3,Credit by Carolyn Lagattuta/UCSC)  

人类参考基因组的意义及未来  

重组人类基因组是一项费时又费力的任务,随着测序技术的进步,人类参考基因组不断完善,已经更新了许多版本。其中,人类参考基因组 GRCh38 自 2013 年首次发布以来,作为极具价值的研究工具被广泛使用,但确定复杂基因组区域的确切序列一直是一项具有挑战性的工作。本次更新的参考基因组 T2T-CHM13,在 GRCh38 的基础上增加了近 2 亿个碱基对,填补了剩余的 8% 的空白,为我们提供了第一个完整的 DNA 视图。  

过去,我们已经从拥有的大约 90% 的人类基因组中获得了对人类生物学和疾病的深刻理解,而新破译的 DNA 序列将彻底改变我们对人类基因组变异、疾病和进化的看法。例如,研究小组在着丝粒和其他区域发现了意想不到的高水平遗传变异,这对了解遗传疾病以及人类多样性和进化具有非常重要的作用。  

「将来,当有人对自己的基因组进行测序时,能够识别 DNA 中的所有变异,并利用这些信息更好地指导医疗保健,」Adam M. Phillippy 表示,「真正完成人类基因组序列就像戴上一副新眼镜,现在我们可以清楚地看到一切,对离理解这意味着什么又近了一步。」  

绘制出完整的人类基因组序列是人类基因组计划中迈出的重大一步,但这并不是终点。与此同时,T2T 联盟成员还开始了一项泛基因组工作,以读取来自世界各地的数百人的整个 DNA 序列,创造尽可能完整的人类基因组,代表更多的人类多样性。  

参考资料   :  

1. https://www.eurekalert.org/news-releases/946948  

2. https://www.eurekalert.org/news-releases/947718  

3. https://www.eurekalert.org/news-releases/947629

不感兴趣

看过了

取消

基因组,人类,序列,DNA,测序

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交