基于三代ONT长读长测序和二代短读长测序的DNA甲基化检测方法系统比较|Genome Biol/IF10
长读长测序最常用方法主要包括Oxford Nanopore Technologies(ONT)的纳米孔测序和PacBio的单分子实时(SMRT)测序。近日,冰岛deCODE Genetics公司/雷克雅未克大学Brynja D. Sigurpalsdottir等人系统比较了长读长测序技术(ONT和SMRT测序)在检测人基因组DNA甲基化(特别是CpG甲基化)方面的性能。研究共使用7,179个ONT测序样本、132个精准甲基化测序(oxBS)样本和50个SMRT测序样本,详细评估不同测序技术和分析工具在检测CpG甲基化(5-mCpG)时的准确性、一致性及局限性。研究还引入了质量过滤器以提高甲基化检测的准确性,并强调了最新一代ONT R10.4芯片技术在甲基化检测中的优势。相关研究成果以《A comparison of methods for detecting DNA methylation from long-read sequencing of human genomes》为题发表于《Genome Biology》期刊。
标题:A comparison of methods for detecting DNA methylation from long-read sequencing of human genomes(人基因组DNA甲基化长读长测序检测方法比较)
发表时间:2024-03-11
发表期刊:Genome Biology
影响因子:IF10.1/Q1
技术平台:ONT、oxBS、SMRT
DOI:10.1186/s13059-024-03207-9
本研究揭示了7,179个纳米孔测序的DNA样本中检测到的CpG甲基化具有高度准确性和一致性,与相同血液样本中分离出来的132个精准甲基化测序(oxBS)样本的检测结果相匹配。研究引入靶向CpG位点的质量过滤器(过滤约30%的CpG)以进一步提高纳米孔测序CpG甲基化检测的准确性。研究评估了在不同基因组特征和CpG甲基化率下,每个位点的CpG甲基化检测性能,并展示了最新的ONT R10.4芯片和碱基识别算法优化ONT纳米孔测序中的甲基化检测的具体过程。此外,研究还纳入了50个SMRT测序样本基因组的甲基化检测结果和oxBS测序的结果,与ONT测序进行横向比较研究阐明了每种测序方法的优势和局限性,并为使用长读长测序进行基因组规模的碱基修饰检测工具的标准化和评估提出了建议。
研究方法
ONT测序:使用PromethION R9.4和R10.4芯片,通过检测DNA分子通过纳米孔时的电流变化来识别甲基化修饰。
SMRT测序:通过检测DNA合成过程中碱基掺入的动力学变化来识别甲基化修饰。
oxBS测序:通过化学氧化和亚硫酸盐处理精准区分5-甲基胞嘧啶(5-mC)和5-羟甲基胞嘧啶(5-hmC)。
质量过滤器:引入多种质量过滤器,包括过滤序列变异周围CpG位点、低质量区域(如暗区)CpG位点以及异常测序深度或高链偏倚的CpG位点。
结果图形
(1)ONT纳米孔测序检测CpG甲基化
研究首先利用promethION平台对7,179名个体全血样本进行Nanopore测序,平均测序度为20.6×(中位数为19.5×,范围从10×到108×)。同一样本还被用于研究CpG甲基化、基因表达和序列变异之间的相关性。研究通过Nanopolish工具进行CpG甲基化检测,该工具将相距10bp以内的CpG位点归为一个单元,称为CpG单元。Nanopolish以参考基因组比对的reads为input和每个read数据参考基因组的链信息,为每个CpG单元判断其对数似然比(LLR)。LLR为二进制值,表示测序CpG位点甲基化状态。当LLR未达到预测CpG单元为甲基化或未甲基化标准时,将CpG单元分类为"不可靠"。本研究分析范围为队列中Nanopolish检测到的22,178,458个常染色体CpG单元,共27,651,488个CpG位点。
(2)ONT测序和oxBS的CpG甲基化检测比较
研究对132个个体的DNA样本进行Nanopore测序和oxBS测序比较分析以评估Nanopore测序在CpG甲基化检测中的准确性。样本平均测序深度为25×,每个CpG单元在两个数据集中分别计算了所有个体的平均5-mCpG率,并通过皮尔逊相关系数(APC)来评估Nanopolish工具性能。结果显示,两个数据集之间的APC非常高(r=0.9594),表明Nanopore测序的甲基化检测结果与oxBS测序结果高度一致。
图1:ONT测序和oxBS在同一DNA样本中5-甲基胞嘧啶(5-mCpG)率的一致性表现。
A. 132个DNA样本中ONT(红色)和oxBS(绿色)的5-mCpG率整体检测值。
B-C. ONT测序中每个CpG位点的5-mCpG率的皮尔逊相关系数r(B)和平均绝对差异(MAD)(C)。
D. ONT测序样本中用于分析特定CpG位点的5-mCpG率的序列数量(X轴),影响与oxBS高深度检测5-mCpG率的一致性(皮尔逊相关系数r,Y轴)。
E. ONT测序(Y轴)和oxBS(X轴,分组)中的CpG率。平均值红色(ONT)和绿色(oxBS)。
F. 样本间比较通过ONT测序正确分类的CpG位点数量(Y轴,单位=/M CpGs,蓝色)。错误分类的CpG位点根据5-mCpG率的MAD着色(颜色图例)。D/E/F中的oxBS位点测序深度>25×。
(3)测序深度影响ONT测序数据中CpG甲基化检测的一致性
研究进一步探讨了测序深度对Nanopore测序CpG甲基化检测一致性的影响。结果显示,测序深度越高,CpG甲基化检测一致性越好。当测序深度在12×或更高时,皮尔逊相关系数显著提高,而20×或更高的测序深度时,检测结果一致性进一步提高。当测序深度低于10×时,甲基化检测准确性会显著下降。这一结果表明,较高的测序深度能够显著提高CpG甲基化检测的准确性和一致性。为了获得高准确性的CpG甲基化检测结果,建议每个样本的测序深度至少为12×,20×或更高则更为理想。
(4)ONT测序数据在未甲基化和高甲基化CpG单元中的一致性更高
研究发现,ONT测序在未甲基化和高甲基化CpG单元的检测上表现更为一致。研究将CpG位点分为未甲基化(0-0.15)、低甲基化(0.15-0.5)、中等甲基化(0.5-0.85)和高甲基化(0.85-1)四个类别,通过比较ONT测序和oxBS的结果显示,Nanopore测序在未甲基化和高甲基化CpG单元上的预测准确性最高,分别为86%和77%。这表明Nanopore测序在极端甲基化状态下检测更为可靠,而在低甲基化和中等甲基化状态下的检测准确性相对较低,分别为52%和56%。这一结果为研究者在选择测序技术和分析工具时提供重要的参考依据。
(5)Nanopolish甲基化检测质量受CpG单元序列背景影响
研究发现,Nanopolish甲基化检测质量受CpG单元序列背景的影响。为了分析这种影响,研究者将CpG单元分为序列变异周围(5bp以内)、"暗区"(即难以可靠比对的区域)、具有异常测序深度(高于平均深度1.5倍或低于平均深度0.5倍)以及存在链偏倚(大于0.2)的4个CpG单元。分析结果表明,序列变异周围CpG位点(5bp以内)的预测准确性较低,其APC为0.9219,而其他CpG位点的APC为0.9656。此外,"暗区"CpG位点APC也较低,为0.698。这些结果表明,序列背景对Nanopore测序的甲基化检测准确性有显著影响。因此,在进行CpG甲基化检测时,需要特别关注这些区域的质控,以提高检测结果的可靠性。
图2:根据DNA序列属性评估5-mCpG率检测质量。
A. 比较位于特定序列属性内部(灰色)和外部(粉色)的CpG位点的平均皮尔逊相关系数(APC)。
B. 每个属性内部的CpG单元(红色)和位点(绿色)数量。
C. 单个CpG单元(单例)和多CpG位点单元(非单例)中高质量(深蓝色)与非高质量(浅蓝色)CpG单元的比例。
D. 不同甲基化状态类别中高质量和非高质量CpG单元比例。
(6)与oxBS数据的对比分析中,Guppy在CpG位点甲基化检测上表现优于Nanopolish
研究比较了Guppy和Nanopolish在CpG位点的甲基化检测。分析结果表明Guppy在与oxBS测序结果的对比分析中表现优于Nanopolish。具体而言,Guppy与oxBS测序结果的APC为0.97256,高于Nanopolish的0.9594。且Guppy平均链偏倚更低,表明其甲基化检测准确性更高。通过应用与Nanopolish相同的质量过滤器,Guppy能够鉴定出更多的高质量CpG位点(hq-CpGs),其APC为0.98691。这一结果表明,Guppy在CpG甲基化检测上具有更高的准确性和可靠性,特别是在处理低甲基化和中等甲基化状态下的CpG位点时表现更为出色。
(7)最新的Nanopore R10.4芯片技术在甲基化检测上实现了更高准确性和改进的检测结果
研究人员对ONT的最新R10.4芯片在CpG甲基化检测方面的表现进行了评估,并与早期的R9.4芯片进行了比较。研究发现,R10.4芯片在多个方面表现出显著的优势,特别是在提高甲基化检测的准确性和减少链偏倚方面。
更高的APC:在所有CpG位点中,R10.4芯片预测的5-mCpG率与oxBS数据的APC为0.97845,高于R9.4芯片的0.97256。表明R10.4芯片在甲基化检测上的准确性更高。
更低的MAD:Guppy R10.4在与oxBS的甲基化检测比较中显示出比Guppy R9.4更低的MAD,进一步证明了其在甲基化检测上的准确性。
更低的链偏倚:R10.4芯片的平均链偏倚为0.047,显著低于R9.4芯片的0.064。链偏倚是指正链和负链上预测的甲基化率差异,较低的链偏倚表明R10.4芯片在甲基化检测上的可靠性更高。
更多的高质量CpG位点:应用相同的质量过滤器,R10.4芯片能够鉴定出更多的高质量CpG位点(hq-CpGs),数量达到22893522个(82.8%),与R9.4芯片相比增加了2.3%。表明R10.4芯片在提高甲基化检测位点覆盖率方面具有显著优势。
高质量CpG位点更高的APC:这些高质量CpG位点的APC为0.99067,表明R10.4芯片在甲基化检测上的准确性非常高。
(8)ONT测序与SMRT测序的CpG甲基化检测比较
研究以50个oxBS样本作为参考标准,对50个SMRT测序样本、50个ONT测序样本(分别使用R9.4和R10.4芯片)的CpG甲基化检测数据进行比较分析。研究对所有样本的平均5-mCpG率进行分析,并比较所有五种方法(SMRT、R9.4-Guppy、R10.4-Guppy、R9.4-Nanopolish和oxBS)之间的平均皮尔逊相关系数(APC)以及5-mCpG率与oxBS之间的平均绝对差异(MAD)(表1A)。
表1:不同测序技术在CpG甲基化检测中的一致性和准确性比较
(A) APC比较结果展示在主对角线以下,MMAD比较结果展示在主对角线以上。
(B) 基于所有CpG、序列变异周围CpG或暗区CpG位点的APC比较分析。
结果显示,Guppy R10.4和Guppy R9.4在与oxBS数据的比较中表现最佳,其平均皮尔逊相关系数(APC)最高,分别为0.97845和0.97256。表明Guppy在甲基化检测上的准确性最高,能够最接近oxBS测序的参考标准。研究还分析了不同测序技术在CpG甲基化率分布上的表现。所有测序技术均能准确复现oxBS测序观察到的CpG甲基化率的双峰分布,Guppy R10.4的分布与oxBS测序结果最为接近,表明其在极端甲基化状态下的检测更为准确。
此外,CpG周围的序列变异会在oxBS中引入比对偏倚,导致甲基化检测不准确和APC降低(表1B)。因此对于Guppy和PacBio而言,序列变异周围CpG位点的重要性较低。所有长读长测序技术都使用特定序列背景和与参考基因组的比较来检测CpG甲基化状态,因此可以过滤那些序列变异周围的CpG位点。
(9)5-mCpG率的分布
研究分析了不同测序技术在CpG甲基化率分布上的表现。结果显示,所有测序技术在CpG甲基化率的分布上表现出预期的双峰分布,但在完全甲基化和完全未甲基化状态下的分布略有差异。Guppy R10.4测序结果与oxBS测序结果最为接近,而SMRT测序和Guppy R9.4测序结果则在极端甲基化状态下表现出一定的偏倚。这一结果表明,不同测序技术在处理低甲基化和中等甲基化状态下的CpG位点时可能存在差异,研究者在选择测序技术时需要考虑这些因素。
图3:不同方法检测CpG甲基化的比较。
A. 在oxBS、Guppy R9.4和R10.4中,CpG甲基化率(0-1)在个体中平均后呈现出oxBS数据中预期的双峰分布。
B. 在oxBS、PacBio和Nanopore中,CpG甲基化率(0-1)在个体中平均后呈现出oxBS数据中预期的双峰分布。
C. 全血中表达基因的转录起始位点(TSS)的CpG甲基化率在50bp范围内平均值。
D. 每种方法检测到的CpG位点数量。Nanopolish统计每个CpG单元的所有CpG位点。
(10)功能区域的5-mCpG分布
为了研究生物学背景对甲基化检测准确性的作用,研究人员分析了全血中表达基因的TSS处50bp以内的平均5-mCpG率。所有甲基化检测方法都高度匹配oxBS测序样本中的甲基化模式,表明在TSS区域内甲基化缺失(图3C)。其中PacBio和Guppy R9.4在TSS处显示出更高的CpG甲基化率,而在TSS之外则显示出低甲基化率,这与这两种方法的甲基化分布轻微偏移一致(图3A、B)。而Guppy R10.4测序结果更接近于oxBS中的TSS甲基化水平(图3C)。表明其在功能区域的甲基化检测上具有高准确性。这一结果进一步证实了Guppy R10.4测序技术在表观遗传学研究中的应用潜力,特别是在基因表达调控和细胞分化机制研究中。
(11)长读长测序比oxBS测序检测到更多的CpG位点数量
研究发现,长读长测序技术在检测CpG位点数量上优于oxBS测序。Nanopore测序和SMRT测序平均每个样本检测到约27M CpG位点(Guppy R9.4=27,467,383个CpG位点,Guppy R10.4=27369144个CpG位点,PacBio=26,739,539个CpG位点,Nanopolish=26,487,587个CpG位点,分布在22,058,476个CpG单元中),而oxBS测序仅检测到约26M CpG位点(图3D)。这一结果表明,长读长测序技术在CpG甲基化检测上具有更高的分辨率和更全面的覆盖范围,能够为研究者提供更丰富的表观遗传学信息。这一优势在研究复杂基因组区域和稀有甲基化中尤为显著。
讨论和启示
本研究通过大规模样本分析,揭示了长读长测序技术在CpG甲基化检测中的优势和局限性。研究揭示了测序深度、链偏倚、序列背景等因素对甲基化检测的准确性有显著影响。同时,长读长测序技术在检测CpG甲基化方面具有显著优势,尤其是在无需化学处理DNA的情况下直接检测甲基化修饰的能力。最新的R10.4芯片技术,通过降低链偏倚和提高检测准确性,进一步提升了ONT测序在甲基化检测中的性能。未来的研究可以利用这些技术优势,深入探索基因表达调控、细胞分化以及疾病发生机制等领域的表观遗传学变化。
参考文献:
Sigurpalsdottir, B.D., Stefansson, O.A., Holley, G. et al. A comparison of methods for detecting DNA methylation from long-read sequencing of human genomes. Genome Biol 25, 69 (2024). Doi:10.1186/s13059-024-03207-9
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您