精准前沿丨基于长读长测序的重复序列比对算法Winnowmap2

2022
07/22

+
分享
评论
先声诊断
A-
A+

本研究展示了Winnowmap2在人类染色体的重复区域内显著提高了SV检测的准确性

本期《精准前沿》栏目分享由美国人类基因组研究所Jain团队于2022年4月1日在国际知名期刊Nature Methods(IF=28.50)上发表的一篇研究[1]本研究提出了一种新的长读长序列比对算法,成功地解决了现有长读长比对工具在长的、几乎相同的重复序列区域中存在的等位基因偏好问题,使得在重复序列的比对和变异检测更加准确。使用模拟的PacBio HiFi reads和8号染色体上的结构变异数据,与minimap2(39.62%,5.88%)和NGMLR(56.60%,36.11%)相比,Winnowmap2比对实现了最低的假阴性和假阳性率(1.89%,1.89%)。

研究背景

由于存在重复序列,如片段重复和串联重复,约5-10%的人类基因组仍无法进行功能分析。为实现个人基因组的高质量重测序,使用对重复序列敏感的比对方法至关重要。PacBio和Oxford Nanopore(ONT)测序,由于它们的read长度比Illumina高几个数量级,可以容易地跨越人类基因组中许多常见的重复区域(如LINEs),然而,在>100 kb大小的重复序列内实现精确的长read比对仍然具有挑战性。

研究方法  
Winnowmap2算法概述  
当测序read和参考序列之间存在由变异导致的差别时,常规的双序列比对算法(pairwise sequence alignment algorithm)都会对此进行罚分,从而可能导致长reads比对到错误的repeat拷贝(图1)。  
对此,Winnowmap2提出了MCAS(minimal confidently alignable substrings)的概念,MCAS是指从reads某一位置i开始的最小长度的子串,其实现了与参考序列的unique比对。Winnowmap2从每条read中识别MCASs,这里使用比对质量(mapQ)分数来评估比对的唯一性(uniqueness),该分数反映了子串的最佳和次佳比对之间的分数差距。通过使用MCAS比对,位于变异两侧的read碱基可以唯一地比对到它们正确的参考基因组位置(图1)。  
 

图1. Winnowmap2算法原理

研究结果

测试结果一:重复区域β-防御素基因簇

作者以人类8号染色体上的β-防御素基因簇为例,展示了Winnowmap2方法的优势。已知人类基因组的防御素基因座(chr8: 6,300,00-13,300,000)是拷贝数变异的热点区域,其跨越三个大的(>500 kb)片段重复。使用NanoSim模拟了来自chr8的ONT reads(40x 覆盖度),并在chr8人为引入1 kb的缺失突变(chr8: 12,000,000)。通过对Winnowmap2和其他三个长读长比对工具NGMLR、minimap2和graphmap的结果进行IGV可视化,结果显示在这四种方法中,Winnowmap2在该区域达到了预期的比对覆盖率。

 

图2. chr8突变区域的比对结果可视化

测试结果二:T2T完整染色体

接下来作者又模拟了来自T2T项目中完整组装的8号染色体(146 Mbp)和X染色体(154 Mbp)的reads,覆盖度为20x(HiFi)和40x(ONT)。为了评估Winnowmap2解决等位基因偏好的效果,在每个染色体序列中同时模拟了1100个结构变异,包括大小≤1 kb的indels(1000个)和inversions(100个)。

通过比较不同软件的假阴性和假阳性率(FNR,FPR),结果表明Winnowmap2在HiFi和ONT reads上都取得了最好的FNR和FPR,分别持续保持在3%和0.3%以下。仅在重复区域内的准确性评估中,Winnowmap2的这种优势也同样保持(图3)。此外,在内存和运行速度上,minimap2一直使用最少的时间,Winnowmap2的运行时间低于NGMLR,大约是minimap2的两倍(图4)。

 

图3. 不同方法SV鉴定的假阳性和假阴性评估

 

图4. 不同方法内存使用和运行时间评估

测试数据三:GIAB SV benchmark数据集

Genome in a Bottle (GIAB) Tier1 v0.6 benchmark数据集提供了HG002中SVs的高质量表征,包括5262个插入和4095个缺失,可用于验证Winnowmap2在基因组常规研究区域内的真实数据表现。这里使用三个公开的HG002长读长测序集: HiFi(14-15 kb文库,35x),ONT(Guppy 3.6.0,35x)和ONT(Guppy 3.6.0,50x),将其比对到人类基因组GRCh37,使用Sniffles进行后续的变异检测。将结果与minimap2进行比较,结果显示与minimap2相比,Winnowmap2实现了稍好的精确度和相似的召回率分数,而运行时间和内存使用情况相似(图5)。

 

图5. 不同方法基于GIAB SV benchmark数据集的比较结果

测试数据四:全基因组benchmark数据集

在最后一组测试中作者使用了人类基因组HG004(90x)和HG007(45x)的两个公开的ONT数据集来检测人类基因组重复区域内的结构变异,其中使用GRCh38和T2T-CHM13基因组作为参考序列。结果发现在CHM13组装的新解析区域中SV的检出显著富集(图6),这表明Winnowmap2在将长读长reads比对到高度重复序列时具有出色的准确性。

图6. HG004和HG007样本基于Winnowmap2-Sniffles鉴定出的SV分布  
讨论

本研究展示了Winnowmap2在人类染色体的重复区域内显著提高了SV检测的准确性。虽然本研究中关注的是结构变异,但Winnowmap2的卓越比对准确性也将有利于SNP和短indel变异的检测。但是现有测试数据仅包含人类基因组,尚未在植物、藻类、水生动物较为复杂的基因组中进行测试,此外,序列比对和变异检测在处理复杂重排方面仍然受到限制。 END 

参考文献:  
[1]    Jain, C., Rhie, A., Hansen, N.F. et al. Long-read mapping to repetitive reference sequences using Winnowmap2. Nat Methods 19, 705–710 (2022). https://doi.org/10.1038/s41592-022-01457-8  
撰写丨逆时针    
编辑、排版丨SX   

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
基因组,数据集,ONT,染色体,测序

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交