本研究展示了Winnowmap2在人类染色体的重复区域内显著提高了SV检测的准确性
本期《精准前沿》栏目分享由美国人类基因组研究所Jain团队于2022年4月1日在国际知名期刊Nature Methods(IF=28.50)上发表的一篇研究[1],本研究提出了一种新的长读长序列比对算法,成功地解决了现有长读长比对工具在长的、几乎相同的重复序列区域中存在的等位基因偏好问题,使得在重复序列的比对和变异检测更加准确。使用模拟的PacBio HiFi reads和8号染色体上的结构变异数据,与minimap2(39.62%,5.88%)和NGMLR(56.60%,36.11%)相比,Winnowmap2比对实现了最低的假阴性和假阳性率(1.89%,1.89%)。
研究背景
由于存在重复序列,如片段重复和串联重复,约5-10%的人类基因组仍无法进行功能分析。为实现个人基因组的高质量重测序,使用对重复序列敏感的比对方法至关重要。PacBio和Oxford Nanopore(ONT)测序,由于它们的read长度比Illumina高几个数量级,可以容易地跨越人类基因组中许多常见的重复区域(如LINEs),然而,在>100 kb大小的重复序列内实现精确的长read比对仍然具有挑战性。
图1. Winnowmap2算法原理
测试结果一:重复区域β-防御素基因簇
作者以人类8号染色体上的β-防御素基因簇为例,展示了Winnowmap2方法的优势。已知人类基因组的防御素基因座(chr8: 6,300,00-13,300,000)是拷贝数变异的热点区域,其跨越三个大的(>500 kb)片段重复。使用NanoSim模拟了来自chr8的ONT reads(40x 覆盖度),并在chr8人为引入1 kb的缺失突变(chr8: 12,000,000)。通过对Winnowmap2和其他三个长读长比对工具NGMLR、minimap2和graphmap的结果进行IGV可视化,结果显示在这四种方法中,Winnowmap2在该区域达到了预期的比对覆盖率。
图2. chr8突变区域的比对结果可视化
测试结果二:T2T完整染色体
接下来作者又模拟了来自T2T项目中完整组装的8号染色体(146 Mbp)和X染色体(154 Mbp)的reads,覆盖度为20x(HiFi)和40x(ONT)。为了评估Winnowmap2解决等位基因偏好的效果,在每个染色体序列中同时模拟了1100个结构变异,包括大小≤1 kb的indels(1000个)和inversions(100个)。
通过比较不同软件的假阴性和假阳性率(FNR,FPR),结果表明Winnowmap2在HiFi和ONT reads上都取得了最好的FNR和FPR,分别持续保持在3%和0.3%以下。仅在重复区域内的准确性评估中,Winnowmap2的这种优势也同样保持(图3)。此外,在内存和运行速度上,minimap2一直使用最少的时间,Winnowmap2的运行时间低于NGMLR,大约是minimap2的两倍(图4)。
图3. 不同方法SV鉴定的假阳性和假阴性评估
图4. 不同方法内存使用和运行时间评估
测试数据三:GIAB SV benchmark数据集
Genome in a Bottle (GIAB) Tier1 v0.6 benchmark数据集提供了HG002中SVs的高质量表征,包括5262个插入和4095个缺失,可用于验证Winnowmap2在基因组常规研究区域内的真实数据表现。这里使用三个公开的HG002长读长测序集: HiFi(14-15 kb文库,35x),ONT(Guppy 3.6.0,35x)和ONT(Guppy 3.6.0,50x),将其比对到人类基因组GRCh37,使用Sniffles进行后续的变异检测。将结果与minimap2进行比较,结果显示与minimap2相比,Winnowmap2实现了稍好的精确度和相似的召回率分数,而运行时间和内存使用情况相似(图5)。
图5. 不同方法基于GIAB SV benchmark数据集的比较结果
测试数据四:全基因组benchmark数据集
在最后一组测试中作者使用了人类基因组HG004(90x)和HG007(45x)的两个公开的ONT数据集来检测人类基因组重复区域内的结构变异,其中使用GRCh38和T2T-CHM13基因组作为参考序列。结果发现在CHM13组装的新解析区域中SV的检出显著富集(图6),这表明Winnowmap2在将长读长reads比对到高度重复序列时具有出色的准确性。
本研究展示了Winnowmap2在人类染色体的重复区域内显著提高了SV检测的准确性。虽然本研究中关注的是结构变异,但Winnowmap2的卓越比对准确性也将有利于SNP和短indel变异的检测。但是现有测试数据仅包含人类基因组,尚未在植物、藻类、水生动物较为复杂的基因组中进行测试,此外,序列比对和变异检测在处理复杂重排方面仍然受到限制。 END
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您