首页
快讯
关注
资讯
- 健康
- 科技
- 热点
- 视频
- 产业
- 政策
- 护理
- 投资
- 医改
- 养老
- 疫情
- 人物
- 医保
- 疾病
- 管理
- English
- 临床
- 心血管
- 肿瘤
- 内分泌
- 妇儿
- 感染
专题
专区
知识

欢迎登录体验更多功能

搜索

精准前沿丨基于长读长测序的重复序列比对算法Winnowmap2

2022

07/22

先声诊断

A-

A+

本研究展示了Winnowmap2在人类染色体的重复区域内显著提高了SV检测的准确性

本期《精准前沿》栏目分享由美国人类基因组研究所Jain团队于2022年4月1日在国际知名期刊Nature Methods（IF=28.50）上发表的一篇研究^[1]，本研究提出了一种新的长读长序列比对算法，成功地解决了现有长读长比对工具在长的、几乎相同的重复序列区域中存在的等位基因偏好问题，使得在重复序列的比对和变异检测更加准确。使用模拟的PacBio HiFi reads和8号染色体上的结构变异数据，与minimap2（39.62%，5.88%）和NGMLR（56.60%，36.11%）相比，Winnowmap2比对实现了最低的假阴性和假阳性率（1.89%，1.89%）。

研究背景

由于存在重复序列，如片段重复和串联重复，约5-10%的人类基因组仍无法进行功能分析。为实现个人基因组的高质量重测序，使用对重复序列敏感的比对方法至关重要。PacBio和Oxford Nanopore（ONT）测序，由于它们的read长度比Illumina高几个数量级，可以容易地跨越人类基因组中许多常见的重复区域（如LINEs），然而，在>100 kb大小的重复序列内实现精确的长read比对仍然具有挑战性。

研究方法

Winnowmap2算法概述

当测序read和参考序列之间存在由变异导致的差别时，常规的双序列比对算法（pairwise sequence alignment algorithm）都会对此进行罚分，从而可能导致长reads比对到错误的repeat拷贝（图1）。

对此，Winnowmap2提出了MCAS（minimal confidently alignable substrings）的概念，MCAS是指从reads某一位置i开始的最小长度的子串，其实现了与参考序列的unique比对。Winnowmap2从每条read中识别MCASs，这里使用比对质量（mapQ）分数来评估比对的唯一性（uniqueness），该分数反映了子串的最佳和次佳比对之间的分数差距。通过使用MCAS比对，位于变异两侧的read碱基可以唯一地比对到它们正确的参考基因组位置（图1）。

图1. Winnowmap2算法原理

研究结果

测试结果一：重复区域β-防御素基因簇

作者以人类8号染色体上的β-防御素基因簇为例，展示了Winnowmap2方法的优势。已知人类基因组的防御素基因座（chr8: 6,300,00-13,300,000）是拷贝数变异的热点区域，其跨越三个大的（>500 kb）片段重复。使用NanoSim模拟了来自chr8的ONT reads（40x 覆盖度），并在chr8人为引入1 kb的缺失突变（chr8: 12,000,000）。通过对Winnowmap2和其他三个长读长比对工具NGMLR、minimap2和graphmap的结果进行IGV可视化，结果显示在这四种方法中，Winnowmap2在该区域达到了预期的比对覆盖率。

图2. chr8突变区域的比对结果可视化

测试结果二：T2T完整染色体

接下来作者又模拟了来自T2T项目中完整组装的8号染色体（146 Mbp）和X染色体（154 Mbp）的reads，覆盖度为20x（HiFi）和40x（ONT）。为了评估Winnowmap2解决等位基因偏好的效果，在每个染色体序列中同时模拟了1100个结构变异，包括大小≤1 kb的indels（1000个）和inversions（100个）。

通过比较不同软件的假阴性和假阳性率（FNR，FPR），结果表明Winnowmap2在HiFi和ONT reads上都取得了最好的FNR和FPR，分别持续保持在3%和0.3%以下。仅在重复区域内的准确性评估中，Winnowmap2的这种优势也同样保持（图3）。此外，在内存和运行速度上，minimap2一直使用最少的时间，Winnowmap2的运行时间低于NGMLR，大约是minimap2的两倍（图4）。

图3. 不同方法SV鉴定的假阳性和假阴性评估

图4. 不同方法内存使用和运行时间评估

测试数据三：GIAB SV benchmark数据集

Genome in a Bottle （GIAB） Tier1 v0.6 benchmark数据集提供了HG002中SVs的高质量表征，包括5262个插入和4095个缺失，可用于验证Winnowmap2在基因组常规研究区域内的真实数据表现。这里使用三个公开的HG002长读长测序集: HiFi（14-15 kb文库，35x），ONT（Guppy 3.6.0，35x）和ONT（Guppy 3.6.0，50x），将其比对到人类基因组GRCh37，使用Sniffles进行后续的变异检测。将结果与minimap2进行比较，结果显示与minimap2相比，Winnowmap2实现了稍好的精确度和相似的召回率分数，而运行时间和内存使用情况相似（图5）。

图5. 不同方法基于GIAB SV benchmark数据集的比较结果

测试数据四：全基因组benchmark数据集

在最后一组测试中作者使用了人类基因组HG004（90x）和HG007（45x）的两个公开的ONT数据集来检测人类基因组重复区域内的结构变异，其中使用GRCh38和T2T-CHM13基因组作为参考序列。结果发现在CHM13组装的新解析区域中SV的检出显著富集（图6），这表明Winnowmap2在将长读长reads比对到高度重复序列时具有出色的准确性。

图6. HG004和HG007样本基于Winnowmap2-Sniffles鉴定出的SV分布

讨论

本研究展示了Winnowmap2在人类染色体的重复区域内显著提高了SV检测的准确性。虽然本研究中关注的是结构变异，但Winnowmap2的卓越比对准确性也将有利于SNP和短indel变异的检测。但是现有测试数据仅包含人类基因组，尚未在植物、藻类、水生动物较为复杂的基因组中进行测试，此外，序列比对和变异检测在处理复杂重排方面仍然受到限制。 END

参考文献：

[1] Jain, C., Rhie, A., Hansen, N.F. et al. Long-read mapping to repetitive reference sequences using Winnowmap2. Nat Methods 19, 705–710 (2022). https://doi.org/10.1038/s41592-022-01457-8

撰写丨逆时针

编辑、排版丨SX