精准前沿 | 通过对end-motif的去卷积分析揭示cfDNA的片段图谱
本期《精准前沿》栏目分享由香港中文大学卢煜明教授的研究团队于2023年4月发表在PNAS(IF =12.779)期刊上的一篇研究[1],研究中采用了NMF(非负特征矩阵因子分解方法)对93个小鼠cfDNA的end-motif频谱进行特征分解,得到了6种不同类型的末端序列特征组合模式(F-profiles);并进一步探索了三种DNA核酸酶(DNASE1, DNASE1L3, DFFB)在cfDNA分子中的贡献;最后,利用从小鼠中产生的F-profile,在人类cfDNA中进行外推,并确定在人类cfDNA样本中每种F-profile的贡献占比,该方法可能可用于免疫疾病检测和癌症检测。
研究背景
cfDNA的片段化是非随机的,其中至少有部分是由各种DNA核酸酶所介导的(脱氧核糖核酸酶1样3(DNASE1L3)、脱氧核糖核酸酶1(DNASE1)和DNA断裂因子亚基β(DFFB)),最终形成了特征性的cfDNA末端序列频谱;2020年发表的研究表明:cfDNA片段化是分阶段的,最初,cfDNA可能在细胞内被DFFB及DNASE1L3裂解,分别偏好性地形成了A-end和C-end片段;然后,在细胞外由DNASE1L3及DNASE1进行裂解,DNASE1会偏好性地形成T-end片段(Han et al., 2020);且已有研究发现通过腺相关病毒转导DNASE1L3到DNASE1L3缺陷小鼠模型中时,不仅可以恢复DNASE1L3缺陷并且可以将异常的end-motif profile恢复到WT型小鼠正常cfDNA中存在的end-motif profile,表明end-motif可能是核酸酶活性恢复后监测治疗响应的一种生物标志物;因此,研究人员推断从整体上探索不同类型的cfDNA裂解模式具有临床意义,且能帮助探索cfDNA片段化的生物机制。
本研究中采用了NMF(非负特征矩阵因子分解方法)将256种end motif频谱作为一个整体进行特征分解,得到不同的motif组合模式,并进一步探索了三种DNA核酸酶(DNASE1, DNASE1L3, DFFB)在cfDNA分子中的贡献。
研究设计
1. 研究框架
本研究整体研究框架如下图1所示,大致可以分成四个步骤:首先,对93个小鼠的cfDNA样本进行测序,分别提取每个小鼠cfDNA片段5’末端的连续4bp碱基序列,并计算每种end motif序列的频率占比,即可得到93*256维的矩阵;然后,通过NMF算法对M矩阵进行解构,发现了六种不同类型的end-motif组合模式(即F-profiles)。通过小鼠研究发现:F-profile I、II和III分别与DNASE1L3、DNASE1和DFFB的裂解偏好有关;接着,基于从小鼠cfDNA中得到的F-profile可以外推到人类cfDNA中,以得到人类cfDNA样本中每种F-profiles的贡献占比(称为末端序列的去卷积分析);最后,在人类cfDNA中探索可能的应用场景,包括:核酸酶活性监测,免疫性疾病检测和癌症检测。
图1. 整体研究框架
2. 研究队列
本研究中使用的小鼠队列和人类cfDNA队列信息可见下表1和表2。
表1. 小鼠队列信息
表2. 人类队列信息
3. End motif 频率计算及标准化
对93个小鼠的血浆或尿液的cfDNA进行测序后,即可提取每个小鼠cfDNA片段5’末端的连续4bp碱基序列,并计算每种end motif序列的频率占比。为使人类和小鼠之间的motif分布具有可比性,基于人类和小鼠的参考基因组,对人类和小鼠的end motif频率进行标准化:
(1)在参考基因组的每条染色体上采用4bp的滑动窗口,统计每种motif的概率,得到期望频率E;
(2)然后,对实际样本的观测频率O进行标准化(O/E);
(3)最后,除以所 有256个校正后的频率和,即得到校正后的motif频率。
4. NMF算法计算得到F-profiles
NMF算法的定义是对于一个非负矩阵M,可以分解成两个非负矩阵的乘积:M=W*F,其中,M矩阵维数是93*256,每一行代表一个cfDNA样本,每一列代表一种motif序列;F矩阵代表F-profiles,其维数是n*256;W矩阵在文中指的是F-profiles的相对权重值,其维数是93*n;其中n是可变的,指的是我们需要得到的F-profile的数目;由于n是可变的,所以F矩阵并非唯一的;如何确定最优的n呢?文中是通过权衡错误率及结果重复性来确定的,错误率的量化是通过计算M原始矩阵与W*F矩阵乘积差的范数,即度量变换前后矩阵之间的误差;结果重复性的量化规则是采用五折交叉验证的方式,计算每一折得到的F矩阵之间余弦相似性的平均值;然后枚举n=1-10,在每种n下都可以得到一个错误率和重复性值,然后选取错误率最低(蓝色线)且重复性(红色线)最高时对应的n,因此,最终选取最优的F-profile的数目是6。
图2. 探索最优的n值
当n确定后,F和W矩阵也确定了,W矩阵也叫权重矩阵,表示每个样本中每种F-profile的贡献度(占比),行表示一个样本,列对应每种F-profile的权重值;P表 示某个样本的权重向量,该向量累加和为1;且NMF解构出来的矩阵具有可加性,对于一个样本的motif向量X,每种F-profile乘以对应的权重值进行累加后可以得到原始的X向量 ,X=∑i(Pi*Fi)。
研究结果
1. 从小鼠cfDNA中获得End motif图谱
七种不同类型小鼠的end motif图谱如图3所示,从图中可以看出,不同的类型具有不同的end-motif模式;在小鼠的血浆样品中,Dnase1l3(B)与Dffb(D)缺陷小鼠与WT(A)都存在明显的差异;在小鼠的尿液样品中,Dnase1(G)缺陷小鼠与WT(E)在T-end存在显著差异,但是,与Dnase1l3(F)缺陷小鼠从视觉上看不出差异;因此,尝试用NMF算法将256种motif作为一个整体进行分析,而不是专注于一个或几个特定的motif种类。
图3.七种不同类型小鼠模型的end motif图谱
2. 对end motif图谱进行去卷积分析
基于NMF算法去卷积分析得到6种F-profiles及在各个样本中每种F-profile的贡献度,进一步在7种不同类型的小鼠中探索F-profile与DNA核酸酶的关系:
F-profile I:图4.B中显示C-end具有明显优势(55%),尤其是CCNN序列;图4.A血浆样本中 Dnase1l3缺陷小鼠(2.7%)与WT小鼠相比F-profile I (35.4%)的贡献值显著下降,因此,F-profile I被认为与DNASE1L3活性相关;
F-profile II:图4.C表现出对T-end的明显偏好(51%),尤其是TGNN序列;图4.A血浆以及尿液样本中,Dnase1缺陷小鼠(11.6%)与WT小鼠相比F-profile II (43.4%)的贡献值显著下降,从WT小鼠中可看出F-profile II在尿液中贡献值显著高于血浆,因此,F-profile II被认为与DNASE1活性相关;
F-profile III:图4.D表现出对A-end的明显偏好(40%),图4.A血浆样本中 Dffb缺陷小鼠(0%)与WT小鼠(10%)相比F-profile III的贡献值显著下降,因此,综合认为F-profile III与DFFB活性相关。
图4. 通过NMF算法去卷积分析得到6中F-profile示意图
3. 小鼠血浆体外培养过程中end motif的去卷积分析
为进一步测试F-profiles是否可用于反映核酸酶在cfDNA片段化过程中的贡献程度:在肝素和EDTA两种条件下对小鼠血浆进行体外培养,分别测量0h及6h F-profileII 与 III贡献值的变化。
1、已有研究表明,肝素可以破坏核糖体结构,增强DNASE1的裂解;图5.A所示,WT小鼠在肝素存在条件下培养6h后,F-profile II贡献值显著增加,而在Dnase1缺陷小鼠中,F-profile II (DNASE1)水平在培养6小时后有所下降。
2、在有EDTA存在的情况下,全血培养6小时后,与0h的数据相比,WT小鼠血浆中的平均F-profile III(DFFB)水平显著增加(图5.B)。相反,Dffb-/-小鼠血浆中的F-profile III(DFFB)没有明显变化(5.6% vs. 4.5%)。
这些结果进一步证明了核酸酶与F-profiles之间存在一定的联系,且在一定程度上可用于反映核酸酶的活性。
图5. 小鼠血浆体外培养结果图
4. 人类血浆和尿液cfDNA end motif的去卷积分析
因为人类和小鼠核酸酶(DNASE1L3, DNASE1, DFFB)的氨基酸序列具有高度同源性,序列相似性分别为82%、79%和76%;且通过对小鼠和人类cfDNA中end motif频率进行标准化后,进一步提出了将从小鼠中得到的F-profile外推到人类cfDNA中的假设;
在人类cfDNA血浆和尿液结果如下图6.ABC所示,对配对的血浆和尿液的18例健康样本(dataset6)应用F-profile得到各个样本在F-profile的贡献度,发现在血浆样本中F-profile I占比高达42.9%;在尿液样本中F-profile I占比低,而F-profile II占比高达43.4%。
在dataset1队列中进行分析,与健康人及父母亲的cfDNA相比(图6.D&E),DNASE1L3基因突变患者F-profile1的贡献值显著减少;这些结果与在小鼠当中的结论是一致的;表明F-profile分析可以在鼠类和人类cfDNA样本之间进行推广。
图6. 人类血浆和尿液cfDNA中F-profiles贡献度结果图
5. 探索F-profiles的应用场景,及F-profile VI的潜在生物学意义
在dataset2队列(系统性红斑狼疮患者)中进行探索,结果如图7所示:与健康人相比,SLE患者的F-profile I(DNASE1L3)贡献值显著下降,且随着疾病进展,下降程度越发明显;应用F-profile I(DNASE1L3)的贡献值对SLE患者进行分类,分类效果很好,AUC高达97%;F-profile I(DNASE1L3)贡献值与SLE活动指数呈负相关;上述结果表明,F-profile I(DNASE1L3)贡献值将为自身免疫性疾病提供一定的信息,且能用于对疾病进展的监测。
在dataset3队列(肝细胞癌)中进行探索:图8.A&B发现与健康对照组相比,确实发现HCC患者的F-profile I水平中位数下降了6.9%,而在HBV携带者中没有观察到明显的变化;图8.C&D中在6个F-profile中,F-profile VI对检测HCC患者的鉴别力最强(AUC:0.97);F-profile VI不具有明显的末端偏好,频率占比都比较均匀。
图7. 在SLE队列中end motifs的去卷积分析
图8. HCC队列中F-profiles的贡献程度
讨论
本研究利用小鼠模型的end-motif频谱信息,基于NMF算法解构,从整体出发识别出了不同类型的cfDNA裂解模式(F-profile),当F-profile及其权重的乘积最接近于观察到的该样本的末端特征时,可以确定cfDNA样本中每个F-profile的贡献比例(即权重);并将从小鼠中发现的结果迁移到人类cfDNA,整合了多个人类队列,对F-profile的应用场景进行了探索。文中提到其不足之处在于,构建F-profile图谱的缺陷型小鼠样本与类型是有限的,可能导致F-profile的数量识别有限。
结语
本研究中创新性的采用了NMF算法对小鼠cfDNA的end-motif频谱进行特征分解,得到了6种不同类型的末端序列特征组合模式(F-profiles);并探索了三种DNA核酸酶(DNASE1, DNASE1L3, DFFB)与F-profiles之间的联系,最后通过在小鼠中得到的F-profiles外推到人类的cfDNA中,并探索了在免疫疾病检测和癌症检测中的应用场景。
END
参考文献:
[1] Zhou, Z., Ma, M.-J. L., Chan, R. W. Y., Lam, W. K. J., Peng, W., Gai, W., H u, X., Ding, S. C., Ji, L., Zhou, Q., Cheung, P. P. H., Yu, S. C. Y., Teoh, J. Y. C., Szeto, C.-C., Wong, J., Wong, V. W. S., Wong, G. L. H., Chan, S. L., Hui, E. P., … Jiang, P. (2023). Fragmentation landscape of cell-free DNA revealed by deconvolutional analysis of end motifs. Proceedings of the National Academy of Sciences of the United States of America , 1 20 ( 17) , e2220982120. https://doi.org/10.1073/pnas.2220982120
撰写丨吴兮
编辑、排版丨SX
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读