9分+ 基于深度学习的无创癌症检测算法
导语
在细胞游离DNA(cfDNA)高通量测序数据中检测癌症信号正在成为一种新的癌症无创检测方法。由于测序的高成本,利用低深度的cfDNA的测序数据构建一个鲁棒性强的精准预测方法显得尤为重要。本研究中开发了一个叫作DISMIR的工具,其整合cfDNA的WGBS测序数据的DNA测序序列与甲基化信息构建了高敏感性和鲁棒性的癌症检测模型。
背景介绍
今天小编为大家带来一篇使用cfDNA测序数据检测癌症信号文章,发表在9分+ briefings in bioinformatics的思路。题目为 DISMIR: Deep learning-based noninvasive cancer detection by integrating DNA sequence and methylation information of individual cell-free DNA reads 。
数据介绍
单链WGBS数据,深度1x-3x,EGA,HCC癌症组织(EGAS00001001219),血浆cfDNA(EGAS00001000566)。HCC癌症组织,13位患者;血浆cfDNA,32正常个体,8HBV携带者,16HCC患者;双链WGBS数据,深度10x,(EGAS00001002728)。血浆cfDNA,4正常个体,4HCC患者。训练集包含9个HCC患者癌症组织WGBS数据,18个随机选取的正常个体的血浆cfDNA的WGBS数据;测试集包含18个正常个体的血浆样本,8HBV携带者血浆样本,20个HCC患者血浆;剩余的4个HCC癌症组织样本的WGBS数据用来进行仿真实验,评估方法的效能。
研究设计
DISMIR整合cfDNA的WGBS测序数据的DNA序列以及甲基化信息来预测每一条read的来源,然后估计ctDNA在cfDNA的占比。
总流程分为四步:
1、定义癌症特异性的差异甲基化区域;
2、筛选cfDNA的WGBS数据在差异甲基化区域的reads;
3、整合DNA序列信息以及甲基化信息,训练深度学习模型,为每一条read赋予一个d-score来表示一条read来源于肿瘤组织的可能性;
4、根据d-scores估计血浆样本测序reads中来源于肿瘤组织的占比。
鉴定肝癌特异的差异甲基化区域
鉴定肝癌特异的差异甲基化区域能够提供更确切的癌症相关信息。cfDNA可以理解为tumor-derived cfDNA和basal cfDNA的混合,我们需要在全基因组范围内寻找在癌症组织样本与血液健康样本间甲基化模式差异的区域。之前有很多研究开发了定义差异甲基化区域的方法,这些方法大都是基于基因组区域比对的所有reads的统计数据。但是癌症来源的reads在癌症早期阶段占比非常低,这种定义方式可能导致癌症来源的reads被正常组织的outliers异常点所覆盖。因此,我们将癌症来源的reads的甲基化模式与正常血液的reads的甲基化模式显著差异的区域定义为差异甲基化区域(DMRs),以此来增强cfDNA测序数据中,read分辨率下的癌症相关信号。
基于该假设,我们引入了“switching region”的概念,其定义分为以下几步:
1、将全基因组分为500bp的bin,然后将在所有训练样本中比对到该bin的reads小于25条的区域过滤掉。
2、计算某一区域所有DNA片段的甲基化率,获得其在癌症组织和健康血液样本cfDNA中的甲基化模式。
3、比较两种甲基化模式中甲基化率的最大值和最小值。
例如定义超低甲基化的switch region,Hmin定义为正常血液中一个bin中所有reads的最低甲基化率,Tmin定义癌症组织中为一个bin中所有reads的最低甲基化率,当Hmin-Tmin大鱼一个指定的阈值的时候,这个区域就被定义为一个switch region.该区域中所有甲基化率低于Hmin的reads定位为switching reads.超高甲基化switch region类同。HCC与正常血液对比显示出超低甲基化,所以后续研究集中于超低甲基化区域。
阈值的大小决定了会有多少switch region被定义,当阈值高的时候,少许区域被定义,reads数量也会减少,从而导致预测结果准确性的下降;相反,如果阈值过低,会有过多switch region,深度学习模型将耗费更长的时间。阈值与超低甲基化switch region的个数的关系,以及阈值与模型准确度的关系如下,最终将阈值设置为0.3,保证筛选的switch region的覆盖度,3130.5个region,1.56Mb覆盖,这与CancerDector DMRs类似。
利用深度学习模型预测每个read的来源
基于DNA序列和甲基化模式,我们建立了一个深度学习模型来预测一条read来自肿瘤组织的可能性,命名为d-score。所有switch region区域中CpG位点大于3个的reads被用来构建模型。来自癌症组织的赋予标签1,来自正常血液的赋予标签0,将此问题转化为一个reads的二分类问题。对于每一条read,5撇端的前5bp被截去以防止测序接头的影响,然后从3撇端将所有reads截取到相同长度,本研究为66bp;下采样保证两种样品类型数量的平衡,保留20%的reads于kernel visualization. 采用了DanQ模型的结构(该模型可以量化DNA序列的功能),并进行了适当的调整将其作为深度学习模型的核。每一条read将其序列转换为one-hot编码矩阵,甲基化水平也用1和0分别表示甲基化和未甲基化。所以每一条输入的read就编码为L*5的矩阵。输入层后,添加了一维卷积层,池化层、双向LSTM层,一维卷积层,压扁层,三层密度层,输出层为一个0-1之间的数值,越接近于1表示越可能来自癌症组织。
采用了DanQ模型的结构(该模型可以量化DNA序列的功能),并进行了适当的调整将其作为深度学习模型的核。每一条read将其序列转换为one-hot编码矩阵,甲基化水平也用1和0分别表示甲基化和未甲基化。所以每一条输入的read就编码为L*5的矩阵。输入层后,添加了一维卷积层,池化层、双向LSTM层,一维卷积层,压扁层,三层密度层,输出层为一个0-1之间的数值,越接近于1表示越可能来自癌症组织。
结果解析
01、DISMIR对早期肝癌的检测精度较高
研究定义了switch region而且训练了DISMIR,然后测试了DISMIR。每个个体reads的D-score被计算出来用于肿瘤占比的估计。ROC用来评价DISMIR预测肿瘤占比的能力,AUC 0.9969, 特异性 100%, 敏感性 93.94;敏感性 100%,特异性93.46%。进一步与CancerDector进行了比较,后者AUC 0.9925, 特异性 100%, 敏感性86.5;敏感性100%,特异性 91.15,尽管性能与原文章轻微不同,是因为训练数据并非完全不同,结果说明两者是有可比性的。
然后本文检测了DISMIR的预测值是否能用来预测肿瘤负荷,发现预测的r值与肿瘤大小具有显著的相关性。两者的相关性系数分别为0.882,p=6.68*10-5;0978,p=7.91*10-9。当去除肿瘤大小小于6cm的样本后,相关性系数减小为0.168,而CancerDector仍保持较高的相关性0.717.该结果表明,尽管DISMIR能够准确鉴定小肿瘤的患者,DISMIR不能够想CancerDector一样预测肿瘤负荷。实际上DISMIR被开发用来解决癌症和正常的分类问题,而对于肿瘤非常小的预测并不十分合适。
研究还对超高甲基化的switch region进行了模型训练,阈值调整为0.5,获得3395个区域,覆盖1.698Mb;AUC 0.8885,表明超高甲基化的switch region也包含癌症检测的有价值的信息。但是AUC明显低于超低甲基化switch region训练的模型。最后还整合超高和超低甲基化的switch region,发现超低甲基化对于检测肝癌已经足够。
02、下采样和模拟结果表明,DISMIR是一种鲁棒的肝癌检测方法
测试样本中只采用1%的测序数据,深度为0.01-0.1,DISMIR保持AUC 为 0.9112,显著高于CancerDector AUC 0.7432. 说明dismir能够解决WGBS的低信噪比的问题。当下采样小于4%的时候,两种传统的机器学习模型的准确率显著下降。所有的结果表明,学习switch region区域DNA序列和甲基化模式的特征的深度学习模型能够更精确地预测read的来源。因此保证超低测序深度时肝癌诊断的敏感性。
构建了仿真数据进一步验证DISMIR的鲁棒性,选取了肝癌组织与健康血液的cfDNA 的WGBS数据,根据不同的比例进行混合作模拟不同的肿瘤占比,总的测序reads数量的增加来模拟不同关的测序深度; DISMIR预测的肿瘤占比在不同的测序深度保持一致;而CancerDector的预测则随着测序深度的提高而提高。
03、DISMIR的核心关注DNA序列和甲基化的结合模式
为了研究DISMIR是如何利用序列信息和甲基化信息来区分来自肝癌的cfDNA与其他cfDNA的,通过计算PFM矩阵,将PFM的序列模式与TOMTOM软件已知的motif进行比较(Tomtom:motif注释工具,主要用于预测的motif结果与jaspar等转录因子数据库中记录的motif对比、注释),结合了TOMTOM 10次费舍尔组合概率检验赋予的E-value.最终有28个motif与核PFM显著匹配,而且这其中大多数motif是与肝癌相关的(序列信息)。 分别有两个kernels PFM与EGR2、ZFP64匹配,EGR2是一个抗癌的转录因子,其诱导能够抑制肝癌;ZFP64的表达则与晚期肝癌的生存显著相关。
进一步根据甲基化信息进行可视化,甲基化的胞嘧啶M,未甲基化的胞嘧啶C,结果四碱基和五碱基的可视化结果类似(显著差异的CpG位点除外)。 可以看 到ZFP64类似的kernel其CpG位点几乎全部甲基化,说明其序列模式以及甲基化与肝癌高度相关。
04、DISMIR采用DNA序列和甲基化的联合模式来区分hcc来源reads
尽管kernel分析表明DNA序列信息和甲基化信息都被DISMIR处理了,但是是否两者共同发挥作用尚未可知。因此分析了所有reads的甲基化水平与d-score之间的关系,两者呈现出显著负相关。但是具有类似甲基化水平的reads其d-score变化却很大。如果每一条read的d-score是由甲基化水平计算出来的,则相关性应该很高;
染色体1上选取一个switch region,长度为500bp,生成相同长度的reads,所有的CpG位点全部设置为甲基化的,再分别将每一个CpG位点设置为未甲基化的,分别用DISMIR计算d-score,其差值记为:Δsingle(d-score);将所有CpG位点设置为未甲基化的,计算d-score,与全甲基化的差值为Δall(d-score);不同碱基的甲基化水平对d-score的影响不同,所以不能简单用甲基化率改变来解释。不同位置碱基的甲基化水平对d-score的影响不同,所以不能简单用甲基化率改变来解释。
全甲基化与全未甲基化预测的d-score值的比较,d-score也随着区域而改变,而不仅仅是由CpG位点的个数而决定。所有结果表明,DISMIR对不同的CpG位点赋予不同的权重。最后还计算了单个碱基甲基化改变导致的d-score改变的加和高于所有位点由甲基化改为全未甲基化导致的d-score的改变,表明DISMIR关注于全局的甲基化的改变而不是关注于单个位点的甲基化水平的改变。
小编总结
DISMIR在低测序深度情况下,表现出癌症预测的高准确性和鲁棒性。DISMIR是一个以深度学习为基础的方法,能够整合DNA序列信息和DNA甲基化信息,而且能够消除低信噪比的影响,这个框架能够用来发现基因组于表观基因组之间的互作。DISMIR能够预测单条read的来源,然后预测样本的癌症风险,非常适合于类似cfDNA一样包含不同来源的数据的混合物这样的样本。引入了‘switch region’的概念,能够更好的富集单条reads上癌症相关信号。DISMIR可以作为癌症早期高准确性高鲁棒性的无创检测手段,与其他方法相比只需要低深度的测序数据,将更有可能应用于临床。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读