申请认证 退出

您的申请提交成功

确定 取消

精准前沿丨癌症患者血浆DNA片段末端异常位置和序列的全基因组分析

2023-06-15 10:21   先声诊断

本研究开发了一种分析血浆DNA片段末端位置的方法,并表明该分析结果具有作为癌症诊断生物标志物的潜力。

本期《精准前沿》栏目分享威斯康星大学麦迪逊分校研究团队发表于Science Translational Medicine(IF=19.319)上的一篇研究[1],研究利用286名健康人群、103名非癌症患者和994名11种癌症患者的血液样本分析DNA“碎片模式”,这项测试着眼于血液中DNA片段的“末端位置”,该研究成为一种经济有效的癌症检测和监测方法。

21931686785888626

研究背景

血浆cfDNA全基因组片段模式会受到细胞来源的强烈影响,主要是由于不同的细胞类型的染色质可及性的变化,健康细胞和癌细胞之间的这种差异为开发新型癌症诊断提供了机会。该团队研究了血浆DNA片段末端位置及其周围DNA序列尝试揭示血液中肿瘤来源DNA的存在。本研究对来自521个样本的cfDNA进行了全基因组分析,对另外2147个样本的测序数据进行了分析。这些样本包含了健康个体及11种不同的癌症类型,本团队开发了一种基于全基因组片段定位差异的度量标准,通过片段长度及GC含量进行加权的“异常片段信息加权分数”(iwFAF),同时开发了一个机器学习模型来区分健康个体和癌症患者。研究观察到在所考虑的所有癌症阶段,受试者操作特征曲线下的面积(AUC)为0.91,而对I期癌症的AUC高达0.87。该研究结果对每个样本中仅分析了100万个片段,这表明片段末端分析可以成为一种经济有效的癌症检测和监测方法。  

研究设计

本项研究的目的是调查癌症患者和健康个体血浆DNA片段模式的差异,团队使用其开发的基于血浆cfDNA“全基因组片段末端分析”(GALYFRE)方法对521个新测序样本进行分析,并对之前测序的2147个血浆样本结合分析。这2668个样本分别来自11种癌症类型的994名癌症患者及103名良性疾病的非癌症患者和286名健康对照。利用这些数据集组合,开发计算方法及模型,使用不同的计算方法识别和量化差异的末端特征。  

研究结果

1.  健康个体与癌症患者异常片段的测量和对比

为了评估癌症患者和健康个体血浆DNA片段末端的基因组定位是否不同,该研究首先使用Snyder等人的窗口保护评分(WPS)推断出当前受保护不受降解的基因组区域图。通过对17个健康个体的血浆DNA进行全基因组测序,在整个基因组中确定了1270万个“重复保护区域”(RPRs),中位长度为39 bp,总跨度为504.7 Mb,RPRs的中位密度为4754个/百万碱基,染色体间有轻微差异。本研究开发了一种片段定位差异的度量标准,在RPRs内具有一个或两个端点位置的片段被识别为异常片段,那些跨越RPRs长度的片段被识别为非异常片段。在健康个体的血浆样本中发现片段长度和GC含量影响异常的概率,因此按片段长度和GC含量 [信息加权异常片段比例(iwFAF)] 加权。

为了确保该研究发现在癌症类型、疾病阶段和分析前因素(样品处理或测序仪器的差异)中具有普遍性,使用521个测序文库和2147个血浆DNA样本的公开测序数据对本团队开发的GALYFRE进行了评估,总的来说,这2668份血浆样本代表了286名健康个体、994名癌症患者(涵盖11种癌症类型)和103名非癌症患者。

测序结果表明,47例早期乳腺癌患者、39例胆管癌患者、45个胶质母细胞瘤患者、261例黑色素瘤患者的平均iwFAF值高于24例健康对照平均值(图.1A)。在已发表的数据集中同样发现,在多种癌症类型中,与相应的健康队列相比,平均iwFAF值更高,当iwFAF在三组独立的健康个体之间进行比较时,没有观察到显著差异,此外,67例无肝硬化的慢性乙型肝炎患者和36例乙型肝炎相关肝硬化患者的血浆样本与相应的健康个体没有区别,然而,肝细胞癌患者的血浆样本与健康个体的样本相比,iwFAF更高(图.1A)。

17291686785888931

图1. 血浆DNA全基因组异常片段的评估  

2. cfDNA异常片段与肿瘤片段的比较

在来自肿瘤分数至少为3%的938个癌症患者的样本中,与健康对照组的24个样本评估,iwFAF与肿瘤分数强相关(图1B)。为了确定血浆中的异常DNA片段是否不成比例地由肿瘤贡献,将分析重点放在转移性黑色素瘤患者的高肿瘤占比的血浆DNA样本上,不同基因组区域的肿瘤对血浆DNA的贡献受拷贝数的影响。如果异常DNA片段更有可能是肿瘤来源,那么预计受拷贝数扩增影响的基因组位点的iwFAF会更高。在来自14名转移性黑色素瘤患者的27份血浆样本中,发现受拷贝数增加影响的区域的iwFAF高于未受拷贝数改变或受拷贝数丢失影响的区域(图1C)。为了进一步评估血浆中异常DNA片段的肿瘤特异性,本研究对两名转移性黑色素瘤患者的血浆样本进行了深度全基因组测序,覆盖范围大于375X,肿瘤分数分别为36%和39%,评估了肿瘤特异性单核苷酸变异位点的DNA片段,在两种血浆样本中发现与未突变片段相比,突变片段更可能是异常的(图1D)。

在转移性黑色素瘤患者的纵向血浆DNA样本中,iwFAF的变化与肿瘤部分的变化一致(图2A、B)。在胶质母细胞瘤患者中,将iwFAF与使用靶向数字测序(TARDIS)测量的血浆DNA中的肿瘤部分进行了比较,研究发现iwFAF的纵向变化与肿瘤分数的变化一致,尽管测量到的肿瘤分数范围为0.01至1.2%(图2C、D)。本研究还比较了任何两个连续样本之间的iwFAF和肿瘤分数的差异,其中两者都有可量化的肿瘤分数,在黑色素瘤和胶质母细胞瘤患者中,iwFAF和肿瘤分数的变化是相关的。由于计算出的iwFAF范围很窄(0.59到0.68),将iwFAF在0到1之间进行缩放,这样0代表健康样本中的iwFAF, 1代表癌症样本中测量到的最高iwFAF。转移性黑色素瘤患者的iwFAF和肿瘤分数的变化在量级上具有可比性。

28081686785889446

图2. 癌症患者纵向样本中肿瘤分数和iwFAF的比较

3. 影响iwFAF测量的潜在分析前混杂因素的评估

为了衡量潜在混杂因素对片段末端分析的贡献,本研究在人口统计学、样本处理条件和重复测序运行之间进行了多次比较。在196个健康志愿者的血浆DNA样本中,研究发现iwFAF在四个年龄组中,不同性别间的iwFAF没有显著差异。使用不同的采血管类型(EDTA、PAXgene和ham - lok)从24名健康个体中收集了三个匹配的样本,分别从三个样本中提取血浆DNA并分别制备测序文库。iwFAF值在三种管类型之间没有观察到显著差异。对于24例早期乳腺癌患者,使用两种不同的方法从同一管匹配的血浆中提取DNA,并制备了独立的测序文库,iwFAF在两个测量值之间有很强的相关性。在配对比较中,QIAGEN自旋柱法提取血浆DNA的iwFAF明显低于MagMAX磁珠法。对于41个来自转移性黑色素瘤患者的血浆DNA样本,使用两种不同的Illumina测序平台准备了文库并生成了测序数据(NextSeq 500与 NovaSeq 6000),iwFAF在两个测量值之间有很强的相关性。在配对比较中,与NextSeq相比,NovaSeq生成的测序数据中的iwFAF显著降低。然而,在DNA提取方法和重复测序运行中观察到的效应量表明,这些因素对iwFAF变化的贡献非常小,远小于在癌症患者和健康个体之间观察到的差异的幅度。

 为了评估iwFAF是否是血浆DNA短片段比例的间接衡量标准,将196个健康个体样本的iwFAF与短片段比例进行了比较,并发现了适度的正相关。进一步比较了174个健康志愿者样本的iwFAF与血浆DNA浓度,发现两者呈弱负相关,由于癌症患者的血浆DNA总浓度平均高于健康个体,不同样本间血浆DNA浓度的差异不太可能解释癌症患者iwFAF的观察到的增加。  

4. 通过测量片段末端的核苷酸频率来评估血浆DNA片段基因组定位的差异

iwFAF的计算依赖于推断的循环保护区域(RPR)注释,因此,这种方法排除了任何不与已知RPR相交的片段。这种方法将信息数据的比例限制在基因组的注释区域,在本研究分析的2489个样本中,平均84.1%的片段用于iwFAF计算。为最大了限度地利用独立于现有基因组注释的每个样本的所有可用数据,本研究开发了一种互补方法来评估血浆DNA片段基因组定位的差异,该方法不依赖于基因组特征(如RPRs)的注释。使用与参考基因组序列对齐的测序reads,计算每个片段两端上游和下游10 bp的每个位置的核苷酸频率,并在每个样本的所有片段上平均。结果是每个样品有168次平均核苷酸频率测量(4个核苷酸× 21个基因组位点×两个片段末端)(图3A)。对来自两组转移性癌症患者的样本进行了多维度定标,并将平均核苷酸频率的前两个维度与iwFAF进行了比较,在乳腺癌和前列腺癌患者中,片段末端核苷酸频率的二次元与iwFAF的相关性绝对值分别为0.62和0.59。识别特定的核苷酸位置,可能捕获片段末端定位的差异,计算两个队列中iwFAF与每个核苷酸频率之间的相关性(图3B),有些位置,其相关性较强。如片段内部的第二、第三个碱基,如片段端内的第一个碱基(位置0,0 ')或片段端内的第四个碱基(位置3,3 ')。选择两个队列中核苷酸频率相关系数之和至少为1.0的位置。为了调整核苷酸频率之间的内部相关性,使用这16个位置的64个核苷酸频率进行多元线性回归预测iwFAF(图3C)。9个调整平均系数幅度最高的核苷酸频率仅位于片段两端的3个位置:位置1及位置1 '和2 '(片段右端内的第二个和第三个位置)。

53971686785889780

图3. 跨越片段末端的基因组位点的核苷酸频率分析    

5. 开发机器学习模型,以区分癌症患者和健康个体

为了评估GALYFRE是否能够检测癌症,该团队训练了随机森林机器学习模型来区分癌症患者和健康个体的血浆样本。排除了非癌症患者的样本,为了避免过度拟合该分类模型,通过临床研究登记获得信息,将分析限制在每个患者最早可用的血浆样本。交叉验证分析平均运行超过100次,在每次迭代中使用80%的样本进行训练,20%的样本用于测试,每个队列按比例分割,该数据集和分区策略用于所有后续分析。

使用iwFAF作为单一特征训练的线性模型显示,AUC=0.78(图. 4A),使用短片段作为单个特征训练的类似模型显示AUC值为0.65。本研究基于与iwFAF最相关的9个核苷酸频率测试了一个模型,发现AUC值为0.89(图. 4A)。对于最终的分类模型GALYFRE,将iwFAF与最相关的9个核苷酸频率合并在一起。实证评估表明,在较高的模型深度下,训练数据和验证数据之间的平均AUC差异增大,表明存在过拟合的可能。GALYFRE的平均AUC值为0.91(图. 4A),为了进一步验证性能,重复模型训练,同时在交叉验证期间保留随机选择并排除在训练和测试之外的20%的样本,使用测试数据进行的测试也获得了类似的平均AUC值0.91。正如预期的那样,分类表现受癌症分期的影响,I期癌症患者的AUC值为0.87,IV期癌症患者的AUC值为0.91(图. 4B),不同癌症类型的表现也有所不同。10种癌症类型中有6种的AUC值大于0.9,卵巢癌患者的AUC最低为0.82。在95%特异度下,100次交叉试验的平均敏感性在所有癌症类型中为66.9%(95%置信区间:66.1至67.8%),胶质母细胞瘤和胆管癌患者的最高敏感性为94.3和90.8%,卵巢癌和乳腺癌患者的最低敏感性为45.5和53.8%。为了评估iwFAF和每个核苷酸频率在GALYFRE中的相对贡献,计算了Shapley值,发现iwFAF是信息量最大的特征。信息最丰富的核苷酸频率表示在左片段末端外的第一个位置。

为了估计GALYFRE的最小测序深度,对数据进行了次采样来模拟低深度测序。首先,从105个样本中生成10个独立的重复,横跨1000个深度。计算得到的iwFAF值具有很高的可重复性,变异系数在1000万个片段时为0.027%,在100万个片段时为0.11%。随机选择了每个样本100万个片段的数据集。在这个低深度数据集上训练GALYFRE,平均AUC值为0.91。

69221686785890057

图4. GALFYRE用于癌症检测的诊断性能

讨论

在多种癌症类型中,肿瘤来源的血浆DNA片段末端的位置与外周血细胞提供的背景DNA片段末端的位置不同,因此片段末端位置及其相邻序列的分析可以作为癌症检测的生物标志物。本研究方法使用了一个机器学习模型,该模型只训练了10个来自片段末端位置全基因组评估的特征,与早期的机器学习进行癌症预测(基于片段大小或甲基化)相比,本机器学习既避免了对随机森林模型的依赖,又避免了适用数千个特征区分癌症和健康样本,仅结合片段末端位置差异的全基因组度量和围绕片段末端位置的三个位点的平均核苷酸频率提高该模型区分癌症及健康样本的生物特征驱动性能。

GALYFRE在胶质母细胞瘤患者中的分类表现尤其出人意料,片段末端分析利用了来自外周血细胞脱落的cfDNA与来自构成肿瘤的恶性细胞和微环境细胞组合的cfDNA之间的差异,GALYFRE可能对源自很少向健康个体血浆中贡献cfDNA的组织的癌症表现更好。然而,这也表明了一个潜在的局限性,即血浆中异常的碎片模式可能不是癌症特有的,因此描述生物学和技术分析前因素的影响更相关。在该方法中,观察到异常片段的比例受到片段大小和GC含量差异的影响。

虽然目前在癌症患者和健康个体之间的分类结果是令人鼓舞的,但这项研究存在多种局限性,并有进一步改进的潜在机会。如研究队列需要更大的参考数据集、非肿瘤样本及某些肿瘤样本数量需加大、统计学方法、文库制备及机器学习方法等均可进一步提高癌症检测的准确性。该方法的可推广的另外一个优势为GALYFRE仅需要有限的测序深度和少量的输入DNA来实现癌症检测和肿瘤部分定量的可重复性性能,因此预测这样的数据可以从小体积的血液或干血点中获得,测序文库制备的反应量可以减少,从而降低检测成本。  

结语

本研究开发了一种分析血浆DNA片段末端位置的方法,并表明该分析结果具有作为癌症诊断生物标志物的潜力。本研究方法的简单性,以及所需的少量血浆DNA和测序数据,可以增加基于血液的癌症检测和监测,特别是对于资源有限的卫生系统。本研究取得了鼓舞人心的结果,但还需要更多的病例对照研究来建立癌症患者早期发现和监测治疗反应的定量阈值。一旦这些阈值被确定,就需要在临床队列中对真实世界的诊断表现进行前瞻性评估。

END 

参考文献:

[1]  K. K. Budhraja et al., Genome-wide analysis of aberrant position and sequence of plasma DNA fragment ends in patients with cancer. Sci. Transl. Med.15, eabm6863 (2023).  

撰写丨XF  

编辑、排版丨SX  

不感兴趣

看过了

取消

iwFAF,基因组,DNA,核苷酸,癌症,血浆,肿瘤

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交