精准前沿丨基于cfDNA片段谱特征推断基因的表达

2022
07/15

+
分享
评论
先声诊断
A-
A+

EPIC-seq检测对ctDNA浓度敏感,检测早期癌症的敏感性会降低。此外,该方法推断RNA转录模式的能力究竟如何仍未知,因此其在诊断不明的病人中推断癌症类型的能力目前还不清楚。  

本期《精准前沿》栏目分享斯坦福大学医学院Alizadeh及Diehn两个研究团队合作发表在Nature Biotechnology(IF=68.164)上的一篇研究[1],研究开发了一种利用cfDNA片段特征对基因表达进行无创推断的方法(EPIC-seq)。

88531657841397671

研究背景

  血浆中的cfDNA(cell-free DNA)是由身体各个组织的细胞凋亡后释放的片段化DNA混合物。在肿瘤患者中,随着肿瘤细胞的生长,癌细胞的遗传物质会释放到血液中,因此cfDNA是一种有效的对癌症进行无创检测的biomarker,有助于探寻其组织起源、组织损伤以及肿瘤类型。目前的cfDNA检测方法主要是对胚系或体细胞突变、及染色体异常的检测,在肿瘤基因分型、肿瘤突变负荷、以及无创产前筛查等检测中很高的应用价值。然而,ctDNA(circulating tumor DNA)在cfDNA中的占比是较低的,而且即使在肿瘤突变负荷高的癌症中,甚至在疾病负担高的患者中,大多数癌症来源的cfDNA片段都是未突变的。因此,利用表观遗传学特征对cfDNA片段进行解读是非常有必要的;应用场景包括:未发生遗传突变的组织损伤的检测,以及对癌症进行分类。此外,目前研究的cfDNA片段化组特征包括片段大小、测序深度、末端基序频率、转录起始区域的核小体位置等;尽管如此,这些方法并未有实现单基因水平下推断基因表达的分辨率。为解决这些局限性,本研究中通过对目标区域的深度测序,以高分辨率分析目标区域cfDNA的片段特征,并实现对单个基因表达水平的预测。  

研究设计

提出假设

静息态的启动子区域(低表达)由于染色质呈现关闭状态,受到核小体的保护而免遭多种内切酶的剪切;而活跃状态下的启动子区域(高表达)的染色质呈现开放状态,被随机剪切的可能性更高;因此,活跃状态的启动子区域的cfDNA片段将表现出更随机的裂解模式,即会产生更多种类的DNA片段长度。  

研究目的

1)发现能够预测基因表达的cfDNA片段特征矩阵;2)构建一个能从cfDNA推断基因表达的统计模型;3)通过预测的表达值对癌症亚型分类;4)对癌症进行检测。  

首先,为了发现能够预测基因表达的cfDNA片段特征,作者需要首先验证假设是否正确,分别采集cfDNA的片段组学特征以及基因表达水平对假设进行初步探索。作者采集了来源未知且ctDNA浓度小于0.05%的恶性肿瘤病人样本,进行了深度WGS测序,测序深度约250X,从而获得cfDNA的片段特征;对血液白细胞进行RNA-seq测序得到基因表达水平的结果;分析两者间的关系,结果如下图1b所示,纵坐标是根据基因的表达水平对其进行排序,越往上启动子处表达水平越高,横坐标是启动子处的cfDNA片段大小。可以发现,表达水平越高时,单个核小体长度的片段越少,即151-210 bp这个区间;而小于单核或小于双核长度(100-150,以及211-300 bp)的片段多。这个结果支持作者的假设,定位到高表达基因TSS两侧约2-kb区域的cfDNA分子比定位到低表达基因TSS的片段表现出更多的片段长度多样性。这种现象在亚核小体片段中尤其突出(<150个碱基对(bp)和210–300 bp)。

为了评估这一发现的稳健性,对健康样本的cfDNA进行深度WGS测序;并利用已发表的公共数据对40例健康和46例肺腺癌(LUAD)样本的cfDNA WGS结果进行分析,证明了已知的肺癌特异性生物学标签能通过cfDNA进行识别。最后,进行扩展验证,评估在全外显子测序中是否能发现一致的cfDNA特征,因此作者采集了11位小细胞肺癌患者样本和28位健康志愿者样本,并进行深度全外显子测序。作者发现,游离DNA的指征与肺癌患者肿瘤细胞基本类似。因此,可以说cfDNA片段多样性特征可以在基因水平上反应肿瘤组织的信息。cfDNA片段多样性通过信息熵进行度量,计算单个基因TSS向两侧各延展1kb范围内的cfDNA片段长度的熵,然后基于多项式概率分布模型对熵进行归一化,得到promoter fragmentation entropy(PEE)值,作为该研究中的cfDNA的片段特征。

然后构建一个能从cfDNA推断基因表达的统计模型,提出EPIC-seq方法通过预测的表达值构建分类模型。EPIC-seq是基于对cfDNA中TSS侧翼区域的定向捕获深度测序,并结合用机器学习预测RNA表达的一种方法。整体工作流程包括从血浆中提取cfDNA、文库制备和感兴趣基因的TSS区域捕获、对富集区域的高通量测序,最后是cfDNA片段分析,然后构建机器学习模型计算表达预测值以及对样本进行分类。作者应用EPIC-seq对非小细胞肺癌(NSCLC)的组织学进行分类,区分弥漫性大B细胞淋巴瘤(DLBCL)的分子亚型,评估免疫治疗反应,并评估单个基因的预后价值。

研究结果

1. 确定与基因表达相关的cfDNA特征

PFE(启动子片段熵)推测的基因表达水平与TSS的相对位置息息相关。通过对NSCLC肿瘤患者的分析发现,基于在肿瘤中高表达的基因计算的PFE会随着肿瘤的进展值会增加;而在低表达基因中未发现这种现象,说明PFE特征具有基因和组织特异性。

测序深度越高,PFE和NDR(核小体枯竭区域)作为特征与基因表达水平间的相关性越高。

上述这些结果都说明DNA片段特征都与基因表达水平具有强相关性,PFE较之前发表的cfDNA特征其相关性最高。

8931657841398085  

图1. cfDNA分子特征与基因表达之间的关系

2. 与基因结构相关的PFE与表达之间的关系

为了进一步探索基因表达与片段熵之间的关系,分析在不同TSS距离以及不同基因结构body中两者之间的关系。a:发现离TSS越近熵值越大,在高表达基因中越显著;b:在TSS 2 kb范围内能发现片段熵值呈现双峰分布,能对表达水平进行更好的区分,离TSS越近双峰波动越大;c:第一个外显子的结果与TSS结果类似,随着距离TSS越远,信号越来越弱,结果说明在转录组中TSS附近区域的cfDNA片段化特征与基因表达水平高度相关。因此,进一步验证,在超深度WES下,cfDNA片段熵值在实体瘤中对基因表达的推断情况,并将结果与RNA-seq分析的结果进行比较。d/e:发现在RNA-seq肿瘤样本中高表达的基因,在cfDNA PFE结果中肿瘤患者也高于健康对照;低表达时趋势也一致;f:通过cfDNA的PFE特征得到的肿瘤相关基因以及健康对照相关基因;g/h:展示的是f得到的差异基因,在RNA-seq的结果中表现一致,cfDNA高表达的基因在RNA-seq中显著高表达,相反也是一样的。因此以基因水平为分辨率,从cfDNA推断基因的表达水平是可行的,并且能够捕获肿瘤特异的表达信息。

71781657841398284

图2. 与基因结构相关的片段大小熵为WES cfDNA图谱的表达推断提供信息

3. 与基因结构相关的PFE与表达之间的关系

EPIC-seq对NSCLC进行肿瘤检测。在肿瘤检测中,作者通过67例(stage II期7例,III期30例,IV期30例)非小细胞肺癌患者和71例健康样本数据进行训练,对20位NSCLC患者和23位健康样本进行预测,得到了较好的分类性能,验证集的AUC为0.83。分别统计不同分期肿瘤的预测性能,该方法对I期患者的分类效果不好,疾病进展程度越深,分类性能越好;不同肿瘤浓度对95%特异性下分类敏感性的影响;EPIC-seq分类性能与肿瘤浓度显著相关,肿瘤浓度越高,灵敏度越好;EPIC-seq可用于对NSCLC(LUAD 36例& LUSC 31例)进行组织分型,能获得较好的分类性能,AUC为0.9。

评估EPIC-seq是否可用于预测预后,分别在免疫检查点抑制剂开始治疗时以及治疗4周后分别进行EPIC-seq,并计算dynamic score;发现EPIC-seq可有效区分持续性获益的人群以及无持续性临床获益人群;对EPIC-seq动力学分数按照中位数划分成两组,治疗后分值降低的组较分值升高的组获得了更好的治疗效果。

35761657841398427

图3. 应用EPIC-seq对肺癌进行检测并进行组织学分类  

讨论  

EPIC-seq检测对ctDNA浓度敏感,检测早期癌症的敏感性会降低。此外,该方法推断RNA转录模式的能力究竟如何仍未知,因此其在诊断不明的病人中推断癌症类型的能力目前还不清楚。  

结语  

在本研究中,EPIC-seq方法是一种利用cfDNA片段特征对基因表达进行无创推断的方法,可用于多种临床应用,包括肿瘤检测、分型、预后预测、治疗检测等。与EPIC-seq相比,先前发表的基于cfDNA片段技术和特征的方法,都不能高性能的实现对单个基因表达水平的预测。本文描述的方法使用PFE作为指标,以及通过靶向捕获感兴趣基因的启动子区域,实现了更高的测序深度,从而显著提高了分类和预测的性能。 END 

参考文献:  

[1]    Esfahani, M.S., Hamilton, E.G., Mehrmohamadi, M. et al. Inferring gene expression from cell-free DNA fragmentation profiles. Nat Biotechnol 40, 585–597 (2022). https://doi.org/10.1038/s41587-022-01222-4  

撰写丨吴兮  

编辑、排版丨SX  

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
片段,进行,表达,研究,特征

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交