Nature!乳腺癌治疗反应的多组学机器学习预测器~
导语:
乳腺癌是恶性细胞和肿瘤微环境的复杂生态系统。这些肿瘤生态系统的组成及其内部的相互作用有助于细胞毒性治疗的反应。建立反应预测因子的努力并未纳入这些知识。
背景介绍
今天小编为大家带来的这篇文章,作者表明对治疗的反应是由预先治疗的肿瘤生态系统调节的,并且它的多组学景观可以使用机器学习集成到预测模型中,发现对治疗的反应取决于通过数据集成和机器学习捕获的肿瘤生态系统整体的基线特征。文章发表在《Nature》上,文章题目为:Multi-omic machine learning predictor of breast cancer therapy response。
数据介绍
本研究所用数据如下所示。
结果解析
01肿瘤活检的多平台分析
本研究前瞻性地将 180 名接受新辅助治疗的早期和局部晚期乳腺癌女性纳入分子分析研究 (TransNEO)(图 1)。使用超声引导从 168 例病例中收集新鲜冷冻的治疗前核心肿瘤活检组织。通过浅层全基因组测序(168 个样本)、全外显子组测序(168 个样本)和 RNA 测序(162 个样本)提取 DNA 和 RNA 并进行分析。166 例诊断核心活检苏木精和伊红染色切片已数字化。取样的肿瘤(n = 168)包括乳腺癌的所有主要亚型。145 例患者接受化疗(分批序贯紫杉烷和蒽环类药物),中位时间为 18 周(6 个周期);22 例接受紫杉类药物治疗(3 例联合卡铂,13 例联合环磷酰胺),1 例接受蒽环类药物联合环磷酰胺。由于药物毒性,两名患者仅接受一个周期。HER2+ 肿瘤患者 (n = 65) 接受了中位三个周期的抗 HER2 联合紫杉烷治疗。使用残余癌症负荷 (RCB) 分类 评估手术时的疗效。新辅助治疗完成后,在 161 例进行 RCB 评估的病例中,42例(26%)有病理完全缓解(pCR), 25例(16%)有良好缓解(RCB- i), 65例(40%)有中度缓解(RCB- ii), 29例(18%)有广泛残留病变(RCB- iii)。
图 1 研究设计概述
02基因组景观与反应有关
全外显子组测序(n = 168个肿瘤)鉴定出16,134个体细胞突变,其中驱动基因频率最高,包括TP53、PIK3CA、GATA3和 MAP3K1 。其中TP53突变与pCR相关,而PIK3CA突变与残留疾病相关。在达到 pCR 的肿瘤中,肿瘤突变负担较高,并且与 RCB 类别单调相关(P = 0.004;图 2a)。这与计算估计的肿瘤纯度无关。突变的克隆状态也与反应相关:未能达到pCR的肿瘤具有较高比例的亚克隆突变(图2b)。因此,达到 pCR 的肿瘤具有更高的预测新抗原负荷(图 2c)。突变特征分析(图2d)显示同源重组缺陷(HRD)和APOBEC特征与整个队列的pCR相关。
类似地,HRD的增加与反应单调相关(图2e),并与HER2−肿瘤中的pCR相关。达到pCR的肿瘤有更多的拷贝数改变,并且染色体不稳定性与RCB类别单调相关(图2f)。为了捕获在基因组景观中占主导地位的拷贝数改变的整体,本研究将预处理的肿瘤分层为 10 个基于基因组驱动程序的整合簇 (iC) 亚型。iC10 肿瘤大多是三阴性肿瘤,TP53 突变和拷贝数改变的发生率很高,与 pCR 的相关性最强。相比之下,惰性 ER+ 亚型 iC3、iC7 和 iC8 的肿瘤不太可能达到 pCR。两种侵袭性 ER+ 亚型 iC2(11q13/14 扩增)和 iC6(ZNF703 在 8p12 处扩增)也与治疗反应缺乏相关。
总之,达到 pCR 的肿瘤大多来自更具攻击性的 iC 亚型,富含 TP53 突变,具有较高的肿瘤突变负荷和新抗原负荷,具有不太复杂的克隆结构,并且富含 APOBEC 和 HRD 特征。
图 2
03肿瘤增殖和免疫特征
本研究将反应建模为二元变量(pCR 与残留疾病),差异 RNA 表达分析显示,在达到 pCR 的肿瘤中,有 2,071 个基因低表达,2,439 个基因过表达。pCR与驱动基因CDKN2A、EGFR、CCNE1和MYC的过表达以及CCND1(iC2)、ZNF703(iC6)和ESR1的低表达相关(图3a)。对 MsigDB Hallmarks 和 Reactome的基因集富集分析表明,增殖和免疫激活与反应密切相关(图 3b)。
为了进一步探讨这种关联,本研究使用基因组等级指数(GGI)基因集进行了基因集变异分析。GGI基因集变异分析评分与肿瘤分级相关(图3c,左图),并且与RCB类别单调相关(图3c,中图)。在富集胚胎干细胞宏基因时观察到类似的结果(图3c,右图),表明肿瘤去分化与反应相关。在亚组分析中,这种关联仅在 HER2− 肿瘤中观察到,表明抗 HER2 靶向治疗的疗效与增殖无关。
数字扫描核心活检苏木精和伊红载玻片的自动评分表明了肿瘤免疫微环境 (TiME) 在预测反应中的作用,显示淋巴细胞密度是 pCR 的良好预测因子(图 3d,左图)。免疫细胞溶解活性评分也与所有肿瘤的反应相关(图3d,中图),并与肿瘤淋巴细胞密度相关。
这些结果促使本研究使用三种不同的RNA表达反卷积方法对预处理活检中的TiME进行详细分析(图3d,右面板)。这些分析共同揭示了获得 pCR 的 ER+、HER2− 和 HER2+ 肿瘤中先天性和适应性免疫细胞群的富集。然后,本研究将增殖(使用 GGI)和免疫反应整合到治疗前的肿瘤中。使用 STAT1 基因表达模块来表示单个评分中的免疫反应,并计算 GGI 和 STAT1 评分与 RCB 类别之间的相关性。达到pCR的肿瘤大多具有高增殖和高免疫激活,这两个特征随着残留疾病程度的增加而逐步下降(图3e)。
总之,在未经治疗的肿瘤中,先天性和适应性的增殖和免疫反应具有与治疗敏感性相关的综合效应。一般来说,达到 pCR 的肿瘤往往具有高度增殖性,并显示出活跃 TiME 的证据。
图 3
04耐药肿瘤的免疫功能障碍
5 个具有高 GGI 和 STAT1 评分的肿瘤中有 26 个未能达到 pCR。这 45 例病例(残留疾病与 pCR)的差异基因表达分析显示,残留疾病的肿瘤中上皮间质转化丰富,免疫反应通路下调(图 3f)。假设免疫反应减弱可以解释这一点,并使用 TIDE 得出 T 细胞功能障碍和 T 细胞排除指标(图 3f)。这表明具有残留病灶的 HER2− 肿瘤在诊断时具有较高的 T 细胞功能障碍 (P = 0.006),且 T 细胞排除评分没有差异。功能障碍的增加与抑制性自然杀伤CD56dim细胞和调节性T细胞的富集有关。在整个队列中,活性T细胞的排除与较差的应答相关:残留疾病的排除较高,癌症相关成纤维细胞和M2肿瘤相关巨噬细胞的富集增加。
总之,一些肿瘤尽管具有增殖性且 TiME 丰富,但仍表现出 T 细胞功能障碍的特征,并且往往对治疗产生耐药性。
05机器学习集成了多组学特征
以上,本研究确定了幼稚肿瘤生态系统中存在的与治疗反应相关的临床、数字病理学、基因组和转录组特征,尽管这些特征单独而言都没有表现出稳健的表现。这促使人们使用机器学习框架(图 4a)将特征集成到 pCR 的预测模型中。使用以下方法衍生出一系列包括不同特征组合的六种 pCR 预测模型:(1) 仅临床特征,并添加 (2) DNA、(3) RNA、(4) DNA 和 RNA、(5) DNA、RNA 和数字病理学、(6) DNA、RNA、数字病理学和治疗。预测特征的数量总计 34 个(图 4b)。这些模型基于多步预测管道。在管道内部,特征首先通过单因素选择和共线性减少进行过滤,然后输入未加权的集成分类器。每个集成由三种并行运行的算法组成:具有弹性网络正则化的逻辑回归、支持向量机和随机森林。然后对三个算法得分进行平均以形成预测器。经过充分训练的模型在一个由 75 名接受新辅助治疗的患者组成的独立外部队列中进行了测试 。在外部队列中,模型实现了以下曲线下面积:0.70(临床)、0.80(临床和 DNA)、0.86(临床和 RNA)、0.86(临床、DNA 和 RNA)、0.85(临床、DNA、RNA和数字病理学),0.87(完全集成模型(临床、DNA、RNA、数字病理学和治疗))(图 4c、d)。
本研究探讨了集成训练模型中使用的特征的重要性,发现它将临床表型与DNA, RNA和数字病理特征相结合。主要特征是年龄、淋巴细胞密度以及 PGR、ESR1 和 ERBB2 的表达(图 4b)。此外,预测模型还使用了与增殖、免疫激活和免疫逃避相关的特征。完全集成的模型依赖于从所有数据模态获得的特征,其中 RNA 特征的贡献最大(图 4b)。尽管模型使用二元响应变量(pCR 与残留疾病)进行训练,但对训练集和验证集的预测分数的分析表明,这些与 RCB 类别高度相关,并观察到关联。在临床工作流程中,预测模型可以应用于新辅助治疗的候选者;任何预计患有化疗耐药的肿瘤都应考虑参加新疗法的临床试验,因为如果接受标准治疗,其预后很差(图4e)。
图 4
本研究在一项模拟研究中对此进行了探索,并将在外部验证队列中获得的混淆矩阵应用于总共 100 名即将接受新辅助治疗的患者。如果标准是保证获得 pCR 的患者不应错过治疗(无假阴性),则临床机器学习模型将识别 15 名无反应者,而完全集成的机器学习模型会将这一数字增加到 31 名。通过放宽假阴性阈值并允许两次假阴性,可以正确识别24例(临床模型)和52例(完全整合模型)无法获得pCR的患者(图4e)。
总之,本研究使用了一种集成机器学习方法,该方法输入来自治疗前活检的多组学特征来得出 pCR 的预测因子。这些模型经过外部验证,表现出非常好的识别能力。
小编总结
本研究收集了 168 名术前接受或未接受 HER2(由 ERBB2 编码)靶向治疗的化疗患者的乳腺肿瘤治疗前活检的临床、数字病理、基因组和转录组学特征。然后将手术时的病理学终点(完全缓解或残留疾病)与这些诊断活检中的多组学特征相关联。在这里,本研究表明对治疗的反应是由预先治疗的肿瘤生态系统调节的,并且它的多组学景观可以使用机器学习集成到预测模型中。治疗后残留疾病的程度与治疗前的特征相关,包括肿瘤突变和拷贝数景观、肿瘤增殖、免疫浸润以及T细胞功能障碍和排斥。将这些特征组合到多组学机器学习模型中,预测外部验证队列(75 名患者)中的病理完全缓解,曲线下面积为 0.87。总之,对治疗的反应取决于通过数据集成和机器学习捕获的肿瘤生态系统整体的基线特征,这种方法可用于开发其他癌症的预测因子。 本研究表明,结合临床、分子和数字病理数据的预测治疗反应的机器学习模型明显优于基于临床变量的模型。在外部验证中获得的高准确性表明,这些模型是稳健的,可以使用分子和数字病理学来确定未来临床试验中的治疗选择,包括辅助治疗设置。更一般地说,该框架强调了数据集成在机器学习模型中对反应预测的重要性,并可用于为其他癌症生成类似的预测因子。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读