基于网络的机器学习方法预测癌症患者的免疫治疗反应

2023
06/17

+
分享
评论
作图丫
A-
A+

鉴于我们结果的一致性,未来的研究机会将是将基于网络的方法与更高分辨率的测序技术相结合,从而能够考虑免疫微环境的重要方面,包括免疫细胞比例或细胞状态。

导语

本项研究工作提出了一种基于网络的方法,可以有效地选择免疫治疗反应相关的生物标志物,为精准肿瘤学做出基于机器学习的稳健预测。

背景介绍

今天小编为大家带来一篇基于免疫响应预测分析的发表在nature communications期刊的思路。题目为Network-based machine learning approach to predict immunotherapy response in cancer patients。

数据介绍

收集了八个针对PD-1 / PD-L1的ICI治疗的不同患者队列的数据: (1)Gide等人(尼武单抗,佩姆单抗和/或伊匹单抗治疗的黑色素瘤;n = 91);(2) Liu等人(尼武单抗或佩布利珠单抗治疗的黑色素瘤;n = 121),(3) Kim等人(佩姆单抗治疗的转移性胃癌;n = 45);(4) IMvigor210(阿替祖单抗治疗的膀胱癌,n = 348);(5) 奥斯兰德等人(抗PD-1和/或抗CTLA4治疗的黑色素瘤;n = 37);(6 )Prat等人(尼武单抗或佩姆单抗治疗的黑色素瘤;n = 25);(7) Riaz等人(尼武单抗治疗的黑色素瘤;n = 49);(8) Huang等人(培布利珠单抗治疗黑色素瘤;n = 13)

对于Prat等人的数据集,文章只考虑了黑色素瘤样本。对于Riaz等人的数据集,文章只使用了药物治疗前收集的表达样本。对于Huang数据集,作者认为没有复发的患者是ICI应答者,复发患者是ICI无应答者。

关于TCGA数据集,使用了以下内容:(1)TCGA SKCM(黑色素瘤;n = 103);(2) 胃腺癌(n = 375);和(3) 膀胱癌(n = 405)。使用TCGA biolinkR包下载基因表达数据(HTSeq—Count)、体细胞突变数据和临床数据(即总生存期数据)。

结果解析

97971686958789780

图1

作者先前的工作支持与抗癌药物反应相关的生物标志物位于PPI网络中药物靶标的附近。简而言之,本文发现与治疗效果相关的生物标志物可以从患者衍生的类器官模型中识别出来,这些模型可以预测5-氟尿嘧啶治疗的结直肠癌和顺铂治疗的膀胱癌患者的药物反应。本文旨在通过选择靠近ICI目标的途径来识别与ICI反应相关的生物途径。本文使用了PPI网络,包括16,957节点和420,381边。首先,作者应用网络传播,使用ICI靶标 (例如,nivolumab的PD1或atezolizumab的PD-L1) 作为种子基因,以在网络上传播ICI靶标的影响。网络传播的一个特征是,对于更接近ICI目标的节点,影响得分更高。接下来选择具有高影响得分的基因 (前200个基因),并鉴定了富含该基因的生物学途径。然后使用选定的生物途径来预测免疫治疗反应,并将这些途径视为基于网络的生物标志物 (NetBio)。

为了进行基于ML的免疫治疗反应预测,本文使用NetBio作为输入特征; 作为阴性对照,我们使用基于基因的生物标志物 (即免疫治疗靶基因) 、基于肿瘤微环境的生物标志物或从数据驱动的ML方法中选择的途径 (图1c)。使用输入特征的表达水平,我们应用逻辑回归来训练ML模型。为了评估输入特征的预测性能,我们评估了预测 (i) 通过免疫治疗后减小的肿瘤大小评估测量的药物反应或 (ii) 患者生存的性能。为了使用监督学习训练ML模型,本文使用训练和测试数据集的不同组合来广泛测量预测性能的一致性。具体来说,本文进行了 (i) 研究内预测,其中训练和测试一下数据集是从单个队列生成的或者 (ii) 跨研究预测,其中两个独立的数据集被用作训练和测试数据集 (图1d)。此外,本文交替使用大量或少量的训练样本来测量各种训练条件下预测性能的一致性。

01、基于NetBio的ML可以对ICI治疗反应和总生存期做出一致的预测  

我们 的NetBio的转录组可以做出一致的预测性能来预测ICI反应 (图2)。 相比之下,当使用药物靶标表达时,我们观察到更强的预测性能 (Nivolumab和pembrolizumab的PD-1,atezolizumab的PD-L1和ipilimumab治疗的患者的CTLA4)。 我们首先进行了一项留一交叉验证 (LOOCV),以使用NetBio或其他已知的免疫治疗相关生物标志物 (包括药物靶标) 来测量性能。 为此,我们使用了4个免疫治疗队列-2个黑色素瘤队列 (Gide等,Liu等),1个转移性胃癌队列 (Kim等) 和1个膀胱癌队列(IMvigor21030)。 使用我们的NetBio训练的ML模型在所有四个数据集中一致地做出准确的预测 (图2a-d; Fisher精确测试P<0.05被认为是显著的)。 相比之下,使用药物靶标的表达水平做出的预测不太一致,其中药物靶标仅在黑色素瘤队列中准确预测 (Gide等人; 图2a),而在其他三个癌症队列中不准确预测 (图2b-d)。

值得注意的是,在Liu数据集中,使用药物靶标表达水平的预测是反向预测的 (图2b)。此外,在具有总生存数据的三个数据集 (Gide等人; Kim等人; IMvigor210; log-ran测试一下P<0.05被认为是显著的) 中,使用我们基于NetBio的ML预测为ICI响应者的患者的总生存期持续延长;使用药物靶标表达仅预测一个数据集中的总生存期 (图2e-g)。总之,我们的数据表明,基于网络的方法,将生物标志物扩展到药物靶标的网络邻居,改善了基于药物靶标表达水平的预测。

18411686958789863

图2

此外,当使用较少的训练数据集训练ML模型时,来自NetBio的预测与其他生物标志物相似或更好。具体来说,作者进行了蒙特卡罗交叉验证。对于100不同的迭代,随机选择80% 样本并将其用作训练集,而剩余20% 用作测试集 ,基于网络的方法显示出显著更好或相等的性能 。 接下来将NetBio与其他先前鉴定的ICI相关生物标志物的预测性能进行比较,发现在大多数情况下,本文的方法在所有四个癌症数据集中都更好 (图2h-o)。 对于单基因标记,我们考虑了免疫治疗靶标 (PD1,PD-L1或CTLA4) 的表达水平。 对于肿瘤微环境相关标志物,我们考虑了与CD8 T细胞比例,T细胞耗竭,caf和TAMs相关的基因集。 本文还考虑使用所有基于单个基因的标记 (GeneBio) 或所有与肿瘤微环境相关的标记 (TME-Bio) 进行预测。 我们使用准确性和F1评分来测量LOOCV的预测性能,发现基于NetBio的预测比使用所有其他生物标志物的预测更好。

02、基于NetBio的预测模在型独立的黑色素瘤数据集进行一致的预测

准确的 ML 模型的关键方面包括:(i)它能够推广到新的数据集,以及(ii)它在很少 的训练样本可用时保持一致的性能。 首先,我们观察到使用NetBio训练的ML模型在使用独立数据集时可以做出稳健的预测,而使用其他生物标志物时预测性能较 差(图3).为了测试ML模型的可推广性,我们使用Gide等人的黑色素瘤数据集来训练ML模型,并在三个独立的黑色素瘤数据集中测试了预测性能。

基于NetBio的ML显示两个外部数据集中的AUC>0.7 (图3b,c; Auslander AUC = 0.79; Prat AUC = 0.72),以及剩余数据集中的0.69 (图3d;)。与基于NetBio的ML相比,使用其他生物标志物的预测显示出高度变化的预测性能 (图3b-d)。例如,PD-1表达显示出较少的最佳性能,最大AUC仅达到0.66 (图3b-d)。此外,尽管在Auslander和Riaz数据集 (图3b,d; AUC > 0.7) 中使用T细胞耗竭标记的预测是高度准确的,但预测性能略优于Prat数据集中的随机预期 (图3c; AUC = 0.58)。此外,当将精确召回曲线 (AUPRC) 下的面积用作性能指标时,基于NetBio的预测优于基于药物靶标或肿瘤微环境标记的预测 。我们还观察到,当三个独立的训练数据集被组合到一个数据集中时,基于NetBio的预测比其他方法表现得更好 ,突出了我们基于网络的方法的稳健性。

87051686958789992

图3

03、基于NetBio的预测优于纯粹数据驱动的特征选择方法

在临床应用中使用数据驱动的ML模型的一个主要限制是,尽管在训练数据集中表现良好,但它无法在新数据集中始终如一地执行。因此,我们测试了与纯粹的数据驱动的特征选择方法相比,在本研究中添加代表PPI网络的先验生物学知识是否可以改善特征选择。与纯数据驱动的ML预测相比,基于NetBio的ML模型能够持续改善预测性能 (图4)。详细地,对于datadriven ML模型,我们选择了在训练数据集中最好地区分响应者和非响应者的K个特征 (其中K等于NetBio的数量),并使用所选特征来训练ML模型 (图4a; 方法)。在11个不同的任务中,我们发现基于NetBio的预测显示出比基于ML的特征选择的特征明显更好的性能 (图4b; 双侧配对学生t测试一下P = 3.3 × 10-3)。此外,在对黑色素瘤队列进行预测时,持续观察到性能改善 (跨研究预测; 图4c),这表明网络引导的选择有助于减少ML模型的过拟合。此观察结果表明,与纯粹的数据驱动的特征选择相比,网络引导的特征选择可以提供强大的特征。总之,我们的结果表明,强大的转录组生物标志物可以通过利用基于网络的生物标志物选择来鉴定。

23621686958790077

图4

04、基于NetBio的预测结果概括了TCGA中的免疫微环境

由于NetBio在包含三种不同癌症类型的不同队列中表现最佳,因此我们研究了基于NetBio的预测是否可以概括与免疫治疗反应相关的免疫微环境。我们测试了基于NetBio的预测如何与TCGA datasets中的免疫上下文相关(图5a)。具体来说,我们使用Gide或Liu数据集 (黑色素瘤队列) 来预测TCGA数据集 (TCGA SKCM) 中黑色素瘤患者的ICI反应,Kim数据集 (胃癌队列) 来预测TCGA胃癌 (TCGA STAD),和IMvigor210数据集 (膀胱癌队列) 预测TCGA膀胱癌 (TCGA BLCA) 患者,并将预测的药物反应与 (i) 肿瘤突变负荷 (TMB) 或 (ii) TCGA患者的免疫情境相关联 (图5a)。对于免疫背景,我们使用了Thorsson等人计算的免疫原性评分。基于NetBio的预测与TMB或免疫上下文的整个相关结果可在补充图中获得。

18121686958790157

图5

基于NetBio的预测成功地概括了免疫微环境 (图5b)。我们推测,Gide和Liu队列的相关结果具有共同的特征,因为它们都涉及黑色素瘤患者。正如预期的那样,它们表现出相似的免疫微环境特征,包括与白细胞组分和CD8 T细胞比例的高度正相关,以及与M2巨噬细胞比例的高度负相关 (图5b)。相比之下,当我们将三种TCGA癌症类型合并到单个队列中进行分析时,我们观察到与免疫特征的相关性降低 ,这表明考虑癌症类型特异性的重要性。此外,我们还发现,无论使用哪种训练数据集 (Gide或Liu),SKCM TCGA dataset中具有 “免疫” 表型的患者都可能是基于NetBio标记的预测ICI应答者,这表明预测ICI应答者具有高免疫浸润水平。有趣的是,基于两种不同训练集的预测之间的相关性很弱,表明 (i) ICI应答者可能具有不同的免疫细胞浸润机制和 (ii) 黑色素瘤患者中可能存在多种分子亚型。

05、NetBio通路的表达水平与膀胱癌患者免疫细胞浸润相关  

由于免疫细胞的浸润被报道与膀胱癌的抗癌药物反应密切相关,我们询问膀胱癌TCGA数据集中NetBio通路的表达水平是否与免疫细胞浸润水平相关。在膀胱癌患者中,我们使用额外的基于免疫组化的结果(图6)验证了趋化和吞噬途径(即趋化因子受体分别结合趋化因子和FcgR激活)与PD-L1治疗的膀胱癌队列中的免疫浸润相关。我们在IMvigor210数据集中使用了免疫表型。具体来说,我们使用了不同的免疫表型,包括(i)免疫荒漠(少于10个CD8 T细胞),(ii)排除(邻近肿瘤细胞的CD8 T细胞)和(iii)浸润(与肿瘤细胞接触的CD8 T细胞)表型(图6a),并将趋化性和吞噬途径的表达水平与免疫表型(图6b)进行了比较。c).与免疫荒漠或排除表型相比,免疫浸润表型的通路表达水平最高(图6b),表明NetBio通路可以捕获膀胱癌中的白细胞浸润部分。总之,我们的研究结果表明,NetBio可以持续地揭示与免疫治疗反应相关的免疫微环境相关的途径。

83191686958790239

图6

06、NetBio改善PDL1抑制剂治疗的膀胱癌患者的预测

尽管高TMB水平与ICI治疗的益处增加相关,但ICI应答者和非应答者通常显示TMB水平的显著重叠,这表明仅TMB不足以预测ICI反应。因此,我们测试了将我们的NetBio与基于TMB的预测器相结合是否提高了预测性能 (图7a)。结合NetBio表达水平和TMB改善了用作为PD-L1抑制剂的atezolizumab治疗的膀胱癌患者的总生存期的预测 (图7b,c)。使用LOOCV预测ICI治疗反应,仅使用TMB训练ML模型,预测反应组和预测无反应组之间的1年生存率差异为18% (图7b; P = 2.0 × 10-3;预测应答者组和预测无应答者组的1年生存率分别为60.8% 和42.8%)。当使用TMB和NetBio时,1年生存率差异增加到22.3% (图7c; 预测应答者和预测无应答者组的1年生存率分别为64.4% 和42.1%),以及对数秩测试一下统计的改进 (P = 2.02 × 10-4)。

接下来,我们观察到,组合预测器仅使用TMB正确地从预测响应者中重新分类非响应者 (R2NR),并从TMB单独预测的预测非响应者正确地重新分类响应者 (NR2R;当仅使用TMB时,R2NR患者表现出比预测应答组更低的总生存率 ; 1年生存率下降到51.2% (logrank测试一下p值 = 0.07)。类似地,在NR2R患者中,1年生存率增加至57.1%,并且与使用基于TMB的预测无反应者相比,显示总体生存率在统计学上显著增加 ( log-ran测试一下P = 1.94 × 10-2)。总之,我们的结果表明,TMB结合NetBio转录组特征可以改善应答者和非应答者的正确分类。

48641686958790316

图7

在观察到改进的预测性能之后,我们试图确定负责改进预测性能的功能。我们首先观察到在重新分类的亚组中TMB水平保持相似,这表明TMB水平不是改善总生存期预测的10个混杂因素。为了确定高TMB组与免疫治疗抗性相关的转录组特征,我们使用基于TMB的预测 (即高TMB组) 和R2NR组研究了预测应答者之间的差异表达途径。Raf激活途径在两个亚组之间显著差异表达 (图7d; t测试P = 3.39 × 10-2)。详细地,从联合预测模型中被预测为无反应者的患者 (即R2NR患者) 显示出更高的Raf激活途径组分表达。从PPI网络来看,Raf激活途径的组分,包括HRAS、KRAS和JAK2,是PD-L1的直接邻居 (图7e),表明该途径可能在药物治疗期间发挥机械作用。为了进一步检查Raf激活途径作为ICI治疗生物标志物的潜在有用性,我们分析了PD-L1表达、TMB和Raf激活组分的表达水平与外部TCGA膀胱癌数据集 (n = 405) 中的总生存期之间的关联。具体来说,我们测试了当 (i) PD-L1表达低,模拟PDL1抑制,以及 (ii) TMB水平高时,Raf激活是否影响总生存期。Raf激活途径对表现出低PD-L1表达和高TMB水平的膀胱癌患者的总生存期具有统计学上显著的影响 (图7f; P = 0.025)。重要的是,Raf激活途径的较高表达与较差的总生存期相关,这一发现与PD-L1抑制剂治疗的患者表现出对治疗的抗性一致 (图7d,f)。总之,我们的结果表明 (i) 基于网络的转录组生物标志物可以帮助改善基于TMB的免疫疗法反应预测,并且 (ii) 可以使用基于网络的方法来鉴定ICI反应生物标志物。

小编总结

网络传播算法的不断发展将有助于改善精准医学的任务,因为该算法已成功应用于识别疾病基因和药物靶点。在这项研究中,采用了重新启动的随机游走。然而,最近已经提出了各种网络传播算法来解决蛋白质相互作用网络的程度偏差。这些方法有可能找到疾病模块,这些模块具有更好的识别疾病基因,药物靶标候选物和药物反应生物标志物的性能。

基于NetBio的预测可以持续概括与免疫治疗反应相关的免疫微环境。在三种不同的癌症类型 (黑色素瘤,胃癌和膀胱癌) 中,我们发现基于NetBio的预测与抗肿瘤白细胞的比例 (例如CD8 T细胞比例) 始终呈正相关,而前肿瘤白细胞的比例 (例如M2巨噬细胞),与基于NetBio的预测一直呈负相关。我们的预测结果与先前的研究结果一致,因为 (i) ICI治疗旨在重振CD8 T细胞,使得更高的CD8 T细胞比例导致ICI治疗效率提高;(ii) M2巨噬细胞抑制CD8 T细胞,使得较高比例的M2巨噬细胞导致对ICI治疗的抗性。此外,即使使用不同的黑色素瘤队列 (Gide等人或Liu等人) 来训练ML模型,基于NetBio的预测也一致地恢复CD8T细胞比例。总之,我们的结果表明,作为ICI靶标的网络邻居的NetBio途径可以从转录组数据中强大地捕获患者的免疫成分。鉴于我们结果的一致性,未来的研究机会将是将基于网络的方法与更高分辨率的测序技术相结合,从而能够考虑免疫微环境的重要方面,包括免疫细胞比例或细胞状态。

文字均为原创,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自转载或抄袭。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
机器学习方法,免疫治疗,患者,预测

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交