作为基于大数据的建模方法,iGenSig有望在基于药物基因组学和临床试验数据集的治疗反应建模中有广泛的应用。
本期《精准前沿》栏目分享美国匹兹堡大学UPMC希尔曼癌症中心Wang, XS研究团队发表于Nature Communications(IF =17.694)上的一篇研究[1],研究提出一种公开且可解释的计算方法——iGenSig (integral genomic signature)。该方法使用化学扰动的基因组数据集,开发了用于预测癌症药物反应的iGenSig模型,并使用独立的细胞系和临床数据集进行模型验证。
研究背景
精准肿瘤学,通过对肿瘤进行分子谱分析,实现患者个性化防治,目前已成为癌症患者防治的主流方式。随着低成本基因组测序的出现,精准肿瘤学正处于深度转型的风口,利用大数据提供临床决策支持、提供量身定制的医疗保健计算方法,对于临床研究有很好的成本效益,且需求量很大。
近年来,基于人工智能 (AI) 的临床决策支持系统,在基于大数据精准医疗中的潜力备受关注,但迄今为止影响临床实践的例子寥寥无几。多组学大数据通常包含数量惊人的高维特征,但样本数量有限,这对基于人工智能方法的计算能力和训练过程提出了巨大挑战。此外,人工智能方法像是“黑盒”,模型背后的算法和生物学机制在很大程度上是未知的。建模过程由AI控制,难以解释复杂的模型预测,且经常存在过拟合和过加权的问题。
由于测序错误、文库制备方法和平台的不同、不一致的测序深度和读取长度、异质性的样本质量和实验变化等导致不同数据集上检测到的基因组特征存在普遍的偏差,从而导致跨数据集建模预测模型的性能不足。目前缺乏基于大数据的方法专门解决这一问题。这就需要稳健、透明和可解释的方法来预测多组数据的临床治疗结果,并大幅提高测序偏差的容忍度。
研究设计
本研究中,作者将显著预测临床表型(如治疗反应)的基因组特征定义为基因组相关,将iGenSig定义为给定临床表型(如治疗反应)的冗余高维基因组相关的集合。iGenSig分析基于有治疗反应标记的基因组数据集的冗余基因组特征生成预测分数。使用未标记治疗反应的TCGA基因组数据,基于它们的共线性,然后通过自适应惩罚在特定样本中检测到的冗余特征,降低特征冗余的影响。
图1. iGenSig模型方法的原理、工作流程及算法
研究结果
1. 基于药物敏感性基因组数据集的iGenSig方法的开发
为开发iGenSig模型,作者使用了GDSC(Genomic Datasets of Drug Sensitivity)发布的989个癌细胞系的化学扰动的药物敏感性、基因表达谱数据和外显子组测序数据。对于药物反应测量,使用药物反应曲线下面积(Act Area),即拟合剂量-反应曲线(或1-AUC)上方的面积来定义敏感药物反应,而使用高AUC,即剂量曲线下的面积来定义耐药反应。根据文献报道,AUC和Act Area是比IC50更好的药物反应量化指标。为了统一多组学特征,作者制定了一种与编译基因概念类似的,用于编译二进制多组学特征的基因组特征矩阵转置(GMT, Genomic-feature Matrix Transposed)格式。使用这种格式,作者分析了来自GDSC的表达谱数据和外显子组测序数据,并汇编了包括上调基因、下调基因、突变基因和突变热点在内的基因组特征的综合数据集。为了增加iGenSig模型跨数据集的适用性,专门通过生成12个差异表达基因列表的交集引入新的特征冗余(图1a)。然后,使用加权Kolmogorov-Smirnov (K-S)检验来选择显著的基因组相关性,该检验将细胞系panel中每个基因组特征的富集程度按Act Area或AUC递减排序,类似于GSEA富集分析。之后,利用TCGA 9532个泛癌的RNAseq和外显子组数据,基于相似性度量来量化与每个细胞系相关的基因组特征之间的共现性,然后,这些数据被用来计算每个基因组特征的冗余惩罚分数。
为防止偏差过拟合,随机将80%的GDSC细胞系作为训练集,其余20%作为内部测试集,用于模型性能评估。对364种药物进行iGenSig建模,这些药物在癌细胞系中引起负偏态的药物反应分布,表明药物良好反应的狭窄效应以及至少有20个敏感细胞系受试者可获得反应。为了衡量模型的性能,我们根据之前研究建立的瀑布法将细胞系分为药物敏感组和非敏感组,并计算每种药物的ROC曲线下面积(Area Under ROC Curve, AUROC)。结果显示,196 种药物在测试集上的AUROC > 0.75(54%),20 种药物的ROCAUC > 0.85。iGenSig模型的预测能力似乎与每种药物可用的基因组相关性的数量显著相关(图2b),这表明iGenSig模型依赖于可用的基因组信息来预测药物反应。iGenSig分数与细胞系中的AUC药物测量值呈负相关,在训练和测试集中具有相似的趋势,如拉帕替尼模型所示(图 2c),表明iGenSig模型不会过度拟合训练集。接下来,根据GDSC细胞系中的iGenSig评分对药物靶向激酶信号进行聚类。泛癌细胞系对靶向五种激酶通路的药物形成了五个独特的敏感性簇。
图2. iGenSig模型在预测GDSC细胞系药物反应中的表现
2. 在药物敏感性的独立验证数据集上,iGenSig模型没有表现出性能损失
为了评估iGenSig模型的跨数据集性能,作者分析了CCLE(the Cancer Cell Line Encyclopedia)的RNAseq和外显子组测序数据。iGenSig模型在CCLE数据集上的预测性能似乎与它们在GDSC数据测试集上的性能相关(图3a)。以GDSC为训练集,CCLE为验证集,4种药物的模型AUROC均大于0.8。其中包括伊立替康、尼洛替尼、拉帕替尼和厄洛替尼,预测的AUROC分别为0.902、0.873、0.857和0.812(图3b)。与GDSC测试数据集相比,训练集在CCLE验证数据集上产生的iGenSig模型预测性能的偏差更低(图3a)。这可能是因为与CCLE验证数据集相比,GDSC测试数据集中的敏感细胞系数量更少导致的。
图3. iGenSig模型对CCLE药物敏感性的预测
3. 在BATTLE试验和SAKK 19/05试验中,iGenSig模型预测了受试者对厄洛替尼治疗的反应
接下来,作者测试了GDSC iGenSig模型在临床试验中预测受试者治疗反应的适用性。大多数针对靶向药物的临床试验,评估的是其与化疗的联合治疗,而不是单一治疗,这可能会混淆药物反应预测的结果。BATTLE试验(GSE33072)的基因组研究通过基因表达阵列分析了131例非小细胞肺癌(NSCLC)肿瘤样本,其中28例患者接受厄洛替尼单药治疗,47例患者接受索拉非尼单药治疗,20例患者接受凡德他尼治疗。在这项试验中,患者对厄洛替尼的反应是有限的,所有接受厄洛替尼治疗的患者在6个月内都有进展。尽管如此,无进展生存期(PFS)分析表明,厄洛替尼的GDSC iGenSig模型显著预测了这些患者在厄洛替尼组中的良好反应(图4a,左)。在该试验的三个主要治疗组中,与索拉非尼或凡德替尼组相比,GDSC厄洛替尼模型对厄洛替尼组显示出特定的预测效果(图 4a,右)。
瑞士SAKK 19/05试验联合使用厄洛替尼和贝伐珠单抗,作者在该试验中检验了模型的预测价值。有证据表明,厄洛替尼加入贝伐珠单抗显示出更高的治疗疗效。已知单独使用贝伐珠单抗对肺癌缺乏疗效,这种效果被认为是厄洛替尼活性增强的结果。SAKK 19/05试验是一项多中心单臂试验,在未经治疗的患者中进行。该研究提供的终点是厄洛替尼和贝伐珠单抗治疗后12周的客观反应,没有生存数据。厄洛替尼的GDSC iGenSig模型显示预测AUROC为0.795(图4b,左),这个预测值独立于EGFR突变状态(图4b,右)。在4例EGFR突变肿瘤患者中,只有具有最高iGenSig评分的肿瘤表现出客观的反应。这表明,虽然EGFR抑制适用于EGFR突变患者,但EGFR野生型患者也可能从EGFR抑制剂中获得显著益处,这可以通过iGenSig模型识别。厄洛替尼敏感反应中最显著的下调通路包括MYC和E2F靶基因signature(图4c),MYC的扩增介导对EGFR抑制剂的耐药性,靶向MYC被认为是克服获得性耐药的一种有前途的策略。
图4. iGenSig模型对美国BATTLE试验和瑞士SAKK 19/05试验患者生存期的预测
4. 在一项法国CIT多中心研究中,iGenSig模型可以预测结直肠癌患者对5-FU单药治疗的响应
测试iGenSig模型在预测化疗反应中的效用。大多数关于化疗药物的临床研究都集中在测试联合方案,但法国CIT项目开展的多中心临床研究是对5-氟尿嘧啶(5-FU)单药治疗术后结直肠癌患者的研究,该研究还测试了联合化疗方案,如FOLFIRI, FOLFOX和FUFOL。5-FU的GDSC iGenSig模型显著预测了5-FU单药组患者的总生存期(p = 0.002),风险比为0.27(图5a)。然而,这种预测效应在含5-FU的联合化疗治疗组试验中减弱(图5b)。5-FU敏感的iGenSig signature富集到的通路与厄洛替尼得到的信号通路相反,在敏感GDSC细胞系中,EMT信号通路为下调最高的信号通路,而MYC靶基因信号通路和干扰素γ信号为与敏感反应相关的上调最高的信号通路(图5d, e)。这表明对EGFR抑制剂耐药的肿瘤可能对5-FU治疗敏感。
图5. iGenSig模型对法国CIT多中心术后结肠癌患者队列中患者生存期的预测
5. 联合药物治疗的临床研究揭示了iGenSig模型的混杂因素
进一步探讨了GDSC iGenSig模型对靶向化疗联合或联合化疗方案临床试验的预测价值。从乳腺癌临床研究中确定了三个大型基因表达数据集,测试支持GDSC iGenSig模型的药物组合。首先在CALGB40601试验中检验了拉帕替尼模型的预测价值。拉帕替尼模型在ER阴性患者中具有显著的预测价值(p = 0.04,图6a)。紫杉醇模型只显示出与病理反应(pCR)不太多的关联(图6b)。基于拉帕替尼和紫杉醇模型的复合模型比单个模型的预测价值更高(图6c)。GDSC紫杉醇模型对远处无复发生存有一定的预测作用(p = 0.085),风险比为0.65(图6d)。之后,又检查了蒽环类药物治疗和其他临床变量,如AJCC分期、肿瘤分级、淋巴结状态、受体状态等是否会混淆iGenSig模型。结果显示,最容易混淆的变量是AJCC分期(p = 0.048),其次是表柔比星模型(p = 0.069)和肿瘤分级(p = 0.093)(图6e)。当按AJCC分期分组时,拉帕替尼模型和表柔比星模型在I-II期肿瘤中均显示出显著的预测价值,而在III期肿瘤中预测价值降低(图6f)。
图6. iGenSig模型对接受拉帕替尼和紫杉醇治疗的CALGB40601试验和测试紫杉-蒽环类联合化疗的新辅助临床研究的患者生存期预测
6. iGenSig算法与标准机器学习算法进行药物反应建模比较
对iGenSig算法与标准机器学习或深度学习算法的性能进行比较。首先,基于药敏标签进行岭回归和支持向量机(SVM)建模。对于基于AI的方法,通过自动编码器深度学习方法计算了用于降维的基因组特征的无监督结果。然后,应用这些算法模拟GDSC和CCLE数据集共有的14种药物的癌细胞敏感性,并模拟6个临床试验数据集中的患者反应。
结果表明,在所有建模方法中,iGenSig模型在临床试验数据集上的总体性能最高(图7)。岭回归和SVR/SVM模型比基于AI的模型效果更好,与CCLE验证数据集上的iGenSig模型相当(图7a)。这表明基于AI建模过程的降维,可能会降低跨数据集的预测性能。iGenSig模型在临床试验数据集上更好的性能,支持该算法设计在改善跨数据集建模方面的效果。
图7. 比较iGenSig算法和标准机器学习算法对药物反应的预测
讨论
iGenSig方法旨在解决基于大数据建模的透明性、跨数据集适用性和可解释性问题。在临床试验数据集的交叉适用性方面,iGenSig模型表现出了更好的性能,能够容忍基因组数据中的实验引起的变化和偏差。iGenSig模型可以在每一个步骤中进行管理,并通过本研究开发的signature富集分析轻松地对潜在的通路进行生物学解释。iGenSig模型的性能依赖于关键基因组相关的有效性,这为iGenSig模型在不同药物上的不同性能提供了见解。
iGenSig建模需要解决的问题是,如何消除由混杂因素(如性别)分布不平衡所导致的混杂基因组特征的影响,或者影响患者预后的因素(如转移等)。当用大量样本的细胞系建模时,这个问题可能对建模的影响较小,但当临床试验中受试者较少时,这个问题可能会变得很重要。这种情况下,可以通过多变量统计从iGenSig模型中识别和排除与混杂因素相关的基因组特征。此外,在评估iGenSig模型在预测患者生存结果方面的性能时,应通过多变量统计或分层方法考虑影响预后的混杂临床变量,例如局部或远处转移。这对于模拟联合药物治疗的临床试验特别有帮助,联合药物的治疗疗效,从单一药物治疗衍生的iGenSig模型的预测能力相对较弱。未来的研究需要进一步优化iGenSig方法来建模临床试验数据集,并考虑这些生物学变量和混杂因素。
结语
作为基于大数据的建模方法,iGenSig有望在基于药物基因组学和临床试验数据集的治疗反应建模中有广泛的应用。此外,iGenSig还可以应用于预测其他癌症行为,以促进临床决策,如原位癌的侵袭性,或临床局部肿瘤的转移潜力。 END
参考文献: [1] Wang, XS., Lee, S., Zhang, H. et al. An integral genomic signature approach for tailored cancer therapy using genome-wide sequencing data. Nat Commun 13, 2936 (2022). https://doi.org/10.1038/s41467-022-30449-7 撰写丨花花Liu 编辑、排版丨SX
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您