BMC :新合生物AI生信团队重磅发布MATHLA模型

2022
03/26

+
分享
评论
RNA药闻
A-
A+

MATHLA预测模型将助力新合生物在基于 T 细胞的免疫治疗疫苗开发方面的领先地位,以用于治疗癌症和预防传染病。

近年来,基于特异性T细胞的免疫治疗不断发展,靶标抗原识别是免疫治疗过程的重要一环,准确预测I类人类白细胞抗原(Class I HLA)与新表位多肽之间的结合对于基于个性化靶标的T细胞免疫疗法至关重要。

实际上,根据深度学习算法和质谱数据开发的许多新型预测工具显示出对I类HLA-多肽相互作用的平均预测能力的改进,然而他们的预测性能显示其在单个HLA等位基因结合的不同长度的多肽上具有巨大差异。

目前C类HLA家族的等位基因由于训练数据相对较少,已有的工具在HLA-C等位基因结合的多肽上的预测性能也有不足之处,很多深度学习算法只能针对数十个特定的HLA亚型进行预测而不具有泛化能力。因此开发能准确预测更长的I型HLA亚型的表位多肽和HLA-C等位基因结合多肽的泛HLA亚型和多肽结合的深度学习框架,对提升个性化T细胞免疫治疗的覆盖度和效果具有重要意义。

94481647480169843 

2021年1月,新合生物AI生信团队作为唯一参与团队在BMC Bioinformatics以Research Article的形式独立发表题为:“MATHLA: a robust framework for HLA‑peptide binding prediction integrating bidirectional LSTM and multiple head attention mechanism”的文章,介绍了新合生物基于双向LSTM和多头注意力机制自主开发的泛等位基因HLA-肽结合预测模型—— MATHLA。

6421647480191898

MATHLA 预测模型的网络结构

新合生物AI生信团队提出的MATHLA预测模型是一种新的基于深度学习网络的HLA表位结合预测方法,其分别通过双向LSTM表征较长序列的上下文依赖性以及通过多头注意力机制从不同角度评估序列中各位置的氨基酸对亲和力的影响程度。

据悉,该领域的其他方法大多需要使用预定义的“填充”规则从而确保输入算法的序列长度相同,造成大量的资源浪费以及学习焦点不集中等问题,而MATHLA允许输入序列具有灵活刻板的长度(8至15个氨基酸)。与此同时,研究者选择了双向长短期记忆网络来捕获多肽的氨基酸残基之间的上下文依赖性,并利用多头注意力机制使网络的学习焦点集中于可能对亲和力产生重要影响的位置。

9031647480212238

通过五折交叉验证测试进行的模型评估

为了评估模型性能和稳健性,新合生物AI生信团队对MATHLA与国际上另外三个性能优秀的HLA表位结合预测方法进行了五折交叉验证测试。为了避免偶然因素导致的实验偏差,该测试在不同分组上重复进行了十次,并计算得分的平均值与标准偏差。结果显示,MATHLA 实现了0.964 的最佳平均 AUC 得分,而 netMHCpan 4.0、MHCflurry 和 ACME 的平均AUC 得分分别为 0.945、0.925 和 0.905。

同时,研究者还通过五折交叉验证检查了不同工具对长度为 8 到 15 个氨基酸的肽的预测性能。实验结果表明,MATHLA 在模型性能和配体可变长度的稳健性方面均优于现有的工具(MATHLA在15aa预测精度上的降幅相对9aa仅为6.6%,而netMHCpan 4.0的降幅高达24.6%),在新等位基因上的表现优于现有的泛等位基因模型。

受到 MATHLA 对非训练集重叠 HLA-C 等位基因的预测性能被显著改善的观察的启发,研究者进一步比较了MATHLA模型对不同超家族 I型HLA分子的性能,最终在测试集涉及的21个HLA-C等位基因上,MATHLA在90.5%的等位基因(19个)的预测性能上都优于竞争模型,表明MATHLA显著提高了HLA-C等位基因与多肽亲和力预测的准确性。

28481647480228310

HLA伪序列和肽序列注意模型中两个头部(头部0和头部1)的权重得分热图

为了更好地解释MATHLA模型对于HLA-多肽结合的潜在模式,新合生物还研究了对应于不同超家族I型HLA分子以及不同长度配体的注意力权重分数。除了在头部 0 向量中观察到HLA-多肽结合预测领域发现的共识模式之外,MATHLA从头部 1 向量中观察到了全新的以及更多样化的模式。特别对于HLA-C 配体来说,MATHLA所解释的独特的权重模式可以解释为什么MATHLA模型与其他 HLA-C 多肽预测工具相比,具有更好的稳定性和预测精度

综上所述,本研究基于双向LSTM和多头注意力机制提出了MATHLA预测模型,该模型在五折交叉验证测试和独立测试数据集中相比国际知名算法均表现出更好的预测准确性,尤其是在12至15个氨基酸范围内的长配体的预测准确性方面显著优于现有工具。

MATHLA预测模型将助力新合生物在基于 T 细胞的免疫治疗疫苗开发方面的领先地位,以用于治疗癌症和预防传染病

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
模型,多肽,结合,等位基因,预测

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交