BMC ：新合生物AI生信团队重磅发布MATHLA模型

2022

03/26

RNA药闻

A-

A+

MATHLA预测模型将助力新合生物在基于 T 细胞的免疫治疗疫苗开发方面的领先地位，以用于治疗癌症和预防传染病。

近年来，基于特异性T细胞的免疫治疗不断发展，靶标抗原识别是免疫治疗过程的重要一环，准确预测I类人类白细胞抗原（Class I HLA）与新表位多肽之间的结合对于基于个性化靶标的T细胞免疫疗法至关重要。

实际上，根据深度学习算法和质谱数据开发的许多新型预测工具显示出对I类HLA-多肽相互作用的平均预测能力的改进，然而他们的预测性能显示其在单个HLA等位基因结合的不同长度的多肽上具有巨大差异。

目前C类HLA家族的等位基因由于训练数据相对较少，已有的工具在HLA-C等位基因结合的多肽上的预测性能也有不足之处，很多深度学习算法只能针对数十个特定的HLA亚型进行预测而不具有泛化能力。因此开发能准确预测更长的I型HLA亚型的表位多肽和HLA-C等位基因结合多肽的泛HLA亚型和多肽结合的深度学习框架，对提升个性化T细胞免疫治疗的覆盖度和效果具有重要意义。

94481647480169843

2021年1月，新合生物AI生信团队作为唯一参与团队在BMC Bioinformatics以Research Article的形式独立发表题为：“MATHLA: a robust framework for HLA‑peptide binding prediction integrating bidirectional LSTM and multiple head attention mechanism”的文章，介绍了新合生物基于双向LSTM和多头注意力机制自主开发的泛等位基因HLA-肽结合预测模型—— MATHLA。

6421647480191898

MATHLA 预测模型的网络结构

新合生物AI生信团队提出的MATHLA预测模型是一种新的基于深度学习网络的HLA表位结合预测方法，其分别通过双向LSTM表征较长序列的上下文依赖性以及通过多头注意力机制从不同角度评估序列中各位置的氨基酸对亲和力的影响程度。

据悉，该领域的其他方法大多需要使用预定义的“填充”规则从而确保输入算法的序列长度相同，造成大量的资源浪费以及学习焦点不集中等问题，而MATHLA允许输入序列具有灵活刻板的长度（8至15个氨基酸）。与此同时，研究者选择了双向长短期记忆网络来捕获多肽的氨基酸残基之间的上下文依赖性，并利用多头注意力机制使网络的学习焦点集中于可能对亲和力产生重要影响的位置。

9031647480212238

通过五折交叉验证测试进行的模型评估

为了评估模型性能和稳健性，新合生物AI生信团队对MATHLA与国际上另外三个性能优秀的HLA表位结合预测方法进行了五折交叉验证测试。为了避免偶然因素导致的实验偏差，该测试在不同分组上重复进行了十次，并计算得分的平均值与标准偏差。结果显示，MATHLA 实现了0.964 的最佳平均 AUC 得分，而 netMHCpan 4.0、MHCflurry 和 ACME 的平均AUC 得分分别为 0.945、0.925 和 0.905。

同时，研究者还通过五折交叉验证检查了不同工具对长度为 8 到 15 个氨基酸的肽的预测性能。实验结果表明，MATHLA 在模型性能和配体可变长度的稳健性方面均优于现有的工具（MATHLA在15aa预测精度上的降幅相对9aa仅为6.6%，而netMHCpan 4.0的降幅高达24.6%），在新等位基因上的表现优于现有的泛等位基因模型。

受到 MATHLA 对非训练集重叠 HLA-C 等位基因的预测性能被显著改善的观察的启发，研究者进一步比较了MATHLA模型对不同超家族 I型HLA分子的性能，最终在测试集涉及的21个HLA-C等位基因上，MATHLA在90.5%的等位基因（19个）的预测性能上都优于竞争模型，表明MATHLA显著提高了HLA-C等位基因与多肽亲和力预测的准确性。

28481647480228310

HLA伪序列和肽序列注意模型中两个头部（头部0和头部1）的权重得分热图

为了更好地解释MATHLA模型对于HLA-多肽结合的潜在模式，新合生物还研究了对应于不同超家族I型HLA分子以及不同长度配体的注意力权重分数。除了在头部 0 向量中观察到HLA-多肽结合预测领域发现的共识模式之外，MATHLA从头部 1 向量中观察到了全新的以及更多样化的模式。特别对于HLA-C 配体来说，MATHLA所解释的独特的权重模式可以解释为什么MATHLA模型与其他 HLA-C 多肽预测工具相比，具有更好的稳定性和预测精度。

综上所述，本研究基于双向LSTM和多头注意力机制提出了MATHLA预测模型，该模型在五折交叉验证测试和独立测试数据集中相比国际知名算法均表现出更好的预测准确性，尤其是在12至15个氨基酸范围内的长配体的预测准确性方面显著优于现有工具。

MATHLA预测模型将助力新合生物在基于 T 细胞的免疫治疗疫苗开发方面的领先地位，以用于治疗癌症和预防传染病。