20分+ scBERT:基于大规模预训练深度语言模型的单细胞RNA-seq数据细胞类型注释
导语
基于单细胞RNA-seq数据注释细胞类型是研究疾病进展和肿瘤微环境的先决条件。现有的注释方法通常缺乏marker基因列表,对批次效应的处理不当以及难以利用潜在的基因 - 基因相互作用信息,从而缺乏泛化性和稳健性。本研究开发了一个基于预训练的深度神经网络模型,即基于transformers的双向编码表示(scBERT),以克服现有的挑战。遵循BERT的预训练和微调方法,scBERT通过对大量未标记的scRNA-seq数据进行预训练,获得了对基因-基因相互作用的理解;然后将其转移到看不见的和特异性的scRNA-seq数据的细胞类型注释任务中,以进行监督微调。广泛而严格的基准研究验证了scBERT在细胞类型注释、新型细胞类型发现、批次效应鲁棒性和模型可解释性方面的卓越性能。
背景介绍
今天小编为大家带来一篇基于深度学习的单细胞类型注释算法发表在20分+ Nature Machine Intelligence的思路。题目为 scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data。
数据介绍
由于模型训练包括两个阶段,即对未标记数据的自监督学习和对特定任务数据的微调,因此两个阶段中使用的数据集是从不同来源收集的,以避免数据泄漏。在第一阶段,大量没有注释的数据用于一般模式学习,PanglaoDB,而在第二阶段,需要具有良好注释的细胞标签的特定任务数据,以便对scBERT和SOTA方法进行后续系统基准测试。为此,我们仅纳入了提供高度可信的细胞类型注释的scRNA-seq数据集,并且已被大多数细胞类型注释方法引用用于性能评估。
研究设计
scBERT模型采用BERT的高级范式,并定制架构来解决单细胞数据分析。我们的模型与BERT的连接如下。首先,scBERT遵循BERT进行自我监督预训练,并使用Transformer作为模型骨干。其次,我们的嵌入设计在某些方面与BERT相似,同时具有利用基因知识的独特功能。从这个角度来看,表达式嵌入可以被视为BERT的token嵌入。由于打乱输入的列不会改变其含义,绝对位置对基因毫无意义。使用gene2vec来产生基因嵌入,这可以被视为捕获两个基因之间任何一种语义相似性的相对嵌入。第三,具有全局感受野的Transformer可以在没有绝对位置信息的情况下有效地学习全局表示和远程依赖关系,在非序列数据(如图像、表格)上取得优异的性能。
在NLP中,BERT模型的输入是词嵌入,这是预定义向量空间中的一组实值向量,表示单个单词。单词嵌入技术通过确保具有相似含义的单词具有相似的表示来帮助更好地表示文本。然而,从scRNA-seq方面来看,输入由单个基因构成,需要一个预定义的载体空间来表示它们之间的相似性。因此,研究使用gene2vec来专门编码基因嵌入。通过这种方式,借助过去知识提供的基因间关系,降低了模型训练的难度。
尽管有基因嵌入,但如何利用每个基因的转录水平也存在挑战,这实际上是一个连续变量。值得注意的是,文本中单词出现的频率是文本分析的宝贵信息,并且经常通过术语频率统计分析转换为词袋,用于NLP 领域的下游任务。基因表达也可以被认为是生物系统中已经充分记录的每个基因的出现。从这个见解出发,我们应用了传统使用的术语频率分析方法,该方法通过分箱离散连续表达式变量,并将它们转换为 200 维向量,然后将其用作 scBERT 模型的标记嵌入。
结果解析
01、scBERT算法
BERT的嵌入包括token和位置嵌入。本研究的嵌入设计在某些方面与BERT相似,同时具有利用基因知识的独特功能。原始BERT的标记嵌入是一个离散变量(代表一个词),而我们模型的原始表达输入是一个连续变量(代表单个细胞中基因的表达),具有生物学和技术噪声。我们利用NLP领域的词袋技术来分箱基因的表达(可以被认为是每个细胞中的基因转录频率),从而将它们转换为离散值,并在一定程度上降低数据噪声。从gene2vec获得基因嵌入来表示基因同一性(每个基因都有一个唯一的gene2vec嵌入),这可以被视为相对嵌入,以从一般共表达方面捕获语义相似性。共表达基因保留了更紧密的表征,并且基因的分布式表示已被证明可用于捕获基因 - 基因相互作用。通过这种方式,scBERT有效地形式化了Transformer的基因表达信息,并在预训练后生成代表细胞特异性表达的单细胞特异性嵌入(scBERT嵌入)。 其次,现有的单细胞方法必须通过基因的选择或操作(即HVG选择,手动选择标记基因和PCA)来预处理原始数据,因为它们有效建模高维数据 的能力有限;它们将不可避免地带来人为的偏差和过拟合问题,这反过来又可能严重损害它们的泛化性。相反,具有大感受野的transformer可以有效地利用scRNA-seq数据中的全局信息,并通过无偏捕获远程基因 - 基因相互作用来学习每个细胞的全面全局表示。由于计算的复杂性,Transformer的输入序列长度限制为512,而大多数scRNA-seq数据包含超过10,000个基因。因此,我们将BERT中使用的tansformer编码器替换为Performer ,以提高模型的可扩展性,以容忍超过16,000个基因输入。使用Performer,scBERT保留了完整的基因水平解释,放弃了HVG的使用和降维,让判别基因和有用的相互作用自己浮出水面。因此,scBERT允许以无偏的数据驱动方式发现基因表达模式和细胞类型注释的长期依赖性。scBERT稳定而健壮,而不是严重依赖超参数选择。
图1
02、评估数据集内细胞类型注释稳健性
本研究首先在9个scRNA-seq数据集上对scBERT的性能进行了比较,这些数据集涵盖了17个主要器官/组织,超过50种细胞类型,超过50万个细胞,以及主流的单细胞组学技术(Drop-seq,10X,SMART-seq和Sanger-Nuclei),综合考虑了数据大小的多样性以及数据的复杂性。基于标记基因的方法(SCINA,Garnett,scSorter),基于相关性的方法(Seurat v4,SingleR,scmap_cell,scmap_cluster,Cell_ID(c),Cell_ID(g))和基于机器学习的方法(SciBet,scNym)用于比较。对于每个数据集,我们应用了五重交叉验证策略,以避免随机结果对结论的影响。scBERT在大多数数据集的准确度和宏观F1得分方面都超过了比较方法(图2a)。
在数据集内,来自人外周血单核细胞(PBMCs)的Zheng68K数据集是最具代表性的对标细胞类型注释方法的数据集。由于严重的细胞类型失衡和亚型之间的极高相似性,即使是SOTA方法也无法达到0.71以上的准确度。scBERT的性能,完全删除报告的标记基因,已经与现有方法的最佳性能相当,证明了scBERT在基因表达上的模式识别能力优于那些严重依赖已知标记基因的方法。随着标记基因的加入,scBERT可以捕获由它们构建的更全面的基因表达模式。以所有基因为输入,scBERT在整体细胞上大大超过了SOTA方法(图2b,c;scBERT F1分数= 0.691,准确度= 0.759;其他方法的最佳F1得分= 0.659,准确度= 0.704),并在CD8 +细胞毒性T细胞和CD8 + / CD45RA + T细胞中实现了最高性能(F1评分= 0.788对0.617, P 值 = 9.025 × 10 −5 ;准确度 = 0.801 对 0.724,P 值 = 2.265 × 10 −5 ),它们高度相似,在以前的研究中很难区分。结果表明,scBERT经过预训练后可以识别潜在的基因表达模式和长距离基因-基因依赖性,通过多头注意力捕获不同的特征亚空间,并享受细胞类型特异性全局信息的全面高级表示。
为了探索参考数据集的单元格数量是否会影响scBERT的性能,我们通过从10%到90%的比例均匀地对它进行子采样,从Zheng68K数据集构建了一系列参考数据集(图2d)。由于只有30%的细胞,scBERT的性能优于所有其他方法,并且随着参考细胞数量的增加,其性能迅速提高。
接下来,我们测试了当细胞类型的分布严重偏倚时scBERT的稳健性。从Zheng68K数据集中选择四种细胞类型(CD8+细胞毒性T细胞,CD19 + B细胞,CD34 +细胞和CD8 + / CD45RA+幼稚细胞毒性细胞),每对之间具有转录组相似性,用于类不平衡测试。scBERT超越了所有其他方法(准确度= 0.840和F1分数= 0.826)。修拉将CD8+细胞毒性T细胞误认为CD8+/CD45RA+幼稚细胞毒性细胞,而SingleR则由于罕见而错误分类了所有CD19+ B细胞。然而,scBERT表现出最低的错误分类率,即使两个细胞群高度相似(图2e)。总体而言,结果表明scBERT对类不平衡数据集具有鲁棒性。
图2
03、跨队列和器官的细胞类型注释
在现实情况下,参考数据集和查询数据集总是来自多个研究,甚至是不同的测序平台,其中批次效应可能导致细胞类型注释性能不佳(图3a)。在这里,我们通过采用留一数据集策略对由不同测序技术。 基于机器学习的方法(scBERT、scNym和SciBet)取得了最好的结果,表明通过模式识别可以发现细胞类型特异性模式,而不受批量效应的影响;然而,修拉依赖于注释前的强制批量更正。对于跨队列数据,scBERT以较大的magin实现了卓越的性能,与scNym(准确性为0.904)相比,准确度为0.992,并且优于其他流行的方法,证明了我们的方法在跨队列任务中的卓越和稳定的性能。相比之下,scNym将α细胞错误地分类为β细胞类型,并被β细胞和δ细胞混淆(图3e,f)。然后,我们使用来自不同器官的细胞来对scBERT的性能进行基准测试,并在跨器官数据集上进行比较方法。实验结果表明,scBERT与跨器官任务的比较方法相当。scBERT在识别来自不同测序技术、实验、不同疾病状态(2型糖尿病和健康)甚至不同器官的细胞方面显示出其稳健性。
图3
04、发现新型细胞类型
在大多数任务中,参考数据集可能无法涵盖查询数据集中存在的所有像元类型。基于标记的方法受到手动选择的已知细胞类型的标记的阻碍,因此可能难以区分看不见的细胞类型;然而,基于相关性的方法通常会强制模型将新类分配给最接近的已知类。基于机器学习的方法可以通过检查预测概率来自动主动检测新的细胞类型。此外,scBERT享有一些潜在的优势。首先,多头注意力机制允许scBERT从不同的表示亚空间中提取信息,这可能是捕获新型和已知细胞类型之间细微差异的好处。其次,scBERT可能已经看到了这些新细胞,并在大规模、多样化的数据集上进行预训练时了解了它们的独特模式。第三,具有大感受野的Transformer可以通过捕获远程基因-基因相互作用来有效地学习全面的全局表征,这可以更好地表征和区分新细胞 。scBERT在新型细胞类型上表现最佳,在已知细胞类型上表现最佳(图4)。CellID_cell在已知细胞类型上表现良好,但未能发现任何新细胞。SciBet和scmap_cluster倾向于为已知类型的细胞分配未知标签,这大大降低了其已知细胞类型分类的准确性。与SciBet和scmap_cluster相比,我们的方法在新颖(scBERT = 0.329与SciBet = 0.174和scmap_cluster = 0.174)和已知(scBERT = 0.942与SciBet = 0.784和scmap_cluster = 0.666)类上都实现了更高的准确性。综上所述,这些结果表明scBERT可以正确发现原始参考数据集中不存在的新细胞类型,同时在预测其他细胞类型的性能方面保持准确。
图4
05、研究 scBERT 模型的可解释性
现有的机器学习方法由于其简化的网络架构和低模型容量而不得不选择HVG或降低维数,从而破坏了基因水平的可解释性。相比之下,scBERT中采用的注意力机制自然地为使用每个基因的模型决策提供了提示。 在这里,我们以Muraro数据集为例,为四种胰岛细胞提供了最受关注的基因列表,这些细胞具有经过充分研究的生物学功能(图5a)。最受关注的基因包括特定细胞类型的报告标记(α细胞的LOXL4和β细胞 的ADCYAP1;扩展数据图除标记外,几乎所有的顶级注意力基因都被鉴定为差异表达基因,使用DESeq 作为潜在的新标记(图5c)。例如,SCD5尚未被报道为β细胞的细胞类型特异性标志物,但在GWAS研究中,2型糖尿病易感性的新位点被精细映射到SCD 的编码变体。结果表明,scBERT有助于理解注释的细胞类型,并为进一步的生物学发现提供一定的支持。 使用各种基因集文库对前50个注意力基因列表进行富集分析;结果表明,富集最高的项与相应的细胞类型之间存在一些有趣的关系(图5b)。特别是,对于PanglaoDB的细胞类型相关基因集库,每种类型的前一个富集术语总是击中真正的细胞群。另一个例子是胰岛素分泌和AMPK信号通路,β细胞中前两个富集的KEGG通路,对β细胞功能至关重要。此外,基于聚类性能,scBERT嵌入对于细胞类型注释比原始基因表达更容易区分(ARI:0.95 vs 0.87),表明scBERT在学习单细胞特异性表示方面的效率,可用于下游分析(图5d)。
图5
讨论
始BERT的标记嵌入是针对离散变量(代表单词),而表达输入是连续变量(代表单个细胞中基因的表达),这可能具有生物学和技术噪声。scBERT将它们转换为离散值,因此与直接使用表达式值的现有方法相比,可以减少一些数据噪声;然而,它牺牲了一些数据分辨率,并且仍有优化模型输入的基因表达嵌入的空间。我们对表达式进行分箱的方法可能会导致一些分辨率损失。其次,基因相互作用通常以网络的形式存在(即基因调控网络和生物信号通路),而这种先验知识尚未明确纳入scBERT。在基于生物网络的图神经网络中聚合来自邻居的信息可以更好地模拟基因 - 基因相互作用。该想法可以通过使用scRNA-seq数据构建细胞水平图来应用于单细胞分析。由此看来,可以预见,transformer可能是scBERT未来的发展方向。第三,预训练期间的掩蔽效率是另一个值得优化的点。scBERT中当前的掩蔽策略通过非零掩蔽进行了简化。使用零膨胀输入,模型可能倾向于在预训练期间输出重建任务的所有零。因此,我们在预训练期间屏蔽了非零值并根据非零值计算了损失;但是,仅屏蔽非零值可能会降低单细胞数据在预训练中的利用率,因为它们很少。可以引入针对单细胞数据量身定制的先进掩蔽策略,以提高掩蔽过程的计算效率。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读