Nat Methods | 空间转录组与单细胞转录组整合分析工具大比拼
由于大部分空间转录组的分辨率无法达到单细胞级别(Stereo-seq除外),因此目前空间转录组的数据分析还高度依赖于单细胞转录组数据的整合,以帮助空间转录组数据的表达量计算以及去卷积。
来自中国科学技术大学的研究团队利用45个配对数据以及32个模拟数据评估了16种单细胞转录组与空间转录组的整合工具,发现Tangram、gimVI、SpaGE在预测RNA的空间分布上更有优势,而Cell2location、SpatialDWLS、RCTD在细胞类型的去卷积上表现更佳。该文章于2022年5月在Nature Methods发表,以下是文章的详细解读。
文章题目:Benchmarking Spatial and Single-Cell Transcriptomics Integration Methods for Transcript Distribution Prediction and Cell Type Deconvolution
发表时间:2022-05-16
发表期刊:Nature Methods
主要研究团队:中国科学技术大学附属第一医院、合肥综合性国家科学中心人工智能研究院等
影响因子:48.000
DOI:10.1038/s41592-022-01480-9
软件、功能与原理
首先,研究人员介绍了几款软件与它们的基本原理。
具体评估内容
基于以上软件与功能,研究人员展开了以下评估。
首先,下文提到的空间转录组“ground truth”为通过变异系数挑选出的1,000个高变RNA(如果足够)数据集。
1. 预测RNA空间分布表达量
利用交叉验证,研究人员计算了空间转录组与整合方法处理后矩阵之间的Person相关系数(Pearson correlation coefficient,PCC),并通过一些经典的marker来举例论证,此处省略。为了全局评估各类工具的准确性,研究人员还引入了structural similarity index(SSIM)、root mean square error(RMSE)、Jensen-Shannon divergence(JS)这几个参数,简单理解来说,PCC与SSIM越高、RMSE与JS越低,则代表该工具的预测越准确。由图1c可知,Tangram、gimVI、SpaGE的表现相较于其他工具明显更优。对于1d-e中的accuracy score而言,依旧是这三款工具遥遥领先。
图 1 8种能够预测RNA转录本空间分布的整合方法的准确性
考虑到很多时候空间转录组与scRNA-seq的输入矩阵格式可能有所不同,通常有normalization data(N)和raw data(R)两种。因此空间转录组与scRNA-seq整合分析时的输入组合就有R-R、N-R、R-N、N-N这四种。研究人员同样评估了这四种输入方式对于分析精确度的影响。可以看出无论怎么切换输入方式,最优的工具仍是Tangram、gimVI、SpaGE;而R-R、N-R、R-N、N-N四种输入方式中R-R为最优解(图2)。
图 2 对8种能够预测RNA转录本空间分布的整合方法的准确性进行归一化分析
2. 矩阵稀疏性
对于单细胞测序和空间转录组而言,它们得到的矩阵均是稀疏矩阵,这意味着矩阵中存在着大量的0值。矩阵稀疏性是指0元素在表达矩阵中的占比。不出意外,即使是在稀疏度大于70%的矩阵中,仍然是Tangram、gimVI、SpaGE的AS值更高。
图 3 对45对空间转录组学和scRNA-seq数据集,每种整合方法预测的RNA转录本空间分布的PCC、SSIM、RMSE、JS和AS
3. 去卷积
由于分辨率的原因,空间转录组的最小分辨率spot通常包含数个到数十个,这时就需要去卷积来拆分出每个spot包含的细胞信息。Seurat、SpaOTsc、Tangram、novoSpaRC、Cell2location、SpatialDWLS、RCTD、Stereoscope、DestVI、STRIDE、SPOTlight、DSTG均提供此功能。在spot均已被注释共包含1,549个细胞、15个细胞类型的数据集10中,RCTD、Tangram、Cell2location的PCC最高,而AS值最高的为RCTD与Stereoscope(图4b-c)。在数据集4中,Tangram依旧可以排在第二名的位置(图4d)。
图 4 12种能够分解每个组织学spots的细胞类型的整合方法的性能比较
4. 计算性能
数据计算的完成度和精确性孰优孰劣可以争议,但对于相同样本量的计算时间却是一个可以直接衡量的指标,并且会即时获得对各位分析人员带来体验感的好坏。对于各个数据集的计算时间来说,Seurat和Tangram稳定更优,相较于尾部的算法来说,甚至能节省99%的时间。这一模块可以说是本研究最有价值的部分。
图 5 每种整合方法所消耗的计算机资源
最后,研究人员用一张图梳理了各个软件基于的编程语言、计算依赖(CPU/GPU)、各个精确度衡量方式中的表现、相同细胞数量的计算时间。大家可以收藏查看。
本文转载自:Biomamba 生信基地 ,作者BIOMAMBA
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读