空间转录组(Spatially Resolved Transcriptoms, SRT)技术的发展让科研工作者能够测定组织样本中的所有基因活动,并定位该活动发生的位置。
空间转录组(Spatially Resolved Transcriptoms, SRT)技术的发展让科研工作者能够测定组织样本中的所有基因活动,并定位该活动发生的位置。了解组织中不同细胞的相对位置对于了解疾病病理至关重要,因为空间信息有助于了解细胞的基因表达如何受其周围环境的影响。在空间转录组数据分析中, 一个重要的步骤是区分不同的组织区域。在同一个组织区域内的细胞具有相似的的基因表达和形态结构。传统的聚类方法如 K-means 和 Louvain 通常只能将基因表达数据作为输入,而缺乏对空间信息和病理图像的利用,使其得到的组织区域划分不具有整体性和连续性,不能反映真实的组织结构。
在确定组织区域后, 另一个重要的问题是通过找到相应的空间变异基因(Spatially Variable Genes, SVGs)以推测区域的生物学功能。现存的寻找空间变异基因的方法往往独立的检查每个基因,并返回一个 p 值来表示其空间变异性。由于缺乏对组区域的考虑,这些方法检测到的基因没有特定的空间表达模式,难以用于进一步的生物学研究。
2021年10月28日,美国宾夕法尼亚大学佩雷尔曼医学院生物统计系李明瑶教授课题组(博士生胡健为第一作者)在 Nature Methods 期刊上发表了题为:SpaGCN: Integrating gene expression, spatial location and histology to identify spatial domains and spatially variable genes by graph convolutional network 的研究论文,提出了空间转录组数据分析的新算法SpaGCN。
李明瑶课题组开发的SpaGCN, 是一种利用图卷积网络分析空间转绿组数据, 从而划分不同组织区域并寻找区域富集基因的机器学习算法。
图1显示了SpaGCN算法的主要步骤。如图1a, SpaGCN 首先通过构建一张加权无向图(Undirected Weighted Graph)来将空间转录组中的基因表达、空间位置和病理学结构整合在一起。在这张加权无向图中, 每一个端点代表一个测序捕获区域(spot), 而连接两个端点的加权边则代表了两个测序捕获区域在空间和形态特征上的接近程度。之后, SpaGCN使用一个图卷积网络从构建好的图中进一步提取信息, 并把信息输送到一个分类层以将整个组织划分成不同的区域。之后,如图1b所示,SpaGCN将在每一个组织区域中寻找富集的空间变异基因,从而保证找出的基因具有相似的表达模式, 可用于进一步研究该组织区域的功能。对于难以找到富集基因的区域, SpaGCN将会生成一个复合基因来显示该区域的功能。
图 1: SpaGCN算法介绍
为了展示SpaGCN的优势,课题组分析了不同平台的空间转录组数据,包括 ST[5]、10X Visium、SLIDE-seqV2、STARmap和MERFISH, 并将SpaGCN的与Louvain, stLearn,BayesSpace这三种分类方法,以及SPARK和SpatialDE这两种基因检测方法进行了比较 。结果表明SpaGCN的性能始终优于其他现有方法。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您