申请认证 退出

您的申请提交成功

确定 取消

10分+ 使用单细胞数据预测序列模序对基因调控的影响

2023-08-21 11:44

卷积神经网络可用于从单细胞数据中同时推断调控基序序列及其相对重要性。使用scRNAseq数据,这使我们能够在启动子处找到TF结合基序以及它们对基因表达水平的影响。

导语

转录因子在近端启动子和远端增强子处的结合是基因调控的核心。识别调控模序并量化其对表达的影响仍然具有挑战性。使用在单细胞数据上训练的卷积神经网络,本研究推断出假定的调控基序和细胞类型特异性的重要性。我们的模型scover解释了多个小鼠组织中基因表达方差的29%。将scover应用于使用来自发育中人脑的scATAC-seq鉴定的远端增强子,我们鉴定了远端增强子中的细胞类型特异性基序活性。Scover可以从单细胞数据中识别调控基序及其重要性,其中所有参数和输出都易于解释。

背景介绍

今天小编为大家带来一篇使用单细胞数据预测序列模序对基因调控发表在10分+ Genome Biology的思路。题目为   Predicting the impact of sequence motifs on gene regulation using single-cell data   。  

89311692402214297

数据介绍

人类肾脏数据集从下载。研究从下载了20个Tabula Muris FACS分类的Smart-Seq2数据集。处理后的人脑数据集是使用来自的链接下载的。可以在 访问合并数据集。

研究设计

研究使用卷积神经网络scover从单细胞数据中从单细胞数据中从头发现调控基序及其细胞谱系特异性影响(图1a,b)。scover将一组单热编码序列(例如启动子或远端增强子)作为输入,以及其活性的测量,例如相关基因的表达水平或增强子的可及性水平。输出是一组与卷积滤波器关联的基元,以及每个输出池中每个基元的影响分数向量。Scover是使用PyTorch框架实现的,与scanpy工作流程兼容,并且在 https://github.com/jacobhepkema/scover 的MIT许可证下可用。

测序实验中的单细胞测量通常具有大部分零。为了克服随之而来的挑战,scover通过将一组种子细胞的k-最近邻(默认k = 100)的值相加以生成“合并”数据集来降低稀疏性(图1a)。此策略不依赖于现有的细胞类型注释,并且还保留了细胞内的可变性,而不是取现有细胞注释的平均值。初始种子细胞通过几何草图选择,几何草图在数据集的表示中均匀采样细胞,保留罕见的细胞状态。使用k最近邻图可确保pool中的大多数像细胞来自相同的细胞类型。pool的细胞类型注释由池中丰度最高的细胞类型决定。

研究使用多个指标来评估不同池大小的影响。本手稿中考虑的数据集的结果在池大小方面是稳健的,用户需要在模型准确性和细胞类型分辨率之间取得平衡。我们还发现,池往往相对均匀,一种细胞类型占>80%。我们确认了另一种池化策略导致了类似的同质性,这表明我们的方法是稳健的。序列被馈送到单个卷积层中,其中代表调控基序的d(默认d = 600)滤波器在馈送到神经网络层之前被组合,从而产生预测的表达值。该网络包括一个独立于输入序列的偏置项,它可以被认为是代表基因表达的所有其他决定因素。浅层架构需要较少的参数,这允许使用较小的输入数据集,并且更有可能找到整个基元表示。

由于神经网络是使用随机方法优化的,因此可以通过运行r次(默认r = 10)并排除在少于50%的模型中发现的基序来实现可重复性。为了便于概述找到的基序,scover会自动将这些基序与CIS-BP 中注释的基序进行比较。随机初始化的卷积滤波器可能会收敛以识别序列输入中丰富的类似序列。为了组织rd基序,根据它们最重要的基序对齐方式,将它们分配给其他地方发布的预先指定的基序簇(图1c)。

当多个TF识别基序簇的基序时,需要额外的信息来识别最可能的蛋白质。尽管仅转录组数据是不够的,但我们可以通过计算基序簇c中基序的总和影响分数与TF在所有池中的表达水平之间的Spearman相关性r来对候选者进行排名。我们假设如果 |r|如果很高,则TF更有可能绑定到其同源位点。

51531692402214858

图1

结果解析

01Scover识别人肾中的调节基序

BERT的我们将scover应用于来自人类胎儿和成人肾脏的scRNAseq数据集,该数据集共包含67,471个细胞。1 kb输入序列位于每个表达基因的转录起始位点(TSS)的上游和下游500nt。我们使用d=600,在6000个卷积过滤器中,13.3%可以分为16个对应于已知基序的可重复家族(图2a,b),根据对大量进行的染色质可及性实验的分析,其中许多先前已被报道对肾脏很重要。对顶端不对齐基序的分析表明,许多与ETS基序或富含GC的基序相对应,这表明它们可能具有生物学意义。基于验证集,scover模型平均解释了基因表达方差的15%,如果排除不匹配的基序,性能平均下降到9%。在每个序列中排列核苷酸的顺序后,性能平均下降到5%。为了确保scover学习特定于细胞类型的模型,我们还进行了一项对照实验,其中池顺序被排列,之后平均只能解释6%的方差。作为额外的基准,我们使用FIMO首先识别基序,然后,我们使用线性回归或随机森林模型,其中包含20个估计量,并将基序作为解释变量来预测基因表达。这两个模型只能解释12%和10%的方差,这表明我们同时识别基序及其权重的策略提供了更好的拟合。 为了简化结果的呈现,我们将60种细胞类型分为五类:内皮细胞,免疫细胞,肾单位上皮细胞,肾单位祖细胞和基质细胞。为了可视化基序,我们还使用主成分分析(PCA)应用降维,揭示了两个主要组,第一个由肾单位上皮和免疫细胞组成,第二个由肾单位祖细胞,内皮细胞和基质细胞组成(图2c)。第三个主要成分将免疫细胞和内皮细胞与其他成分分开。这个结果并不奇怪,因为基序分数反映了底层 的表达矩阵,并且表明没有扭曲聚类。 由于影响评分方面最大的差异之一是肾单位祖细胞和肾单位上皮细胞之间的差异,我们通过进行伪时间分析来研究发育轨迹。这揭示了祖细胞如何向三种不同的命运分支:足细胞,Henle环和近端小管(图2d)。针对后者,我们计算了与肾小管发育相关的六个标志物的表达水平与影响评分之间的相关性,以揭示SNAI2和Ebox/CACCTG的强关联(图2e)。这表明我们不仅可以将影响力分数与离散类别相关 联,还可以与连续过程相关联。

72211692402215168

图2

尽管启动子具有一些不同的序列特征,但也存在相当大的多样性以允许差异调节。为了可视化这种多样性,我们将UMAP降维应用于包含每个启动子中推断基序出现的矩阵,然后我们根据其基序得分为每个点分配颜色(图3a)。有趣的是,发起人根据其主题内容分开;Ebox基序在几乎所有启动子中都很丰富,而E2F和YY1则表现出相反的富集。这表明一些基序在类似监管的启动子中发现,而其他基序则在广泛的启动子中发现,因此可能参与广泛的程序。同样,通过计算跨池的基序家族影响分数之间的相关性,我们观察到基序家族分为两个主要组,在一个簇中具有富含GC的KLF和E2F基序,进一步强化了基序存在高阶组织的概念。

由于多个TF可以竞争结合相似的基序,因此我们制定了一种策略来确定哪些TF可以假定为每个基序家族观察到的影响分数。我们通过将基序家族影响评分与这些基序家族中TF的表达水平相关联来做到这一点,假设TF表达与其活性相关,正如NF-κB所建议的那样[37]。TF表达和影响分数的比较表明,与16个基序家族相关的132个TF中有55个与|r|>0.5和显著p值密切相关(图3b)。这些相关性可用于确定哪些推定的TF更可能对应于网络预测。例如,虽然YY1和YY2与ATGG核心具有非常相似的基序,但YY1具有更高的相关性,这表明YY2对应于网络预测的可能性较小(图3c)。同样,虽然NRF1与影响力评分具有中等相关性,但它更可能对应于最近表征的TF BANP,该TF BANP识别类似的CGCG基序,因为它与影响力评分具有更高的相关性。但是,我们不能排除多个TF对应于同一基元集群。例如,E2F4 和 E2F6 都与 E2F/2 集群网络影响评分呈中等相关性。基序簇和TF之间的负相关可能表明存在抑制作用。例如,我们发现SNAI2权重与SNAI2表达呈强负相关,证实了其抑制作用。

39401692402215244

图3

0220种小鼠组织中调控基序的表征

研究将scover应用于来自Tabula muris的20个组织,总共包含67种细胞类型和38,080个细胞。6000个卷积滤波器中只有717个匹配13个不同的基序家族,其中11个与人类肾脏相同(图4a,b)。

我们发现与任何数据库基序都不匹配的基序非常富含GC,有时类似于已知的基序,并且在没有它们的情况下,解释的方差比例平均从28%降低到14%。此外,排列序列中核苷酸的顺序将解释的方差比例降低到7%,排列池的顺序将解释的方差比例降低到14%。与肾脏数据类似,使用FIMO查找基序,然后使用线性回归或随机森林(有20个估计器)来确定它们的权重提供了较差的拟合,分别解释了24%和20%的方差。

我们将细胞类型分类为脂肪细胞、结缔细胞、内分泌细胞、内皮细胞、上皮细胞、外分泌细胞、免疫细胞、大胶质细胞细胞、肌肉细胞、神经元细胞和周细胞。影响评分矩阵的降维揭示了三个不同的组:免疫细胞、神经元和剩余细胞(图4c),与表达分析一致。ETS的影响得分最高,其次是KLF和YY1。我们分析了数据集中所有启动子的基序组成。ETS是最丰富的基序,而KLF,E2F和Ebox专门存在于启动子的子集中(图5a)。

14191692402215314

图4

研究假设,除了在特定细胞类型中具有更高的活性外,鉴定出的基序还将与不同的细胞过程集相关联。我们从基因本体(GO)数据库中获得了16,610个代表不同过程的基因列表,对于每个列表,我们计算了基因的平均表达与跨池的影响分数之间的相关性。我们将相关分数前 1% 的术语保留下来,我们发现主题分为两个主要集群,而 GO 术语分为三组(图 5b)。令人欣慰的是,免疫细胞中最高的基序的影响评分与与免疫相关术语相关的基因呈正相关。该组中的一些TF簇(ETS,YY1)先前已被报道对免疫细胞很重要。第二组对应于主要与分化和形态发生相关的GO术语。该组的特点是E2F和KLF的高活性。第三组更难描述,我们不确定生物学解释。TF表达水平和基序活性评分的比较揭示了几种已知的调节原理(图5c)。例如,与ETS/1影响分数相关性最高的TF是Elf1、Elf4和Fli1。ETS/1在免疫细胞中的高分表明这些TF在免疫细胞功能中发挥作用。事实上,Elf1、Elf4和 Fli1都被描述为在调节与免疫系统相关的转录程序中发挥作用。Ebox/CACCTG与Tcf4的负相关反映了其作为抑制因子的拟议作用。在其他情况下,表达水平可以区分TF影响:Yy1和Yy2都与YY1家族影响水平相似相关,并且它们结合相似的基序,但Yy1具有更高的表达水平,使其更有可能是TF对下游表达具有更高的影响。

7101692402215374

图5

03识别人类大脑皮层中的远端调节基序

为了证明scover除了分析启动子和scRNAseq数据的多功能性,研究通过分析来自发育中的人类大脑皮层的多模态scRNA+ATAC-seq数据,用它来推断开放染色质的调控基序。由于我们对远端调控元件感兴趣,因此仅考虑了相对于注释TSS在[-8 kb,2 kb]区域之外的292,338个位点。在对开放染色质区域的连续可及性进行训练后,我们可以通过考虑细胞池中TF的表达值将基序家族影响评分与候选TF相关联(图6a)。 在对可访问性数据进行训练后,我们发现了 38 个基序簇。该模型解释的方差分数与肾脏scRNAseq数据相似,为19%。同样,该模型能够学习细胞类型特定的基序,因为在池的排列中,解释的方差分数降低到8%。与scRNAseq数据集不同,使用FIMO识别的基序的线性回归模型表现稍好,解释了26%的方差,这表明联合发现基序及其影响分数的优势较小。我们发现最常见的基序是HD/2同源域、E-box和RFX3基律。它们还显示出最高的主题分数。我们发现的基序比两个scRNAseq数据集多,表明比启动子具有更大的多样性,尽管值得记住的是,这里的远端调控元件几乎要多一个数量级。与scRNAseq数据类似,不同集群的影响得分 范围几乎有两个数量级。 影响评分的低维表示再次表明,对应于相同细胞类型的池被分组在一起,与密切相关的细胞类型(例如谷氨酸能神经元)非常接近(图6c)。通过叠加基序影响评分,我们注意到几个基序在细胞类型中表现出不同的活性(图6d)。鉴于可能的大量基序组合,这意味着染色质可及性可以以细胞类型特异性方式进行调整。有趣的是,两个最常见和最有影响力的基序,两个识别CACCTG和CAGCTG 的E-box,显示出相反的影响分数模式,尽管在序列水平上存在细微差异。 最后,我们使用相关的scRNAseq数据来研究相应TF的表达水平,提供有关几种基序和TF的进一步见解(图6e)。例如,据报道,MEF2基因根据其辅助因子同时充当激活剂和抑制因子。我们的分析表明,对于这个发育阶段,MEF2基序与谷氨酸能神经元中较小的峰大小相关,但在其他细胞类型中没有显着影响。此外,与表达水平的比较强烈表明MEF2C降低了远端位点的染色质可及性。同样,我们观察到TBR1的抑制功能,与以前的报道一致。

95591692402215448

图6

讨论

在这里,本研究提出了一个卷积神经网络模型,该模型可以应用于一组序列,例如,启动子或开放染色质区域的子集,每个区域都与实值向量相关联。因此,该模型是灵活的,可以应用于广泛的场景。特别是,它非常适合单细胞数据,在这里,我们使用两种不同形式的单细胞数据探索推断的调控基序及其跨细胞类型的活性。以前开发调控基序定量模型的尝试仅限于组织水平或细胞系或免疫细胞,并且他们经常使用组蛋白标记而不是序列来预测表达水平。与现有主要识别序列中过度代表性的基序的分析方法不同,scover还确定了每个基序对基因表达的相对影响。通过与基因表达水平进行比较,这些分数可用于查明与观察到的模式相关的推定TF。

卷积神经网络可用于从单细胞数据中同时推断调控基序序列及其相对重要性。使用scRNAseq数据,这使我们能够在启动子处找到TF结合基序以及它们对基因表达水平的影响。应用于来自人类肾脏和多个小鼠组织的数据揭示了共同的调节模式。最后证明了该框架还可用于scRNA+ATAC-seq数据和来自发育中人脑的数据分析。

不感兴趣

看过了

取消

单细胞,模序,基因,数据

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交