单细胞最新入门教程系列(一):你该选择哪种scRNA-Seq测序技术解决你的生物学问题?
问题测验
什么是单细胞RNA-seq,它与批量RNA-seq相比如何?
scRNA-seq有哪些典型的应用?
如何制备scRNA-seq样品?
一些最流行的协议之间有什么区别,它们的优点和缺点是什么?
在scRNA-seq中应考虑哪些实验设计选择?
与批量数据相比,scRNA-seq数据有哪些挑战?
背景介绍
RNA-seq允许以高效且具有成本效益的方式分析样品中的转录本。这是00年代后期的重大突破,此后变得越来越流行,在很大程度上取代了其他转录组分析技术,如微阵列。其成功的部分原因是RNA-seq允许对样品中的所有转录本进行无偏采样,而不是局限于一组预先确定的转录本。通常,RNA-seq已用于由细胞混合物组成的样品中,称为体RNA-seq,并且具有许多应用。例如,它可用于表征健康/患病、野生型/突变型或对照/处理样品中组织之间的表达特征。或者在进化研究中,使用不同物种的组织样本的比较转录组学[参考文献]。除了用于转录本定量外,它还可用于在模型和非模式生物中查找和注释新基因、基因亚型和其他转录本。然而,使用批量RNA-seq,我们只能估计每个基因在细胞群中的平均表达水平,而不考虑该样本中单个细胞之间基因表达的异质性。因此,它不足以研究异质系统,例如早期发育研究或复杂组织,例如大脑。
为了克服这一限制,开发了允许在单细胞水平(scRNA-seq)应用RNA- seq的新协议,并于2009年首次发表(Tang等人,2009)。这项技术从2014年左右开始变得更加流行,当时新的协议和更低的测序成本使其更容易获得。与批量方法不同,使用scRNA-seq,我们可以估计每个基因在细胞群中的表达水平分布。这使我们能够回答转录组中细胞特异性变化很重要的新生物学问题。例如,发现新的或稀有的细胞类型,识别健康/疾病组织之间的差异细胞组成或了解发育过程中的细胞分化。该技术最具标志性的用途之一是构建基因图谱,它提供了生物体细胞多样性的全面纲要,在健康和基础研究中有许多应用。
图1 组织与单细胞RNA-seq的比较
scRNA-seq数据集的范围从每项研究的数百到数百万个细胞不等,并且规模每年都在增加。有几种不同的协议可用,包括商业和开放访问,每种协议都有自己的优点和缺点。
图2 测序技术发展示意图
测序技术介绍
01、样品制备协议
从广义上讲,典型的scRNA-seq协议包括以下步骤(如下图所示):
组织解剖和细胞解离以获得细胞悬浮液。
细胞挑选(例如基于膜标记物、荧光转基因或染色染料)。
将单个细胞捕获到单独的反应容器(例如孔或油滴)中。
从每个细胞中提取RNA。
将RNA逆转录为更稳定的cDNA。
使用足够的分子适配器制备测序文库。
测序,通常使用配对端 Illumina 协议。
处理原始数据以获得逐个细胞的基因计数矩阵。
进行多项下游分析。
大多研究者通常只关注最下游的数据分析,但重要的是要考虑在此之前的一些步骤,因为它们会影响我们获得的数据的属性。
图3
目前有各种各样的方案来制备scRNA-seq数据,每个方案都有自己的优点和缺点,但两个最重要的方面是细胞捕获或分离以及转录本定量。
图4
02、细胞捕获
用于捕获细胞的策略决定了实验的通量(即我们分离了多少个细胞),在测序之前如何选择细胞,以及除了转录本测序之外可以获得什么样的附加信息。三种最广泛使用的选择是基于微量滴定板、基于微流控阵列和基于微流体液滴的方法。
图5
Microtitre-plate:微量滴定板方法依赖于使用移液、显微切割或荧光活化细胞分选 (FACS) 等方法将细胞分离到板的各个孔中。基于良好的方法的一个优点是可以在文库制备之前拍摄细胞的照片,从而提供额外的数据模式。例如,可以识别并丢弃受损的细胞或找到含有双联体的孔(具有两个或多个细胞的孔)。使用自动FACS分选时,还可以将细胞大小和任何所用标签的强度等信息与孔坐标相关联,从而与下游分析中的单个细胞指数相关联。这些方法的主要缺点是它们通常通量低,每个单元所需的工作量可能相当可观。
Microfluidic-array:微流体阵列平台,如Fluidigm的C1,为捕获细胞和执行文库制备所需的反应提供了一个更加集成的系统。因此,它们比基于微量滴定板的方法提供更高的通量。通常,只有大约10%的细胞在微流体平台中被捕获,因此如果处理稀有细胞类型或非常少量的输入,则不适合它们。还必须注意阵列捕获的细胞大小,因为纳米孔是针对特定尺寸定制的(因此这可能会影响复杂组织中细胞的无偏采样)。而且,该芯片相对昂贵,但由于反应可以在较小的体积中进行,因此可以节省试剂费用。
Microfluidic-droplet:微流体液滴方法提供最高的通量,是当今最常用的方法。它们通过将单个细胞与珠子一起封装在纳升大小的油滴中来工作。磁珠中装有构建文库所需的酶和其他成分。特别是,每个磁珠都包含一个唯一的条形码,该条形码连接到源自该细胞的所有测序读数。因此,所有液滴都可以汇集在一起,排序在一起,随后可以根据这些条形码将读数分配给原产细胞。液滴平台的文库制备成本相对较低,约为 0.05 美元/细胞。相反,测序成本通常成为限制因素,并且典型的实验覆盖率很低,仅检测到几千个不同的转录本(Ziegenhain等人,2017)。
03、转录本量化
有两种类型的转录本量化:全长和基于标签。全长协议试图在整个转录本上实现统一的读取覆盖率,而基于标签的协议仅捕获 5' 或 3' 端。定量方法的选择对数据可用于哪些类型的分析具有重要意义。 为单细胞制备全长文库与在体RNA-seq中制备的方法基本相同(图6),并且仅限于基于板的方案,例如SMART-seq2。尽管理论上全长方案应该提供转录本的均匀覆盖,但有时整个基因体的覆盖可能存在偏差(图7)。全长协议还允许检测剪接变体,这是其他协议很难做到的。
图6
图7
对于基于标签的协议,仅对转录本的一端(3'或5')进行测序。基于标签的协议的主要优点是它们可以与统一分子标识符(UMI)结合使用,这有助于提高转录本定量的准确性。这种改进的原因与文库制备过程中的PCR扩增步骤有关,该步骤为每个分子创建多个重复拷贝。由于这种扩增是指数级的,因此分子可能在最终文库中的表达不公平,导致由于这些PCR重复而导致对其表达的高估。为了解决这个问题,细胞条形码被唯一地标记了一个随机核苷酸序列,即UMI,因此它是单个分子独有的。该UMI是测序读取的一部分,然后在量化转录本的丰度时可以计算考虑在内。目前大多数scRNA-seq协议都是基于标签的,包括流行的基于液滴的10x Chromium协议,如下图所示。基于标签的协议的一个缺点是,仅限于转录本的一端,它降低了我们明确地将读取与转录本对齐的能力,并且难以区分不同的亚型(Archer et al. 2016)。
04、实验设计之协议选择
在进行scRNA-seq实验时需要考虑几个因素。每个细胞的成本、需要多少细胞或每个细胞测序多少等因素都可能影响我们对方案的选择。另一方面,必须注意避免由于批次在不同时间处理而导致的偏差,并且缺乏足够的复制也可能限制可以完成的分析类型,从而限制我们回答某些感兴趣问题的能力。 最合适的平台取决于手头的生物学问题。例如,如果一个人对表征异质组织的组成感兴趣,那么基于液滴的方法更合适,因为它允许以大部分无偏的方式捕获大量细胞。另一方面,如果对表征具有已知表面标记物的特定细胞群感兴趣,那么最好使用FACS富集,然后在更高的测序深度对较少数量的细胞进行测序。 显然,如果有兴趣研究不同的亚型,全长转录本定量将更合适,因为标记方案在这方面要有限得多。相比之下,UMI只能与标记方案一起使用,它们可以改善基因水平的定量。 如果一个人对稀有细胞类型感兴趣(没有已知的标记物),那么需要更多的细胞进行测序,这将增加实验的成本。Satija实验室已经开发了一个有用的工具来估计要测序的细胞数量。 决定使用哪种方法的另一种方法是依靠专门用于比较不同协议的研究。这些研究侧重于灵敏度(每个细胞检测到多少基因)、准确性(例如与体积RNA-seq相比)以及它们回收样品中存在的所有细胞类型的能力(在市售细胞混合物上测试)等问题。例如,Ding 等人 2020 年的一项研究说明了与高通量方法(例如 10x Chromium)相比,低通量方法具有更高的灵敏度(下图)。另一方面,低通量方法无法捕获样品中一些更稀有的细胞类型,导致细胞群表征不完整。
Ziegenhain等人的另一项研究(Ziegenhain等人,2017)比较了同一小鼠胚胎干细胞(mESCs)样本的五种不同方案,得出了相似的结论。最后,Svensson等人(Svensson等人,2017)的一项研究使用已知浓度的合成转录物(加标)来测量不同方案的准确性和灵敏度。通过比较广泛的研究,他们还报告了方案之间的实质性差异(下图)。
随着协议的开发和改进,以及量化技术噪声的新计算方法的出现,未来的研究可能会帮助我们进一步了解不同方法的优势。这些比较研究不仅有助于决定使用哪种协议,而且有助于开发新方法,因为基准测试可以确定哪些策略是最有用 的策略。 除了方案之间的通量和灵敏度差异外,在计划scRNA-seq实验时,成本也可能是一个决定性因素。很难准确估计一个实验的成本,尽管我们指出Satija实验室的这个工具是一个起点。例如,一些基于液滴的协议(如Drop-seq)比商业替代品(如10x Chromium)便宜。但是,它们要求实验室配备准备库,以及训练有素的工作人员和专门的时间。 诸如细胞散列(Stoeckius等人)之类的方法可以进一步降低使用当前平台进行测序的成本。该方法特别包括将寡核苷酸标签附着到细胞膜上,允许每个实验加载来自多个样品的更多细胞,以后可以在分析过程中解复用。
05、实验设计之数据准备
体积和单细胞RNA-seq之间的主要区别在于,每个测序文库代表单个细胞,而不是细胞群。因此,没有办法在单细胞水平上进行“生物复制”:每个细胞都是独一无二的,不可能复制。相反,可以通过它们的相似性对细胞进行聚类,然后可以在相似细胞组之间进行比较。 单细胞RNA-seq的另一个重大挑战是每个细胞的起始材料量非常低。这导致数据非常稀疏,其中大多数基因仍未检测到,因此我们的数据包含许多零。这些可能是由于基因未在细胞中表达(“真正的”零),或者基因表达但我们无法检测到它(“脱落”)。这导致细胞间变异并不总是生物学的,而是由于跨细胞的PCR扩增不均匀和基因“脱落”(在一个细胞中检测到一个基因,但在另一个细胞中不存在引起的技术问题(Kharchenko,Silberstein和Scadden 2014))。提高转录本捕获效率和减少扩增偏差是这些问题的解决方案,也是技术研究的活跃领域。但是可以通过适当的数据规范化来缓解其中一些问题。 要考虑的另一个重要方面是批量效应。即使使用不同的技术对相同的材料进行测序(下图),也可以观察到这些,如果没有得到适当的归一化,可能会导致错误的结论。
样品的处理也应避免实验控制的变量(例如治疗、基因型或疾病状态)与样品制备和测序时间之间的混淆。例如,如果计划一项实验来比较10名患者的健康和患病组织,如果每天只能处理10个样本,最好每天一起做5个健康+5个患病样本,而不是一天准备所有健康样本,另一天准备所有患病样本(图)。另一个考虑因素是确保组织样本的复制。例如,从器官收集组织时,从器官的不同部位采集多个样本可能是一个好主意。或者考虑一天中收集样本/重复的时间(由于基因表达的昼夜节律变化)。总之,在进行scRNA-seq时,应考虑实验设计中的所有常见最佳实践。
小结
1. scRNA-seq非常适合研究异质细胞群。例如,识别组成组织的细胞类型,为不同的细胞类型定义“转录指纹”,研究细胞分化,探索由于疾病或环境因素引起的细胞组成变化等
2. 典型的样品制备工作流程包括 分离单细胞(或细胞核)、将 RNA 转化为 cDNA、制备测序文库 (Illumina) 和测序。
3. 已经开发了许多单细胞协议,其中一些是公开可用的,另一些是商业提供的。这些方法的主要区别在于它们的通量(每次实验捕获多少细胞)、定量类型(全长或基于标签的)和成本。
4. SMART-seq2是一种流行的低通量方法,提供全长转录本定量。它非常适合于更详细地研究一小群细胞(例如,差异同种异构体的使用,低表达转录物的表征)。
5. 10x Chromium是一种流行的高通量方法,使用UMIs进行转录本定量(从3 '或5 '端)。它非常适合于研究高度异质性的组织和大规模取样的大量细胞。
6. 在计划实验时,应注意避免由于批效应造成的混淆,并确保足够的复制水平以解决感兴趣的问题。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读