如何进行单细胞测序？Cell Ranger V6 单细胞测序教程来了

2021-05-29 作图丫

如何进行单细胞测序？单细胞测序很难吗？Cell Ranger能够通过直接读取原始下机测序数据，进行比对、定量、聚类、可视化及下游分析，利用

Cell Ranger测序很方便。

导语

GUIDE ╲

Cell Ranger作为由10X官方开发的配套分析软件，在单细胞分析中被应用的很多。我们之前给大家介绍过这款软件的主要模块，今天我们继续介绍一下这款模块的具体使用。

正文

Cell Ranger是10X公司专门为单细胞RNA测序数据量身打造的分析软件，能够通过直接读取原始下机测序数据，进行比对，定量，聚类，可视化以及更多的基因表达分析的下游分析，并且结合配套的浏览平台Loupe Browser为用户提供互动式的可视化功能，为大家的分析工作提供的很大的便利。文中软件信息及代码均从Cell Ranger官网获取【1】。

Cell Ranger针对的是基于3`建库的单细胞RNA测序数据，最近升级到了version 6.0，在算法流程和分析模块上面有了一些更新，新版本中功能在之前四大模块的基础上又新增加了一个，主要包括：

cellranger mkfastq
cellranger count
cellranger aggr
cellranger reanalyze
cellranger multi （新增模块）

在上一篇Cell Ranger V6 (一)中我们详细介绍了mkfastq，count和aggr模块的使用，大家感兴趣的话可以看看。这里我们详细介绍一下剩余的两个模块。

模块04

cellranger reanalyze

模块count和aggr分别用于基因表达的定量和数据整合，在他们的输出结果中分别都有一个二级分析结果的文件夹（/outs/analysis/），该文件夹包含了降维、聚类、差异表达分析等结果，均显示为CSV文件，而对应的可视化结果则在网页版报告中（/outs/web_summary.html）。我们知道在这些二级分析中涉及到许多的参数设置，而参数的改变也能得到不同的结果。模块reanalyze则针对这些分析设置了相应的参数，用户可以根据需要自行改变，对feature-barcode表达矩阵重新进行二级分析。

与agrr模块类似，我们可以将想调整的参数保存在CSV文件中，然后设置—params来运行：

$ cellranger reanalyze --id=MySamples_reanalysis \                       --matrix=MySamples/outs/filtered_feature_bc_matrix.h5 \                       --params=MySamples_reanalysis.csv #存放调整的参数

下表中列出了可以一些常用的可在CSV文件中调整的参数供大家参考：

参数	Default	参考取值范围	描述
num_analysis_bcs	Null	<=现有的细胞数目	随机抽取N个细胞的子集用于分析
num_pca_bcs	Null	<=现有的细胞数目	在PCA计算中随机将数据集拆分为N个细胞的子集；PCA计算仍然用于整体数据，如果分析中内存不足可尝试降低参数。
num_pca_genes	Null	<=参考转录组中的基因数	在PCA计算时，将基因按照normalized dispersion排序，选取top N 个基因；如果分析中内存不足可尝试降低参数。
num_principal_comps	10	10-100	计算PCA的N个主要成分
cbc_knn	10	5-20	指定用于识别相互最近邻居的最近邻居数；数目设置过高容易导致内存不够。
graphclust_neighbors	0	10-500	指定在聚类中使用的最近邻数目；数目越低聚类数目越多。
max_clusters	10	10-50	计算K-mean聚类时设置的K值
tsne_input_pcs	Null	<=num_principal_comps	用于TSNE的top N个主成分
tsne_perplexity	30	30-50	用于设置TSNE图的离散效果
tsne_max_dims	2	2或3	TSNE图的维度
umap_input_pcs	Null	<=num_principal_comps	用于UMAP的top N个主成分
umap_n_neighbors	30	[5,50]	指定在UMAP中使用的最近邻数目
umap_max_dims	2	2或3	UMAP图的维度
random_seed	0		修改随机数能稍微改变TSNE和UMAP效果图

可以看到可以调整的参数有很多，以上列出的大多是跟聚类和可视化小图相关的参数。在处理细胞数目较大或类别较多的数据集时，可以尝试提高主成分个数（num_principal_comps）或者聚类类别（max_clusters）；在遇到内存问题时，可以尝试设置num_pca_bcs和num_pca_genes来限制内存的使用，避免内存不足的情况。

模块05

cellranger multi

该模块是Cell Ranger最新的V6版本中新添加的，作用与count模块类似，用于表达矩阵的定量，而multi模块主要用于3’端建库的cell multiplexing数据，除此之外，仍然建议使用count模块。

Cell multiplexing 指的是用分子标签标记细胞或细胞核样本，然后将该样本与其他标记的样本混合，并一起制备文库和测序。该操作的优势是提高实验中的细胞通量。

该模块的运行方法与count类似，也需要设置一个CVS文件列出library和实验设计的变量：

$ cellranger multi --id= MySamples --csv=/home/MySamples.csv

Multi模块运行结果如下所示，包含multi和per_sample_outs两大块，其中multi文件夹中的文件是整个multiplexing实验的通用信息，而per_sample_outs则是拆分后的单个样本信息，这也是我们后续分析会用到的。

小编总结

Cell Ranger的众多模块中使用频率最高的模块当属count模块。一般情况下，我们拿到的10X测序数据都是fastq文件格式，通常是不需要我们从下机文件开始处理，通过count模块生成表达矩阵后，分析人员通常会用其他分析工具如Seurat，scanpy等来进行后续分析。虽然reanalyze模块提供了较多的参数，但是依然还没有Seurat或scanpy等软件强大。虽然如此，Cell Ranger的分析结果仍然是一个非常全面的初步质检报告，为我们接下来的分析提供了很大的帮助。

Reference：

【1】https://support.10xgenomics.com/single-cell-gene-expression/software/overview/welcome