申请认证 退出

您的申请提交成功

确定 取消

如何进行单细胞测序?Cell Ranger V6 单细胞测序教程来了

2021-05-29   作图丫

如何进行单细胞测序?单细胞测序很难吗?Cell Ranger能够通过直接读取原始下机测序数据,进行比对、定量、聚类、可视化及下游分析,利用

Cell Ranger测序很方便。


导语

GUIDE 

Cell Ranger作为由10X官方开发的配套分析软件,在单细胞分析中被应用的很多。我们之前给大家介绍过这款软件的主要模块,今天我们继续介绍一下这款模块的具体使用。   

 
正文




Cell Ranger是10X公司专门为单细胞RNA测序数据量身打造的分析软件,能够通过直接读取原始下机测序数据,进行比对,定量,聚类, 可视化以及更多的基因表达分析的下游分析,并且结合配套的浏览平台Loupe Browser为用户提供互动式的可视化功能,为大家的分析工作提供的很大的便利。文中软件信息及代码均从Cell Ranger官网获取【1】。

Cell Ranger针对的是基于3`建库的单细胞RNA测序数据,最近升级到了version 6.0,在算法流程和分析模块上面有了一些更新,新版本中功能在之前四大模块的基础上又新增加了一个,主要包括:
  • cellranger mkfastq

  • cellranger count

  • cellranger aggr

  • cellranger reanalyze

  • cellranger multi (新增模块)

在上一篇Cell Ranger V6 (一)中我们详细介绍了mkfastq,count和aggr模块的使用,大家感兴趣的话可以看看。这里我们详细介绍一下剩余的两个模块。

模块04  
cellranger reanalyze  

模块count和aggr分别用于基因表达的定量和数据整合,在他们的输出结果中分别都有一个二级分析结果的文件夹 (/outs/analysis/),该文件夹包含了降维、聚类、差异表达分析等结果,均显示为CSV文件,而对应的可视化结果则在网页版报告中(/outs/web_summary.html)。我们知道在这些二级分析中涉及到许多的参数设置,而参数的改变也能得到不同的结果。模块reanalyze则针对这些分析设置了相应的参数,用户可以根据需要自行改变,对feature-barcode表达矩阵重新进行二级分析。
与agrr模块类似,我们可以将想调整的参数保存在CSV文件中,然后设置—params来运行



$ cellranger reanalyze --id=MySamples_reanalysis \                       --matrix=MySamples/outs/filtered_feature_bc_matrix.h5 \                       --params=MySamples_reanalysis.csv #存放调整的参数

下表中列出了可以一些常用的可在CSV文件中调整的参数供大家参考:

参数

Default

参考取值范围

描述

num_analysis_bcs
Null
<=现有的细胞数目
随机抽取N个细胞的子集用于分析
num_pca_bcs
Null
<=现有的细胞数目
在PCA计算中随机将数据集拆分为N个细胞的子集;PCA计算仍然用于整体数据,如果分析中内存不足可尝试降低参数。
num_pca_genes
Null
<=参考转录组中的基因数
在PCA计算时,将基因按照normalized dispersion排序,选取top N 个基因;如果分析中内存不足可尝试降低参数。
num_principal_comps
10
10-100
计算PCA的N个主要成分
cbc_knn
10
5-20
指定用于识别相互最近邻居的最近邻居数;数目设置过高容易导致内存不够。
graphclust_neighbors
0
10-500
指定在聚类中使用的最近邻数目;数目越低聚类数目越多。
max_clusters
10
10-50
计算K-mean聚类时设置的K值
tsne_input_pcs
Null
<=num_principal_comps
用于TSNE的top N个主成分
tsne_perplexity
30
30-50
用于设置TSNE图的离散效果
tsne_max_dims
2
2或3
TSNE图的维度
umap_input_pcs
Null
<=num_principal_comps
用于UMAP的top N个主成分
umap_n_neighbors
30
[5,50]
指定在UMAP中使用的最近邻数目
umap_max_dims
 
2
2或3
UMAP图的维度
random_seed
0

修改随机数能稍微改变TSNE和UMAP效果图

可以看到可以调整的参数有很多,以上列出的大多是跟聚类和可视化小图相关的参数。在处理细胞数目较大或类别较多的数据集时,可以尝试提高主成分个数(num_principal_comps)或者聚类类别(max_clusters);在遇到内存问题时,可以尝试设置num_pca_bcs和num_pca_genes来限制内存的使用,避免内存不足的情况。


模块05  
cellranger multi  

该模块是Cell Ranger最新的V6版本中新添加的,作用与count模块类似,用于表达矩阵的定量,而multi模块主要用于3’端建库的cell multiplexing数据,除此之外,仍然建议使用count模块。
Cell multiplexing 指的是用分子标签标记细胞或细胞核样本,然后将该样本与其他标记的样本混合,并一起制备文库和测序。该操作的优势是提高实验中的细胞通量。


该模块的运行方法与count类似,也需要设置一个CVS文件列出library和实验设计的变量:


$ cellranger multi --id= MySamples --csv=/home/MySamples.csv


Multi模块运行结果如下所示,包含multi和per_sample_outs两大块,其中multi文件夹中的文件是整个multiplexing实验的通用信息,而per_sample_outs则是拆分后的单个样本信息,这也是我们后续分析会用到的。



 
小编总结





Cell Ranger的众多模块中使用频率最高的模块当属count模块。一般情况下,我们拿到的10X测序数据都是fastq文件格式,通常是不需要我们从下机文件开始处理,通过count模块生成表达矩阵后,分析人员通常会用其他分析工具如Seurat,scanpy等来进行后续分析。虽然reanalyze模块提供了较多的参数,但是依然还没有Seurat或scanpy等软件强大。虽然如此,Cell Ranger的分析结果仍然是一个非常全面的初步质检报告,为我们接下来的分析提供了很大的帮助。


Reference:

【1】https://support.10xgenomics.com/single-cell-gene-expression/software/overview/welcome


不感兴趣

看过了

取消

单细胞测序,测序数据,单细胞分析,单细胞

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报