SNP(单核苷酸多态性)Meta分析:史上最全通熟易懂教程

2021
06/30

+
分享
评论
临床科研与meta分析
A-
A+





SNP(单核苷酸多态性)Meta分析:一文搞定模型构建与数据处理

 
很多同学来问:学习SNPmeta分析过程中,最大的困惑就是数据的处理:看别人文章里用到很多遗传模型,这些模型代表什么意义、为什么要这么做、又是如何实现的(模型如何构建、数据如何处理)???求助啊小编!
其实很简单,今天这篇文章就用最简单易懂的方式解释一下。
阅读本文,你可能需要一下基础:(1)掌握一般的Meta分析(二分类变量的Meta分析)的流程,特别是数据提取和处理过程;(2)单核苷酸多态性(SNP)的入门知识及其命名方法。如果以上知识不清楚,请先稍微学习哦!有了基础,再来类比SNP Meta,轻松得多。
首先,一句话说明:SNP Meta分析,从方法学上来说与二分类变量的Meta分析是类似的,没有新的东西,大家可以类比。唯一差别就是提取的数据不同,而遗传模型的作用,就是把这些不同的数据转化成二分类变量的形式,以便下一步运算和处理。请读者牢记这一点,下面的讲解过程中自己注意类比和思考;听完下面的讲解,再回过头来体会一下这句话!
下面以实例讲解,数据来源:Yang Y, Wang W, Liu G, et al. Association of single nucleotidepolymorphism rs3803662 with the risk of breast cancer[J]. Scientific Reports, 2016, 6.
这篇文章研究的SNP名叫rs3803662,其实就是DNA上的一个位点,核苷酸可以是T或者C。可以将T/C理解为两种等位基因,那么单个个体的基因型就有3种:CCCTTT
(注:一条染色体上DNA有双链,SNP的表示中,统一只写出正义链,例如我们说某位点是C,就是指该染色体上正义链是C、反义链是G,反义链是不用写出的哦,所以我说某个人的基因型是CC,表示他两条染色体都是正义链是C、反义链是G,而不是说他的某条染色体上的两条DNA链都是C哦。这一点和本文的数据处理过程关系不大,为了清晰理解,还是说明一下~)。
好了,继续通过这篇文章的实例进行讲解。选题:rs3803662多态性与乳腺癌风险的关系。检索、文献筛选、数据提取过程就不讲了,如上述,请类比二分类变量的Meta分析。
SNP Meta纳入的原始文献是一般是病例对照研究(case-control),如果是一般的二分类变量Meta分析,提取的数据如果是下表这样的(2x2表格数据),如果是这种数据,大家是不是就能轻易的放到stata或者revman中运算,做出森林图了呢?

但是,实例文章提取出了每篇文献的原始数据,如下表。因为单个个体的基因型有3种(CC/CT/TT),是三分类变量,和我们想要的不一样,怎么办呢?
这里就到了关键之处,遗传模型的应用!还记得本文开头说的吗,遗传模型在这里的作用,就是把三分类变量(表2,一行6个数据)转化成二分类变量(表1,一行4个数据)的形式。具体怎么操作呢?就是把CC/CT/TT这些东西,和暴露/非暴露联系起来呗!
实例文章中,C为野生型,T为突变型突变/野生暴露/非暴露如何扯到一起呢?
我们以显性模型(Dominant model)为例讲解。我们可以理解为:受突变基因影响并表现出性状的,定义为暴露组,即暴露于某个危险因素(在这里是遗传因素,确切的说是rs3803662多态性中突变型T的影响)。因为是显性模型,所以TTCT都表现出突变性状(暴露于T,受T影响),CC为野生性状。根据我们的定义,TT+CT为暴露组,CC为非暴露。这样,我们就可以将表2转化为表1啦!如下图哦,变成了二分类变量,下一步大家就会了吧?

再来解释一个,隐性模型(Recessive model)。定义:受突变基因影响并表现出性状的,定义为暴露组,即暴露于某个危险因素(在这里是遗传因素,确切的说是rs3803662多态性中突变型T的影响)。因为是隐性模型,所以只有突变纯合子TT表现出突变性状(暴露于T,受T影响),CCTC为野生性状。根据我们的定义,TT为暴露组,TC+CC为非暴露。
好啦,模型构建和数据处理讲到这里,是不是已经很清楚啦!其他的模型,大家自己体会吧,不再一一讲解啦。
模型
暴露组
非暴露组
比较
等位基因模型
Allele model
T=2xTT+1xCT
C=2xCC+1xCT
T  vs C
显性模型
Dominant model
TT+CT
CC
TT  + CT vs CC
隐性模型
Recessive  model
TT
CT  + CC
TT  vs CT + CC
杂合模型
Heterozygote model
TC
CC
TC  vs CC
纯合模型
Homozygote model
TT
CC
TT  vs CC
加性模型
additive model


TT  + CC vs CT
 
最后,有一些问题要说明一下:
1、这么多模型,怎么选择?
答:一般的文献中,会同时采用上表6种模型的前五种或前三种;也有部分文献同时采用前3+加性模型(如我们的案例文献)。
2、这些模型有什么意义?为什么要做这么多模型?
答:各个模型是如何构建的,代表什么含义,上述已经讲解的很清楚啦~5种模型的意义都很好理解,容易解释加性模型如何解释,是个难点哦,欢迎大家留言交流讨论~
做这么多模型,我认为意义至少有二:(1)多个模型分析,若该SNP位点与乳腺癌风险有关系,还能了解大致遗传方式。(2)万一某个模型结果是阴性(没有关联)呢?多做几个模型、多做点亚组,尽量找出阳性结果,文章的意义不就出来拉~哈哈。个人认为较有说服力的还是等位基因模型。
3、例如本文的rs3803662位点,可以是CT,如何确定哪个是野生、哪个是突变?
答:一般选择频率低的那个等位基因当作突变型(最小等位基因频率,MAF)。怎么判断哪个是频率较低的呢?可以看纳入原始文献的数据,也可以参考NCBISNP数据库。例如实例文章,若根据纳入的原始文献,多数文献报道T的频率较低,所以选择T为突变型。

想知道学会这个的后果吗?小编告诉你,学会了这个,后果很严重,不信你看看。国内某专家201-2016发表SNP相关meta。  






本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
核苷酸,多态性,突变型,教程,数据,基因

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!