RNA结合蛋白 (RBP) 在转录、RNA代谢以及翻译过程中起重要的调控作用。CLIP实验技术作为RNA研究最重要的技术之一,可以解析RBP在整个转录组上的结合图谱,是系统理解一个RBP功能及其调控机制的基础。但CLIP实验费时费力,一次只能提供某一RBP在特定细胞环境下的RNA结合位点,而且对于实验材料要求较高,很多情况下不能顺利开展。然而研究发现,蛋白质和RNA的结合随着细胞环境的变化可能发生很大的改变,因而研究蛋白质对RNA的调控需要相同细胞环境的结合信息。这两方面因素加起来对使用CLIP研究蛋白质-RNA结合提出了很大的挑战。从计算角度来说,目前已有的预测RBP结合位点的方法,毫无例外都是基于RNA序列以及从序列出发预测的RNA结构。序列本身在不同细胞环境里面是没有什么变化的,因而这些方法都不能解决RBP在不同细胞环境下结合动态变化的问题。 2021年2月23日,清华大学生命学院张强锋课题组在Cell Research 杂志发表了题为 :Predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures(使用人工智能方法基于细胞内RNA结构预测蛋白质-RNA动态相互作用)的研究长文。 该工作首先使用icSHAPE实验解析了七种常用细胞类型的RNA二级结构图谱,并开发人工智能算法整合实验获得的细胞内RNA结构以及对应细胞环境的RBP结合信息,建立了基于细胞内RNA结构信息预测细胞内RBP动态结合的新方法PrismNet(图1)。 图1 PrismNet模型构建以及应用 RNA结构是RNA功能和调控的基础。科研工作者通过X射线晶体衍射、核磁共振、冷冻电子显微镜等方法解析了大量RNA结构,揭示了许多体外RNA结构的重要功能。近年来,通过人为引入细胞内RNA化学修饰,开发高通量测序技术,可以在全转录组水平检测细胞内的RNA二级结构。这种新的RNA系统生物学的研究方法,揭示了RNA结构参与转录后调控的规律和机制。张强锋课题组一直致力于RNA结构领域的研究。张强锋研究员作为主要开发者参与开发了探测细胞内RNA结构和相互作用的icSHAPE技术与PARIS技术。 在此基础上,通过整合亚细胞分离技术,张强锋课题组发现细胞内RNA结构在细胞内不同亚细胞环境会发生动态变化,并且RNA结构的变化会影响RBP的结合。张强锋课题组与杨运桂、刘峰课题组合作,通过斑马鱼胚胎发育过程不同阶段RNA结构动态变化的研究,发现RNA结合蛋白Elavl1a及其靶标RNA结构变化共同作用,调控斑马鱼早期胚胎母源RNA降解的新机制。 在之前研究的基础上,作者系统比较了多个RBP在K562和HepG2细胞之间结合位点的差异,发现相同RBP在不同类型细胞之间结合位点差异巨大。进一步通过关联比较两个细胞系的全转录组RNA结构,作者发现在不同细胞系间RBP结合差异位点显著富集在RNA结构差异位点。这显示了RNA结构信息对不同细胞内RBP结合位点的预测具有重要作用。 作者通过整合细胞内RNA结构信息以及对应细胞系的RBP结合信息,利用深度神经网络,构建了预测RBP结合位点的PrismNet模型。该模型在168个人类RBP结合的CLIP数据集上进行了训练学习和检验,发现其预测准确率显著高于之前仅仅利用RNA序列以及整合基于序列预测得到的RNA结构的方法,预测和CLIP实验结果的吻合度甚至达到或超过同一条件下两个CLIP实验的吻合度(图2)。显然,细胞内RNA结构信息对于预测准确率的提高起到了重要作用。有意思的是,作者发现RNA结构信息对于提高双链结合蛋白预测准确率的帮助更大。 图2 PrismNet与其他方法预测准确性比较。A,PrismNet与其他方法预测IGF2BP1在EIF3F转录本上的结合。B-D,PrismNet与其他方法比较(B-C)以及不同数据训练模型的预测准确性(D)。