曾坚阳课题组本科生提出预测RBP结合位点新方法

浏览量:
2017年06月28日

 

RNA结合蛋白(RBP)是一大类在RNA后转录加工和调控中发挥重要作用的蛋白质,使用计算方法准确学习和预测它们在转录组上的结合位点对研究它们的调控功能来说很有帮助。在计算生物学领域中,人们从未停下探索这一问题的脚步。最近,来自交叉信息研究院机器学习与计算生物学课题组的本科生李舒雅、董方宏、吴月昕等在导师曾坚阳助理教授的指导下,提出了一个基于深度学习模型deep boostingRBP结合位点预测的新方法(DeBooster)。这一工作相关论文A deep boosting based approach for capturing the sequence binding preferences of RNA-binding proteins from high-throughput CLIP-seq data近日发表于英国著名期刊Nucleic Acids Research(《核酸研究》)。

该研究工作通过学习高通量的CLIP-seq实验数据来预测新的RBP结合位点,不仅可以得到比已有方法更好的预测效果,还降低了模型的复杂度,做到了更加高效便捷。前人的预测方法多依赖RNA二级结构或三级结构的预测作为特征输入,因此需要占用很多的时间和计算资源。而DeBooster仅依赖序列信息就可以更好的预测效果,在实际应用中有着更多优势,尤其适合被用来处理高通量基因组数据。

研究提出的新方法可以被广泛应用在各种RBP调控相关的分析中。它的预测结果一方面可以被已有文献验证,另一方面也可以提供一些新的假设。比如说,DeBooster的预测结果可以解释RNA解螺旋酶MOV10mRNA稳定性的调控,还可以很好地模拟原癌基因ERBB2上的突变对ELAVL1蛋白结合的强度和位置的影响。DeBooster能够区分RNA编辑酶ADAR1的两种潜在的不同种类的结合位点,并且暗示了这两种不同的结合位点可能受到不同程度的RNA编辑。另外,DeBooster的预测分数可以成为研究突变效应(尤其是RBP作用密集的RNA剪切位点附近的突变效应)的一个参考指标。

《核酸研究》是国际核酸研究领域的权威专业期刊,2016年度影响因子为10.162。此项工作同清华大学生命科学学院的刘晓老师和美国加州大学河滨分校的姜涛教授合作完成。论文的共同第一作者李舒雅、董方宏、吴月昕均为清华大学本科生,论文通讯作者为交叉信息院曾坚阳助理教授。研究工作得到国家自然科学基金和清华大学结构生物学高精尖创新中心的经费支持。

论文链接:https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkx492