非经典开放阅读框(non-canonical open-reading frame, ncORF)是已知的编码序列(coding sequence, CDS)之外的能够翻译的ORF,可以作为顺式元件起调控作用,也能编码有功能的微蛋白。近年来,ncORF受到越来越多的关注,也出现了很多基于核糖体图谱测序(ribosome profiling, Ribo-Seq)数据来鉴定ncORF的生物信息学工具,但这些方法的表现与优缺点尚未得到系统评估。2023年9月4日,Journal of Genetics and Genomics在线报道了兰州大学生态学院张宏团队题为“A systematic evaluation of computational methods for predicting translated non-canonical ORFs from ribosome profiling data”的研究论文。该研究团队使用大量公共数据集对五种主流ncORF预测方法进行了系统评估,为相关的生物信息学分析与功能研究提供了建议和参考。
该研究表明不同方法预测的ncORF不仅在总数、组成、起始密码子使用和长度分布等方面各不相同,而且在准确性、一致性等方面也存在明显差异。研究人员以质谱数据及翻译起始位点测序数据(TI-Seq)支持的ncORF作为标准,发现PRICE、RiboCode及Ribo-TISH等工具预测的准确性较高;通过比较不同生物学重复之间ncORF预测的相似性,发现RibORF、RiboTricer及Ribo-TISH等工具的一致性更好。然而不同方法预测的ncORF均受到测序深度与数据质量的影响。该工作为将来研究中ncORF预测方法的选择以及更好方法的开发提供了有效参考,也对Ribo-Seq实验的设计给出了实用的建议。
兰州大学生态学院硕士研究生雷天宇和常月为该论文共同第一作者,张宏教授为通讯作者,萃英学院本科生姚超也参与了该工作。相关工作得到国家自然科学基金项目(32200433)和中央高校基本科研业务费(LZUJBKY-2022-2)资助。
全文链接:https://www.sciencedirect.com/science/article/abs/pii/S167385272300182