2019
成果名称 主要完成人 完成年度 成果介绍
蛋白质组大数据分析算法 付岩等 完成年度:2019年 2019 如果说基因是生命的遗传密码,那么蛋白质就是生命功能的具体执行者,其状态变化直接决定着生物体生老病死的生命过程。例如,主流观点认为阿尔茨海默病(老年痴呆症)与大脑内类淀粉样蛋白质堆积以及 Tau蛋白质过度磷酸化修饰高度相关。与基因组相对应,蛋白质组是指一个细胞、组织、器官或者物种中在特定时刻或条件下表达的所有蛋白质。监测和分析蛋白质组的变化,对于疾病的早期诊断、预防和治疗都有重要价值。近年来快速发展的生物质谱技术因其高通量、高分辨率特性,成为蛋白质组研究的主流分析技术。目前,一次常规的蛋白质组实验就能产生数以百万计的质谱数据。这些海量质谱实验数据一方面为蛋白质组学提供了前所未有的研究机遇,另一方面在数据处理和分析上也充满了困难和挑战。计算和统计蛋白质组学作为一个新兴的交叉研究方向,旨在为蛋白质组研究提供高效准确的数据分析算法,为解决相关生物和医学问题提供可靠的数学模型和计算工具。在这一方向上,我们已对蛋白质鉴定、蛋白质定量、蛋白质修饰发现、以及统计显著性评估等问题做了十多年系统性的研究。2019年我们取得了以下进展。(1)蛋白质组复杂性的一个表现是蛋白质序列上大量存在的翻译后修饰,发生修饰的蛋白质,其理化性质会发生显著改变,从而实现了蛋白质功能的指数级扩增。我们基于经验贝叶斯思想,提出了首个面向开放式质谱数据分析的高精度修饰定位概率算法PTMiner,该算法通过一个迭代过程自动地从大规模质谱数据中学习修饰先验概率,更精确地估计修饰位点的后验概率。我们将PTMiner用于人类蛋白质组草图海量数据(两千多万个质谱图)的修饰分析,在1%假阳性率下可靠测定了一百多万个修饰,系统全面地刻画了人类蛋白质组中的已知和未知修饰。(2)基于随机森林机器学习方法开发了肽可检测性预测算法AP3。该算法首先根据酶切位点周边的氨基酸序列预测酶切位点概率,进而计算肽的酶切概率,然后联合其它587种肽序列和物化属性预测肽可检测性。(3)为了提高蛋白质定量分析的准确性,我们提出了肽质谱定量效率概念,开发了基于肽定量效率预测的蛋白质绝对定量算法LFAQ。该算法首先利用贝叶斯回归累加树模型,根据肽序列和物化属性预测肽定量效率,然后用预测的定量效率校正肽质谱强度信号,进而对蛋白质浓度进行更准确的定量。
TOP