预约
挂号
联系
我们
就诊
指南
常见
问题
返回
顶部
请输入关键字
我院蛋白质组学和代谢组学研究室程惊秋教授、杨浩副研究员团队在Nucleic Acids Research发表研究论文 2020.06.24

近日,我院蛋白质组学和代谢组学研究室程惊秋教授、杨浩副研究员团队和耶鲁大学医学院刘延盛教授团队在国际著名期刊《Nucleic Acids Research》(IF: 11.147) 在线发表了题为“NAguideR: performing and prioritizing missing value imputations for consistent bottom-up proteomic analyses”的研究论文。该研究开发了一款针对蛋白质组学数据缺失值填充(missing value imputation)的系统性评价工具。

在基于液相色谱-串联质谱技术(简称LC-MSMS)的蛋白质组学研究中,尤其是在研究大队列的临床样本中,重现性(reproducibility)是一个核心问题。这里的重现性通常包括蛋白质定性的重现性和定量的重现性,即要回答“在多个样本中,蛋白质能不能稳定被鉴定到,以及鉴定到的蛋白质能不能被稳定地定量”这个问题。

随着质谱仪以及相关数据采集方式的发展,利用数据非依赖型(Data Independent Acquisition,简称DIA)采集模式获得原始数据的技术得到了广泛应用。相较于传统的数据依赖型(Data Dependent Acquisition,简称DDA)采集模式,在DIA模式下,质谱仪基本不会对数据进行偏好性选择,因此其重现性会有明显的的提升。但是随着DIA技术的逐步应用,研究团队注意到即使在DIA模式下,大量研究的数据重现性并不能达到令人满意的效果。尤其是在研究蛋白质翻译后修饰(Post Translational Modification)的数据时,如本研究中采集的蛋白质磷酸化数据(Phosphoproteomic dataset),其中有超过75%的磷酸化肽段都无法同时在所有样本中获得完整的定量信息,即在某一些样本中定量数据出现了缺失(missing value)的情况。对于肽段或蛋白发生部分缺失的数据,通常需要进行缺失值的填充后才能进行差异表达等统计分析。目前填充缺失值得方法较多,但如何选择往往取决于研究者的个人经验和偏好,缺乏为科学的评判依据,此类问题亟需得到解决。

在本项工作中,研究人员开发出了一款能系统性评价缺失值填充方法的工具,取名为NAguideR,以求能辅助用户选择出适合其数据特征的缺失值填充方法。该工具整合了已经发表的23种常用的缺失值填充方法,作者针对这些方法系统性地提出2套评价指标:经典型(classic criteria)和基于蛋白质组信息型(proteomic criteria)。每一套指标又细分为4个子指标,在每一个指标下,都会对用户在工具中拟选择的23种方法中的任意方法进行打分。最后该工具会给出综合性评价的分数和对应的结果表格,用户根据此结果,即可对缺失值的填充方法进行合理和科学地选择。该工具可在线或下载使用,操作较为简单,不需要专业的生物信息学和编程经验,能够帮助研究者处理大规模的相关蛋白质组学数据,提升数据质量和深度。同时,该工具也适用于基因和代谢组学数据填充方法的评价和选择。


图注:NAguideR数据分析流程图。(A)带有缺失值的定性和定量表格数据,其中行是每一个Feature(如蛋白质、肽段、代谢物或者基因等),列是样本。(B)数据质量控制,这里主要通过统计缺失值的占比和计算变异系数来控制参与后续分析的数据质量,如果某个Feature缺失的比例比较高或者变异系数比较大,那么其就会在这一步被删除掉,不会参与后续的分析。(C)23种缺失值填充的方法。(D)2套评价的指标。(E)根据每一个指标得分,辅助指导用户选择相应的缺失值填充的方法。



四川大学华西医院为该工作的第一完成单位,华西-华盛顿线粒体与代谢研究中心蛋白质组学和代谢组学技术平台实验师、程惊秋教授再生医学研究中心博士研究生王诗盛为论文第一作者,四川大学华西医院国家卫健委移植工程与移植免疫重点实验室杨浩副研究员和耶鲁大学医学院癌症生物学研究所刘延盛教授为论文共同通讯作者。该研究得到了国家自然科学基金(81871475)、四川大学华西医院1.3.5卓越项目(ZYGD18014)等基金的资助。


原文链接:https://doi.org/10.1093/nar/gkaa498。


作者:王诗盛 杨浩 科研一支部 编辑:史杰蔚 周亮 来源:科研一支部
基本信息填写
您的姓名:
联系方式:
电子邮箱:
问题类型:

select…

  • 内容无法访问
  • 信息不更新
  • 内容不准确
  • 错别字
  • 图片不准确
  • 其他
问题页面网址:
问题描述:
验证码: