Nat. Methods | 光谱熵相似性算法用于MS/MS中的小分子化合物鉴定

  • A+
大家推荐一篇发表在Nature Methods上的文章,文章标题“Spectral entropy outperforms MS/MS dot product similarity for small-molecule compound identification”,文章的通讯作者是来自加利福尼亚大学戴维斯分校代谢组学中心的Fiehn教授,其课题组致力于建立代谢组学数据库并从中发掘生物的代谢信息。

1


在非靶向代谢组学的结果分析中,研究人员主要通过实验给出的质谱与已知化合物质谱数据库的相似性比对,以实现对某一化合物的代谢信息注释。因此,相似性比对算法的准确性决定了正确注释小分子化合物的可能性。本文中,作者开发了一种基于信息论的光谱熵相似性算法,并证明了该算法优于目前常用的点积相似性算法。
光谱熵相似性算法的主要思想是:将质谱数据中的离子峰转换为鉴定到该离子的概率(将离子强度除以总强度作为概率);通过Shannon熵公式度量该谱图的总信息含量;在两张谱图的相似性比对中,作者构造了一张虚拟谱图(大致地,将两种谱图各个离子峰加和,并将离子强度除以2),以虚拟谱图和真实谱图信息熵的差值之和计算相似性(定性地,如果两张谱图约相似,那么虚拟谱图带来的信息增加量越少)。并且,在后续的优化中,对低丰度离子的离子强度赋予权重函数,用以强调低丰度离子在谱图比对的重要性。而所谓点积相似性算法,就是将两张光谱转换为两个单位向量,以两个向量夹角的余弦值大小来表示其相似性。


2


随后,作者从NIST20数据库中选取了约43万张谱图、25万个分子,在去除和不去除母离子两种条件下搜索,系统地比较了包括光谱熵在内的43种质谱相似性算法。ROC曲线结果显示,两种情形下加权后的光谱熵相似性算法均表现最佳。
另外,作者通过人为地引入噪声离子测试了以上所有算法的稳健性。总噪声强度的增加和噪声粒子数的增加均没有显著改变光谱熵相似性算法的性能(在所有算法中最佳,AUC约0.95)。相比之下,点积相似性算法的性能则随着噪声的增强不断下降。最后,作者使用实验给出的天然产物数据库VF-NPL中约4万个分子在NIST20数据库进行匹配。结果表明,光谱熵相似性在相似性分数大于0.75时,误报率(FDR)控制在10%以内,优于点积相似性算法(FDR始终大于15%)。


8


本文作者:ZF
责任编辑:WQW
原文链接:https://www.nature.com/articles/s41592-021-01331-z
文章引用:DOI:10.1038/s41592-021-01331-z




weinxin
我的微信
关注我了解更多内容

发表评论

目前评论:0