Resumen: La espectrometría de masas en tándem permite la identificación de compuestos desconocidos en campos cruciales como la metabolómica, el descubrimiento de productos naturales y el análisis ambiental. Sin embargo, los métodos actuales se basan en la comparación de bases de datos de moléculas observadas previamente, o en procesos de múltiples pasos que requieren fragmentos intermedios o predicción de huellas dactilares. Esto hace que encontrar la molécula correcta sea un gran desafío, particularmente para compuestos que no figuran en las bases de datos de referencia. Introducimos un marco que, al aprovechar el ajuste del tiempo de prueba, mejora el aprendizaje de un modelo de transformador previamente entrenado para abordar esta brecha, permitiendo la generación de estructura molecular de novo de extremo a extremo directamente a partir de espectros de masas en tándem y fórmulas moleculares, sin pasar por anotaciones manuales y pasos intermedios. Superamos el enfoque de facto de última generación DiffMS en dos puntos de referencia populares NPLIB1 y MassSpecGym en un 100% y 20%, respectivamente. El ajuste en el momento de la prueba en los espectros experimentales permite que el modelo se adapte dinámicamente a espectros novedosos, y la ganancia relativa de rendimiento con respecto al ajuste fino convencional es del 62 % en MassSpecGym. Cuando las predicciones se desvían de la verdad fundamental, los candidatos moleculares generados siguen siendo estructuralmente precisos, lo que proporciona una guía valiosa para la interpretación humana y una identificación más confiable.
Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original
