Resumen: El razonamiento químico integra inherentemente modalidades visuales, textuales y simbólicas; sin embargo, los puntos de referencia existentes rara vez capturan esta complejidad, y a menudo se basan en pares simples de imagen y texto con una semántica química limitada. Como resultado, la capacidad real de los modelos multimodales de lenguaje grande (MLLM) para procesar e integrar información químicamente significativa entre modalidades sigue sin estar clara. Presentamos textbf{ChemVTS-Bench}, un punto de referencia de dominio auténtico diseñado para evaluar sistemáticamente las capacidades de razonamiento visual-textual-simbólico (VTS) de los MLLM. ChemVTS-Bench contiene diversos y desafiantes problemas químicos que abarcan moléculas orgánicas, materiales inorgánicos y estructuras cristalinas en 3D, y cada tarea se presenta en tres modos de entrada complementarios: (1) solo visual, (2) híbrido visual-texto y (3) entrada simbólica basada en SMILES. Este diseño permite un análisis detallado de los comportamientos de razonamiento dependientes de la modalidad y la integración intermodal. Para garantizar una evaluación rigurosa y reproducible, desarrollamos aún más un flujo de trabajo automatizado basado en agentes que estandariza la inferencia, verifica las respuestas y diagnostica modos de falla. Amplios experimentos con MLLM de última generación revelan que las entradas exclusivamente visuales siguen siendo un desafío, la química estructural es el dominio más difícil y la fusión multimodal mitiga, pero no elimina, los errores visuales, lógicos o basados en el conocimiento, lo que destaca a ChemVTS-Bench como un banco de pruebas riguroso y fiel al dominio para avanzar en el razonamiento químico multimodal. Todos los datos y el código se publicarán para respaldar futuras investigaciones.
Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original
