ChemVTS-Bench: Evaluación del razonamiento visual-textual-simbólico de modelos de lenguaje grande multimodal en química

Resumen: El razonamiento químico integra inherentemente modalidades visuales, textuales y simbólicas; sin embargo, los puntos de referencia existentes rara vez capturan esta complejidad, y a menudo se basan en pares simples de imagen y texto con una semántica química limitada. Como resultado, la capacidad real de los modelos multimodales de lenguaje grande (MLLM) para procesar e integrar información químicamente significativa entre modalidades sigue sin estar clara. Presentamos textbf{ChemVTS-Bench}, un punto de referencia de dominio auténtico diseñado para evaluar sistemáticamente las capacidades de razonamiento visual-textual-simbólico (VTS) de los MLLM. ChemVTS-Bench contiene diversos y desafiantes problemas químicos que abarcan moléculas orgánicas, materiales inorgánicos y estructuras cristalinas en 3D, y cada tarea se presenta en tres modos de entrada complementarios: (1) solo visual, (2) híbrido visual-texto y (3) entrada simbólica basada en SMILES. Este diseño permite un análisis detallado de los comportamientos de razonamiento dependientes de la modalidad y la integración intermodal. Para garantizar una evaluación rigurosa y reproducible, desarrollamos aún más un flujo de trabajo automatizado basado en agentes que estandariza la inferencia, verifica las respuestas y diagnostica modos de falla. Amplios experimentos con MLLM de última generación revelan que las entradas exclusivamente visuales siguen siendo un desafío, la química estructural es el dominio más difícil y la fusión multimodal mitiga, pero no elimina, los errores visuales, lógicos o basados en el conocimiento, lo que destaca a ChemVTS-Bench como un banco de pruebas riguroso y fiel al dominio para avanzar en el razonamiento químico multimodal. Todos los datos y el código se publicarán para respaldar futuras investigaciones.

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Countqa: ¿Qué tan bien cuentan los MLLM en la naturaleza?

El exceso de confianza en LLM-As-A-Judge: diagnóstico y solución impulsada por la confianza

José-Carlos Mariátegui: Beyond Project Cybersyn: Rastreando la influencia de los proyectos e ideas de cerveza de Stafford en América Latina

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido