En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ChemVTS-Bench: Evaluación del razonamiento visual-textual-simbólico de modelos de lenguaje grande multimodal en química

ChemVTS-Bench: Evaluación del razonamiento visual-textual-simbólico de modelos de lenguaje grande multimodal en química

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento químico integra inherentemente modalidades visuales, textuales y simbólicas; sin embargo, los puntos de referencia existentes rara vez capturan esta complejidad, y a menudo se basan en pares simples de imagen y texto con una semántica química limitada. Como resultado, la capacidad real de los modelos multimodales de lenguaje grande (MLLM) para procesar e integrar información químicamente significativa entre modalidades sigue sin estar clara. Presentamos textbf{ChemVTS-Bench}, un punto de referencia de dominio auténtico diseñado para evaluar sistemáticamente las capacidades de razonamiento visual-textual-simbólico (VTS) de los MLLM. ChemVTS-Bench contiene diversos y desafiantes problemas químicos que abarcan moléculas orgánicas, materiales inorgánicos y estructuras cristalinas en 3D, y cada tarea se presenta en tres modos de entrada complementarios: (1) solo visual, (2) híbrido visual-texto y (3) entrada simbólica basada en SMILES. Este diseño permite un análisis detallado de los comportamientos de razonamiento dependientes de la modalidad y la integración intermodal. Para garantizar una evaluación rigurosa y reproducible, desarrollamos aún más un flujo de trabajo automatizado basado en agentes que estandariza la inferencia, verifica las respuestas y diagnostica modos de falla. Amplios experimentos con MLLM de última generación revelan que las entradas exclusivamente visuales siguen siendo un desafío, la química estructural es el dominio más difícil y la fusión multimodal mitiga, pero no elimina, los errores visuales, lógicos o basados ​​en el conocimiento, lo que destaca a ChemVTS-Bench como un banco de pruebas riguroso y fiel al dominio para avanzar en el razonamiento químico multimodal. Todos los datos y el código se publicarán para respaldar futuras investigaciones.

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web