Benchmarking multimodal LLMS sobre reconocimiento y comprensión sobre tablas químicas

Resumen: Las tablas químicas codifican el conocimiento experimental complejo a través de expresiones simbólicas, variables estructuradas y gráficos moleculares integrados. Los puntos de referencia existentes pasan en gran medida esta complejidad multimodal y específica del dominio, lo que limita la capacidad de los modelos de lenguaje grande multimodal para apoyar la comprensión científica en la química. En este trabajo, presentamos Chemtable, un punto de referencia a gran escala de las tablas químicas del mundo real seleccionadas de las secciones experimentales de literatura. Chemtable incluye polígonos celulares anotados por expertos, diseños lógicos y etiquetas específicas del dominio, incluidos reactivos, catalizadores, rendimientos y componentes gráficos y admite dos tareas centrales: (1) reconocimiento de la tabla, cubriendo el análisis de la estructura y la extracción de contenido; y (2) comprensión de la tabla, que abarca la respuesta descriptiva y orientada al razonamiento, respondiendo a la base de la estructura de la tabla y la semántica de dominio. Evaluamos una gama de modelos multimodales representativos, incluidos los modelos de código abierto y de código cerrado, en química e informamos una serie de hallazgos con ideas prácticas y conceptuales. Aunque los modelos muestran un rendimiento razonable en el análisis de diseño básico, exhiben limitaciones sustanciales en tareas de control de calidad descriptiva e inferencial en comparación con el rendimiento humano, y observamos brechas de rendimiento significativas entre los modelos de código abierto y de código cerrado en múltiples dimensiones. Estos resultados subrayan los desafíos de la comprensión de la tabla consciente de la química y la posición química como un punto de referencia riguroso y realista para avanzar en el razonamiento científico.

Publicado Originalme en rss.arxiv.org El 15 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

SnapStream: decodificación eficiente de secuencia larga en aceleradores de flujo de datos

Ingeniería práctica

Comenta sobre: ​​Tu cerebro en ChatGPT: acumulación de deuda cognitiva al utilizar un asistente de IA para tareas de redacción de ensayos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Comenta sobre: Tu cerebro en ChatGPT: acumulación de deuda cognitiva al utilizar un asistente de IA para tareas de redacción de ensayos