ChartPoint: guiar a los MLLM con una reflexión fundamental para el razonamiento de gráficos

Resumen: Los modelos multimodales de lenguaje grande (MLLM) se han convertido en herramientas poderosas para la comprensión de gráficos. Sin embargo, dependen en gran medida del contenido extraído mediante OCR, lo que provoca alucinaciones numéricas cuando las anotaciones textuales de los gráficos son escasas. Si bien los métodos existentes se centran en escalar instrucciones, no logran abordar el desafío fundamental, es decir, razonar con percepción visual. En este artículo, identificamos una observación crítica: los MLLM exhiben una base débil en los elementos del gráfico y las relaciones proporcionales, como lo demuestra su incapacidad para localizar posiciones clave que coincidan con su razonamiento. Para cerrar esta brecha, proponemos PointCoT, que integra la interacción reflexiva en el razonamiento de cadena de pensamiento en gráficos. Al solicitar a los MLLM que generen cuadros delimitadores y vuelvan a representar gráficos basados en anotaciones de ubicación, establecemos conexiones entre los pasos de razonamiento textual y las regiones de base visual. Además, presentamos un proceso automatizado para construir ChartPoint-SFT-62k, un conjunto de datos que presenta 19,2 000 muestras de gráficos de alta calidad con CoT paso a paso, cuadros delimitadores y visualizaciones renderizadas nuevamente. Aprovechando estos datos, desarrollamos dos modelos ajustados a instrucciones, ChartPointQ2 y ChartPointQ2.5, que superan a los de última generación en varios benchmarks gráficos, por ejemplo, +5,04% en ChartBench.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El imperativo teórico de la información: la compresión y los fundamentos epistémicos de la inteligencia

AgentAsk: Los sistemas multiagente necesitan preguntar

Evocurr: plan de estudios de autoevolución con generación de código de comportamiento para la toma de decisiones complejas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido