GeoThought: un conjunto de datos para mejorar el razonamiento geométrico matemático en modelos de lenguaje visual

Resumen: Los modelos de lenguaje grande (LLM) han demostrado sólidas capacidades de razonamiento en la resolución de problemas matemáticos basados en texto; sin embargo, cuando se adaptan a tareas de razonamiento visual, en particular a la resolución de problemas geométricos, su rendimiento disminuye sustancialmente porque los problemas geométricos presentan desafíos únicos. Específicamente, estos desafíos surgen de dos factores clave: primero, la complejidad intrínseca de la geometría que requiere una comprensión detallada de la imagen y un razonamiento de varios pasos, y segundo, las limitaciones de los conjuntos de datos existentes que carecen de suficiente escala, diversidad y rastros de razonamiento explícito, lo que en consecuencia dificulta el entrenamiento efectivo del modelo. Para abordar estos desafíos, desarrollamos el conjunto de datos GeoThoughts, un corpus integral de razonamiento geométrico con dos subconjuntos: Geo-Thought-6K con 6243 muestras y su versión aumentada Geo-Thought-Augmented-10K que contiene 10,834 muestras. Cada entrada incluye descripciones visuales, soluciones paso a paso, cadenas de razonamiento explícitas, pasos de reflexión y respuestas finales. Utilizando este conjunto de datos, desarrollamos GeoThought-MLLM, un modelo multimodal de razonamiento matemático que genera procesos de pensamiento detallados durante la resolución de problemas. Nuestro modelo supera los puntos de referencia existentes en tareas geométricas, lo que demuestra que el entrenamiento con nuestro conjunto de datos de Cadena de Pensamiento mejora las capacidades de razonamiento geométrico tanto en entornos dentro como fuera del dominio. Finalmente, analizamos casos de falla y observamos que los errores surgen principalmente de una interpretación incorrecta de conceptos matemáticos o de juicios erróneos espaciales. Al invocar a CoT para corregir estos errores, el modelo produce respuestas correctas.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia sistemas de datos que se centran en el negocio semántico y asisten a agentes de IA

Arms: agente adaptativo de equipo rojo contra modelos multimodales con ataques con plug-and-play

La descarga: Créditos fiscales de RIP EV y la nueva valoración de Openai

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido