Resumen: La resolución de problemas de geometría (GPS) requiere modelos para maestro de comprensión del diagrama, razonamiento lógico, aplicación de conocimiento, cálculo numérico y construcción de línea auxiliar. Esto presenta un desafío significativo para los modelos de lenguaje grande (MLLM) multimodales. Sin embargo, los puntos de referencia existentes para evaluar las habilidades de geometría de MLLM pasan por alto la construcción de la línea auxiliar y carecen de una evaluación de procesos de grano fino, lo que los hace insuficientes para evaluar las habilidades de razonamiento de largos pasos de MLLM. Para cerrar estos huecos, presentamos el punto de referencia Geolaux, que comprende 2.186 problemas de geometría, incorporando preguntas de cálculo y prueba. En particular, los problemas requieren un promedio de 6.51 pasos de razonamiento, con un máximo de 24 pasos, y el 41.8% de ellos necesitan construcción de línea auxiliar. Sobre la base del conjunto de datos, diseñamos una nueva estrategia de evaluación de cinco dimensiones que evalúa la corrección de la respuesta, la corrección del proceso, la calidad del proceso, el impacto de la línea auxiliar y el error. Experimentos extensos en 13 MLLM principales (incluidos modelos de pensamiento y modelos no pensados) producen tres hallazgos fundamentales: primero, los modelos exhiben una degradación sustancial del rendimiento en pasos de razonamiento extendido (nueve modelos demuestran más del 50% de caída de rendimiento). En segundo lugar, en comparación con los problemas de cálculo, los MLLM tienden a tomar atajos al resolver problemas de prueba. En tercer lugar, los modelos carecen de conciencia de la línea auxiliar, y mejorar esta capacidad resulta particularmente beneficiosa para la mejora general del razonamiento de la geometría. Estos hallazgos establecen Geolaux como un punto de referencia para evaluar el razonamiento geométrico de MLLMS en largos pasos con líneas auxiliares y una guía para el avance de la capacidad. Nuestro conjunto de datos y código se incluyen en materiales complementarios y se lanzarán.
Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original