Resumen: Los modelos de idiomas grandes (LLM) se utilizan cada vez más en la instrucción y evaluación educativa impulsada por la IA, particularmente dentro de la educación matemática. La capacidad de los LLM para generar respuestas precisas y soluciones detalladas para las tareas de resolución de problemas matemáticos es fundamental para garantizar comentarios y evaluaciones confiables y precisos en las prácticas de educación matemática. Nuestro estudio se centra en evaluar la precisión de cuatro LLM (OpenAI GPT-4O y O1, Deepseek-V3 y Deepseek-R1) para resolver tres categorías de tareas matemáticas, incluidas la teoría aritmética, álgebra y de números, e identifica errores de razonamiento a nivel de paso dentro de sus soluciones. En lugar de confiar en puntos de referencia estándar, construimos intencionalmente tareas de matemáticas (a través de modelos de elementos) que son desafiantes para LLM y propensos a errores. La precisión de las respuestas finales y la presencia de errores en los pasos de solución individuales se analizaron y codificaron sistemáticamente. Se probaron las configuraciones de agente único y agente de doble agente. Se observa que el modelo OpenAI O1 OpenAI mejorado con el razonamiento logró consistentemente una precisión más alta o casi perfecta en las tres categorías de tareas matemáticas. El análisis de los errores reveló que los resbalones de procedimiento fueron el rendimiento general más frecuente y significativamente afectado, mientras que los malentendidos conceptuales fueron menos frecuentes. La implementación de configuraciones de doble agente mejoró sustancialmente el rendimiento general. Estos hallazgos ofrecen información procesable para mejorar el rendimiento de LLM y subrayar estrategias efectivas para integrar LLM en la educación matemática, avanzando así las prácticas de instrucción impulsadas por la IA y la precisión de la evaluación.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original