Errores de cálculo matemático y razonamiento por modelos de idiomas grandes

Resumen: Los modelos de idiomas grandes (LLM) se utilizan cada vez más en la instrucción y evaluación educativa impulsada por la IA, particularmente dentro de la educación matemática. La capacidad de los LLM para generar respuestas precisas y soluciones detalladas para las tareas de resolución de problemas matemáticos es fundamental para garantizar comentarios y evaluaciones confiables y precisos en las prácticas de educación matemática. Nuestro estudio se centra en evaluar la precisión de cuatro LLM (OpenAI GPT-4O y O1, Deepseek-V3 y Deepseek-R1) para resolver tres categorías de tareas matemáticas, incluidas la teoría aritmética, álgebra y de números, e identifica errores de razonamiento a nivel de paso dentro de sus soluciones. En lugar de confiar en puntos de referencia estándar, construimos intencionalmente tareas de matemáticas (a través de modelos de elementos) que son desafiantes para LLM y propensos a errores. La precisión de las respuestas finales y la presencia de errores en los pasos de solución individuales se analizaron y codificaron sistemáticamente. Se probaron las configuraciones de agente único y agente de doble agente. Se observa que el modelo OpenAI O1 OpenAI mejorado con el razonamiento logró consistentemente una precisión más alta o casi perfecta en las tres categorías de tareas matemáticas. El análisis de los errores reveló que los resbalones de procedimiento fueron el rendimiento general más frecuente y significativamente afectado, mientras que los malentendidos conceptuales fueron menos frecuentes. La implementación de configuraciones de doble agente mejoró sustancialmente el rendimiento general. Estos hallazgos ofrecen información procesable para mejorar el rendimiento de LLM y subrayar estrategias efectivas para integrar LLM en la educación matemática, avanzando así las prácticas de instrucción impulsadas por la IA y la precisión de la evaluación.

Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: los agentes de IA exageran y los planes de electricidad de Google

GLIDR: Programación lógica inductiva tipo gráfica con razonamiento diferenciable

¿Pueden competir a IA Freelancers? Benchmarking Ganancias, confiabilidad y éxito de la tarea a escala

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido