Resumen: Gran Modelos de lenguaje (LLM) ha mostrado un rendimiento impresionante en una variedad de tareas educativas, pero aún están suplentes de su potencial para resolver problemas matemáticos. En este estudio, comparamos tres LLM prominentes, incluidos GPT-4O, Deepseek-V3 y Gemini-2.0, en tres conjuntos de datos de matemáticas de complejidades variables (GSM8K, Math500 y Unsw DataSets). Tomamos un enfoque de cinco dimensiones basado en el marco estructurado de la cadena de pensamiento (SCOT) para evaluar la corrección de la respuesta final, la integridad del paso, la validez del paso, la precisión del cálculo intermedio y la comprensión del problema. Los resultados muestran que GPT-4O es el rendimiento más estable y consistente en todos los conjuntos de datos, pero en particular se desempeña en preguntas de alto nivel del conjunto de datos UNSW. Deepseek-V3 es competitivamente fuerte en dominios bien estructurados, como la optimización, pero sufre fluctuaciones en la precisión en las tareas de inferencia estadística. Gemini-2.0 muestra una fuerte comprensión lingüística y claridad en problemas bien estructurados, pero funciona mal en el razonamiento de varios pasos y la lógica simbólica. Nuestro análisis de errores revela déficits particulares en cada modelo: GPT-4O a veces carece de una explicación o precisión suficiente; Deepseek-v3 deja de lado los pasos intermedios; y Gemini-2.0 es menos flexible en el razonamiento matemático en dimensiones superiores.
Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original