Evaluación de LLM para la resolución de problemas matemáticos

Resumen: Gran Modelos de lenguaje (LLM) ha mostrado un rendimiento impresionante en una variedad de tareas educativas, pero aún están suplentes de su potencial para resolver problemas matemáticos. En este estudio, comparamos tres LLM prominentes, incluidos GPT-4O, Deepseek-V3 y Gemini-2.0, en tres conjuntos de datos de matemáticas de complejidades variables (GSM8K, Math500 y Unsw DataSets). Tomamos un enfoque de cinco dimensiones basado en el marco estructurado de la cadena de pensamiento (SCOT) para evaluar la corrección de la respuesta final, la integridad del paso, la validez del paso, la precisión del cálculo intermedio y la comprensión del problema. Los resultados muestran que GPT-4O es el rendimiento más estable y consistente en todos los conjuntos de datos, pero en particular se desempeña en preguntas de alto nivel del conjunto de datos UNSW. Deepseek-V3 es competitivamente fuerte en dominios bien estructurados, como la optimización, pero sufre fluctuaciones en la precisión en las tareas de inferencia estadística. Gemini-2.0 muestra una fuerte comprensión lingüística y claridad en problemas bien estructurados, pero funciona mal en el razonamiento de varios pasos y la lógica simbólica. Nuestro análisis de errores revela déficits particulares en cada modelo: GPT-4O a veces carece de una explicación o precisión suficiente; Deepseek-v3 deja de lado los pasos intermedios; y Gemini-2.0 es menos flexible en el razonamiento matemático en dimensiones superiores.

Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia el Asistente de Investigación de Inteligencia Artificial para el Aprendizaje con expertos

Asuntos de estabilidad rápida: evaluar y optimizar el aviso generado automático en los sistemas de uso general

Preferencia de la población PREPRESIONAL Aprendizaje de la retroalimentación humana: un enfoque axiomático

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido