En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cogmath: Evaluación de la capacidad matemática auténtica de LLMS desde una perspectiva cognitiva humana

Cogmath: Evaluación de la capacidad matemática auténtica de LLMS desde una perspectiva cognitiva humana

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Aunque los modelos de idiomas grandes (LLM) muestran prometedor para resolver tareas matemáticas complejas, los paradigmas de evaluación existentes dependen únicamente de una medida gruesa de la precisión de la respuesta general, que son insuficientes para evaluar sus capacidades auténticas. En este artículo, proponemos textbf {Cogmath}, que evalúa de manera integral las habilidades matemáticas de LLM a través de la lente de la cognición humana. Específicamente, inspirado en las teorías psicológicas, Cogmath formaliza el proceso de razonamiento humano en 3 etapas: enfl {Comprensión del problema}, enfl {resolución de problemas} y enfl {resumen de soluciones}. Dentro de estas etapas, investigamos perspectivas como el cálculo numérico, el conocimiento y los contrafactuales, y diseñamos un total de 9 dimensiones de evaluación de grano fino. En cada dimensión, desarrollamos un sistema “ enfl {investigación}- enfl {juez}- enfl {reference} ” múltiple agente para generar consultas que evalúen el dominio de LLMS a partir de esta dimensión. Se considera que un LLM realmente domina un problema solo cuando se destaca en todas las consultas de las 9 dimensiones. Al aplicar Cogmath en tres puntos de referencia, revelamos que las capacidades matemáticas de 7 LLM principales se sobreestiman en 30 %-40 %. Además, localizamos sus fortalezas y debilidades en etapas/dimensiones específicas, ofreciendo ideas en profundidad para mejorar aún más sus habilidades de razonamiento.

Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web