Resumen: Los modelos de lenguajes grandes (LLM) demuestran un sólido rendimiento en problemas matemáticos cuando se les solicita con cadena de pensamiento (CoT), pero aún no está claro si este éxito se debe a la búsqueda, los procedimientos de memoria o el razonamiento consistente con reglas. Para abordar esto, proponemos modelar CoT como un cierto proceso estocástico basado en reglas sobre gráficos acíclicos dirigidos (DAG), donde los nodos representan estados de derivación intermedios y los bordes codifican aplicaciones de reglas. Dentro de este marco, introducimos la cercanía lógica, una métrica que cuantifica qué tan bien la trayectoria CoT de un modelo (es decir, el resultado final del LLM) se adhiere a la estructura DAG, proporcionando una evaluación más allá de las métricas clásicas PASS@k. Sobre esta base, presentamos el formato CoT DAG-MATH y construimos un punto de referencia que guía a los LLM para generar trayectorias CoT en este formato, permitiendo así la evaluación de su capacidad de razonamiento bajo nuestro marco. A través de conjuntos de datos de razonamiento matemático estándar, nuestro análisis descubre diferencias estadísticamente significativas en la fidelidad del razonamiento entre familias representativas de LLM, incluso cuando PASS@k es comparable, destacando brechas entre la precisión de la respuesta final y la derivación consistente con las reglas. Nuestro marco proporciona un equilibrio entre CoT de formato libre y sistemas de pruebas formales, ofreciendo diagnósticos procesables para la evaluación del razonamiento de los LLM. Nuestro punto de referencia y código están disponibles en: esta URL https.
Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original
