Resumen: Los grandes modelos de razonamiento (LRM) han demostrado un sólido rendimiento al producir rastros extendidos de cadena de pensamiento (CoT) antes de responder. Sin embargo, este paradigma a menudo induce a un razonamiento excesivo: cálculos redundantes y autoverificación circular que aumentan el costo computacional sin mejorar los resultados. Las evaluaciones existentes enfatizan en gran medida la precisión final o los recuentos aproximados de tokens, y carecen de herramientas automatizadas para separar la lógica esencial de la redundancia estructural. Presentamos CoTJudger, un marco basado en gráficos que cuantifica la eficiencia del razonamiento al convertir CoT de forma libre en gráficos de dependencia dirigida y extraer la ruta efectiva más corta (SEP) necesaria para alcanzar una solución correcta. Esto produce una señal de eficiencia interpretable (cuánto de CoT es necesario versus estructuralmente redundante) que es comparable entre modelos y tareas. Al evaluar 21 LRM, CoTJudger revela una redundancia generalizada y muestra modos de falla recurrentes, incluida la obsesión por la verificación y la redundancia compensatoria. Estos resultados proporcionan una métrica práctica para separar la capacidad de razonamiento del desperdicio computacional, lo que permite una evaluación y un diagnóstico más específicos de la eficiencia de LRM.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
