CoTJudger: un marco basado en gráficos para la evaluación automática de la eficiencia y redundancia de la cadena de pensamiento en LRM

Resumen: Los grandes modelos de razonamiento (LRM) han demostrado un sólido rendimiento al producir rastros extendidos de cadena de pensamiento (CoT) antes de responder. Sin embargo, este paradigma a menudo induce a un razonamiento excesivo: cálculos redundantes y autoverificación circular que aumentan el costo computacional sin mejorar los resultados. Las evaluaciones existentes enfatizan en gran medida la precisión final o los recuentos aproximados de tokens, y carecen de herramientas automatizadas para separar la lógica esencial de la redundancia estructural. Presentamos CoTJudger, un marco basado en gráficos que cuantifica la eficiencia del razonamiento al convertir CoT de forma libre en gráficos de dependencia dirigida y extraer la ruta efectiva más corta (SEP) necesaria para alcanzar una solución correcta. Esto produce una señal de eficiencia interpretable (cuánto de CoT es necesario versus estructuralmente redundante) que es comparable entre modelos y tareas. Al evaluar 21 LRM, CoTJudger revela una redundancia generalizada y muestra modos de falla recurrentes, incluida la obsesión por la verificación y la redundancia compensatoria. Estos resultados proporcionan una métrica práctica para separar la capacidad de razonamiento del desperdicio computacional, lo que permite una evaluación y un diagnóstico más específicos de la eficiencia de LRM.

Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Por qué deberíamos agradecer a las palomas por nuestros avances de IA

Respuesta de AIOti a la Ley de Consulta sobre Ciberseguridad (CA)

Repensar el futuro de la IA en un lugar de trabajo aumentado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido