En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CoTJudger: un marco basado en gráficos para la evaluación automática de la eficiencia y redundancia de la cadena de pensamiento en LRM

CoTJudger: un marco basado en gráficos para la evaluación automática de la eficiencia y redundancia de la cadena de pensamiento en LRM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de razonamiento (LRM) han demostrado un sólido rendimiento al producir rastros extendidos de cadena de pensamiento (CoT) antes de responder. Sin embargo, este paradigma a menudo induce a un razonamiento excesivo: cálculos redundantes y autoverificación circular que aumentan el costo computacional sin mejorar los resultados. Las evaluaciones existentes enfatizan en gran medida la precisión final o los recuentos aproximados de tokens, y carecen de herramientas automatizadas para separar la lógica esencial de la redundancia estructural. Presentamos CoTJudger, un marco basado en gráficos que cuantifica la eficiencia del razonamiento al convertir CoT de forma libre en gráficos de dependencia dirigida y extraer la ruta efectiva más corta (SEP) necesaria para alcanzar una solución correcta. Esto produce una señal de eficiencia interpretable (cuánto de CoT es necesario versus estructuralmente redundante) que es comparable entre modelos y tareas. Al evaluar 21 LRM, CoTJudger revela una redundancia generalizada y muestra modos de falla recurrentes, incluida la obsesión por la verificación y la redundancia compensatoria. Estos resultados proporcionan una métrica práctica para separar la capacidad de razonamiento del desperdicio computacional, lo que permite una evaluación y un diagnóstico más específicos de la eficiencia de LRM.

Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web