En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ReEfBench: cuantificación de la eficiencia del razonamiento de los LLM

ReEfBench: cuantificación de la eficiencia del razonamiento de los LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La escala en el tiempo de prueba ha permitido que los modelos de lenguajes grandes (LLM) aborden el razonamiento complejo, sin embargo, las limitaciones de la evaluación actual de la cadena de pensamiento (CoT) oscurecen si las mejoras en el desempeño se derivan de un razonamiento genuino o de una mera verbosidad. Para abordar esto, (1) proponemos un marco neurosimbólico novedoso para la evaluación del razonamiento centrada en el proceso, integral y no intrusiva. (2) A través de esta lente, identificamos cuatro prototipos de comportamiento distintos y diagnosticamos los modos de falla. (3) Examinamos el impacto del modo de inferencia, la estrategia de entrenamiento y la escala del modelo. Nuestro análisis revela que la generación extendida de tokens no es un requisito previo para un razonamiento profundo. Además, revelamos limitaciones críticas: mezclar datos de CoT largos y cortos en el entrenamiento conlleva riesgos de saturación y colapso prematuros, mientras que la destilación en modelos más pequeños captura la duración del comportamiento pero no logra replicar la eficacia lógica debido a límites de capacidad intrínsecos.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web