ReEfBench: cuantificación de la eficiencia del razonamiento de los LLM

Resumen: La escala en el tiempo de prueba ha permitido que los modelos de lenguajes grandes (LLM) aborden el razonamiento complejo, sin embargo, las limitaciones de la evaluación actual de la cadena de pensamiento (CoT) oscurecen si las mejoras en el desempeño se derivan de un razonamiento genuino o de una mera verbosidad. Para abordar esto, (1) proponemos un marco neurosimbólico novedoso para la evaluación del razonamiento centrada en el proceso, integral y no intrusiva. (2) A través de esta lente, identificamos cuatro prototipos de comportamiento distintos y diagnosticamos los modos de falla. (3) Examinamos el impacto del modo de inferencia, la estrategia de entrenamiento y la escala del modelo. Nuestro análisis revela que la generación extendida de tokens no es un requisito previo para un razonamiento profundo. Además, revelamos limitaciones críticas: mezclar datos de CoT largos y cortos en el entrenamiento conlleva riesgos de saturación y colapso prematuros, mientras que la destilación en modelos más pequeños captura la duración del comportamiento pero no logra replicar la eficacia lógica debido a límites de capacidad intrínsecos.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Modelado del comportamiento de seguimiento del vehículo eléctrico: enfoque clásico versus aprendizaje automático

Cinco formas en que la IA está aprendiendo a mejorarse a sí misma

Agentic AI Foundation presenta el calendario de MCP Dev Summit Norteamérica 2026

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido