Más allá del escalamiento del modelo: intervención en el momento de la prueba para un razonamiento profundo eficiente

Resumen: Los modelos de razonamiento grande (LRM) sobresalen en el razonamiento de varios pasos, pero a menudo sufren de procesos de razonamiento ineficientes como pensar demasiado y exagerar, donde el razonamiento excesivo o mal dirigido aumenta el costo computacional y degrada el rendimiento. Los métodos de razonamiento eficientes existentes operan en un circuito cerrado, careciendo de mecanismos de intervención externa para guiar el proceso de razonamiento. Para abordar esto, proponemos Think-with-Me, un novedoso paradigma de razonamiento interactivo en el momento de la prueba que introduce la intervención de retroalimentación externa en el proceso de razonamiento. Nuestras ideas clave son que las conjunciones transicionales sirven como puntos naturales para la intervención, señalando fases de autovalidación o exploración y el uso apropiado de palabras transicionales para prolongar el razonamiento mejora el desempeño, mientras que el uso excesivo afecta el desempeño. A partir de estos conocimientos, Think-with-Me detiene el razonamiento en estos puntos para recibir retroalimentación externa, extendiendo o finalizando de manera adaptativa el razonamiento para reducir la redundancia y al mismo tiempo preservar la precisión. La retroalimentación se genera a través de una evaluación de múltiples criterios (racionalidad e integridad) y proviene de representantes humanos o de LLM. Entrenamos el modelo de destino utilizando la optimización de políticas relativas al grupo (GRPO) para adaptarlo a este modo interactivo. Los experimentos muestran que Think-with-Me logra un equilibrio superior entre precisión y duración del razonamiento en ventanas de contexto limitadas. En AIME24, Think-with-Me supera al QwQ-32B en un 7,19 % en precisión y, al mismo tiempo, reduce la duración promedio del razonamiento en un 81 % en una ventana de 8K. El paradigma también beneficia la seguridad y las tareas creativas.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DualResearch: recuperación de gráficos duales controlada por entropía para la reconstrucción de respuestas

Comprensión ambiental eficiente y generalizable para la navegación visual

Evaluación del razonamiento de LLM a través del descubrimiento de cadenas causales implícitas en el discurso climático

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido