En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá del escalamiento del modelo: intervención en el momento de la prueba para un razonamiento profundo eficiente

Más allá del escalamiento del modelo: intervención en el momento de la prueba para un razonamiento profundo eficiente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de razonamiento grande (LRM) sobresalen en el razonamiento de varios pasos, pero a menudo sufren de procesos de razonamiento ineficientes como pensar demasiado y exagerar, donde el razonamiento excesivo o mal dirigido aumenta el costo computacional y degrada el rendimiento. Los métodos de razonamiento eficientes existentes operan en un circuito cerrado, careciendo de mecanismos de intervención externa para guiar el proceso de razonamiento. Para abordar esto, proponemos Think-with-Me, un novedoso paradigma de razonamiento interactivo en el momento de la prueba que introduce la intervención de retroalimentación externa en el proceso de razonamiento. Nuestras ideas clave son que las conjunciones transicionales sirven como puntos naturales para la intervención, señalando fases de autovalidación o exploración y el uso apropiado de palabras transicionales para prolongar el razonamiento mejora el desempeño, mientras que el uso excesivo afecta el desempeño. A partir de estos conocimientos, Think-with-Me detiene el razonamiento en estos puntos para recibir retroalimentación externa, extendiendo o finalizando de manera adaptativa el razonamiento para reducir la redundancia y al mismo tiempo preservar la precisión. La retroalimentación se genera a través de una evaluación de múltiples criterios (racionalidad e integridad) y proviene de representantes humanos o de LLM. Entrenamos el modelo de destino utilizando la optimización de políticas relativas al grupo (GRPO) para adaptarlo a este modo interactivo. Los experimentos muestran que Think-with-Me logra un equilibrio superior entre precisión y duración del razonamiento en ventanas de contexto limitadas. En AIME24, Think-with-Me supera al QwQ-32B en un 7,19 % en precisión y, al mismo tiempo, reduce la duración promedio del razonamiento en un 81 % en una ventana de 8K. El paradigma también beneficia la seguridad y las tareas creativas.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web