En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento eficiente con pensamiento equilibrado

Razonamiento eficiente con pensamiento equilibrado

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de razonamiento (LRM) han demostrado capacidades de razonamiento notables, sin embargo, a menudo adolecen de pensar demasiado, gastar pasos computacionales redundantes en problemas simples, o pensar poco, no explorando suficientes caminos de razonamiento a pesar de sus capacidades inherentes. Estos problemas generan ineficiencias y posibles imprecisiones, lo que limita el despliegue práctico en entornos con recursos limitados. Los métodos existentes para mitigar el pensamiento excesivo, como suprimir palabras clave reflexivas o ajustar la longitud del razonamiento, pueden inducir inadvertidamente a pensar poco, comprometiendo la precisión. Por ello, proponemos ReBalance, un marco sin formación que logra un razonamiento eficiente con un pensamiento equilibrado. ReBalance aprovecha la confianza como un indicador continuo de la dinámica del razonamiento, identificando el pensamiento excesivo a través de una alta variación de confianza y el pensamiento insuficiente a través de un exceso de confianza constante. Al agregar estados ocultos de un conjunto de datos a pequeña escala en prototipos de modo de razonamiento, calculamos un vector de dirección para guiar las trayectorias de razonamiento de los LRM. Una función de control dinámico modula la fuerza y ​​dirección de este vector basándose en la confianza en tiempo real, eliminando la redundancia durante el pensamiento excesivo y promoviendo la exploración durante el pensamiento insuficiente. Amplios experimentos realizados en cuatro modelos que van desde 0.5B a 32B, y en nueve puntos de referencia en razonamiento matemático, respuesta a preguntas generales y tareas de codificación demuestran que ReBalance reduce efectivamente la redundancia de salida al tiempo que mejora la precisión, ofreciendo una estrategia general, sin capacitación y plug-and-play para una implementación LRM eficiente y sólida. El código está disponible en esta URL https .

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web