Razonamiento eficiente con pensamiento equilibrado

Resumen: Los grandes modelos de razonamiento (LRM) han demostrado capacidades de razonamiento notables, sin embargo, a menudo adolecen de pensar demasiado, gastar pasos computacionales redundantes en problemas simples, o pensar poco, no explorando suficientes caminos de razonamiento a pesar de sus capacidades inherentes. Estos problemas generan ineficiencias y posibles imprecisiones, lo que limita el despliegue práctico en entornos con recursos limitados. Los métodos existentes para mitigar el pensamiento excesivo, como suprimir palabras clave reflexivas o ajustar la longitud del razonamiento, pueden inducir inadvertidamente a pensar poco, comprometiendo la precisión. Por ello, proponemos ReBalance, un marco sin formación que logra un razonamiento eficiente con un pensamiento equilibrado. ReBalance aprovecha la confianza como un indicador continuo de la dinámica del razonamiento, identificando el pensamiento excesivo a través de una alta variación de confianza y el pensamiento insuficiente a través de un exceso de confianza constante. Al agregar estados ocultos de un conjunto de datos a pequeña escala en prototipos de modo de razonamiento, calculamos un vector de dirección para guiar las trayectorias de razonamiento de los LRM. Una función de control dinámico modula la fuerza y dirección de este vector basándose en la confianza en tiempo real, eliminando la redundancia durante el pensamiento excesivo y promoviendo la exploración durante el pensamiento insuficiente. Amplios experimentos realizados en cuatro modelos que van desde 0.5B a 32B, y en nueve puntos de referencia en razonamiento matemático, respuesta a preguntas generales y tareas de codificación demuestran que ReBalance reduce efectivamente la redundancia de salida al tiempo que mejora la precisión, ofreciendo una estrategia general, sin capacitación y plug-and-play para una implementación LRM eficiente y sólida. El código está disponible en esta URL https .

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Teoría de la máquina de la máquina y la estructura de los valores humanos

Planificación de Monte Carlo asistida por un punto de referencia

La descarga: gasto de energía de IA de Google y entregando datos de ADN a la policía

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido