ReflCtrl: control de la reflexión LLM mediante ingeniería de representación

Resumen: Los modelos de lenguaje grande (LLM) con razonamiento en cadena de pensamiento (CoT) han logrado un rendimiento sólido en diversas tareas, incluidas matemáticas, codificación y razonamiento general. Una capacidad distintiva de estos modelos de razonamiento es la autorreflexión: la capacidad de revisar y revisar pasos de razonamiento anteriores. Si bien la autorreflexión mejora el rendimiento del razonamiento, también aumenta el costo de la inferencia. En este trabajo, estudiamos la autorreflexión a través del lente de la ingeniería de representación. Segmentamos el razonamiento del modelo en pasos, identificamos los pasos correspondientes a la reflexión y extraemos una dirección de reflexión en el espacio latente que gobierna este comportamiento. Utilizando esta dirección, proponemos un método de dirección gradual que puede controlar la frecuencia de reflexión. Llamamos a nuestro marco ReflCtrl. Nuestros experimentos muestran que (1) en muchos casos las reflexiones son redundantes, especialmente en modelos más sólidos (en nuestros experimentos, podemos ahorrar hasta un 33,6 por ciento de tokens de razonamiento mientras preservamos el rendimiento), y (2) el comportamiento de reflexión del modelo está altamente correlacionado con una señal de incertidumbre interna, lo que implica que la autorreflexión puede estar controlada por la incertidumbre del modelo.

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La energía nuclear aumenta en China a medida que se aprobaron 10 nuevos reactores

Colaboración y conflicto entre humanos y modelos de lenguaje a través de la lente de la teoría de juegos

Una metafísica basada en la confiabilidad de los sistemas de inteligencia artificial

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido