Razonamiento LLM controlable mediante dirección basada en codificador automático disperso

Resumen: Los grandes modelos de razonamiento (LRM) exhiben estrategias de razonamiento cognitivo similares a las humanas (por ejemplo, retroceso, verificación cruzada) durante el proceso de razonamiento, lo que mejora su desempeño en tareas complejas. Actualmente, las estrategias de razonamiento son seleccionadas de forma autónoma por los propios LRM. Sin embargo, esta selección autónoma a menudo produce caminos de razonamiento ineficientes o incluso erróneos. Para hacer que el razonamiento sea más confiable y flexible, es importante desarrollar métodos para controlar las estrategias de razonamiento. Los métodos existentes luchan por controlar las estrategias de razonamiento detalladas debido al entrelazamiento conceptual en los estados ocultos de los LRM. Para abordar esto, aprovechamos los codificadores automáticos dispersos (SAE) para descomponer estados ocultos entrelazados con estrategias en un espacio de características desenredado. Para identificar las pocas características específicas de la estrategia del amplio conjunto de características SAE, proponemos SAE-Steering, un proceso eficiente de identificación de características de dos etapas. SAE-Steering primero recuerda las características que amplifican los logits de las palabras clave específicas de la estrategia, filtrando más del 99% de las características, y luego clasifica las características restantes según su efectividad de control. Utilizando las características específicas de la estrategia identificadas como vectores de control, SAE-Steering supera a los métodos existentes en más del 15% en efectividad de control. Además, controlar las estrategias de razonamiento puede redirigir a los LRM de caminos erróneos a caminos correctos, logrando una mejora absoluta de la precisión del 7%.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: aumentar la memoria de la IA y los vecinos descontentos de los centros de datos

Presentamos: la cuestión del cuerpo

GR-Agent: Agente de razonamiento de gráficos adaptativos con conocimiento incompleto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido