En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento LLM controlable mediante dirección basada en codificador automático disperso

Razonamiento LLM controlable mediante dirección basada en codificador automático disperso

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de razonamiento (LRM) exhiben estrategias de razonamiento cognitivo similares a las humanas (por ejemplo, retroceso, verificación cruzada) durante el proceso de razonamiento, lo que mejora su desempeño en tareas complejas. Actualmente, las estrategias de razonamiento son seleccionadas de forma autónoma por los propios LRM. Sin embargo, esta selección autónoma a menudo produce caminos de razonamiento ineficientes o incluso erróneos. Para hacer que el razonamiento sea más confiable y flexible, es importante desarrollar métodos para controlar las estrategias de razonamiento. Los métodos existentes luchan por controlar las estrategias de razonamiento detalladas debido al entrelazamiento conceptual en los estados ocultos de los LRM. Para abordar esto, aprovechamos los codificadores automáticos dispersos (SAE) para descomponer estados ocultos entrelazados con estrategias en un espacio de características desenredado. Para identificar las pocas características específicas de la estrategia del amplio conjunto de características SAE, proponemos SAE-Steering, un proceso eficiente de identificación de características de dos etapas. SAE-Steering primero recuerda las características que amplifican los logits de las palabras clave específicas de la estrategia, filtrando más del 99% de las características, y luego clasifica las características restantes según su efectividad de control. Utilizando las características específicas de la estrategia identificadas como vectores de control, SAE-Steering supera a los métodos existentes en más del 15% en efectividad de control. Además, controlar las estrategias de razonamiento puede redirigir a los LRM de caminos erróneos a caminos correctos, logrando una mejora absoluta de la precisión del 7%.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web