En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Dirigir rasgos latentes, hechos no aprendidos: un estudio empírico de los límites del control de activación

Dirigir rasgos latentes, hechos no aprendidos: un estudio empírico de los límites del control de activación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La dirección de activación ofrece un enfoque prometedor para el control del comportamiento de los LLM. Nos centramos en la cuestión de cómo varía la eficacia de la dirección entre diferentes tipos de comportamiento y si la naturaleza de las conductas objetivo puede predecir el éxito de la dirección. Abordamos esto a través del análisis empírico de la activación a través de 50 comportamientos que abarcan arquetipos de persona, rasgos de personalidad, comportamientos desalineados, señales de estilo y suplantación de figuras públicas. Presentamos un conjunto de experimentos integrales sobre optimización de coeficientes, propiedades vectoriales y requisitos de datos para proporcionar una guía integral para la implementación de la dirección de activación. Nuestro análisis demuestra que la efectividad de la dirección varía significativamente según el tipo de comportamiento, con diferentes categorías de comportamiento que exhiben distintos patrones de respuesta a la fuerza de la intervención. Encontramos que la expresión del rasgo sigue una curva en U invertida con un coeficiente de dirección fuerte. También mostramos que las métricas de separación de vectores no predicen el éxito de la dirección, pero conjuntos de datos de entrenamiento más grandes permiten una dirección más agresiva. Estos hallazgos proporcionan una guía con base empírica para implementar la dirección de activación y demuestran que la eficacia de la dirección está fuertemente influenciada por el tipo de comportamiento.

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web