En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DirectionControl: evaluación holística de la dirección de alineación en LLMS

DirectionControl: evaluación holística de la dirección de alineación en LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos a DirectingControl, un punto de referencia para evaluar los métodos de dirección de representación a través de los objetivos de alineación del núcleo (sesgo, generación dañina y alucinación) y sus efectos sobre comportamientos secundarios como la sycophancy y la moral de sentido común. Si bien el trabajo de alineación previo a menudo destaca la veracidad o la capacidad de razonamiento para demostrar los efectos secundarios de la dirección de representación, encontramos que hay muchas compensaciones inexploradas aún no entendidas de manera sistemática. Recopilamos un conjunto de datos de comportamientos primarios y secundarios relevantes para la seguridad para evaluar la efectividad de la dirección y el enredo conductual centrado en alrededor de cinco métodos de dirección populares. Para habilitar esto, elaboramos un marco de dirección modular basado en componentes únicos que sirven como bloques de construcción de muchos métodos existentes. Nuestros resultados en QWEN-2.5-7B y LLAMA-3.1-8B encuentran que el rendimiento de la dirección fuerte depende de la combinación específica del método de dirección, el modelo y el comportamiento dirigido, y que el enredo de concepto severo puede resultar de combinaciones pobres de estos tres también. Lanzamos nuestro código aquí: esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web