DirectionControl: evaluación holística de la dirección de alineación en LLMS

Resumen: Introducimos a DirectingControl, un punto de referencia para evaluar los métodos de dirección de representación a través de los objetivos de alineación del núcleo (sesgo, generación dañina y alucinación) y sus efectos sobre comportamientos secundarios como la sycophancy y la moral de sentido común. Si bien el trabajo de alineación previo a menudo destaca la veracidad o la capacidad de razonamiento para demostrar los efectos secundarios de la dirección de representación, encontramos que hay muchas compensaciones inexploradas aún no entendidas de manera sistemática. Recopilamos un conjunto de datos de comportamientos primarios y secundarios relevantes para la seguridad para evaluar la efectividad de la dirección y el enredo conductual centrado en alrededor de cinco métodos de dirección populares. Para habilitar esto, elaboramos un marco de dirección modular basado en componentes únicos que sirven como bloques de construcción de muchos métodos existentes. Nuestros resultados en QWEN-2.5-7B y LLAMA-3.1-8B encuentran que el rendimiento de la dirección fuerte depende de la combinación específica del método de dirección, el modelo y el comportamiento dirigido, y que el enredo de concepto severo puede resultar de combinaciones pobres de estos tres también. Lanzamos nuestro código aquí: esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Gráficos de creencias con zonas de razonamiento: estructura, dinámica y activación epistémica

Restricciones sistémicas de indecidibilidad

Banco de investigación profunda: evaluación de agentes de investigación web de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido