Falsificación de alineación: el tren -> Implementación de asimetría: a través de una lente de teoría de juegos con equilibrios bayesianos-Stackelberg

Resumen: La falsificación de alineación es una forma de engaño estratégico en IA en la que los modelos cumplen selectivamente con los objetivos de entrenamiento cuando infieren que están en entrenamiento, mientras preservan un comportamiento diferente fuera del entrenamiento. El fenómeno se documentó por primera vez para Claude 3 Opus y luego se examinó en modelos de lenguaje grandes adicionales. En estas configuraciones, la palabra “entrenamiento” se refiere al entrenamiento simulado a través de indicaciones sin actualizaciones de parámetros, por lo que los efectos observados son cambios de comportamiento condicionados por el contexto en lugar de aprendizaje de preferencias. Estudiamos el fenómeno utilizando un marco de evaluación que compara métodos de optimización de preferencias (BCO, DPO, KTO y GRPO) en 15 modelos de cuatro familias de modelos, medidos según tres ejes: seguridad, inocuidad y utilidad. Nuestro objetivo es identificar qué causa la falsificación de la alineación y cuándo ocurre.

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Fabricación en una era de pasaportes de productos digitales

Hava: Enfoque híbrido para la alineación del valor a través del peso de la recompensa para el aprendizaje de refuerzo

HIREF: Aprovechando la ontología jerárquica y el refinamiento de la red para una robusta recomendación de medicamentos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido