Resumen: La falsificación de alineación es una forma de engaño estratégico en IA en la que los modelos cumplen selectivamente con los objetivos de entrenamiento cuando infieren que están en entrenamiento, mientras preservan un comportamiento diferente fuera del entrenamiento. El fenómeno se documentó por primera vez para Claude 3 Opus y luego se examinó en modelos de lenguaje grandes adicionales. En estas configuraciones, la palabra “entrenamiento” se refiere al entrenamiento simulado a través de indicaciones sin actualizaciones de parámetros, por lo que los efectos observados son cambios de comportamiento condicionados por el contexto en lugar de aprendizaje de preferencias. Estudiamos el fenómeno utilizando un marco de evaluación que compara métodos de optimización de preferencias (BCO, DPO, KTO y GRPO) en 15 modelos de cuatro familias de modelos, medidos según tres ejes: seguridad, inocuidad y utilidad. Nuestro objetivo es identificar qué causa la falsificación de la alineación y cuándo ocurre.
Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original
