Falsificación de alineación: el tren -> Implementación de asimetría: a través de una lente de teoría de juegos con equilibrios bayesianos-Stackelberg
Resumen: La falsificación de alineación es una forma de engaño estratégico en IA en la que los modelos cumplen selectivamente con los objetivos de entrenamiento cuando infieren que están en entrenamiento, mientras preservan un comportamiento diferente fuera del entrenamiento. El fenómeno se documentó por primera vez para Claude 3 Opus y luego se examinó en modelos de lenguaje grandes adicionales.
Leer más →