En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Falsificación de alineación: el tren -> Implementación de asimetría: a través de una lente de teoría de juegos con equilibrios bayesianos-Stackelberg

Falsificación de alineación: el tren -> Implementación de asimetría: a través de una lente de teoría de juegos con equilibrios bayesianos-Stackelberg

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La falsificación de alineación es una forma de engaño estratégico en IA en la que los modelos cumplen selectivamente con los objetivos de entrenamiento cuando infieren que están en entrenamiento, mientras preservan un comportamiento diferente fuera del entrenamiento. El fenómeno se documentó por primera vez para Claude 3 Opus y luego se examinó en modelos de lenguaje grandes adicionales. En estas configuraciones, la palabra “entrenamiento” se refiere al entrenamiento simulado a través de indicaciones sin actualizaciones de parámetros, por lo que los efectos observados son cambios de comportamiento condicionados por el contexto en lugar de aprendizaje de preferencias. Estudiamos el fenómeno utilizando un marco de evaluación que compara métodos de optimización de preferencias (BCO, DPO, KTO y GRPO) en 15 modelos de cuatro familias de modelos, medidos según tres ejes: seguridad, inocuidad y utilidad. Nuestro objetivo es identificar qué causa la falsificación de la alineación y cuándo ocurre.

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web