Prueba de estrés Alineación deliberativa para el entrenamiento anti-scheming

Resumen: Los sistemas de IA altamente capaces podrían buscar en secreto objetivos desalineados, lo que llamamos “esquemas”. Debido a que una IA esquema intentaría deliberadamente ocultar sus objetivos y acciones desalineadas, medir y mitigar el esquema requiere diferentes estrategias de las que se usan típicamente en ML. Proponemos que evaluar las intervenciones anti-scheming requiere al menos (1) la propensión de prueba para esquiar en tareas de extracción lejana (OOD), (2) evaluar si la falta de esquemas está impulsada por la conciencia situacional y (3) verificar la robustez para preexistir los objetivos desalentados. Utilizamos una categoría amplia de “acciones encubiertas”, como las reglas de ruptura en secreto o el bajo rendimiento intencionalmente de bajo rendimiento en las pruebas, como un proxy para esquemas y evaluaciones de diseño para acciones encubiertas. Luego probamos la alineación deliberativa de estrés como un estudio de caso para anti-scheming. En 26 evaluaciones OOD (más de 180 entornos), la alineación deliberativa reduce las tasas de acción encubierta (OpenAI O3: 13%-> 0.4%) pero no las elimina completamente. Nuestra mitigación también es capaz de evitar que los agentes persigan un objetivo oculto previamente entrenado en el modelo, pero aún encontramos mal comportamiento después del equipo rojo adicional. Encontramos que la cadena de pensamiento de los modelos (COT) a menudo demuestra conciencia de ser evaluado para su alineación y muestran evidencia causal de que esta conciencia disminuye el comportamiento encubierto, mientras que la falta de conciencia lo aumenta. Por lo tanto, no podemos excluir que las reducciones observadas en las tasas de acción encubierta estén al menos parcialmente impulsadas por la conciencia situacional. Si bien confiamos en la cuna legal humana para el entrenamiento, estudiando la conciencia situacional y demostrando evidencia clara de desalineación, nuestra capacidad de confiar en esto se degrada a medida que los modelos continúan alejándose del razonamiento en inglés estándar. Alentamos la investigación sobre las mitigaciones de alineación para el esquema y su evaluación, especialmente para el caso adversario de la alineación engañosa, que este documento no aborda.

Publicado Originalme en export.arxiv.org El 21 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un enfoque eficiente inspirado en insectos para la navegación visual entre puntos y objetivos

Por qué las agencias federales de salud estadounidenses están abandonando las vacunas de ARNm

El arte de decir “tal vez”: una lente conforme para la composición de la incertidumbre en VLMS

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido