¿Cuándo podemos confiar en el seguimiento que no es de confianza? Un esbozo de caso de seguridad a través de estrategias de colusión

Resumen: Las IA se implementan cada vez más con mayor autonomía y capacidades, lo que aumenta el riesgo de que una IA desalineada pueda causar daños catastróficos. El monitoreo no confiable (usar un modelo no confiable para supervisar otro) es un enfoque para reducir el riesgo. Justificar la seguridad de una implementación de monitoreo que no es de confianza es un desafío porque los desarrolladores no pueden implementar de manera segura un modelo desalineado para probar su protocolo directamente. En este documento, desarrollamos métodos existentes para demostrar rigurosamente la seguridad basándose en pruebas previas al despliegue. Relajamos las suposiciones que hicieron investigaciones anteriores sobre el control de la IA sobre las estrategias de colusión que una IA desalineada podría utilizar para subvertir el monitoreo que no es de confianza. Desarrollamos una taxonomía que cubre el autorreconocimiento pasivo, la colusión causal (ocultar señales precompartidas), la colusión acausal (ocultar señales a través de puntos de Schelling) y estrategias combinadas. Creamos un bosquejo del caso de seguridad para presentar claramente nuestro argumento, exponer explícitamente nuestras suposiciones y resaltar los desafíos no resueltos. Identificamos condiciones bajo las cuales el autorreconocimiento pasivo podría ser una estrategia de colusión más efectiva que las estudiadas anteriormente. Nuestro trabajo avanza hacia evaluaciones más sólidas del monitoreo no confiable.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mejora del aprendizaje interactivo en contexto a partir de comentarios en lenguaje natural

Un boceto de casos de seguridad de alineación basado en el debate

Los gigantes de la IA quieren hacerse cargo del aula

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido