Resumen: Las IA se implementan cada vez más con mayor autonomía y capacidades, lo que aumenta el riesgo de que una IA desalineada pueda causar daños catastróficos. El monitoreo no confiable (usar un modelo no confiable para supervisar otro) es un enfoque para reducir el riesgo. Justificar la seguridad de una implementación de monitoreo que no es de confianza es un desafío porque los desarrolladores no pueden implementar de manera segura un modelo desalineado para probar su protocolo directamente. En este documento, desarrollamos métodos existentes para demostrar rigurosamente la seguridad basándose en pruebas previas al despliegue. Relajamos las suposiciones que hicieron investigaciones anteriores sobre el control de la IA sobre las estrategias de colusión que una IA desalineada podría utilizar para subvertir el monitoreo que no es de confianza. Desarrollamos una taxonomía que cubre el autorreconocimiento pasivo, la colusión causal (ocultar señales precompartidas), la colusión acausal (ocultar señales a través de puntos de Schelling) y estrategias combinadas. Creamos un bosquejo del caso de seguridad para presentar claramente nuestro argumento, exponer explícitamente nuestras suposiciones y resaltar los desafíos no resueltos. Identificamos condiciones bajo las cuales el autorreconocimiento pasivo podría ser una estrategia de colusión más efectiva que las estudiadas anteriormente. Nuestro trabajo avanza hacia evaluaciones más sólidas del monitoreo no confiable.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
