Resumen:A medida que los sistemas de IA se vuelven más capaces y se implementan ampliamente como agentes, garantizar su funcionamiento seguro se vuelve fundamental. El control de la IA ofrece un enfoque para mitigar el riesgo de agentes de IA que no son de confianza al monitorear sus acciones e intervenir o auditar cuando sea necesario. Evaluar la seguridad de estos protocolos requiere comprender tanto su eficacia contra los ataques actuales como su solidez frente a los adversarios adaptables. En este trabajo, evaluamos sistemáticamente una variedad de protocolos de control en SHADE-Arena, un conjunto de datos de diversos entornos agentes. En primer lugar, evaluamos los protocolos del equipo azul, incluido el aplazamiento a modelos confiables, el remuestreo y el aplazamiento de acciones críticas, frente a una política de ataque predeterminada. Descubrimos que el remuestreo para incriminación y el aplazamiento de acciones críticas funcionan mejor, aumentando la seguridad del 50 % al 96 %. Luego, repetimos las estrategias del equipo rojo contra estos protocolos y descubrimos que las políticas de ataque con posibilidades adicionales, como el conocimiento de cuándo ocurre el remuestreo o la capacidad de simular monitores, pueden mejorar sustancialmente las tasas de éxito de los ataques contra nuestra estrategia de remuestreo, disminuyendo la seguridad al 17 %. Sin embargo, aplazar acciones críticas es muy sólido incluso para las estrategias de nuestro equipo rojo más fuerte, lo que demuestra la importancia de negar a las políticas de ataque el acceso a los protocolos internos.
Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original
