Resumen:A medida que los sistemas de IA se vuelven más capaces y se implementan ampliamente como agentes, garantizar su funcionamiento seguro se vuelve fundamental. El control de la IA ofrece un enfoque para mitigar el riesgo de agentes de IA que no son de confianza al monitorear sus acciones e intervenir o auditar cuando sea necesario. Evaluar la seguridad de estos protocolos requiere comprender tanto su eficacia contra los ataques actuales como su solidez frente a los adversarios adaptables. En este trabajo, evaluamos sistemáticamente una variedad de protocolos de control en SHADE-Arena, un conjunto de datos de diversos entornos agentes. En primer lugar, evaluamos los protocolos del equipo azul, incluido el aplazamiento a modelos confiables, el remuestreo y el aplazamiento de acciones críticas, frente a una política de ataque predeterminada. Descubrimos que el remuestreo para incriminación y el aplazamiento de acciones críticas funcionan mejor, aumentando la seguridad del 50 % al 96 %. Luego, repetimos las estrategias del equipo rojo contra estos protocolos y descubrimos que las políticas de ataque con posibilidades adicionales, como el conocimiento de cuándo ocurre el remuestreo o la capacidad de simular monitores, pueden mejorar sustancialmente las tasas de éxito de los ataques contra nuestra estrategia de remuestreo, disminuyendo la seguridad al 17 %. Sin embargo, aplazar acciones críticas es muy sólido incluso para las estrategias de nuestro equipo rojo más fuerte, lo que demuestra la importancia de negar a las políticas de ataque el acceso a los protocolos internos.

Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original

Evaluación de protocolos de control para agentes de IA que no son de confianza

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

WeisFeiler-Leman Feature for Planning: un estudio de hiperparameter de tamaño de muestra de 1,000,000

El punto de referencia MUSE: sondeo de la percepción musical y el razonamiento relacional auditivo en audio LLMS

Branch-and-Browse: exploración web eficiente y controlable con razonamiento estructurado en árbol y memoria de acción

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido