Arquitectura de control cognitivo (CCA): un marco de supervisión del ciclo de vida para agentes de IA sólidamente alineados

Resumen: Los agentes autónomos del modelo de lenguaje grande (LLM) exhiben una vulnerabilidad significativa a los ataques de inyección rápida indirecta (IPI). Estos ataques secuestran el comportamiento de los agentes contaminando fuentes de información externas, explotando compensaciones fundamentales entre seguridad y funcionalidad en los mecanismos de defensa existentes. Esto conduce a invocaciones de herramientas maliciosas y no autorizadas, desviando a los agentes de sus objetivos originales. El éxito de las IPI complejas revela una fragilidad sistémica más profunda: si bien las defensas actuales demuestran cierta eficacia, la mayoría de las arquitecturas de defensa están inherentemente fragmentadas. En consecuencia, no logran brindar una garantía de integridad total en todo el proceso de ejecución de tareas, lo que obliga a compromisos multidimensionales inaceptables entre seguridad, funcionalidad y eficiencia. Nuestro método se basa en una idea central: no importa cuán sutil sea un ataque IPI, su búsqueda de un objetivo malicioso se manifestará en última instancia como una desviación detectable en la trayectoria de la acción, distinta del plan legítimo esperado. Con base en esto, proponemos la Arquitectura de Control Cognitivo (CCA), un marco holístico que logra la supervisión cognitiva del ciclo de vida completo. CCA construye un sistema de defensa eficiente de doble capa a través de dos pilares sinérgicos: (i) aplicación proactiva y preventiva de la integridad del flujo de control y del flujo de datos a través de un “gráfico de intención” pregenerado; y (ii) un innovador “Adjudicador por niveles” que, tras la detección de una desviación, inicia un razonamiento profundo basado en puntuación multidimensional, diseñado específicamente para contrarrestar ataques condicionales complejos. Los experimentos en el punto de referencia AgentDojo corroboran que CCA no sólo resiste eficazmente ataques sofisticados que desafían otros métodos de defensa avanzados, sino que también logra una seguridad sin compromisos con notable eficiencia y solidez, conciliando así el equilibrio multidimensional antes mencionado.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

GDGB: un punto de referencia para el aprendizaje de gráficos atribuido por texto dinámico generativo

Creencia común revisitada

¿Está pensando en unirse a las filas de liderazgo del IEEE?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido