Arquitectura de control cognitivo (CCA): un marco de supervisión del ciclo de vida para agentes de IA sólidamente alineados
Resumen: Los agentes autónomos del modelo de lenguaje grande (LLM) exhiben una vulnerabilidad significativa a los ataques de inyección rápida indirecta (IPI). Estos ataques secuestran el comportamiento de los agentes contaminando fuentes de información externas, explotando compensaciones fundamentales entre seguridad y funcionalidad en los mecanismos de defensa existentes.
Leer más →