Resumen: La proliferación de agentes autónomos de IA capaces de ejecutar acciones del mundo real (operaciones de sistemas de archivos, llamadas API, modificaciones de bases de datos, transacciones financieras) introduce una clase de riesgo de seguridad que no aborda la infraestructura de moderación de contenido existente. Los sistemas actuales de seguridad de textos evalúan el contenido lingüístico en busca de categorías dañinas como violencia, incitación al odio y contenido sexual; son arquitectónicamente inadecuados para evaluar si una acción propuesta cae dentro del alcance operativo autorizado de un agente. Presentamos ILION (Red de operaciones de identidad lógica inteligente), una puerta de ejecución determinista para sistemas de IA agentes. ILION emplea una arquitectura en cascada de cinco componentes: Impresión de identidad transitoria (TII), Marco de referencia de vector semántico (SVRF), Control de deriva de identidad (IDC), Puntuación de resonancia de identidad (IRS) y Capa de veto de consenso (CVL), para clasificar las acciones de agente propuestas como BLOQUEAR o PERMITIR sin capacitación estadística ni dependencias de API. El sistema no requiere datos etiquetados, funciona con una latencia inferior a un milisegundo y produce veredictos totalmente interpretables. Evaluamos ILION en ILION-Bench v2, un punto de referencia especialmente diseñado de 380 escenarios de prueba en ocho categorías de ataques con un 39 % de casos adversarios de dificultad difícil y una división de desarrollo retrasada. ILION logra F1 = 0,8515, precisión = 91,0 % y una tasa de falsos positivos del 7,9 % con una latencia media de 143 microsegundos. La evaluación comparativa con tres líneas de base: Lakera Guard (F1 = 0,8087), OpenAI Moderation API (F1 = 0,1188) y Llama Guard 3 (F1 = 0,0105) demuestra que la infraestructura de seguridad de texto existente falla sistemáticamente en las tareas de seguridad de ejecución del agente debido a una falta de coincidencia fundamental en la tarea. ILION supera la mejor línea de base comercial en 4,3 puntos F1 mientras opera 2000 veces más rápido con una tasa de falsos positivos cuatro veces menor.
Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original
