Los CaMeL también pueden usar computadoras: seguridad a nivel de sistema para agentes de uso de computadoras

Resumen: Los agentes de IA son vulnerables a ataques de inyección rápida, en los que contenido malicioso secuestra el comportamiento de los agentes para robar credenciales o causar pérdidas financieras. La única defensa sólida conocida es el aislamiento arquitectónico que separa estrictamente la planificación de tareas confiables de las observaciones del entorno que no son confiables. Sin embargo, aplicar este diseño a los agentes de uso informático (CUA), sistemas que automatizan tareas viendo pantallas y ejecutando acciones, presenta un desafío fundamental: los agentes actuales requieren una observación continua del estado de la interfaz de usuario para determinar cada acción, lo que entra en conflicto con el aislamiento requerido para la seguridad. Resolvemos esta tensión demostrando que los flujos de trabajo de la interfaz de usuario, si bien son dinámicos, son estructuralmente predecibles. Presentamos la planificación de disparo único para CUA, donde un planificador confiable genera un gráfico de ejecución completo con ramas condicionales antes de cualquier observación de contenido potencialmente malicioso, brindando garantías comprobables de integridad del flujo de control contra inyecciones de instrucciones arbitrarias. Aunque este aislamiento arquitectónico previene con éxito las inyecciones de instrucciones, mostramos que se necesitan medidas adicionales para prevenir ataques de Branch Steering, que manipulan elementos de la interfaz de usuario para desencadenar rutas válidas no deseadas dentro del plan. Evaluamos nuestro diseño en OSWorld y conservamos hasta el 57 % del rendimiento de los modelos fronterizos, al tiempo que mejoramos el rendimiento de los modelos más pequeños de código abierto hasta en un 19 %, lo que demuestra que la seguridad y la utilidad rigurosas pueden coexistir en las CUA.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comprender el proceso de pensamiento de los modelos de razonamiento: una perspectiva de la teoría del episodio de Schoenfeld

El nuevo Gemini 3 de Google responde con “códigos de vibración” y viene con su propio agente

Humano + ai para acelerar la evaluación de localización de anuncios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido