Las reglas fallan en el aviso, tienen éxito en el límite

Proporcionado por

Esta no fue una demostración de laboratorio; Fue una campaña de espionaje en vivo. Los atacantes secuestraron una configuración agente (código Claude más herramientas expuestas a través del Protocolo de contexto modelo (MCP)) y lo liberaron descomponiendo el ataque en tareas pequeñas, aparentemente benignas, y diciéndole al modelo que estaba realizando pruebas de penetración legítimas. El mismo bucle que impulsa a los copilotos de los desarrolladores y a los agentes internos se reutilizó como un ciberoperador autónomo. Claude no fue hackeado. Fue persuadido y utilizó herramientas para el ataque.

La inyección inmediata es persuasión, no un error

Las comunidades de seguridad llevan varios años advirtiendo sobre esto. Múltiple Los 10 mejores informes de OWASP poner inyección inmediata, o más recientemente Agente Secuestro de objetivos, en la parte superior de la lista de riesgos y lo combinamos con el abuso de identidad y privilegios y la explotación de la confianza entre el agente humano: demasiado poder en el agente, ninguna separación entre instrucciones y datos, y ninguna mediación de lo que sale.

Guía desde NCSC y CISA describe la IA generativa como un vector persistente de manipulación e ingeniería social que debe gestionarse a través del diseño, el desarrollo, la implementación y las operaciones, no remendado con una mejor redacción. La Ley de IA de la UE convierte esa visión del ciclo de vida en ley para los sistemas de IA de alto riesgo, lo que requiere un sistema continuo de gestión de riesgos, una sólida gobernanza de datos, registros y controles de ciberseguridad.

En la práctica, la inyección inmediata se entiende mejor como un canal de persuasión. Los atacantes no rompen el modelo: lo convencen. En el ejemplo de Anthropic, los operadores enmarcaron cada paso como parte de un ejercicio de seguridad defensiva, mantuvieron el modelo ciego a la campaña general y lo empujaron, bucle tras bucle, a realizar un trabajo ofensivo a la velocidad de la máquina.

Esto no es algo que un filtro de palabras clave o un párrafo cortés de “siga estas instrucciones de seguridad” puedan detener de manera confiable. La investigación sobre el comportamiento engañoso en modelos empeora esto. La investigación de Anthropic sobre agentes durmientes muestra que una vez que un modelo ha aprendido una puerta trasera, el reconocimiento de patrones estratégicos, el ajuste estándar y el entrenamiento adversario pueden ayudar al modelo a ocultar el engaño en lugar de eliminarlo. Si uno intenta defender un sistema como éste únicamente con reglas lingüísticas, está jugando en su propio terreno.

Por qué se trata de un problema de gobernanza, no de codificación de vibraciones

Los reguladores no exigen indicaciones perfectas; están pidiendo que las empresas demuestren control.

AI RMF del NIST enfatiza el inventario de activos, la definición de roles, el control de acceso, la gestión de cambios y el monitoreo continuo a lo largo del ciclo de vida de la IA. De manera similar, el Código de prácticas de seguridad cibernética de la IA del Reino Unido promueve principios de seguridad desde el diseño al tratar la IA como cualquier otro sistema crítico, con deberes explícitos para las juntas directivas y los operadores de sistemas desde su concepción hasta su desmantelamiento.

En otras palabras: las reglas realmente necesarias no son “nunca digas X” o “responda siempre como Y”, sino:

¿Quién actúa como este agente? ¿Qué herramientas y datos puede tocar? ¿Qué acciones requieren la aprobación humana? ¿Cómo se moderan, registran y auditan los resultados de alto impacto?

Marcos como el Secure AI Framework (SAIF) de Google lo hacen concreto. El control de permisos de los agentes de SAIF es contundente: los agentes deben operar con el mínimo privilegio, permisos de alcance dinámico y control explícito del usuario para acciones sensibles. Las 10 principales guías emergentes de OWASP sobre aplicaciones agentes reflejan esa postura: limitar las capacidades en el límite, no en la prosa.

De palabras suaves a límites duros

El caso del espionaje antrópico concreta el fracaso de los límites:

Identidad y alcance: Claude fue convencido para actuar como consultor de seguridad defensiva para la empresa ficticia del atacante, sin ningún vínculo estricto con una identidad empresarial real, inquilino o permisos de alcance. Una vez aceptada esa ficción, vino todo lo demás. Acceso a herramientas y datos: MCP le dio al agente acceso flexible a escáneres, marcos de explotación y sistemas de destino. No había una capa de políticas independiente que dijera: “Este inquilino nunca puede ejecutar descifradores de contraseñas contra rangos de IP externos” o “Este entorno solo puede escanear activos etiquetados como ‘internos'”. Ejecución de resultados: el código de explotación generado, las credenciales analizadas y los planes de ataque se trataron como artefactos procesables con poca mediación. Una vez que un humano decidió confiar en el resumen, la barrera entre el resultado del modelo y los efectos secundarios del mundo real desaparecía efectivamente.

Hemos visto la otra cara de esta moneda en contextos civiles. Cuando Air Canada chatbot del sitio web tergiversó su política de duelo y la aerolínea intentó argumentar que el robot era una entidad legal separada, el tribunal rechazó el reclamo de plano: la compañía seguía siendo responsable de lo que decía el robot. En el espionaje, hay más en juego, pero la lógica es la misma: si un agente de IA hace un mal uso de herramientas o datos, los reguladores y los tribunales examinarán a través del agente y de la empresa.

Reglas que funcionan, reglas que no

Así que sí, los sistemas basados en reglas fallan si por reglas nos referimos a listas ad-hoc de permitir/denegar, vallas de expresiones regulares y jerarquías barrocas de avisos que intentan controlar la semántica. Estos se desmoronan bajo la rápida inyección indirecta, el envenenamiento en el tiempo de recuperación y el engaño modelo. Pero la gobernanza basada en reglas no es opcional cuando pasamos del lenguaje a la acción.

La comunidad de seguridad está convergiendo en una síntesis:

Coloque las reglas en el límite de la capacidad: utilice motores de políticas, sistemas de identidad y permisos de herramientas para determinar qué puede hacer realmente el agente, con qué datos y con qué aprobaciones. Combine reglas con evaluación continua: utilice herramientas de observabilidad, paquetes de equipos rojos y registros y evidencia sólidos. Trate a los agentes como sujetos de primera clase en su modelo de amenazas: por ejemplo, MITRE ATLAS ahora cataloga técnicas y estudios de casos dirigidos específicamente a sistemas de IA.

La lección de la primera campaña de espionaje orquestada por la IA no es que la IA sea incontrolable. Es que el control pertenece al mismo lugar que siempre ha tenido en la seguridad: en el límite de la arquitectura, reforzado por sistemas, no por vibraciones.

Este contenido fue producido por Protegrity. No fue escrito por el personal editorial de MIT Technology Review.

Publicado originalmente en technologyreview.com el 28 de enero de 2026.
Ver fuente original

La inyección inmediata es persuasión, no un error

Por qué se trata de un problema de gobernanza, no de codificación de vibraciones

De palabras suaves a límites duros

Reglas que funcionan, reglas que no

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

La inyección inmediata es persuasión, no un error

Por qué se trata de un problema de gobernanza, no de codificación de vibraciones

De palabras suaves a límites duros

Reglas que funcionan, reglas que no

Please Share This Compartir este contenido

admin

También podría gustarte

6ta Conferencia Internacional ACM sobre Tecnología de la Información para el Bien Social

Oagents: un estudio empírico de la construcción de agentes efectivos

Vogue: la exploración guía con la incertidumbre visual mejora el razonamiento multimodal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido