Resumen:La transición de chatbots estáticos a agentes autónomos (equipados con memoria persistente, protocolos de uso de herramientas y colaboración entre múltiples agentes) ha ampliado fundamentalmente el panorama de amenazas de la IA. Los mecanismos de defensa actuales, como la seguridad perimetral y la alineación del tiempo de entrenamiento, siguen siendo externos al circuito de razonamiento activo del agente. En consecuencia, se quedan cortos: un agente totalmente alineado sigue siendo muy vulnerable al secuestro del tiempo de ejecución mediante envenenamiento de la memoria, manipulación de la cadena de herramientas o ataques de protocolos de múltiples agentes. Para abordar esta brecha crítica, presentamos el Sistema Inmunológico Agente-Nativo (ANIS), la primera arquitectura de defensa endógena inspirada biológicamente integrada directamente dentro del circuito cognitivo del agente. Nuestro marco presenta cuatro contribuciones principales. Primero, diseñamos una Torre Inmune de seis capas (L0-L5), incorporando claramente la Inmunidad de Barrera (L1) como una capa de aislamiento físico y lógico no cognitivo. En segundo lugar, establecemos una taxonomía unificada de virus agentes y vacunas agentes, formalizando la distinción crítica entre defensas superficiales no paramétricas y vacunas paramétricas robustas. En tercer lugar, conceptualizamos la tríada de arnés (Meta, Self y Auto), una columna vertebral de automatización metacognitiva y autocontrol que impulsa el aprendizaje inmunológico continuo (CIL), lo que permite que las vacunas se adapten dinámicamente a nuevas amenazas. Finalmente, establecemos una demarcación teórica rigurosa entre la alineación del modelo y la inmunidad del agente: mientras que la alineación proporciona una base de valor “constitucional” estática durante el entrenamiento, ANIS sirve como mecanismo dinámico de “aplicación de la ley” durante el tiempo de ejecución. Concluimos planteando desafíos abiertos para el campo, incluida la estandarización de protocolos inmunológicos, métricas de evaluación novedosas como la tasa de autoinmunidad (tasa de intervención de falsos positivos) y la dinámica coevolutiva entre patógenos y vacunas dentro de los ecosistemas de inteligencia colectiva.
Publicado originalmente en export.arxiv.org el 28 de junio de 2026.
Ver fuente original
