L2M-AID: Defensa ciberfísica autónoma mediante la fusión del razonamiento semántico de modelos de lenguaje grandes con aprendizaje por refuerzo de múltiples agentes (preimpresión)

Resumen:La creciente integración del IoT industrial (IIoT) expone los sistemas ciberfísicos críticos a ataques sofisticados y de varias etapas que eluden las defensas tradicionales que carecen de conciencia contextual. Este artículo presenta L2M-AID, un marco novedoso para la defensa industrial autónoma que utiliza el aprendizaje por refuerzo de múltiples agentes potenciado por LLM. L2M-AID organiza un equipo de agentes colaborativos, cada uno impulsado por un modelo de lenguaje grande (LLM), para lograr una seguridad adaptable y resistente. La innovación central radica en la profunda fusión de dos paradigmas de IA: aprovechamos un LLM como un puente semántico para traducir una vasta telemetría no estructurada en una representación de estado rica y contextual, lo que permite a los agentes razonar sobre la intención del adversario en lugar de simplemente hacer coincidir patrones. Este estado de conciencia semántica permite que un algoritmo de aprendizaje por refuerzo de múltiples agentes (MARL), MAPPO, aprenda estrategias cooperativas complejas. La función de recompensa MARL está diseñada exclusivamente para equilibrar los objetivos de seguridad (neutralización de amenazas) con los imperativos operativos, penalizando explícitamente las acciones que interrumpen la estabilidad del proceso físico. Para validar nuestro enfoque, llevamos a cabo experimentos extensos con el conjunto de datos SWaT de referencia y un nuevo conjunto de datos sintéticos generado en base al marco MITRE ATT&CK para ICS. Los resultados demuestran que L2M-AID supera significativamente los IDS tradicionales, los detectores de anomalías de aprendizaje profundo y las líneas de base de RL de agente único en métricas clave, logrando una tasa de detección del 97,2 % al tiempo que reduce los falsos positivos en más del 80 % y mejora los tiempos de respuesta en un factor de cuatro. Fundamentalmente, demuestra un rendimiento superior en el mantenimiento de la estabilidad del proceso físico, presentando un nuevo paradigma sólido para proteger la infraestructura nacional crítica.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LiveResearchBench: un punto de referencia en vivo para la investigación profunda centrada en el usuario en la naturaleza

AERIS expande su plataforma IoT Acelerator para proporcionar a las empresas globales orquestaciones y visibilidad y control de plataforma de ESIM entre los operadores entre los operadores

Crecimiento profesional más rápido: ¿colaborador o gerente individual?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido