En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->L2M-AID: Defensa ciberfísica autónoma mediante la fusión del razonamiento semántico de modelos de lenguaje grandes con aprendizaje por refuerzo de múltiples agentes (preimpresión)

L2M-AID: Defensa ciberfísica autónoma mediante la fusión del razonamiento semántico de modelos de lenguaje grandes con aprendizaje por refuerzo de múltiples agentes (preimpresión)

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La creciente integración del IoT industrial (IIoT) expone los sistemas ciberfísicos críticos a ataques sofisticados y de varias etapas que eluden las defensas tradicionales que carecen de conciencia contextual. Este artículo presenta L2M-AID, un marco novedoso para la defensa industrial autónoma que utiliza el aprendizaje por refuerzo de múltiples agentes potenciado por LLM. L2M-AID organiza un equipo de agentes colaborativos, cada uno impulsado por un modelo de lenguaje grande (LLM), para lograr una seguridad adaptable y resistente. La innovación central radica en la profunda fusión de dos paradigmas de IA: aprovechamos un LLM como un puente semántico para traducir una vasta telemetría no estructurada en una representación de estado rica y contextual, lo que permite a los agentes razonar sobre la intención del adversario en lugar de simplemente hacer coincidir patrones. Este estado de conciencia semántica permite que un algoritmo de aprendizaje por refuerzo de múltiples agentes (MARL), MAPPO, aprenda estrategias cooperativas complejas. La función de recompensa MARL está diseñada exclusivamente para equilibrar los objetivos de seguridad (neutralización de amenazas) con los imperativos operativos, penalizando explícitamente las acciones que interrumpen la estabilidad del proceso físico. Para validar nuestro enfoque, llevamos a cabo experimentos extensos con el conjunto de datos SWaT de referencia y un nuevo conjunto de datos sintéticos generado en base al marco MITRE ATT&CK para ICS. Los resultados demuestran que L2M-AID supera significativamente los IDS tradicionales, los detectores de anomalías de aprendizaje profundo y las líneas de base de RL de agente único en métricas clave, logrando una tasa de detección del 97,2 % al tiempo que reduce los falsos positivos en más del 80 % y mejora los tiempos de respuesta en un factor de cuatro. Fundamentalmente, demuestra un rendimiento superior en el mantenimiento de la estabilidad del proceso físico, presentando un nuevo paradigma sólido para proteger la infraestructura nacional crítica.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web