Resumen: Los sistemas multiagente se utilizan ampliamente en aplicaciones críticas para la seguridad que requieren un comportamiento coordinado bajo estrictas restricciones de seguridad. Los enfoques existentes enfrentan una compensación fundamental: los métodos basados en el aprendizaje logran un sólido desempeño empírico pero carecen de garantías teóricas de seguridad, mientras que los métodos basados en la teoría del control imponen la seguridad pero a menudo conducen a comportamientos demasiado conservadores e ineficientes. Proponemos un marco jerárquico de aprendizaje por refuerzo de múltiples agentes que impone restricciones estrictas de seguridad bajo supuestos leves a bajo nivel a través de una variedad de restricciones, al tiempo que permite una coordinación efectiva a través del aprendizaje de políticas de alto nivel. Nuestro enfoque proporciona garantías teóricas de seguridad en el entorno de múltiples agentes y produce una dinámica de aprendizaje estacionaria, lo que permite una formación estable y eficiente. Empíricamente, nuestro método logra un rendimiento competitivo manteniendo índices de seguridad casi perfectos y se generaliza de manera efectiva a un número variable de agentes y obstáculos.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
