En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SAJA: Un marco de ataque conjunto de acción estatal sobre el aprendizaje por refuerzo profundo de múltiples agentes

SAJA: Un marco de ataque conjunto de acción estatal sobre el aprendizaje por refuerzo profundo de múltiples agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje por refuerzo profundo multiagente (MADRL) ha demostrado potencial para tareas cooperativas y competitivas como la conducción autónoma y los juegos estratégicos. Sin embargo, los modelos entrenados por MADRL son vulnerables a perturbaciones adversas en estados y acciones. Por tanto, es fundamental investigar la robustez de los modelos MADRL desde una perspectiva de ataque. Los estudios existentes se centran en ataques sólo de Estado o ataques sólo de acción, pero no consideran cómo combinarlos eficazmente. La simple combinación de perturbaciones de estado y acción, como estados y acciones perturbadores aleatorios, no explota sus posibles efectos sinérgicos. En este artículo, proponemos el marco de Ataque Conjunto Estado-Acción (SAJA) que tiene buenos efectos sinérgicos. SAJA consta de dos fases importantes: (1) en la fase de ataque estatal, un método de ascenso de gradiente de varios pasos utiliza tanto la red de actores como la red crítica para calcular un estado adversario, y (2) en la fase de ataque de acción, basado en el estado perturbado, un segundo ascenso de gradiente utiliza la red crítica para diseñar la acción adversaria final. Además, se agrega a la función de pérdida un regularizador heurístico que mide la distancia entre las acciones perturbadas y las limpias originales para mejorar la efectividad de la guía del crítico. Evaluamos SAJA en el entorno de partículas multiagente (MPE), demostrando que (1) supera y es más sigiloso que los ataques de solo estado o de solo acción, y (2) los métodos de defensa de acción o de estado existentes no pueden defender sus ataques.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web