Asignación de crédito de ventaja multinivel para el aprendizaje cooperativo de refuerzo de múltiples agentes

Resumen: El aprendizaje cooperativo de refuerzo de múltiples agentes (MARL) tiene como objetivo coordinar múltiples agentes para lograr un objetivo común. Un desafío clave en Marl es la asignación de crédito, que implica evaluar la contribución de cada agente a la recompensa compartida. Dada la diversidad de tareas, los agentes pueden realizar diferentes tipos de coordinación, con recompensas atribuidas a subconjuntos de agentes diversos y a menudo superpuestos. En este trabajo, formalizamos el nivel de asignación de crédito como el número de agentes que cooperan para obtener una recompensa y abordamos escenarios con múltiples niveles coexistentes. Introducimos una formulación de ventaja multinivel que realiza un razonamiento contrafáctico explícito para inferir créditos en niveles distintos. Nuestro método, la asignación de crédito de ventaja múltiple (MACA), captura las contribuciones de los agentes en múltiples niveles integrando funciones de ventaja que razonan sobre acciones individuales, conjuntas y correlacionadas. Utilizando un marco basado en la atención, MACA identifica las relaciones correlacionadas de los agentes y construye ventajas de varios niveles para guiar el aprendizaje de políticas. Experimentos integrales sobre tareas desafiantes de Starcraft V1 y V2 demuestran el rendimiento superior de MACA, subrayando su eficacia en escenarios de asignación de crédito complejos.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LatentGuard: dirección latente controlable para un rechazo robusto de ataques y generación de respuesta confiable

Keraia: un marco adaptativo y explicable para la representación y el razonamiento de conocimiento dinámico

modelando las mentes de los demás como código

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido