Resumen: El aprendizaje cooperativo de refuerzo de múltiples agentes (MARL) tiene como objetivo coordinar múltiples agentes para lograr un objetivo común. Un desafío clave en Marl es la asignación de crédito, que implica evaluar la contribución de cada agente a la recompensa compartida. Dada la diversidad de tareas, los agentes pueden realizar diferentes tipos de coordinación, con recompensas atribuidas a subconjuntos de agentes diversos y a menudo superpuestos. En este trabajo, formalizamos el nivel de asignación de crédito como el número de agentes que cooperan para obtener una recompensa y abordamos escenarios con múltiples niveles coexistentes. Introducimos una formulación de ventaja multinivel que realiza un razonamiento contrafáctico explícito para inferir créditos en niveles distintos. Nuestro método, la asignación de crédito de ventaja múltiple (MACA), captura las contribuciones de los agentes en múltiples niveles integrando funciones de ventaja que razonan sobre acciones individuales, conjuntas y correlacionadas. Utilizando un marco basado en la atención, MACA identifica las relaciones correlacionadas de los agentes y construye ventajas de varios niveles para guiar el aprendizaje de políticas. Experimentos integrales sobre tareas desafiantes de Starcraft V1 y V2 demuestran el rendimiento superior de MACA, subrayando su eficacia en escenarios de asignación de crédito complejos.
Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original