MARS: Reforzando el razonamiento multiagente de los LLM a través del juego autónomo en juegos estratégicos

Resumen:El desarrollo de modelos de lenguajes grandes (LLM) para cooperar y competir de manera efectiva dentro de sistemas multiagente es un paso crítico hacia una inteligencia más avanzada. Si bien el aprendizaje por refuerzo (RL) ha demostrado ser eficaz para mejorar el razonamiento en tareas de un solo agente, su extensión a escenarios de múltiples turnos y múltiples agentes sigue sin explorarse debido a los desafíos de la asignación de créditos a largo plazo y la estimación de ventajas específicas de los agentes. Para abordar estos desafíos, presentamos MARS, un marco de RL de extremo a extremo que incentiva el razonamiento multiagente de los LLM a través del juego autónomo en juegos cooperativos y competitivos. MARS presenta un estimador de ventajas a nivel de turno que alinea las señales de aprendizaje con cada interacción para la asignación de créditos y una normalización de ventajas específica del agente para estabilizar la capacitación de múltiples agentes. Al aprender jugando solo en juegos cooperativos y competitivos, el agente MARS entrenado con Qwen3-4B desarrolla sólidas habilidades estratégicas que se generalizan a juegos retenidos con mejoras de rendimiento de hasta un 28,7 %. Más importante aún, la capacidad adquirida a través del juego autónomo se generaliza más allá de los juegos, lo que produce mejoras consistentes en el rendimiento de los sistemas multiagente en los puntos de referencia de razonamiento. Cuando se integra en los principales sistemas multiagente, nuestro agente MARS logra importantes ganancias de rendimiento del 10,0 % en AIME y del 12,5 % en GPQA-Diamond. Estos resultados establecen el entrenamiento RL de extremo a extremo con juego autónomo en juegos estratégicos como un enfoque poderoso para desarrollar capacidades de razonamiento multiagente generalizables en LLM. Nuestro código y modelos están disponibles públicamente en esta URL https.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MathBode: huellas dactilares de dominio de frecuencia del razonamiento matemático LLM

Informe técnico LongCat-Flash-Thinking-2601

La descarga: America’s Drone Brothers, y una ventaja del doomerismo de AI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido