DIPLLM: LLM de ajuste fino para la toma de decisiones estratégicas en la diplomacia

Resumen: La diplomacia es un juego multijugador complejo que requiere cooperación y competencia, planteando desafíos significativos para los sistemas de IA. Los métodos tradicionales dependen de la búsqueda de equilibrio para generar datos de juego extensos para la capacitación, lo que exige recursos computacionales sustanciales. Los modelos de idiomas grandes (LLM) ofrecen una alternativa prometedora, aprovechando el conocimiento previamente capacitado para lograr un rendimiento fuerte con ajuste fino relativamente pequeño. Sin embargo, aplicar LLM a la diplomacia sigue siendo desafiante debido al crecimiento exponencial de posibles combinaciones de acción y las intrincadas interacciones estratégicas entre los jugadores. Para abordar este desafío, proponemos DIPLLM, un agente basado en LLM ajustado que aprende políticas de equilibrio para la diplomacia. DIPLLM emplea un marco de factorización autorregresivo para simplificar la tarea compleja de la asignación de acción múltiple en una secuencia de decisiones a nivel de unidad. Al definir una política de equilibrio dentro de este marco como objetivo de aprendizaje, ajustamos el modelo utilizando solo el 1.5% de los datos requeridos por el modelo Cicero de vanguardia, superando su rendimiento. Nuestros resultados demuestran el potencial de los LLM ajustados para abordar la toma de decisiones estratégicas complejas en los juegos multijugador.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mármol: un punto de referencia difícil para el razonamiento espacial multimodal y la planificación

Marque los pasos, no solo el objetivo: evaluación subggoal basada en VLM para la manipulación robótica

Mujeres en construcción: PPE

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido