Estructuras de tareas jerárquicas basadas en el lenguaje como modelos mundiales explícitos para el aprendizaje de múltiples agentes

Resumen: La convergencia de modelos de lenguaje, modelos de agentes y modelos mundiales representa una frontera crítica para la inteligencia artificial. Si bien el progreso reciente se ha centrado en la escala del lenguaje y los modelos de agentes, el desarrollo de modelos mundiales sofisticados y explícitos sigue siendo un cuello de botella clave, particularmente para las tareas complejas de múltiples agentes de larga duración. En dominios como el fútbol robótico, los agentes entrenados a través del aprendizaje de refuerzo estándar en alta fidelidad, pero los simuladores estructuralmente voladores a menudo fallan debido a espacios de exploración intratables y recompensas escasas. Este documento de posición argumenta que la próxima frontera en el desarrollo de agentes capaces radica en la creación de entornos que poseen un modelo mundial explícito y jerárquico. Sostenemos que esto se logra mejor a través del andamio jerárquico, donde los objetivos complejos se descomponen en subggoals estructurados y manejables. Dibujando evidencia de una revisión sistemática de la investigación de 2024 en fútbol de múltiples agentes, identificamos una tendencia clara y decisiva hacia la integración de métodos simbólicos y jerárquicos con aprendizaje de refuerzo de múltiples agentes (MARL). Estos enfoques construyen implícita o explícitamente un modelo mundial basado en tareas para guiar el aprendizaje de los agentes. Luego proponemos un cambio de paradigma: aprovechar modelos de lenguaje grandes para generar dinámicamente este andamio jerárquico, utilizando efectivamente el lenguaje para estructurar el modelo mundial sobre la marcha. Este modelo mundial basado en el lenguaje proporciona un plan de estudios intrínseco, señales de aprendizaje densas y significativas, y un marco para el aprendizaje compositivo, lo que permite a los modelos de agentes adquirir comportamientos estratégicos sofisticados con una eficiencia de muestra mucho mayor. Al construir entornos con capas de tareas explícitas y configurables por el lenguaje, podemos cerrar la brecha entre los comportamientos reactivos de bajo nivel y el juego estratégico de alto nivel, creando un marco poderoso y generalizable para capacitar a la próxima generación de agentes inteligentes.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

RLMR: Aprendizaje de refuerzo con recompensas mixtas por escritura creativa

S3C ha abierto una consulta sobre su próximo informe sobre la criptografía posterior a la cantidad.

Títulos de trabajo del futuro: astrónomo satelital rayado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido