Aprendizaje de refuerzo guiado por LLM: abordar los cuellos de botella de capacitación a través de la modulación de políticas

Resumen: Si bien el aprendizaje de refuerzo (RL) ha logrado un éxito notable en varios dominios, la capacitación de políticas efectivas para tareas complejas sigue siendo desafiante. Los agentes a menudo convergen con Optima Local y no logran maximizar las recompensas a largo plazo. Los enfoques existentes para mitigar los cuellos de botella de capacitación generalmente se dividen en dos categorías: (i) refinamiento de políticas automatizado, que identifica estados críticos de trayectorias pasadas para guiar las actualizaciones de políticas, pero sufre una capacitación de modelos costosa e incierta; y (ii) refinamiento humano en el bucle, donde la retroalimentación humana se usa para corregir el comportamiento del agente, pero esto no escala bien a entornos con espacios de acción grandes o continuos. En este trabajo, diseñamos un marco de modulación de políticas guiado por el modelo de lenguaje grande que aprovecha los LLM para mejorar la capacitación de RL sin capacitación adicional en modelo o intervención humana. Primero solicitamos una LLM que identifique estados críticos de las trayectorias de un agente subóptimo. Según estos estados, el LLM luego proporciona sugerencias de acción y asigna recompensas implícitas para guiar el refinamiento de la política. Los experimentos en los puntos de referencia RL estándar demuestran que nuestro método supera a las líneas de base de última generación, destacando la efectividad de las explicaciones basadas en LLM para abordar los cuellos de botella de capacitación RL.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Gráficos de creencias con zonas de razonamiento: estructura, dinámica y activación epistémica

GPO: Aprender de los pasos críticos para mejorar el razonamiento de LLM

Evaluación y semántica de comparación para ODRL

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido