En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprendizaje de refuerzo guiado por LLM: abordar los cuellos de botella de capacitación a través de la modulación de políticas

Aprendizaje de refuerzo guiado por LLM: abordar los cuellos de botella de capacitación a través de la modulación de políticas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Si bien el aprendizaje de refuerzo (RL) ha logrado un éxito notable en varios dominios, la capacitación de políticas efectivas para tareas complejas sigue siendo desafiante. Los agentes a menudo convergen con Optima Local y no logran maximizar las recompensas a largo plazo. Los enfoques existentes para mitigar los cuellos de botella de capacitación generalmente se dividen en dos categorías: (i) refinamiento de políticas automatizado, que identifica estados críticos de trayectorias pasadas para guiar las actualizaciones de políticas, pero sufre una capacitación de modelos costosa e incierta; y (ii) refinamiento humano en el bucle, donde la retroalimentación humana se usa para corregir el comportamiento del agente, pero esto no escala bien a entornos con espacios de acción grandes o continuos. En este trabajo, diseñamos un marco de modulación de políticas guiado por el modelo de lenguaje grande que aprovecha los LLM para mejorar la capacitación de RL sin capacitación adicional en modelo o intervención humana. Primero solicitamos una LLM que identifique estados críticos de las trayectorias de un agente subóptimo. Según estos estados, el LLM luego proporciona sugerencias de acción y asigna recompensas implícitas para guiar el refinamiento de la política. Los experimentos en los puntos de referencia RL estándar demuestran que nuestro método supera a las líneas de base de última generación, destacando la efectividad de las explicaciones basadas en LLM para abordar los cuellos de botella de capacitación RL.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web