En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->TalkToagent: una explicación centrada en el ser humano de los agentes de aprendizaje de refuerzo con modelos de idiomas grandes

TalkToagent: una explicación centrada en el ser humano de los agentes de aprendizaje de refuerzo con modelos de idiomas grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo explicable (XRL) ha surgido como un enfoque prometedor para mejorar la transparencia de los agentes de aprendizaje de refuerzo (RL). Sin embargo, sigue habiendo una brecha entre las políticas complejas de RL y los expertos en dominios, debido a la comprensibilidad limitada de los resultados XRL y la cobertura aislada de los enfoques XRL actuales que dejan a los usuarios inciertos sobre qué herramientas emplear. Para abordar estos desafíos, presentamos TalkToAgent, un marco de modelos de idiomas grandes de múltiples agentes (LLM) que ofrece explicaciones interactivas de lenguaje natural para las políticas de RL. La arquitectura con cinco agentes especializados de LLM (coordinador, explicador, codificador, evaluador y depurador) permite que TalkToAgent asigne automáticamente consultas de los usuarios a herramientas XRL relevantes y aclare las acciones de un agente en términos de variables estatales clave, resultados esperados o explicaciones con contrafactación. Además, nuestro enfoque extiende explicaciones contrafactuales anteriores al derivar escenarios alternativos de descripciones de comportamiento cualitativas, o incluso nuevas políticas basadas en reglas. Validamos TalkToagent en el problema de control de procesos de tanque cuadrúpano, un conocido punto de referencia de control no lineal. Los resultados demostraron que TalkToagent asignó con éxito consultas de usuario en tareas XRL con alta precisión e interacciones Coder-debugger minimizó fallas en la generación contrafactual. Además, la evaluación cualitativa confirmó que TalkToagent interpretaba efectivamente las acciones del agente y contextualizaba su significado dentro del dominio del problema.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web