Resumen: El aprendizaje de refuerzo explicable (XRL) ha surgido como un enfoque prometedor para mejorar la transparencia de los agentes de aprendizaje de refuerzo (RL). Sin embargo, sigue habiendo una brecha entre las políticas complejas de RL y los expertos en dominios, debido a la comprensibilidad limitada de los resultados XRL y la cobertura aislada de los enfoques XRL actuales que dejan a los usuarios inciertos sobre qué herramientas emplear. Para abordar estos desafíos, presentamos TalkToAgent, un marco de modelos de idiomas grandes de múltiples agentes (LLM) que ofrece explicaciones interactivas de lenguaje natural para las políticas de RL. La arquitectura con cinco agentes especializados de LLM (coordinador, explicador, codificador, evaluador y depurador) permite que TalkToAgent asigne automáticamente consultas de los usuarios a herramientas XRL relevantes y aclare las acciones de un agente en términos de variables estatales clave, resultados esperados o explicaciones con contrafactación. Además, nuestro enfoque extiende explicaciones contrafactuales anteriores al derivar escenarios alternativos de descripciones de comportamiento cualitativas, o incluso nuevas políticas basadas en reglas. Validamos TalkToagent en el problema de control de procesos de tanque cuadrúpano, un conocido punto de referencia de control no lineal. Los resultados demostraron que TalkToagent asignó con éxito consultas de usuario en tareas XRL con alta precisión e interacciones Coder-debugger minimizó fallas en la generación contrafactual. Además, la evaluación cualitativa confirmó que TalkToagent interpretaba efectivamente las acciones del agente y contextualizaba su significado dentro del dominio del problema.
Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original