TalkToagent: una explicación centrada en el ser humano de los agentes de aprendizaje de refuerzo con modelos de idiomas grandes

Resumen: El aprendizaje de refuerzo explicable (XRL) ha surgido como un enfoque prometedor para mejorar la transparencia de los agentes de aprendizaje de refuerzo (RL). Sin embargo, sigue habiendo una brecha entre las políticas complejas de RL y los expertos en dominios, debido a la comprensibilidad limitada de los resultados XRL y la cobertura aislada de los enfoques XRL actuales que dejan a los usuarios inciertos sobre qué herramientas emplear. Para abordar estos desafíos, presentamos TalkToAgent, un marco de modelos de idiomas grandes de múltiples agentes (LLM) que ofrece explicaciones interactivas de lenguaje natural para las políticas de RL. La arquitectura con cinco agentes especializados de LLM (coordinador, explicador, codificador, evaluador y depurador) permite que TalkToAgent asigne automáticamente consultas de los usuarios a herramientas XRL relevantes y aclare las acciones de un agente en términos de variables estatales clave, resultados esperados o explicaciones con contrafactación. Además, nuestro enfoque extiende explicaciones contrafactuales anteriores al derivar escenarios alternativos de descripciones de comportamiento cualitativas, o incluso nuevas políticas basadas en reglas. Validamos TalkToagent en el problema de control de procesos de tanque cuadrúpano, un conocido punto de referencia de control no lineal. Los resultados demostraron que TalkToagent asignó con éxito consultas de usuario en tareas XRL con alta precisión e interacciones Coder-debugger minimizó fallas en la generación contrafactual. Además, la evaluación cualitativa confirmó que TalkToagent interpretaba efectivamente las acciones del agente y contextualizaba su significado dentro del dominio del problema.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El punto de referencia de Nazonazo: una prueba rentable y extensible del razonamiento basado en información en LLMS

Las gafas inteligentes ayudan a entrenar a los robots de uso general

La siguiente pregunta después de la pregunta de Turing: Presentación de la prueba Grow-AI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido