Interpretabilidad por diseño para el aprendizaje eficiente de refuerzo de objetivos múltiples

Resumen: El aprendizaje de refuerzo de objetivos múltiples (MORL) tiene como objetivo optimizar varios objetivos en conflicto para mejorar la flexibilidad y la confiabilidad de RL en tareas prácticas. Esto se puede lograr encontrando diversas políticas que sean óptimas para algunas preferencias objetivas y no dominadas por políticas óptimas para otras preferencias para que formen un frente de Pareto en el espacio de rendimiento de objetivos múltiples. La relación entre el espacio de rendimiento de objetivos múltiples y el espacio de parámetros que representa las políticas generalmente no es unique. Utilizando un esquema de entrenamiento que se basa en un mapa lineal localmente entre el espacio de parámetros y el espacio de rendimiento, mostramos que un frente de Pareto aproximado puede proporcionar una interpretación de los vectores de parámetros actuales en términos de los objetivos que permiten una búsqueda efectiva dentro de los dominios de la solución contigua. Los experimentos se realizan con y sin reentrenamiento en diferentes dominios, y la comparación con métodos anteriores demuestra la eficiencia de nuestro enfoque.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Dar a los agentes de IA acceso a criptomonedas y contratos inteligentes crea nuevos vectores de daño de IA

RAVR: razonamiento variacional guiado por referencias y respuestas para modelos de lenguaje grandes

Alucinación basada en el conocimiento en modelos de idiomas grandes: un estudio empírico sobre el modelado de procesos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido