Resumen: El aprendizaje de refuerzo fuera de línea se refiere al proceso de políticas de aprendizaje de conjuntos de datos fijos, sin requerir una interacción con el entorno adicional. Sin embargo, a menudo se basa en funciones de recompensa bien definidas, que son difíciles y costosas de diseñar. La retroalimentación humana es una alternativa atractiva, pero sus dos formas comunes, demostraciones y preferencias de expertos, tienen limitaciones complementarias. Las demostraciones proporcionan una supervisión gradual, pero son costosas de recolectar y, a menudo, reflejan modos de comportamiento expertos limitados. Por el contrario, las preferencias son más fáciles de recolectar, pero no está claro qué partes de un comportamiento contribuyen más a un segmento de trayectoria, dejando la asignación de crédito sin resolver. En este documento, presentamos un esquema de ponderación de preferencias (SPW) basado en la búsqueda para unificar estas dos fuentes de retroalimentación. Para cada transición en una trayectoria de preferencia etiquetada, SPW busca los pares de acción estatal más similares de las demostraciones de expertos y deriva directamente pesos de importancia gradual en función de sus puntajes de similitud. Estos pesos se utilizan para guiar el aprendizaje de preferencias estándar, lo que permite una tarea de crédito más precisa que los enfoques tradicionales luchan por lograr. Demostramos que SPW permite un aprendizaje conjunto efectivo de las preferencias y demostraciones, superando los métodos anteriores que aprovechan ambos tipos de retroalimentación en las desafiantes tareas de manipulación de robots.
Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original