Resumen: El aprendizaje de refuerzo fuera de línea se refiere al proceso de políticas de aprendizaje de conjuntos de datos fijos, sin requerir una interacción con el entorno adicional. Sin embargo, a menudo se basa en funciones de recompensa bien definidas, que son difíciles y costosas de diseñar. La retroalimentación humana es una alternativa atractiva, pero sus dos formas comunes, demostraciones y preferencias de expertos, tienen limitaciones complementarias. Las demostraciones proporcionan una supervisión gradual, pero son costosas de recolectar y, a menudo, reflejan modos de comportamiento expertos limitados. Por el contrario, las preferencias son más fáciles de recolectar, pero no está claro qué partes de un comportamiento contribuyen más a un segmento de trayectoria, dejando la asignación de crédito sin resolver. En este documento, presentamos un esquema de ponderación de preferencias (SPW) basado en la búsqueda para unificar estas dos fuentes de retroalimentación. Para cada transición en una trayectoria de preferencia etiquetada, SPW busca los pares de acción estatal más similares de las demostraciones de expertos y deriva directamente pesos de importancia gradual en función de sus puntajes de similitud. Estos pesos se utilizan para guiar el aprendizaje de preferencias estándar, lo que permite una tarea de crédito más precisa que los enfoques tradicionales luchan por lograr. Demostramos que SPW permite un aprendizaje conjunto efectivo de las preferencias y demostraciones, superando los métodos anteriores que aprovechan ambos tipos de retroalimentación en las desafiantes tareas de manipulación de robots.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

Asignación de crédito basada en la búsqueda para el aprendizaje de refuerzo basado en preferencias fuera de línea

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

La descarga: una conversación con Karen Hao, ¿y cómo comenzó la vida?

Hacia el pensamiento flash a través de la optimización de políticas de ventajas desacopladas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido