Reparación de funciones de recompensa con comentarios humanos para mitigar el pirateo de recompensas

Resumen: Las funciones de recompensa diseñadas por humanos para agentes de aprendizaje por refuerzo (RL) con frecuencia están desalineadas con los objetivos verdaderos e inobservables de los humanos y, por lo tanto, actúan solo como sustitutos. La optimización para una función de recompensa de proxy mal especificada a menudo induce a la piratería de recompensas, lo que resulta en una política desalineada con los verdaderos objetivos del ser humano. Una alternativa es realizar RL a partir de la retroalimentación humana, lo que implica aprender una función de recompensa desde cero recopilando las preferencias humanas a lo largo de pares de trayectorias. Sin embargo, crear dichos conjuntos de datos es costoso. Para abordar las limitaciones de ambos enfoques, proponemos la reparación de recompensas basada en preferencias (PBRR): un marco iterativo automatizado que repara una función de recompensa proxy especificada por humanos aprendiendo un término de corrección aditivo y dependiente de la transición a partir de las preferencias. Una función de recompensa especificada manualmente puede generar políticas que son muy subóptimas según el objetivo de verdad sobre el terreno, pero las correcciones en sólo unas pocas transiciones pueden ser suficientes para recuperar el rendimiento óptimo. Para identificar y corregir esas transiciones, PBRR utiliza una estrategia de exploración específica y un nuevo objetivo de aprendizaje de preferencias. Probamos en dominios tabulares que PBRR tiene un arrepentimiento acumulativo que coincide, hasta constantes, con el de los métodos RL anteriores basados en preferencias. Además, en un conjunto de puntos de referencia de piratería de recompensas, PBRR supera consistentemente las líneas de base que aprenden una función de recompensa desde cero a partir de preferencias o modifican la función de recompensa proxy utilizando otros enfoques, lo que requiere sustancialmente menos preferencias para aprender políticas de alto rendimiento.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

The AI ​​Hype Index: La IA va a la guerra

Árboles que ensamblan el enfoque de Mann Whitney para detectar la asociación articular de todo el genoma entre loci de bajo efecto marginal

Hacia la programación causal-visual: mejora del razonamiento de agente en entornos de bajo código

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

The AI Hype Index: La IA va a la guerra