En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Reparación de funciones de recompensa con comentarios humanos para mitigar el pirateo de recompensas

Reparación de funciones de recompensa con comentarios humanos para mitigar el pirateo de recompensas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las funciones de recompensa diseñadas por humanos para agentes de aprendizaje por refuerzo (RL) con frecuencia están desalineadas con los objetivos verdaderos e inobservables de los humanos y, por lo tanto, actúan solo como sustitutos. La optimización para una función de recompensa de proxy mal especificada a menudo induce a la piratería de recompensas, lo que resulta en una política desalineada con los verdaderos objetivos del ser humano. Una alternativa es realizar RL a partir de la retroalimentación humana, lo que implica aprender una función de recompensa desde cero recopilando las preferencias humanas a lo largo de pares de trayectorias. Sin embargo, crear dichos conjuntos de datos es costoso. Para abordar las limitaciones de ambos enfoques, proponemos la reparación de recompensas basada en preferencias (PBRR): un marco iterativo automatizado que repara una función de recompensa proxy especificada por humanos aprendiendo un término de corrección aditivo y dependiente de la transición a partir de las preferencias. Una función de recompensa especificada manualmente puede generar políticas que son muy subóptimas según el objetivo de verdad sobre el terreno, pero las correcciones en sólo unas pocas transiciones pueden ser suficientes para recuperar el rendimiento óptimo. Para identificar y corregir esas transiciones, PBRR utiliza una estrategia de exploración específica y un nuevo objetivo de aprendizaje de preferencias. Probamos en dominios tabulares que PBRR tiene un arrepentimiento acumulativo que coincide, hasta constantes, con el de los métodos RL anteriores basados ​​en preferencias. Además, en un conjunto de puntos de referencia de piratería de recompensas, PBRR supera consistentemente las líneas de base que aprenden una función de recompensa desde cero a partir de preferencias o modifican la función de recompensa proxy utilizando otros enfoques, lo que requiere sustancialmente menos preferencias para aprender políticas de alto rendimiento.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web