En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Diseño de recompensa jerárquica a partir del lenguaje: mejora de la alineación del comportamiento del agente con las especificaciones humanas

Diseño de recompensa jerárquica a partir del lenguaje: mejora de la alineación del comportamiento del agente con las especificaciones humanas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Cuando se entrena la inteligencia artificial (IA) para realizar tareas, los humanos a menudo se preocupan no solo por si se completa una tarea sino también por cómo se realiza. A medida que los agentes de IA abordan tareas cada vez más complejas, alinear su comportamiento con las especificaciones proporcionadas por los humanos se vuelve fundamental para una implementación responsable de la IA. El diseño de recompensas proporciona un canal directo para dicha alineación al traducir las expectativas humanas en funciones de recompensa que guían el aprendizaje por refuerzo (RL). Sin embargo, los métodos existentes suelen ser demasiado limitados para captar las preferencias humanas matizadas que surgen en tareas a largo plazo. Por lo tanto, presentamos el Diseño de recompensa jerárquico a partir del lenguaje (HRDL): una formulación de problema que extiende el diseño de recompensa clásico para codificar especificaciones de comportamiento más ricas para agentes jerárquicos de RL. Además, proponemos Language to Hierarchical Rewards (L2HR) como una solución para HRDL. Los experimentos muestran que los agentes de IA entrenados con recompensas diseñadas a través de L2HR no solo completan tareas de manera efectiva sino que también cumplen mejor con las especificaciones humanas. Juntos, HRDL y L2HR avanzan en la investigación sobre agentes de IA alineados con los humanos.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web