Diseño de recompensa jerárquica a partir del lenguaje: mejora de la alineación del comportamiento del agente con las especificaciones humanas

Resumen: Cuando se entrena la inteligencia artificial (IA) para realizar tareas, los humanos a menudo se preocupan no solo por si se completa una tarea sino también por cómo se realiza. A medida que los agentes de IA abordan tareas cada vez más complejas, alinear su comportamiento con las especificaciones proporcionadas por los humanos se vuelve fundamental para una implementación responsable de la IA. El diseño de recompensas proporciona un canal directo para dicha alineación al traducir las expectativas humanas en funciones de recompensa que guían el aprendizaje por refuerzo (RL). Sin embargo, los métodos existentes suelen ser demasiado limitados para captar las preferencias humanas matizadas que surgen en tareas a largo plazo. Por lo tanto, presentamos el Diseño de recompensa jerárquico a partir del lenguaje (HRDL): una formulación de problema que extiende el diseño de recompensa clásico para codificar especificaciones de comportamiento más ricas para agentes jerárquicos de RL. Además, proponemos Language to Hierarchical Rewards (L2HR) como una solución para HRDL. Los experimentos muestran que los agentes de IA entrenados con recompensas diseñadas a través de L2HR no solo completan tareas de manera efectiva sino que también cumplen mejor con las especificaciones humanas. Juntos, HRDL y L2HR avanzan en la investigación sobre agentes de IA alineados con los humanos.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo los científicos están tratando de usar la IA para desbloquear la mente humana

AMA: memoria adaptativa mediante colaboración multiagente

Cómo está ganando influencia el, a veces extraño, mundo de la extensión de la esperanza de vida

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido