Reparación de funciones de recompensa con comentarios humanos para mitigar el pirateo de recompensas

Resumen: Las funciones de recompensa diseñadas por humanos para agentes de aprendizaje por refuerzo (RL) con frecuencia están desalineadas con los objetivos verdaderos e inobservables de los humanos y, por lo tanto, actúan solo como sustitutos.

Leer más →

Comentarios desactivados en Reparación de funciones de recompensa con comentarios humanos para mitigar el pirateo de recompensas

Fin del contenido

No hay más páginas por cargar