Reparación de funciones de recompensa con comentarios humanos para mitigar el pirateo de recompensas
Resumen: Las funciones de recompensa diseñadas por humanos para agentes de aprendizaje por refuerzo (RL) con frecuencia están desalineadas con los objetivos verdaderos e inobservables de los humanos y, por lo tanto, actúan solo como sustitutos.
Leer más →