Resumen: Para que el proceso de entrenamiento de una IA imparta con éxito un objetivo deseado, es importante que la IA no intente resistirse al entrenamiento. Sin embargo, los objetivos parcialmente aprendidos a menudo incentivarán a una IA a evitar futuras actualizaciones de objetivos, ya que la mayoría de los objetivos se logran mejor si una IA continúa persiguiéndolos. Decimos que un objetivo es corregible si no incentiva la realización de acciones que eviten actualizaciones o cierres adecuados del objetivo. Además de la convergencia en el entrenamiento, la corregibilidad también permite corregir errores y cambios en las preferencias humanas, lo que la convierte en una propiedad de seguridad crucial. A pesar de esto, la literatura existente no incluye especificaciones para objetivos que sean corregibles y competitivos con alternativas no corregibles. Proporcionamos una definición formal de corregibilidad y luego introducimos una transformación que construye una versión corregible de cualquier objetivo que pueda hacerse corregible, sin sacrificar el desempeño. Esto se hace obteniendo de manera miope predicciones de recompensa condicionadas a evitar actualizaciones sin costo, que luego también determinan la recompensa cuando se aceptan las actualizaciones. La transformación se puede modificar para extender recursivamente la corregibilidad a cualquier nuevo agente creado por agentes corregibles y para evitar que los agentes modifiquen deliberadamente sus objetivos. Dos experimentos de gridworld demuestran que estos objetivos corregibles se pueden aprender de manera efectiva y que conducen al comportamiento deseado.
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
