Resumen: El aprendizaje de valor es un aspecto crucial de la IA segura y ética. Esto se persigue principalmente por métodos que infieren los valores humanos del comportamiento. Sin embargo, a los humanos se preocupan mucho más de lo que podemos demostrar a través de nuestras acciones. En consecuencia, una IA debe predecir el resto de nuestros valores aparentemente complejos de una muestra limitada. Llamo a esto el problema de generalización de valor. En este artículo, sostengo que los valores humanos tienen una estructura racional generativa y que esto nos permite resolver el problema de generalización del valor. En particular, podemos usar modelos de teoría mental bayesiana para inferir valores humanos no solo del comportamiento, sino también de otros valores. Esto ha sido oscurecido por el uso generalizado de funciones de utilidad simples para representar los valores humanos. Concluyo que desarrollar una inferencia generativa de valor a valor es un componente crucial para lograr una teoría de la mente de una máquina escalable.
Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original