Teoría de la máquina de la máquina y la estructura de los valores humanos

Resumen: El aprendizaje de valor es un aspecto crucial de la IA segura y ética. Esto se persigue principalmente por métodos que infieren los valores humanos del comportamiento. Sin embargo, a los humanos se preocupan mucho más de lo que podemos demostrar a través de nuestras acciones. En consecuencia, una IA debe predecir el resto de nuestros valores aparentemente complejos de una muestra limitada. Llamo a esto el problema de generalización de valor. En este artículo, sostengo que los valores humanos tienen una estructura racional generativa y que esto nos permite resolver el problema de generalización del valor. En particular, podemos usar modelos de teoría mental bayesiana para inferir valores humanos no solo del comportamiento, sino también de otros valores. Esto ha sido oscurecido por el uso generalizado de funciones de utilidad simples para representar los valores humanos. Concluyo que desarrollar una inferencia generativa de valor a valor es un componente crucial para lograr una teoría de la mente de una máquina escalable.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Lenguaje auto-juego para capacitación sin datos

Hacia la inteligencia centrada en el error I, más allá del aprendizaje observacional

Modelo de supervivencia profunda interpretable en gris fino para riesgos competitivos: predicción de complicaciones del pie posteriores al alta en pacientes diabéticos en Ontario

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido