Resumen: Nuestra sociedad se rige por un conjunto de normas que en conjunto generan los valores que apreciamos, como la seguridad, la equidad o la confiabilidad. El objetivo de la alineación del valor es crear agentes que no solo hagan sus tareas, sino que a través de sus comportamientos también promueven estos valores. Muchas de las normas se escriben como leyes o reglas (normas legales / de seguridad) pero aún más permanecen sin escrutin (normas sociales). Además, las técnicas utilizadas para representar estas normas también difieren. Las normas de seguridad / legales a menudo se representan explícitamente, por ejemplo, en algún lenguaje lógico, mientras que las normas sociales se aprenden y permanecen ocultas en el espacio de parámetros de una red neuronal. Hay una falta de enfoques en la literatura que podrían combinar estas diversas representaciones de normas en un solo algoritmo. Proponemos un método novedoso que integra estas normas en el proceso de aprendizaje de refuerzo. Nuestro método monitorea el cumplimiento del agente con las normas dadas y lo resume en una cantidad que llamamos la reputación del agente. Esta cantidad se utiliza para sopesar las recompensas recibidas para motivar al agente a alinearse con valor. Llevamos a cabo una serie de experimentos que incluyen un problema de tráfico espacial estatal continuo para demostrar la importancia de las normas escritas y no escritas y mostrar cómo nuestro método puede encontrar las políticas alineadas por valor. Además, realizamos ablaciones para demostrar por qué es mejor combinar estos dos grupos de normas en lugar de usar por separado.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original