Hava: Enfoque híbrido para la alineación del valor a través del peso de la recompensa para el aprendizaje de refuerzo

Resumen: Nuestra sociedad se rige por un conjunto de normas que en conjunto generan los valores que apreciamos, como la seguridad, la equidad o la confiabilidad. El objetivo de la alineación del valor es crear agentes que no solo hagan sus tareas, sino que a través de sus comportamientos también promueven estos valores. Muchas de las normas se escriben como leyes o reglas (normas legales / de seguridad) pero aún más permanecen sin escrutin (normas sociales). Además, las técnicas utilizadas para representar estas normas también difieren. Las normas de seguridad / legales a menudo se representan explícitamente, por ejemplo, en algún lenguaje lógico, mientras que las normas sociales se aprenden y permanecen ocultas en el espacio de parámetros de una red neuronal. Hay una falta de enfoques en la literatura que podrían combinar estas diversas representaciones de normas en un solo algoritmo. Proponemos un método novedoso que integra estas normas en el proceso de aprendizaje de refuerzo. Nuestro método monitorea el cumplimiento del agente con las normas dadas y lo resume en una cantidad que llamamos la reputación del agente. Esta cantidad se utiliza para sopesar las recompensas recibidas para motivar al agente a alinearse con valor. Llevamos a cabo una serie de experimentos que incluyen un problema de tráfico espacial estatal continuo para demostrar la importancia de las normas escritas y no escritas y mostrar cómo nuestro método puede encontrar las políticas alineadas por valor. Además, realizamos ablaciones para demostrar por qué es mejor combinar estos dos grupos de normas en lugar de usar por separado.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una encuesta de razonamiento del gráfico de conocimiento orientado a tareas: estado, aplicaciones y perspectivas

El proyecto de Yocto da la bienvenida a Risc-V International como un nuevo miembro de Platinum, expande el ecosistema global y los liderazgo con la preparación de la Ley de Resiliencia Cibernética

Inferencia probabilística relacional de tiempo polinómico en universos abiertos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido