Evitar la muerte a través del acondicionamiento intrínseco del miedo

Resumen: los conceptos biológicos y psicológicos han inspirado algoritmos de aprendizaje de refuerzo para crear nuevos comportamientos complejos que amplíen la capacidad de los agentes. Estos comportamientos se pueden ver en el surgimiento de técnicas como la descomposición de meta, el plan de estudios y las recompensas intrínsecas, que han allanado el camino para estos comportamientos complejos. Una limitación en la evaluación de estos métodos es el requisito de los entornos extrínsecos de ingeniería para entornos realistas. Un desafío central en la ingeniería Las funciones de recompensa necesarias provienen de estos entornos que contienen estados que tienen altas recompensas negativas, pero no proporcionan comentarios al agente. La muerte es uno de esos estímulos que no proporciona retroalimentación directa al agente. En este trabajo, presentamos una función de recompensa intrínseca inspirada en el desarrollo temprano de la amígdala y producimos esta recompensa intrínseca a través de una nueva arquitectura de red neuronal acuática (MANN) de memoria. Mostramos cómo esta motivación intrínseca sirve para disuadir la exploración de los estados terminales y da como resultado un comportamiento de evitación similar al condicionamiento del miedo observado en los animales. Además, demostramos cómo modificar un umbral donde la respuesta del miedo está activa produce una variedad de comportamientos que se describen bajo el paradigma de los trastornos de ansiedad general (GAD). Demostramos este comportamiento en el entorno de la acera del Miniworld, que proporciona un proceso de decisión de Markov parcialmente observable (POMDP) y una recompensa escasa con una condición terminal no descriptiva, es decir, la muerte. En efecto, este estudio da como resultado una arquitectura neuronal de inspiración biológica y un marco para los paradigmas de condicionamiento del miedo; Demostramos empíricamente el comportamiento de evitación en un agente construido que puede resolver entornos con condiciones terminales no descriptivas.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

PromptCD: Mejora del comportamiento en el momento de la prueba mediante decodificación contrastiva de indicación de polaridad

T-rex: tabla-refutar o implicar explicador

De los registros al lenguaje: aprendizaje de la verbalización óptima para la recomendación basada en LLM en producción

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido