En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Exploración consciente de las tareas a través de una métrica de bisimulación predictiva

Exploración consciente de las tareas a través de una métrica de bisimulación predictiva

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Acelerar la exploración en el aprendizaje por refuerzo visual con recompensas escasas sigue siendo un desafío debido a las variaciones sustanciales que son irrelevantes para la tarea. A pesar de los avances en la exploración intrínseca, muchos métodos suponen el acceso a estados de baja dimensión o carecen de estrategias de exploración conscientes de las tareas, lo que los vuelve frágiles en los dominios visuales. Para cerrar esta brecha, presentamos TEB, un enfoque de exploración consciente de tareas que combina estrechamente representaciones relevantes para tareas con exploración a través de una métrica de bisimulación predictiva. Específicamente, TEB aprovecha la métrica no solo para aprender representaciones de tareas basadas en el comportamiento, sino también para medir la novedad conductual intrínseca en el espacio latente aprendido. Para lograr esto, primero mitigamos teóricamente el colapso de la representación de métricas de bisimulación degeneradas bajo recompensas escasas mediante la introducción interna de un diferencial de recompensa predicho simple pero efectivo. Sobre la base de esta sólida métrica, diseñamos bonificaciones de exploración basadas en el potencial, que miden la novedad relativa de las observaciones adyacentes en el espacio latente. Amplios experimentos en MetaWorld y Maze2D muestran que TEB logra una capacidad de exploración superior y supera las líneas de base recientes.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web