En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Confuso aprendizaje robusto por refuerzo profundo: un enfoque causal

Confuso aprendizaje robusto por refuerzo profundo: un enfoque causal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Una tarea clave en la Inteligencia Artificial es aprender políticas efectivas para controlar agentes en entornos desconocidos para optimizar las medidas de rendimiento. Los métodos de aprendizaje fuera de las políticas, como Q-learning, permiten a los alumnos tomar decisiones óptimas basadas en experiencias pasadas. Este artículo estudia el aprendizaje fuera de las políticas a partir de datos sesgados en dominios complejos y de alta dimensión donde no se pueden descartar a priori emph{confusión no observada}. Sobre la base de la famosa Deep Q-Network (DQN), proponemos un novedoso algoritmo de aprendizaje por refuerzo profundo resistente a los sesgos de confusión en los datos observados. Específicamente, nuestro algoritmo intenta encontrar una política segura para el peor de los casos compatible con las observaciones. Aplicamos nuestro método a doce juegos de Atari confundidos y descubrimos que domina consistentemente el DQN estándar en todos los juegos donde los aportes observados a las políticas de comportamiento y objetivos no coinciden y existen factores de confusión no observados.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web