Confuso aprendizaje robusto por refuerzo profundo: un enfoque causal

Resumen:Una tarea clave en la Inteligencia Artificial es aprender políticas efectivas para controlar agentes en entornos desconocidos para optimizar las medidas de rendimiento. Los métodos de aprendizaje fuera de las políticas, como Q-learning, permiten a los alumnos tomar decisiones óptimas basadas en experiencias pasadas. Este artículo estudia el aprendizaje fuera de las políticas a partir de datos sesgados en dominios complejos y de alta dimensión donde no se pueden descartar a priori emph{confusión no observada}. Sobre la base de la famosa Deep Q-Network (DQN), proponemos un novedoso algoritmo de aprendizaje por refuerzo profundo resistente a los sesgos de confusión en los datos observados. Específicamente, nuestro algoritmo intenta encontrar una política segura para el peor de los casos compatible con las observaciones. Aplicamos nuestro método a doce juegos de Atari confundidos y descubrimos que domina consistentemente el DQN estándar en todos los juegos donde los aportes observados a las políticas de comportamiento y objetivos no coinciden y existen factores de confusión no observados.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Medir y mitigar el sesgo de identidad en el debate entre múltiples agentes mediante la anonimización

Construcción de taxonomía de ocupación basada en datos: un enfoque de etapas múltiples ascendentes a través de agrupación semántica y colaboración de múltiples agentes

¿Cómo revisan las personas creencias inconsistentes? Examinar la revisión de creencias en humanos con estudios de usuarios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido