Una introducción al aprendizaje por refuerzo causal

Resumen: La inferencia causal proporciona un conjunto de principios y herramientas que permiten combinar datos y conocimientos sobre un entorno para razonar con preguntas de naturaleza contrafáctica, es decir, qué habría sucedido si la realidad hubiera sido diferente, incluso cuando actualmente no hay datos disponibles de esta realidad no realizada. El aprendizaje por refuerzo proporciona métodos para aprender una política que optimiza una medida específica (por ejemplo, recompensa, arrepentimiento) cuando el agente se implementa en un entorno y sigue un enfoque exploratorio de prueba y error. Estas dos disciplinas han evolucionado de forma independiente y prácticamente sin interacción entre ellas. Observamos que operan sobre diferentes aspectos del mismo bloque de construcción, las relaciones contrafactuales, lo que los conecta umbilicalmente. Sobre la base de estas observaciones, surgen nuevas oportunidades de aprendizaje cuando esta conexión se reconoce y matematiza explícitamente. Para realizar este potencial, observamos que cualquier entorno donde se implemente el agente RL puede descomponerse como una colección de mecanismos autónomos con diferentes invarianzas causales, modelados parsimoniosamente como un modelo causal estructural; cualquier configuración RL estándar codifica implícitamente dicho modelo. Esta formalización nos permite someter a un tratamiento unificador diferentes modos de aprendizaje, incluido el aprendizaje en línea, fuera de políticas y de cálculo causal, que parecen no tener relación en la literatura. Sin embargo, estas modalidades no son exhaustivas: presentamos varias clases naturales y generalizadas de entornos de aprendizaje que implican nuevas dimensiones de análisis. Específicamente, presentamos y discutimos a través de lentes causales el aprendizaje de políticas generalizadas, dónde intervenir, el aprendizaje por imitación y el aprendizaje contrafactual. Estas tareas conducen a una visión más amplia del aprendizaje contrafactual y sugieren un gran potencial para estudiar la inferencia causal y el aprendizaje por refuerzo en paralelo, lo que llamamos aprendizaje por refuerzo causal (CRL).

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

Estrategias de fragmentación para sistemas de IA multimodales

Hacer que la IA sea operativa en entornos restringidos del sector público

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido