Resumen: La evaluación de políticas es a menudo un requisito previo para implementar sistemas críticos de seguridad y rendimiento. Los enfoques de evaluación existentes con frecuencia sufren de alta varianza debido a datos limitados y tareas de horizonte largo, o alto sesgo debido al apoyo desigual o modelos ambientales inexactos. Posicamos que estos desafíos surgen, en parte, del paradigma de aprendizaje de refuerzo estándar (RL) del aprendizaje político sin una consideración explícita de la evaluación. Como alternativa, proponemos el aprendizaje de refuerzo consciente de la evaluación (EVA-RL), en el que una política está capacitada para maximizar el rendimiento esperado y al mismo tiempo minimiza el error de evaluación esperado bajo un esquema de predicción de valor dado, en otras palabras, siendo “fácil” de evaluar. Formalizamos un marco para EVA-RL y diseñamos una instanciación que permite una evaluación de política precisa, condicionada en un pequeño número de despliegue en un entorno de evaluación que puede ser diferente al entorno de implementación. Sin embargo, nuestro análisis teórico y resultados empíricos muestran que a menudo existe una compensación entre la precisión de la evaluación y el rendimiento de la política cuando se usa un esquema de predicción de valor fijo dentro de EVA-RL. Para mitigar esta compensación, ampliamos nuestro enfoque para la aprendizaje conjunta de un predictor de valor estatal condicionado por la evaluación junto con la política. Los resultados empíricos en diversos dominios de acción discretos y continuos demuestran que EVA-RL puede reducir sustancialmente el error de evaluación mientras se mantiene rendimientos competitivos. Este trabajo sienta las bases para una nueva clase amplia de métodos RL que tratan la evaluación confiable como un principio de primera clase durante la capacitación.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original