Resumen: La búsqueda del aprendizaje de refuerzo interpretable es un gran desafío para el despliegue de sistemas de toma de decisiones autónomos en aplicaciones críticas de seguridad. Los enfoques modernos de aprendizaje de refuerzo profundo, aunque potentes, tienden a producir políticas opacas que comprometan la verificación, reducen la transparencia e impiden la supervisión humana. Para abordar esto, introducimos Basil (aprendizaje simbólico de mejor acción), un enfoque sistemático para generar políticas simbólicas basadas en reglas a través de la búsqueda evolutiva en línea con optimización de diversidad de calidad (QD). La albahaca representa las políticas como listas ordenadas de predicados simbólicos sobre las variables de estado, asegurando la interpretabilidad total y la complejidad de la política manejable. Al usar un archivo QD, la metodología en el estudio propuesto fomenta la diversidad conductual y estructural entre las soluciones de alto rendimiento, mientras que una aptitud consciente de la complejidad fomenta la síntesis de representaciones compactas. El sistema evolutivo respalda el uso de restricciones exactas para el recuento de reglas y la adaptabilidad del sistema para equilibrar la transparencia con la expresividad. Las comparaciones empíricas con tres tareas de referencia Cartpole-V1, MountainCar-V0 y Acrobot-V1 muestran que Basil sintetiza constantemente controladores interpretables con representaciones compactas comparables a las líneas de base de aprendizaje de refuerzo profundo. Aquí, este artículo presenta un nuevo método de síntesis de políticas interpretable que combina expresividad simbólica, diversidad evolutiva y aprendizaje en línea a través de un marco unificador.
Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original