Basilio: Aprendizaje simbólico simbólico de mejor acción para las políticas de RL compactas en evolución

Resumen: La búsqueda del aprendizaje de refuerzo interpretable es un gran desafío para el despliegue de sistemas de toma de decisiones autónomos en aplicaciones críticas de seguridad. Los enfoques modernos de aprendizaje de refuerzo profundo, aunque potentes, tienden a producir políticas opacas que comprometan la verificación, reducen la transparencia e impiden la supervisión humana. Para abordar esto, introducimos Basil (aprendizaje simbólico de mejor acción), un enfoque sistemático para generar políticas simbólicas basadas en reglas a través de la búsqueda evolutiva en línea con optimización de diversidad de calidad (QD). La albahaca representa las políticas como listas ordenadas de predicados simbólicos sobre las variables de estado, asegurando la interpretabilidad total y la complejidad de la política manejable. Al usar un archivo QD, la metodología en el estudio propuesto fomenta la diversidad conductual y estructural entre las soluciones de alto rendimiento, mientras que una aptitud consciente de la complejidad fomenta la síntesis de representaciones compactas. El sistema evolutivo respalda el uso de restricciones exactas para el recuento de reglas y la adaptabilidad del sistema para equilibrar la transparencia con la expresividad. Las comparaciones empíricas con tres tareas de referencia Cartpole-V1, MountainCar-V0 y Acrobot-V1 muestran que Basil sintetiza constantemente controladores interpretables con representaciones compactas comparables a las líneas de base de aprendizaje de refuerzo profundo. Aquí, este artículo presenta un nuevo método de síntesis de políticas interpretable que combina expresividad simbólica, diversidad evolutiva y aprendizaje en línea a través de un marco unificador.

Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El investigador de IA presupuestario y el poder de las cadenas de trapo

La administración Trump ha cerrado más de 100 estudios climáticos

Busque estas 7 nuevas tecnologías en el aeropuerto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido