Resumen: Asegurar la seguridad de las políticas de aprendizaje de refuerzo (RL) en entornos de alto riesgo requiere no solo verificación formal sino también interpretabilidad y falsificación específica. Si bien la verificación del modelo proporciona garantías formales, su efectividad está limitada por la calidad de la abstracción y la integridad del conjunto de datos de trayectoria subyacente. Proponemos un marco híbrido que integra (1) explicación, (2) verificación del modelo y (3) falsificación guiada por el riesgo para lograr rigor y cobertura. Nuestro enfoque comienza construyendo una abstracción interpretable por humanos de la política RL utilizando resumen de políticas abstracciones comprensibles (CAP). Este gráfico abstracto, derivado de las trayectorias fuera de línea, es compatible con verificadores, semánticamente significativo y puede usarse como aportes de entrada a tormentas probabilísticas para verificar la satisfacción de las especificaciones de seguridad temporal. Si el verificador de modelos identifica una violación, devolverá un rastro interpretable contra el cual la política falla el requisito de seguridad. Sin embargo, si no se detecta ninguna violación, no podemos concluir la satisfacción debido a la limitación potencial en la abstracción y la cobertura del conjunto de datos fuera de línea. En tales casos, estimamos el riesgo asociado durante la verificación del modelo para guiar una estrategia de falsificación que prioriza la búsqueda en estados de alto riesgo y regiones subrepresentadas en el conjunto de datos de trayectoria. Además, ofrecemos garantías de estilo PAC sobre la probabilidad de descubrir violaciones no detectadas. Finalmente, incorporamos un escudo de seguridad liviano que cambia a una política de respuesta en tiempo de ejecución cuando dicho riesgo excede un umbral, facilitando la mitigación de fallas sin reentrenamiento.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original