Resumen: Asegurar la seguridad de las políticas de aprendizaje de refuerzo (RL) en entornos de alto riesgo requiere no solo verificación formal sino también interpretabilidad y falsificación específica. Si bien la verificación del modelo proporciona garantías formales, su efectividad está limitada por la calidad de la abstracción y la integridad del conjunto de datos de trayectoria subyacente. Proponemos un marco híbrido que integra (1) explicación, (2) verificación del modelo y (3) falsificación guiada por el riesgo para lograr rigor y cobertura. Nuestro enfoque comienza construyendo una abstracción interpretable por humanos de la política RL utilizando resumen de políticas abstracciones comprensibles (CAP). Este gráfico abstracto, derivado de las trayectorias fuera de línea, es compatible con verificadores, semánticamente significativo y puede usarse como aportes de entrada a tormentas probabilísticas para verificar la satisfacción de las especificaciones de seguridad temporal. Si el verificador de modelos identifica una violación, devolverá un rastro interpretable contra el cual la política falla el requisito de seguridad. Sin embargo, si no se detecta ninguna violación, no podemos concluir la satisfacción debido a la limitación potencial en la abstracción y la cobertura del conjunto de datos fuera de línea. En tales casos, estimamos el riesgo asociado durante la verificación del modelo para guiar una estrategia de falsificación que prioriza la búsqueda en estados de alto riesgo y regiones subrepresentadas en el conjunto de datos de trayectoria. Además, ofrecemos garantías de estilo PAC sobre la probabilidad de descubrir violaciones no detectadas. Finalmente, incorporamos un escudo de seguridad liviano que cambia a una política de respuesta en tiempo de ejecución cuando dicho riesgo excede un umbral, facilitando la mitigación de fallas sin reentrenamiento.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

Falsificación guiada por verificación para RL seguro a través de una abstracción explicable y exploración de riesgos conscientes

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ontologías y limitaciones ajustadas a las estructuras relacionales

Mejora del aprendizaje de los estudiantes con preguntas de práctica de recuperación generada por LLM: un estudio empírico en cursos de ciencias de datos

SENSECF: contrafactuales prometidos por LLM para la intervención y el aumento de datos del sensor

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido