Generación de escenarios adversos a través de la alineación de preferencias de tiempo de prueba

Resumen: La generación de escenarios adversos es un enfoque rentable para la evaluación de seguridad de los sistemas de conducción autónomos. Sin embargo, los métodos existentes a menudo se limitan a una sola compensación fija entre objetivos competitivos, como la adversidad y el realismo. Esto produce modelos específicos del comportamiento que no se pueden dirigir al momento de la inferencia, sin la eficiencia y la flexibilidad para generar escenarios personalizados para diversos requisitos de capacitación y prueba. En vista de esto, replanteamos la tarea de la generación de escenarios adversos como un problema de alineación de preferencias múltiples de objetivos e introducimos un nuevo marco llamado textbf {s} theererer textbf {a} escenario dversarial textbf {ge} nerator (sage). SAGE permite el control del tiempo de prueba de grano fino sobre la compensación entre la adversidad y el realismo sin ningún reentrenamiento. Primero proponemos la optimización jerárquica de preferencias grupales, un método de alineación fuera de línea eficiente en datos que aprende a equilibrar los objetivos competitivos al desacoplar restricciones de viabilidad dura de las preferencias suaves. En lugar de entrenar un modelo fijo, el sabio ajusta a dos expertos en preferencias opuestas y construye un espectro continuo de políticas en el tiempo de inferencia al interpolar linealmente sus pesos. Proporcionamos justificación teórica para este marco a través de la lente de conectividad de modo lineal. Extensos experimentos demuestran que SAGE no solo genera escenarios con un equilibrio superior de adversidad y realismo, sino que también permite una capacitación de circuito cerrado más efectivo de las políticas de conducción. Página del proyecto: esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Expansión de bucles asistida por solucionadores para evitar generar y probar

CTHA: Arquitectura jerárquica temporal restringida para sistemas LLM estables de múltiples agentes

Más allá de la corrección: modelado de recompensas consciente de la confianza para mejorar el razonamiento de los modelos de lenguaje extenso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido