En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Generación de escenarios adversos a través de la alineación de preferencias de tiempo de prueba

Generación de escenarios adversos a través de la alineación de preferencias de tiempo de prueba

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La generación de escenarios adversos es un enfoque rentable para la evaluación de seguridad de los sistemas de conducción autónomos. Sin embargo, los métodos existentes a menudo se limitan a una sola compensación fija entre objetivos competitivos, como la adversidad y el realismo. Esto produce modelos específicos del comportamiento que no se pueden dirigir al momento de la inferencia, sin la eficiencia y la flexibilidad para generar escenarios personalizados para diversos requisitos de capacitación y prueba. En vista de esto, replanteamos la tarea de la generación de escenarios adversos como un problema de alineación de preferencias múltiples de objetivos e introducimos un nuevo marco llamado textbf {s} theererer textbf {a} escenario dversarial textbf {ge} nerator (sage). SAGE permite el control del tiempo de prueba de grano fino sobre la compensación entre la adversidad y el realismo sin ningún reentrenamiento. Primero proponemos la optimización jerárquica de preferencias grupales, un método de alineación fuera de línea eficiente en datos que aprende a equilibrar los objetivos competitivos al desacoplar restricciones de viabilidad dura de las preferencias suaves. En lugar de entrenar un modelo fijo, el sabio ajusta a dos expertos en preferencias opuestas y construye un espectro continuo de políticas en el tiempo de inferencia al interpolar linealmente sus pesos. Proporcionamos justificación teórica para este marco a través de la lente de conectividad de modo lineal. Extensos experimentos demuestran que SAGE no solo genera escenarios con un equilibrio superior de adversidad y realismo, sino que también permite una capacitación de circuito cerrado más efectivo de las políticas de conducción. Página del proyecto: esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web