Planificación de trayectoria de consistencia: optimización de trayectoria de alta calidad y eficiente para el aprendizaje de refuerzo basado en modelos fuera de línea

Resumen: Este documento introduce la planificación de la trayectoria de consistencia (CTP), un nuevo método de aprendizaje de refuerzo basado en modelos fuera de línea que aprovecha el modelo de trayectoria de consistencia (CTM) de consistencia recientemente propuesto para una optimización de trayectoria eficiente. Si bien el trabajo previo que aplica modelos de difusión a la planificación ha demostrado un fuerte rendimiento, a menudo sufre de altos costos computacionales debido a los procedimientos de muestreo iterativo. CTP admite una generación de trayectoria rápida de un solo paso sin una degradación significativa en la calidad de la política. Evaluamos CTP en el punto de referencia D4RL y mostramos que supera constantemente los métodos de planificación basados en la difusión existentes en tareas de oraciones largas y condicionadas por objetivos. En particular, CTP logra rendimientos normalizados más altos mientras se usa significativamente menos pasos de renovación. En particular, CTP logra un rendimiento comparable con más de $ 120 veces $ Speedup en tiempo de inferencia, lo que demuestra su practicidad y efectividad para la planificación fuera de línea de alta latencia y baja latencia.

Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Shylock: descubrimiento causal en series temporales multivariadas basadas en restricciones híbridas

Los CaMeL también pueden usar computadoras: seguridad a nivel de sistema para agentes de uso de computadoras

Puir principios éticos y métodos algorítmicos: un enfoque alternativo para evaluar la confiabilidad en los sistemas de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido