Resumen: Este documento introduce la planificación de la trayectoria de consistencia (CTP), un nuevo método de aprendizaje de refuerzo basado en modelos fuera de línea que aprovecha el modelo de trayectoria de consistencia (CTM) de consistencia recientemente propuesto para una optimización de trayectoria eficiente. Si bien el trabajo previo que aplica modelos de difusión a la planificación ha demostrado un fuerte rendimiento, a menudo sufre de altos costos computacionales debido a los procedimientos de muestreo iterativo. CTP admite una generación de trayectoria rápida de un solo paso sin una degradación significativa en la calidad de la política. Evaluamos CTP en el punto de referencia D4RL y mostramos que supera constantemente los métodos de planificación basados en la difusión existentes en tareas de oraciones largas y condicionadas por objetivos. En particular, CTP logra rendimientos normalizados más altos mientras se usa significativamente menos pasos de renovación. En particular, CTP logra un rendimiento comparable con más de $ 120 veces $ Speedup en tiempo de inferencia, lo que demuestra su practicidad y efectividad para la planificación fuera de línea de alta latencia y baja latencia.
Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original