Resumen: La planificación de viajes es una tarea valiosa pero compleja que plantea desafíos importantes incluso para los modelos avanzados de lenguajes grandes (LLM). Si bien los puntos de referencia recientes han avanzado en la evaluación de las capacidades de planificación de los LLM, a menudo no son suficientes para evaluar la viabilidad, confiabilidad y compromiso de los planes de viaje. Introducimos un punto de referencia integral para la planificación de viajes que unifica criterios detallados en una única recompensa, lo que permite una comparación directa de la calidad del plan y una integración perfecta con el aprendizaje por refuerzo (RL). Nuestro evaluador logra un acuerdo moderado con las anotaciones de los expertos en viajes (60,75%) y supera múltiples líneas de base de LLM como juez. Además, publicamos un conjunto de datos a gran escala de 4870 consultas, incluidas 219 solicitudes de formato libre del mundo real para generalización a la intención auténtica del usuario. Utilizando este punto de referencia, llevamos a cabo experimentos extensos a través de diversos métodos y LLM, incluido el cálculo del tiempo de prueba, enfoques neurosimbólicos, ajuste fino supervisado y RL a través de GRPO. En todos los modelos base, RL generalmente mejora la viabilidad del itinerario con respecto a las líneas base supervisadas y de solo aviso, lo que genera puntuaciones de recompensa unificadas más altas.
Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original
