TripScore: evaluación comparativa y recompensa de la planificación de viajes en el mundo real con una evaluación detallada

Resumen: La planificación de viajes es una tarea valiosa pero compleja que plantea desafíos importantes incluso para los modelos avanzados de lenguajes grandes (LLM). Si bien los puntos de referencia recientes han avanzado en la evaluación de las capacidades de planificación de los LLM, a menudo no son suficientes para evaluar la viabilidad, confiabilidad y compromiso de los planes de viaje. Introducimos un punto de referencia integral para la planificación de viajes que unifica criterios detallados en una única recompensa, lo que permite una comparación directa de la calidad del plan y una integración perfecta con el aprendizaje por refuerzo (RL). Nuestro evaluador logra un acuerdo moderado con las anotaciones de los expertos en viajes (60,75%) y supera múltiples líneas de base de LLM como juez. Además, publicamos un conjunto de datos a gran escala de 4870 consultas, incluidas 219 solicitudes de formato libre del mundo real para generalización a la intención auténtica del usuario. Utilizando este punto de referencia, llevamos a cabo experimentos extensos a través de diversos métodos y LLM, incluido el cálculo del tiempo de prueba, enfoques neurosimbólicos, ajuste fino supervisado y RL a través de GRPO. En todos los modelos base, RL generalmente mejora la viabilidad del itinerario con respecto a las líneas base supervisadas y de solo aviso, lo que genera puntuaciones de recompensa unificadas más altas.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Planificación espacial inteligente en Egipto: un enfoque basado en algoritmos para la evaluación de servicios públicos en la ciudad de Qena

Worldllm: Mejora del modelado mundial de LLMS utilizando la creación de teoría impulsada por la curiosidad

Búsqueda de conocimiento inversa sobre razonamiento verificable: síntesis de una enciclopedia científica a partir de una base de conocimientos de largas cadenas de pensamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido