En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Deeptravel: un marco de aprendizaje de refuerzo de agente de extremo a extremo para agentes autónomos de planificación de viajes

Deeptravel: un marco de aprendizaje de refuerzo de agente de extremo a extremo para agentes autónomos de planificación de viajes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El agente de planificación de viajes (TP) ha trabajado recientemente como un componente emergente para interactuar con herramientas y recursos externos para la generación de itinerario de viajes, asegurando una experiencia de usuario agradable. A pesar de sus beneficios, los estudios existentes confían en el flujo de trabajo de agente indicador y de agente fijo, obstaculizando un agente TP más flexible y autónomo. Este documento propone DeepTravel, un marco de aprendizaje de refuerzo de agente de fin a extremo para construir un agente de planificación de viajes autónomo, capaz de planificar, ejecutar herramientas de forma autónoma y reflexionar sobre las respuestas de las herramientas para explorar, verificar y refinar acciones intermedias en el razonamiento múltiple. Para lograr esto, primero construimos un entorno de Sandbox robusto al almacenar en caché los datos de transporte, alojamiento y POI, facilitando la capacitación de agentes de TP sin estar limitados por las limitaciones de las API del mundo real (por ejemplo, salidas inconsistentes). Además, desarrollamos un sistema de modelado de recompensas jerárquicas, donde un verificador de nivel de trayectoria primero verifica la viabilidad espacio -temporal y los filtros itinerario de viaje insatisfecho, y luego el verificador de nivel de giro valide la consistencia de detalles del itinerario con respuestas de herramientas, permitiendo un servicio de recompensa eficiente y preciso. Finalmente, proponemos el método de aprendizaje de refuerzo aumentado de respuesta que permite a TP Agent reproducir periódicamente desde un buffer de experiencia de fallas, emergiendo una capacidad de agente notable. Implementamos un agente TP capacitado en la aplicación Didi Enterprise Solutions y realizamos evaluaciones integrales en línea y fuera de línea, lo que demuestra que DeepTravel permite que los LLM de pequeños tamaño (por ejemplo, QWEN3 32B) superen significativamente las LLM fronterizas existentes, como OpenAi O1, O3 y Deepseek R1 en las tareas de planificación de viajes.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web