VehicleMemBench: un punto de referencia ejecutable para la memoria a largo plazo multiusuario en agentes a bordo de vehículos

Resumen:Con la creciente demanda de experiencias inteligentes en vehículos, los agentes basados en vehículos están evolucionando de simples asistentes a compañeros a largo plazo. Esta evolución requiere que los agentes modelen continuamente las preferencias de múltiples usuarios y tomen decisiones confiables frente a conflictos de preferencias entre usuarios y cambios de hábitos a lo largo del tiempo. Sin embargo, los puntos de referencia existentes se limitan en gran medida a configuraciones estáticas de preguntas y respuestas de un solo usuario, y no logran capturar la evolución temporal de las preferencias y la naturaleza multiusuario e interactiva con herramientas de los entornos de vehículos reales. Para abordar esta brecha, presentamos VehicleMemBench, un punto de referencia de memoria de contexto largo multiusuario construido en un entorno de simulación ejecutable en el vehículo. El punto de referencia evalúa el uso de la herramienta y la memoria comparando el estado del entorno posterior a la acción con un estado objetivo predefinido, lo que permite una evaluación objetiva y reproducible sin puntuación humana o basada en LLM. VehicleMemBench incluye 23 módulos de herramientas y cada muestra contiene más de 80 eventos de memoria históricos. Los experimentos muestran que los modelos potentes funcionan bien en tareas de instrucción directa, pero tienen problemas en escenarios que involucran la evolución de la memoria, particularmente cuando las preferencias del usuario cambian dinámicamente. Incluso los sistemas de memoria avanzados tienen dificultades para manejar los requisitos de memoria específicos de un dominio en este entorno. Estos hallazgos resaltan la necesidad de mecanismos de gestión de memoria más sólidos y especializados para respaldar la toma de decisiones adaptativa a largo plazo en sistemas de vehículos del mundo real. Para facilitar futuras investigaciones, publicamos los datos y el código.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Modelo de situación del transporte, emisiones de transporte y condiciones meteorológicas

Semántica agregativa para marcos de argumentación bipolar cuantitativa

¿Cómo revisan las personas creencias inconsistentes? Examinar la revisión de creencias en humanos con estudios de usuarios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido