Resumen: Los trabajos recientes sobre la evaluación comparativa de contexto y memoria se han centrado principalmente en instancias de conversación, pero la necesidad de evaluar la memoria en entornos empresariales dinámicos es crucial para su aplicación efectiva. Introducimos MemTrack, un punto de referencia diseñado para evaluar la memoria a largo plazo y el seguimiento de estado en entornos de agentes multiplataforma. MemTrack modela flujos de trabajo organizacionales realistas al integrar eventos asíncronos en múltiples plataformas de comunicación y productividad como Slack, Linear y GIT. Cada instancia de referencia proporciona una línea cronológicamente interinjada de plataforma, con información ruidosa, conflictiva y de referencia cruzada, así como una posible base de base/comprensión y exploración del sistema de archivos. En consecuencia, nuestro punto de referencia prueba las capacidades de memoria, como la adquisición, la selección y la resolución de conflictos. Curratamos el conjunto de datos MemTrack a través de un diseño manual basado en expertos y una síntesis basada en agentes escalables, generando escenarios ecológicamente válidos basados en procesos de desarrollo de software del mundo real. Introducimos métricas pertinentes para la corrección, la eficiencia y la redundancia que capturan la efectividad de los mecanismos de memoria más allá del simple rendimiento de control de calidad. Los experimentos a través de SOTA LLMS y Backends de memoria revelan desafíos en la utilización de la memoria en horizontes largos, manejando dependencias multiplataforma y resolviendo contradicciones. En particular, el modelo GPT-5 de mejor rendimiento solo logra un puntaje de corrección del 60 % en MemTrack. Este trabajo proporciona un marco extensible para avanzar en la investigación de evaluación para los agentes acuáticos de memoria, más allá del enfoque existente en las configuraciones de conversación, y prepara el escenario para la evaluación comparativa de memoria multiplataforma de múltiples agentes en entornos organizacionales complejos
Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original