Resumen: Los agentes de salud longitudinales deben razonar a través de trayectorias de múltiples fuentes que combinan flujos continuos de dispositivos, escasos exámenes clínicos y eventos vitales episódicos; sin embargo, evaluarlos es difícil: los datos del mundo real no se pueden publicar a escala, y las preguntas de atribución basadas temporalmente rara vez admiten respuestas definitivas sin una verdad estructurada. Presentamos ESL-Bench, un marco de referencia y marco de síntesis basado en eventos que proporciona 100 usuarios sintéticos, cada uno con una trayectoria de 1 a 5 años que comprende un perfil de salud, un plan narrativo de múltiples fases, mediciones diarias del dispositivo, registros de exámenes periódicos y un registro de eventos con parámetros de impacto explícitos por indicador. Cada indicador sigue un proceso estocástico de referencia impulsado por eventos discretos con núcleos de decaimiento exponencial y inicio sigmoideo bajo restricciones de saturación y proyección; una canalización híbrida delega artefactos semánticos escasos a la planificación basada en LLM y dinámicas de indicadores densas a la simulación algorítmica con límites fisiológicos estrictos. Cada usuario recibe 100 consultas de evaluación en cinco dimensiones (búsqueda, tendencia, comparación, anomalía y explicación) estratificadas en niveles Fácil, Medio y Difícil, con todas las respuestas reales computables mediante programación a partir de las relaciones registradas entre eventos e indicadores. Al evaluar 13 métodos que abarcan LLM con herramientas, agentes nativos de base de datos y RAG con memoria aumentada, encontramos que los agentes de base de datos (48-58%) superan sustancialmente las líneas base de RAG de memoria (30-38%), con la brecha concentrada en consultas de comparación y explicación donde se requiere razonamiento de múltiples saltos y atribución de evidencia.
Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original
