ESL-Bench: un punto de referencia longitudinal sintético impulsado por eventos para agentes de salud

Resumen: Los agentes de salud longitudinales deben razonar a través de trayectorias de múltiples fuentes que combinan flujos continuos de dispositivos, escasos exámenes clínicos y eventos vitales episódicos; sin embargo, evaluarlos es difícil: los datos del mundo real no se pueden publicar a escala, y las preguntas de atribución basadas temporalmente rara vez admiten respuestas definitivas sin una verdad estructurada. Presentamos ESL-Bench, un marco de referencia y marco de síntesis basado en eventos que proporciona 100 usuarios sintéticos, cada uno con una trayectoria de 1 a 5 años que comprende un perfil de salud, un plan narrativo de múltiples fases, mediciones diarias del dispositivo, registros de exámenes periódicos y un registro de eventos con parámetros de impacto explícitos por indicador. Cada indicador sigue un proceso estocástico de referencia impulsado por eventos discretos con núcleos de decaimiento exponencial y inicio sigmoideo bajo restricciones de saturación y proyección; una canalización híbrida delega artefactos semánticos escasos a la planificación basada en LLM y dinámicas de indicadores densas a la simulación algorítmica con límites fisiológicos estrictos. Cada usuario recibe 100 consultas de evaluación en cinco dimensiones (búsqueda, tendencia, comparación, anomalía y explicación) estratificadas en niveles Fácil, Medio y Difícil, con todas las respuestas reales computables mediante programación a partir de las relaciones registradas entre eventos e indicadores. Al evaluar 13 métodos que abarcan LLM con herramientas, agentes nativos de base de datos y RAG con memoria aumentada, encontramos que los agentes de base de datos (48-58%) superan sustancialmente las líneas base de RAG de memoria (30-38%), con la brecha concentrada en consultas de comparación y explicación donde se requiere razonamiento de múltiples saltos y atribución de evidencia.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Astrocompress: un conjunto de datos de referencia para la compresión multipropósito de datos astronómicos

AISSISTANT: Un enfoque de agente para el trabajo científico colaborativo humano-AI sobre revisiones y perspectivas en el aprendizaje automático

Modelo de situación del transporte, emisiones de transporte y condiciones meteorológicas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido