En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ESL-Bench: un punto de referencia longitudinal sintético impulsado por eventos para agentes de salud

ESL-Bench: un punto de referencia longitudinal sintético impulsado por eventos para agentes de salud

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes de salud longitudinales deben razonar a través de trayectorias de múltiples fuentes que combinan flujos continuos de dispositivos, escasos exámenes clínicos y eventos vitales episódicos; sin embargo, evaluarlos es difícil: los datos del mundo real no se pueden publicar a escala, y las preguntas de atribución basadas temporalmente rara vez admiten respuestas definitivas sin una verdad estructurada. Presentamos ESL-Bench, un marco de referencia y marco de síntesis basado en eventos que proporciona 100 usuarios sintéticos, cada uno con una trayectoria de 1 a 5 años que comprende un perfil de salud, un plan narrativo de múltiples fases, mediciones diarias del dispositivo, registros de exámenes periódicos y un registro de eventos con parámetros de impacto explícitos por indicador. Cada indicador sigue un proceso estocástico de referencia impulsado por eventos discretos con núcleos de decaimiento exponencial y inicio sigmoideo bajo restricciones de saturación y proyección; una canalización híbrida delega artefactos semánticos escasos a la planificación basada en LLM y dinámicas de indicadores densas a la simulación algorítmica con límites fisiológicos estrictos. Cada usuario recibe 100 consultas de evaluación en cinco dimensiones (búsqueda, tendencia, comparación, anomalía y explicación) estratificadas en niveles Fácil, Medio y Difícil, con todas las respuestas reales computables mediante programación a partir de las relaciones registradas entre eventos e indicadores. Al evaluar 13 métodos que abarcan LLM con herramientas, agentes nativos de base de datos y RAG con memoria aumentada, encontramos que los agentes de base de datos (48-58%) superan sustancialmente las líneas base de RAG de memoria (30-38%), con la brecha concentrada en consultas de comparación y explicación donde se requiere razonamiento de múltiples saltos y atribución de evidencia.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web