En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->T2D-Bench: Evaluación basada en evidencia de los resultados de LLM para la diabetes tipo 2 utilizando un gráfico de conocimiento de estilo de vida clínico de múltiples capas

T2D-Bench: Evaluación basada en evidencia de los resultados de LLM para la diabetes tipo 2 utilizando un gráfico de conocimiento de estilo de vida clínico de múltiples capas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) pueden producir recomendaciones clínicamente fluidas para la diabetes tipo 2 sin satisfacer las limitaciones de las guías ni justificar explícitamente las afirmaciones glucémicas relacionadas con el estilo de vida. Presentamos T2D-Bench, un marco de referencia reproducible y de evaluación basado en evidencia para probar si los resultados de LLM satisfacen requisitos de evidencia explícitos y verificables mediante gráficos. T2D-Bench se basa en un gráfico de conocimiento de estilo de vida clínico de múltiples capas que combina una columna vertebral biomédica (UMLS, DrugBank, SIDER), reglas de estándares de atención de la ADA computables y conocimiento de estilo de vida conectados a través de un puente mecanicista con los efectos de laboratorio de glucemia. A través de 100 viñetas estructuradas que abarcan el diagnóstico, la seguridad de los medicamentos y los conflictos de estilos de vida conflictivos, los resultados de referencia no superaron las verificaciones de ruta de evidencia definidas por puntos de referencia en el 35% de los casos para GPT-4o-mini y el 33% para GPT-4o. La puerta de evidencia detecta omisiones no justificadas y utiliza una revisión restringida para que los resultados cumplan a nivel de verificador con los requisitos de evidencia definidos por los puntos de referencia. Estos resultados muestran que las limitaciones de la evidencia computable pueden hacer que las omisiones clínicas no fundamentadas sean explícitas, mensurables y corregibles en los resultados de un LLM centrado en la diabetes.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web