En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.875 encuentros que abarcaron tres escenarios de Choosing Wisely, los índices de aquiescencia oscilaron entre 0 y 100%. Los modelos mostraron una mayor vulnerabilidad a las solicitudes de imágenes (38,8%) que a las prescripciones de opioides (25,0%), y la capacidad del modelo predice mal la robustez. Todas las tácticas de persuasión resultaron igualmente efectivas (30,0-36,0%), lo que indica susceptibilidad general más que debilidad táctica específica. Nuestros hallazgos demuestran que los puntos de referencia estáticos predicen de manera inadecuada la seguridad bajo presión social, lo que requiere pruebas adversas de múltiples turnos para la certificación clínica de IA.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web