Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.875 encuentros que abarcaron tres escenarios de Choosing Wisely, los índices de aquiescencia oscilaron entre 0 y 100%. Los modelos mostraron una mayor vulnerabilidad a las solicitudes de imágenes (38,8%) que a las prescripciones de opioides (25,0%), y la capacidad del modelo predice mal la robustez. Todas las tácticas de persuasión resultaron igualmente efectivas (30,0-36,0%), lo que indica susceptibilidad general más que debilidad táctica específica. Nuestros hallazgos demuestran que los puntos de referencia estáticos predicen de manera inadecuada la seguridad bajo presión social, lo que requiere pruebas adversas de múltiples turnos para la certificación clínica de IA.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
