SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.875 encuentros que abarcaron tres escenarios de Choosing Wisely, los índices de aquiescencia oscilaron entre 0 y 100%. Los modelos mostraron una mayor vulnerabilidad a las solicitudes de imágenes (38,8%) que a las prescripciones de opioides (25,0%), y la capacidad del modelo predice mal la robustez. Todas las tácticas de persuasión resultaron igualmente efectivas (30,0-36,0%), lo que indica susceptibilidad general más que debilidad táctica específica. Nuestros hallazgos demuestran que los puntos de referencia estáticos predicen de manera inadecuada la seguridad bajo presión social, lo que requiere pruebas adversas de múltiples turnos para la certificación clínica de IA.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Vidove: un sistema de agente de traducción con contexto multimodal y razonamiento acuático de memoria

¿Cuál es la probabilidad de que su avión sea alcanzado por desechos espaciales?

De literal a liberal: un marco de metaincitación para provocar un manejo de excepciones alineado con humanos en modelos de lenguaje grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido