Resumen: El condicionamiento personal puede verse como un comportamiento previo para los modelos de lenguaje grandes (LLM) y a menudo se supone que confiere experiencia y mejora la seguridad de una manera monótona. Sin embargo, sus efectos en la toma de decisiones clínicas de alto riesgo siguen estando mal caracterizados. Evaluamos sistemáticamente el control basado en la persona en los LLM clínicos, examinando cómo los roles profesionales (p. ej., médico del Departamento de Emergencias, enfermera) y los estilos de interacción (audaz versus cauteloso) influyen en el comportamiento en todos los modelos y tareas médicas. Evaluamos el desempeño en tareas de triaje clínico y seguridad del paciente mediante evaluaciones multidimensionales que capturan la precisión de las tareas, la calibración y el comportamiento de riesgo relevante para la seguridad. Encontramos efectos sistemáticos, dependientes del contexto y no monótonos: los personajes médicos mejoran el desempeño en tareas de cuidados críticos, generando ganancias de hasta $sim+20%$ en precisión y calibración, pero degradan el desempeño en entornos de atención primaria en márgenes comparables. El estilo de interacción modula la propensión y la sensibilidad al riesgo, pero depende en gran medida del modelo. Si bien las clasificaciones agregadas de jueces de LLM favorecen a las personas médicas sobre las no médicas en casos críticos para la seguridad, encontramos que los médicos humanos muestran un acuerdo moderado en el cumplimiento de la seguridad (promedio $kappa de Cohen = 0,43$) pero indican una confianza baja en el 95,9% de sus respuestas sobre la calidad del razonamiento. Nuestro trabajo muestra que las personas funcionan como antecedentes conductuales que introducen compensaciones dependientes del contexto en lugar de garantías de seguridad o experiencia. El código está disponible en esta URL https_Paradoja.
Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original
