Resumen: Los avances recientes en modelos de lenguaje grande (LLM) han permitido su integración en la toma de decisiones clínicas; sin embargo, persisten prejuicios ocultos contra los pacientes de distintos orígenes raciales, sociales, económicos y clínicos. En este estudio, investigamos el sesgo en los sistemas de IA médica basados en LLM aplicados a la clasificación del departamento de emergencias (DE). Empleamos 32 variables proxy a nivel de paciente, cada una representada por calificadores positivos y negativos emparejados, y evaluamos sus efectos utilizando conjuntos de datos públicos (MIMIC-IV-ED Demo, MIMIC-IV Demo) y con credenciales de acceso restringido (MIMIC-IV-ED y MIMIC-IV), según corresponda~cite{mimiciv_ed_demo,mimiciv_ed,mimiciv}. Nuestros resultados revelan un comportamiento discriminatorio mediado a través de variables proxy en escenarios de clasificación de urgencias, así como una tendencia sistemática de los LLM a modificar la gravedad percibida del paciente cuando aparecen tokens específicos en el contexto de entrada, independientemente de si están enmarcados positiva o negativamente. Estos hallazgos indican que los sistemas de IA todavía están mal entrenados en señales ruidosas, a veces no causales, que no reflejan de manera confiable la verdadera agudeza del paciente. En consecuencia, es necesario hacer más para garantizar el despliegue seguro y responsable de las tecnologías de IA en entornos clínicos.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
