Resumen: La evaluación de la corrección clínica y la fidelidad del razonamiento de los informes de imágenes médicas generados automáticamente sigue siendo un desafío crítico aún sin resolver.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.
Leer más →
Resumen: Este artículo sostiene que la revisión por pares asistida por IA debería ser primero una verificación en lugar de una imitación de la revisión. Proponemos el acoplamiento de la verdad, es decir, la precisión con la que las puntuaciones de los lugares siguen la verdad científica latente, como el objetivo correcto para las herramientas de revisión.
Leer más →