Resumen: La desidentificación de la información de salud protegida (PHI) es fundamental para permitir la reutilización segura de notas clínicas; sin embargo, la evaluación y comparación de los modelos de desidentificación de la PHI generalmente depende de costosas anotaciones de expertos a pequeña escala. Presentamos TEAM-PHI, un marco de selección y evaluación de múltiples agentes que utiliza modelos de lenguaje grandes (LLM) para medir automáticamente la calidad de la desidentificación y seleccionar el modelo con mejor rendimiento sin depender demasiado de etiquetas doradas. TEAM-PHI implementa múltiples agentes de evaluación, cada uno de los cuales juzga de forma independiente la exactitud de las extracciones de PHI y genera métricas estructuradas. Luego, sus resultados se consolidan a través de un mecanismo de votación mayoritario basado en LLM que integra diversas perspectivas de los evaluadores en una clasificación única, estable y reproducible. Los experimentos con un corpus de notas clínicas del mundo real demuestran que TEAM-PHI produce clasificaciones consistentes y precisas: a pesar de la variación entre los evaluadores individuales, la votación basada en LLM converge de manera confiable en los mismos sistemas de alto rendimiento. Una comparación adicional con las anotaciones reales y la evaluación humana confirma que las clasificaciones automatizadas del marco coinciden estrechamente con la evaluación supervisada. Al combinar agentes de evaluación independientes con votación mayoritaria de LLM, TEAM-PHI ofrece una solución práctica, segura y rentable para la evaluación automática y la selección del mejor modelo en la desidentificación de la PHI, incluso cuando las etiquetas de verdad sobre el terreno son limitadas.
Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original