Hacia la evaluación y selección automática de modelos de desidentificación de PHI mediante la colaboración de múltiples agentes

Resumen: La desidentificación de la información de salud protegida (PHI) es fundamental para permitir la reutilización segura de notas clínicas; sin embargo, la evaluación y comparación de los modelos de desidentificación de la PHI generalmente depende de costosas anotaciones de expertos a pequeña escala. Presentamos TEAM-PHI, un marco de selección y evaluación de múltiples agentes que utiliza modelos de lenguaje grandes (LLM) para medir automáticamente la calidad de la desidentificación y seleccionar el modelo con mejor rendimiento sin depender demasiado de etiquetas doradas. TEAM-PHI implementa múltiples agentes de evaluación, cada uno de los cuales juzga de forma independiente la exactitud de las extracciones de PHI y genera métricas estructuradas. Luego, sus resultados se consolidan a través de un mecanismo de votación mayoritario basado en LLM que integra diversas perspectivas de los evaluadores en una clasificación única, estable y reproducible. Los experimentos con un corpus de notas clínicas del mundo real demuestran que TEAM-PHI produce clasificaciones consistentes y precisas: a pesar de la variación entre los evaluadores individuales, la votación basada en LLM converge de manera confiable en los mismos sistemas de alto rendimiento. Una comparación adicional con las anotaciones reales y la evaluación humana confirma que las clasificaciones automatizadas del marco coinciden estrechamente con la evaluación supervisada. Al combinar agentes de evaluación independientes con votación mayoritaria de LLM, TEAM-PHI ofrece una solución práctica, segura y rentable para la evaluación automática y la selección del mejor modelo en la desidentificación de la PHI, incluso cuando las etiquetas de verdad sobre el terreno son limitadas.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Hay una vida media para las tasas de éxito de los agentes de IA?

Ultrahorizon: Capacidades de agentes de evaluación comparativa en escenarios de Horizon Ultra Long

Qué significan los nuevos desafíos legales para el futuro de la energía eólica marina en EE. UU.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido