Resumen: La rápida adopción de modelos de lenguaje grande (LLM) en la atención médica ha ido acompañada de un escrutinio de su supervisión. Los enfoques de monitoreo existentes, heredados del aprendizaje automático (ML) tradicional, se basan en tareas y se basan en la supuesta degradación del rendimiento que surge de la deriva del conjunto de datos. Por el contrario, con los LLM, no se puede asumir la inevitable degradación del modelo debido a cambios en las poblaciones en comparación con el conjunto de datos de entrenamiento, porque los LLM no fueron entrenados para ninguna tarea específica en ninguna población determinada. Por lo tanto, proponemos un nuevo principio organizativo que oriente el monitoreo generalista de LLM que sea escalable y se base en cómo se desarrollan y utilizan estos modelos en la práctica: el monitoreo basado en capacidades. El monitoreo basado en capacidades está motivado por el hecho de que los LLM son sistemas generalistas cuyas capacidades internas superpuestas se reutilizan en numerosas tareas posteriores. En lugar de evaluar cada tarea posterior de forma independiente, este enfoque organiza el monitoreo en torno a capacidades compartidas del modelo, como resumen, razonamiento, traducción o barreras de seguridad, para permitir la detección entre tareas de debilidades sistémicas, errores de cola larga y comportamientos emergentes que el monitoreo basado en tareas puede pasar por alto. Describimos consideraciones para desarrolladores, líderes organizacionales y sociedades profesionales para implementar un enfoque de monitoreo basado en capacidades. En última instancia, el monitoreo basado en capacidades proporcionará una base escalable para un monitoreo seguro, adaptativo y colaborativo de los LLM y futuros modelos generalistas de inteligencia artificial en el cuidado de la salud.
Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original
