Un estudio comparativo en IA quirúrgica: conjuntos de datos, modelos básicos y barreras para Med-AGI

Resumen: Los modelos recientes de Inteligencia Artificial (IA) han igualado o superado a los expertos humanos en varios puntos de referencia de desempeño de tareas biomédicas, pero se han quedado atrás en los puntos de referencia de análisis de imágenes quirúrgicas. Dado que la cirugía requiere la integración de tareas dispares, incluida la integración de datos multimodales, la interacción humana y los efectos físicos, los modelos de IA con capacidad general podrían ser particularmente atractivos como herramienta colaborativa si se pudiera mejorar el rendimiento. Por un lado, el enfoque canónico de escalar el tamaño de la arquitectura y los datos de entrenamiento es atractivo, especialmente porque se generan millones de horas de datos de video quirúrgicos por año. Por otro lado, preparar datos quirúrgicos para el entrenamiento en IA requiere niveles significativamente más altos de experiencia profesional, y el entrenamiento sobre esos datos requiere costosos recursos computacionales. Estas compensaciones dibujan un panorama incierto sobre si la IA moderna podría ayudar a la práctica quirúrgica y en qué medida. En este artículo, exploramos esta cuestión a través de un estudio de caso de detección de herramientas quirúrgicas utilizando métodos de IA de última generación disponibles en 2026. Demostramos que incluso con modelos de parámetros multimillonarios y una capacitación exhaustiva, los modelos de lenguaje de visión actuales se quedan cortos en la tarea aparentemente simple de detección de herramientas en neurocirugía. Además, mostramos experimentos de escala que indican que aumentar el tamaño del modelo y el tiempo de entrenamiento solo conduce a mejoras decrecientes en las métricas de rendimiento relevantes. Por lo tanto, nuestros experimentos sugieren que los modelos actuales aún podrían enfrentar obstáculos importantes en los casos de uso quirúrgico. Además, algunos obstáculos no pueden simplemente “eliminarse” con computación adicional y persisten en diversas arquitecturas de modelos, lo que plantea la cuestión de si la disponibilidad de datos y etiquetas son los únicos factores limitantes. Discutimos los principales contribuyentes a estas limitaciones y avanzamos en posibles soluciones.

Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Empujando el sobre de la inferencia de LLM en AI-PC

Calentamiento antes de entrenar: desbloquear razonamiento general en entornos con recursos limitados

ANÁLISIS WHIF if de los modelos de idiomas grandes: explore el mundo del juego utilizando el pensamiento proactivo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido