Resumen: La combinación de modelos multimodales de visión-lenguaje (VLM) y modelos de lenguaje grande (LLM) abre nuevas posibilidades para la clasificación médica. Este trabajo ofrece un punto de referencia riguroso y unificado mediante el uso de cuatro conjuntos de datos disponibles públicamente que cubren modalidades de texto e imagen (complejidad binaria y multiclase) que contrasta el aprendizaje automático (ML) tradicional con las técnicas contemporáneas basadas en transformadores. Evaluamos tres clases de modelos para cada tarea: ML clásico (LR, LightGBM, ResNet-50), LLM/VLM basados en solicitudes (Gemini 2.5) y modelos PEFT ajustados (variantes de Gemma3 adaptadas a LoRA). Todos los experimentos utilizaron divisiones de datos consistentes y métricas alineadas. Según nuestros resultados, los modelos tradicionales de aprendizaje automático (ML) establecen un alto estándar al lograr consistentemente el mejor rendimiento general en la mayoría de las tareas de categorización médica. Esto fue especialmente cierto para los conjuntos de datos estructurados basados en texto, donde los modelos clásicos funcionaron excepcionalmente bien. En marcado contraste, las variantes de Gemma ajustadas por LoRA mostraron consistentemente el peor rendimiento en todos los experimentos de texto e imágenes, sin poder generalizar a partir del ajuste mínimo proporcionado. Sin embargo, los proyectos LLM/VLM de tiro cero (Gemini 2.5) tuvieron resultados mixtos; tuvieron un desempeño deficiente en tareas basadas en texto, pero demostraron un desempeño competitivo en la tarea de imágenes multiclase, coincidiendo con la línea de base clásica de ResNet-50. Estos resultados demuestran que en muchos escenarios de categorización médica, los modelos establecidos de aprendizaje automático siguen siendo la opción más confiable. El experimento sugiere que los modelos básicos no son universalmente superiores y que la efectividad del ajuste fino eficiente en parámetros (PEFT) depende en gran medida de la estrategia de adaptación, ya que un ajuste mínimo resultó perjudicial en este estudio.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
