LLM no es todo lo que necesita: una evaluación sistemática de ML versus modelos básicos para clasificación médica basada en texto e imágenes

Resumen: La combinación de modelos multimodales de visión-lenguaje (VLM) y modelos de lenguaje grande (LLM) abre nuevas posibilidades para la clasificación médica. Este trabajo ofrece un punto de referencia riguroso y unificado mediante el uso de cuatro conjuntos de datos disponibles públicamente que cubren modalidades de texto e imagen (complejidad binaria y multiclase) que contrasta el aprendizaje automático (ML) tradicional con las técnicas contemporáneas basadas en transformadores. Evaluamos tres clases de modelos para cada tarea: ML clásico (LR, LightGBM, ResNet-50), LLM/VLM basados en solicitudes (Gemini 2.5) y modelos PEFT ajustados (variantes de Gemma3 adaptadas a LoRA). Todos los experimentos utilizaron divisiones de datos consistentes y métricas alineadas. Según nuestros resultados, los modelos tradicionales de aprendizaje automático (ML) establecen un alto estándar al lograr consistentemente el mejor rendimiento general en la mayoría de las tareas de categorización médica. Esto fue especialmente cierto para los conjuntos de datos estructurados basados en texto, donde los modelos clásicos funcionaron excepcionalmente bien. En marcado contraste, las variantes de Gemma ajustadas por LoRA mostraron consistentemente el peor rendimiento en todos los experimentos de texto e imágenes, sin poder generalizar a partir del ajuste mínimo proporcionado. Sin embargo, los proyectos LLM/VLM de tiro cero (Gemini 2.5) tuvieron resultados mixtos; tuvieron un desempeño deficiente en tareas basadas en texto, pero demostraron un desempeño competitivo en la tarea de imágenes multiclase, coincidiendo con la línea de base clásica de ResNet-50. Estos resultados demuestran que en muchos escenarios de categorización médica, los modelos establecidos de aprendizaje automático siguen siendo la opción más confiable. El experimento sugiere que los modelos básicos no son universalmente superiores y que la efectividad del ajuste fino eficiente en parámetros (PEFT) depende en gran medida de la estrategia de adaptación, ya que un ajuste mínimo resultó perjudicial en este estudio.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

EncouRAGe: Evaluación de RAG local, rápida y confiable

LTLCRIT: un crítico LLM basado en la lógica temporal para agentes encarnados seguros y eficientes

Prasad Kothari: redes de transfusión de sangre a base de blockchain

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido