Meissa: Inteligencia agente médica multimodal

Resumen: Los modelos multimodales de lenguaje grande (MM-LLM) han demostrado un gran rendimiento en la comprensión de imágenes médicas y el razonamiento clínico. Los sistemas de agentes médicos recientes los amplían con el uso de herramientas y la colaboración entre múltiples agentes, lo que permite una toma de decisiones compleja. Sin embargo, estos sistemas se basan casi por completo en modelos de frontera (por ejemplo, GPT), cuya implementación basada en API genera altos costos, alta latencia y riesgos de privacidad que entran en conflicto con los requisitos clínicos locales. Presentamos Meissa, un MM-LLM médico liviano de parámetros 4B que ofrece capacidad de agente fuera de línea. En lugar de imitar respuestas estáticas, Meissa aprende cuándo participar en la interacción externa (selección de estrategias) y cómo ejecutar la interacción de varios pasos (ejecución de la estrategia) al extraer trayectorias estructuradas de modelos de frontera. Específicamente, proponemos: (1) Modelado de trayectorias unificadas: las trayectorias (rastros de razonamiento y acción) se representan dentro de un formalismo único de estado-acción-observación, lo que permite que un modelo se generalice en entornos médicos heterogéneos. (2) Supervisión estratificada de tres niveles: los propios errores del modelo desencadenan una escalada progresiva desde el razonamiento directo hasta la interacción multiagente y aumentada por herramientas, aprendiendo explícitamente la selección de estrategias consciente de las dificultades. (3) Supervisión prospectiva-retrospectiva: combinar seguimientos exploratorios hacia adelante con seguimientos de ejecución racionalizados en retrospectiva permite un aprendizaje estable de políticas de interacción efectivas. Entrenada en 40.000 trayectorias seleccionadas, Meissa iguala o supera a los agentes de frontera patentados en 10 de 16 entornos de evaluación en 13 puntos de referencia médicos que abarcan radiología, patología y razonamiento clínico. Utilizando más de 25 veces menos parámetros que los modelos fronterizos típicos como Gemini-3, Meissa opera completamente fuera de línea con una latencia de extremo a extremo 22 veces menor en comparación con la implementación basada en API. Los datos, modelos y entornos se publican en esta URL https.

Publicado originalmente en export.arxiv.org el 10 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes web con modelo mundial aumentado y corrección de acciones

Un marco para AGI inherentemente más seguro a través de la inferencia activa mediada por el lenguaje

Modelado de circuitos lógicos relacionales para la red convolucional de gráficos e inversores

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido