Resumen: Los sistemas actuales de investigación científica autónoma (ASR), a pesar de aprovechar grandes modelos de lenguaje (LLM) y arquitecturas agentes, siguen limitados por flujos de trabajo fijos y conjuntos de herramientas que impiden la adaptación a tareas y entornos en evolución. Presentamos Mimosa, un marco de trabajo de múltiples agentes en evolución que sintetiza automáticamente flujos de trabajo de múltiples agentes específicos de tareas y los refina de manera iterativa a través de comentarios experimentales. Mimosa aprovecha el Protocolo de contexto modelo (MCP) para el descubrimiento dinámico de herramientas, genera topologías de flujo de trabajo a través de un metaorquestador, ejecuta subtareas a través de agentes generadores de código que invocan herramientas disponibles y bibliotecas de software científico, y califica las ejecuciones con un juez basado en LLM cuya retroalimentación impulsa el refinamiento del flujo de trabajo. En ScienceAgentBench, Mimosa logra una tasa de éxito del 43,1 % con DeepSeek-V3.2, superando tanto las líneas base de un solo agente como las configuraciones estáticas de múltiples agentes. Nuestros resultados revelan además que los modelos responden de manera heterogénea a la descomposición de múltiples agentes y al aprendizaje iterativo, lo que indica que los beneficios de la evolución del flujo de trabajo dependen de las capacidades del modelo de ejecución subyacente. Más allá de estos puntos de referencia, la arquitectura modular y el diseño independiente de las herramientas de Mimosa lo hacen fácilmente extensible, y sus seguimientos de ejecución completamente registrados y flujos de trabajo archivados respaldan la auditabilidad al preservar cada paso analítico para la inspección y la posible replicación. Combinado con la orientación de expertos en el dominio, el marco tiene el potencial de automatizar una amplia gama de tareas científicas computacionalmente accesibles en todas las disciplinas. Lanzada como una plataforma totalmente de código abierto, Mimosa tiene como objetivo proporcionar una base abierta para la ASR impulsada por la comunidad.
Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original
