Resumen: Los modelos recientes de visión-lenguaje tienen una fuerte capacidad de percepción, pero su razonamiento implícito es difícil de explicar y genera fácilmente alucinaciones en consultas complejas. Los métodos compositivos mejoran la interpretabilidad, pero la mayoría se basa en un único agente o en un proceso hecho a mano y no pueden decidir cuándo colaborar entre agentes complementarios o competir entre agentes superpuestos. Presentamos MATA (autómata entrenable jerárquico de múltiples agentes), un sistema de múltiples agentes presentado como un autómata jerárquico de estado finito para el razonamiento visual cuyas transiciones de nivel superior son elegidas por un hiperagente entrenable. Cada agente corresponde a un estado en el hiperautómata y ejecuta un pequeño subautómata basado en reglas para un microcontrol confiable. Todos los agentes leen y escriben en una memoria compartida, lo que genera un historial de ejecución transparente. Para supervisar la política de transición del hiperagente, construimos árboles de trayectoria de transición y los transformamos en pares de memoria al siguiente estado, formando el conjunto de datos MATA-SFT-90K para el ajuste fino supervisado (SFT). El LLM ajustado como política de transición comprende la consulta y la capacidad de los agentes, y puede elegir de manera eficiente el agente óptimo para resolver la tarea. A través de múltiples puntos de referencia de razonamiento visual, MATA logra resultados de última generación en comparación con líneas base monolíticas y compositivas. El código y el conjunto de datos están disponibles en esta URL https.
Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original
