Maestro: Optimización de gráficos y configuración conjuntos para agentes de IA confiables

Resumen: La construcción de agentes de LLM confiables requiere decisiones en dos niveles: el gráfico (qué módulos existen y cómo fluye la información) y la configuración de cada nodo (modelos, indicaciones, herramientas, perillas de control). La mayoría de los optimizadores existentes sintonizan las configuraciones mientras mantienen el gráfico fijo, dejando modos de falla estructural sin abordar. Introducimos a Maestro, un optimizador holístico agnóstico de marco para los agentes de LLM que busca conjuntamente gráficos y configuraciones para maximizar la calidad del agente, sujeto a presupuestos explícitos de despliegue/token. Más allá de las métricas numéricas, el maestro aprovecha la retroalimentación textual reflectante de las trazas para priorizar las ediciones, mejorando la eficiencia de la muestra y apuntar a modos de falla específicos. En los puntos de referencia Ifbench y Hotpotqa, el maestro supera constantemente los principales optimizadores rápidos: Miprov2, GEPA y GEPA+Fusione, en un promedio de 12%, 4.9%y 4.86%, respectivamente; Incluso cuando se restringe a la optimización solo de inmediato, todavía lidera en un 9.65%, 2.37%y 2.41%. Maestro logra estos resultados con muchos menos despliegos que GEPA. Además, mostramos grandes ganancias en dos aplicaciones (entrevistador y agentes de Rag), destacando que la búsqueda de gráficos conjuntos y la búsqueda de configuración aborda los modos de falla estructural que indican la sintonización por sí solas no pueden solucionar.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Este radar cuántico podría obtener imágenes de objetos enterrados

miniF2F-Lean revisitado: revisando las limitaciones y trazando un camino a seguir

El viaje a la nube como un continuo: oportunidades, desafíos y direcciones de investigación,

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido