OWL: Aprendizaje de la fuerza laboral optimizada para asistencia general de múltiples agentes en la automatización de tareas del mundo real

Resumen: Los sistemas de múltiples agentes del modelo de lenguaje grande (LLM) muestran promesa para automatizar las tareas del mundo real, pero luchan por transferir a través de dominios debido a su naturaleza específica del dominio. Los enfoques actuales enfrentan dos deficiencias críticas: requieren rediseño arquitectónico completo y reentrenamiento completo de todos los componentes cuando se aplican a nuevos dominios. Introducimos a Workforce, un marco jerárquico de múltiples agentes que desacopla la planificación estratégica de la ejecución especializada a través de una arquitectura modular que comprende: (i) un planificador de dominio-agnóstico para la descomposición de tareas, (ii) un coordinador para la gestión de la subtarea, y (iii) trabajadores especializados con capacidades de presentación de herramientas de especificación de dominio. Este desacoplamiento permite la transferibilidad de dominio cruzado durante las fases de inferencia y capacitación: durante la inferencia, la fuerza laboral se adapta perfectamente a los nuevos dominios agregando o modificando agentes trabajadores; Para la capacitación, presentamos el aprendizaje de la fuerza laboral (OWL) optimizado, que mejora la generalización entre los dominios al optimizar un planificador de dominio agnóstico con el aprendizaje de refuerzo de la retroalimentación del mundo real. Para validar nuestro enfoque, evaluamos la fuerza laboral en el punto de referencia GAIA, que cubre varias tareas de agente realistas de dominios múltiples. Los resultados experimentales demuestran que la fuerza laboral logra un rendimiento de vanguardia de código abierto (69.70%), superando a los sistemas comerciales como la investigación profunda de OpenAI en un 2,34%. Más notablemente, nuestro modelo 32B entrenado en búho alcanza una precisión del 52.73% (+16.37%) y demuestra un rendimiento comparable a GPT-4O en tareas desafiantes. Para resumir, al permitir la generalización escalable y la transferencia de dominio modular, nuestro trabajo establece una base para la próxima generación de asistentes de IA de propósito general.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MAFA: un marco de múltiples agentes para la anotación

Preferencia de la población PREPRESIONAL Aprendizaje de la retroalimentación humana: un enfoque axiomático

La Fundación Linux revela el programa de eventos globales 2026, que promueve la IA de código abierto y permite la innovación basada en la comunidad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido