DIVE: Ampliación de la diversidad en la síntesis de tareas agentes para el uso de herramientas generalizables

Resumen: Trabajos recientes sintetizan tareas agentes para LLM que utilizan herramientas posteriores a la capacitación, pero una generalización sólida bajo cambios en tareas y conjuntos de herramientas sigue siendo un desafío abierto. Esta fragilidad la atribuimos a una diversidad insuficiente en las tareas sintetizadas. Ampliar la diversidad es difícil porque la capacitación requiere que las tareas sigan siendo ejecutables y verificables, mientras que la generalización exige cobertura de diversos tipos de herramientas, combinaciones de conjuntos de herramientas y patrones heterogéneos de uso de herramientas. Proponemos DIVE, una receta basada en evidencia que invierte el orden de síntesis, ejecutando primero diversas herramientas del mundo real y tareas de derivación inversa estrictamente implicadas por los rastros resultantes, proporcionando así una base para la construcción. DIVE escala la diversidad estructural a lo largo de dos ejes controlables, la cobertura del conjunto de herramientas y la variedad del conjunto de herramientas por tarea, y un bucle de recopilación de evidencia y derivación de tareas induce aún más patrones ricos de uso de herramientas de varios pasos en 373 herramientas en cinco dominios. El entrenamiento de Qwen3-8B con datos DIVE (48k SFT + 3,2k RL) mejora en +22 puntos promedio en 9 puntos de referencia OOD y supera la línea de base 8B más sólida en +68. Sorprendentemente, el análisis de escalamiento controlado revela que la escala de diversidad supera consistentemente la escala de cantidad para la generalización de OOD, incluso con 4 veces menos datos.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Memoria estructurada híbrida y autoevolutiva para agentes GUI

La descarga: los modelos de peso abierto de Openai y el futuro de la búsqueda en Internet

DMA: Alineación RAG en línea con retroalimentación humana

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido