En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DIVE: Ampliación de la diversidad en la síntesis de tareas agentes para el uso de herramientas generalizables

DIVE: Ampliación de la diversidad en la síntesis de tareas agentes para el uso de herramientas generalizables

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Trabajos recientes sintetizan tareas agentes para LLM que utilizan herramientas posteriores a la capacitación, pero una generalización sólida bajo cambios en tareas y conjuntos de herramientas sigue siendo un desafío abierto. Esta fragilidad la atribuimos a una diversidad insuficiente en las tareas sintetizadas. Ampliar la diversidad es difícil porque la capacitación requiere que las tareas sigan siendo ejecutables y verificables, mientras que la generalización exige cobertura de diversos tipos de herramientas, combinaciones de conjuntos de herramientas y patrones heterogéneos de uso de herramientas. Proponemos DIVE, una receta basada en evidencia que invierte el orden de síntesis, ejecutando primero diversas herramientas del mundo real y tareas de derivación inversa estrictamente implicadas por los rastros resultantes, proporcionando así una base para la construcción. DIVE escala la diversidad estructural a lo largo de dos ejes controlables, la cobertura del conjunto de herramientas y la variedad del conjunto de herramientas por tarea, y un bucle de recopilación de evidencia y derivación de tareas induce aún más patrones ricos de uso de herramientas de varios pasos en 373 herramientas en cinco dominios. El entrenamiento de Qwen3-8B con datos DIVE (48k SFT + 3,2k RL) mejora en +22 puntos promedio en 9 puntos de referencia OOD y supera la línea de base 8B más sólida en +68. Sorprendentemente, el análisis de escalamiento controlado revela que la escala de diversidad supera consistentemente la escala de cantidad para la generalización de OOD, incluso con 4 veces menos datos.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web