En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SCRIBE: Supervisión estructurada de nivel medio para modelos de lenguaje que utilizan herramientas

SCRIBE: Supervisión estructurada de nivel medio para modelos de lenguaje que utilizan herramientas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los resultados experimentales muestran que SCRIBE logra un rendimiento de vanguardia en una variedad de puntos de referencia de razonamiento y uso de herramientas. En particular, mejora la precisión AIME25 de un modelo Qwen3-4B del 43,3 % al 63,3 % y aumenta significativamente las tasas de éxito en interacciones complejas de herramientas de múltiples vueltas.
Un análisis más profundo de la dinámica del entrenamiento revela una coevolución entre los niveles de abstracción, donde el dominio de las habilidades de nivel medio precede consistentemente al surgimiento de comportamientos de planificación efectivos de alto nivel. Finalmente, demostramos que SCRIBE se suma a las optimizaciones de herramientas de bajo nivel, proporcionando un camino escalable y complementario hacia agentes que utilizan herramientas más autónomos y confiables.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web