En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SkillsBench: Evaluación comparativa de qué tan bien funcionan las habilidades de los agentes en diversas tareas

SkillsBench: Evaluación comparativa de qué tan bien funcionan las habilidades de los agentes en diversas tareas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las habilidades de los agentes son paquetes estructurados de conocimiento procedimental que aumentan los agentes LLM en el momento de la inferencia. A pesar de su rápida adopción, no existe una forma estándar de medir si realmente ayudan. Presentamos SkillsBench, un punto de referencia de 86 tareas en 11 dominios combinado con habilidades seleccionadas y verificadores deterministas. Cada tarea se evalúa bajo tres condiciones: sin habilidades, habilidades seleccionadas y habilidades autogeneradas. Probamos 7 configuraciones de modelo de agente en 7308 trayectorias. Las habilidades seleccionadas aumentan la tasa promedio de aprobación en 16,2 puntos porcentuales (pp), pero los efectos varían ampliamente según el dominio (+4,5 pp para Ingeniería de software a +51,9 pp para Atención médica) y 16 de 84 tareas muestran deltas negativos. Las habilidades autogeneradas no proporcionan ningún beneficio en promedio, lo que demuestra que los modelos no pueden crear de manera confiable el conocimiento procedimental que se benefician al consumir. Las habilidades enfocadas con 2 o 3 módulos superan a la documentación completa, y los modelos más pequeños con habilidades pueden igualar a los modelos más grandes sin ellas.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web