En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Abierto, confiable y colectivo: un marco impulsado por la comunidad para agentes de inteligencia artificial que utilizan herramientas

Abierto, confiable y colectivo: un marco impulsado por la comunidad para agentes de inteligencia artificial que utilizan herramientas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los LLM integrados en herramientas pueden recuperar, calcular y tomar acciones del mundo real a través de herramientas externas, pero la confiabilidad sigue siendo un cuello de botella clave. Sostenemos que los fallos surgen tanto de la precisión del uso de la herramienta (qué tan bien un agente invoca una herramienta) como de la precisión intrínseca de la herramienta (la propia corrección de la herramienta), mientras que la mayoría de los trabajos anteriores enfatizan la primera. Presentamos OpenTools, una caja de herramientas impulsada por la comunidad que estandariza esquemas de herramientas, proporciona contenedores livianos plug-and-play y evalúa herramientas con conjuntos de pruebas automatizadas y monitoreo continuo. También lanzamos una demostración web pública donde los usuarios pueden ejecutar agentes y herramientas predefinidos y contribuir con casos de prueba, lo que permite que los informes de confiabilidad evolucionen a medida que cambian las herramientas. OpenTools incluye el marco central, un conjunto de herramientas inicial, canales de evaluación y un protocolo de contribución. Los experimentos y evaluaciones muestran una mejor reproducibilidad de un extremo a otro y un mejor desempeño de las tareas; Las herramientas específicas para tareas de mayor calidad aportadas por la comunidad ofrecen ganancias relativas del 6% al 22% sobre una caja de herramientas existente en múltiples arquitecturas de agentes en tareas posteriores y puntos de referencia, lo que resalta la importancia de la precisión intrínseca de la herramienta.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web