Abierto, confiable y colectivo: un marco impulsado por la comunidad para agentes de inteligencia artificial que utilizan herramientas

Resumen: Los LLM integrados en herramientas pueden recuperar, calcular y tomar acciones del mundo real a través de herramientas externas, pero la confiabilidad sigue siendo un cuello de botella clave. Sostenemos que los fallos surgen tanto de la precisión del uso de la herramienta (qué tan bien un agente invoca una herramienta) como de la precisión intrínseca de la herramienta (la propia corrección de la herramienta), mientras que la mayoría de los trabajos anteriores enfatizan la primera. Presentamos OpenTools, una caja de herramientas impulsada por la comunidad que estandariza esquemas de herramientas, proporciona contenedores livianos plug-and-play y evalúa herramientas con conjuntos de pruebas automatizadas y monitoreo continuo. También lanzamos una demostración web pública donde los usuarios pueden ejecutar agentes y herramientas predefinidos y contribuir con casos de prueba, lo que permite que los informes de confiabilidad evolucionen a medida que cambian las herramientas. OpenTools incluye el marco central, un conjunto de herramientas inicial, canales de evaluación y un protocolo de contribución. Los experimentos y evaluaciones muestran una mejor reproducibilidad de un extremo a otro y un mejor desempeño de las tareas; Las herramientas específicas para tareas de mayor calidad aportadas por la comunidad ofrecen ganancias relativas del 6% al 22% sobre una caja de herramientas existente en múltiples arquitecturas de agentes en tareas posteriores y puntos de referencia, lo que resalta la importancia de la precisión intrínseca de la herramienta.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco de decisión dinámico consciente de la incertidumbre para la integración progresiva múltiple en tareas de clasificación

Alphaeval: un marco de evaluación integral y eficiente para la minería alfa de fórmula

El calendario de la Cumbre de Código Abierto de Norteamérica 2026 muestra la próxima era de infraestructura, seguridad y ecosistemas abiertos de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido