Resumen: los modelos de idiomas grandes (LLM) demuestran impresionantes capacidades de razonamiento de uso general y resolución de problemas. Sin embargo, luchan por ejecutar flujos de trabajo complejos de Horizon Long que exigen una adherencia estricta a los procedimientos operativos estándar (SOP), un requisito crítico para la automatización industrial del mundo real. A pesar de esta necesidad, hay una falta de puntos de referencia públicos que reflejen la complejidad, la estructura y los matices específicos del dominio de los SOP. Para abordar esto, presentamos tres contribuciones principales. Primero, presentamos un marco de generación de datos sintético para crear SOP realistas de grado industrial que pruebe rigurosamente las capacidades de planificación, razonamiento y uso de herramientas de los agentes basados en LLM. En segundo lugar, utilizando este marco, desarrollamos SOP-Bench, un punto de referencia de más de 1,800 tareas en 10 dominios industriales, cada uno con API, interfaces de herramientas y casos de prueba validados por humanos. Tercero, evaluamos dos arquitecturas de agentes prominentes: agentes de llamas y reaccionamiento de funciones, en el banco SOP, observando tasas de éxito promedio de solo 27% y 48%, respectivamente. Sorprendentemente, cuando el registro de herramientas es mucho más grande de lo necesario, los agentes invocan herramientas incorrectas casi el 100% del tiempo. Estos hallazgos subrayan una brecha sustancial entre las capacidades agentes actuales de LLM y las demandas de automatizar los SOP del mundo real. El rendimiento varía significativamente según la tarea y el dominio, destacando la necesidad de la evaluación comparativa y las opciones arquitectónicas específicas del dominio antes del despliegue. SOP-Bench está disponible públicamente en esta url http. También lanzamos las indicaciones que respaldan el marco de generación de datos para admitir nuevos puntos de referencia SOP específicos de dominio. Invitamos a la comunidad a extender el banco SOP con SOP de sus dominios industriales.
Publicado Originalme en rss.arxiv.org El 10 de junio de 2025.
Ver Fuente Original