Resumen: Este estudio explora los grandes modelos de idiomas (LLM) como agentes autónomos para tareas del mundo real, incluido el desarrollo de software independiente. Este trabajo presenta un nuevo punto de referencia que evalúa las LLM en las tareas de programación independiente y análisis de datos derivados de datos económicos. Construimos el punto de referencia utilizando tareas sintéticas creadas a partir de un conjunto de datos Freelancer de publicaciones de trabajo de Kaggle, con todos los precios de trabajo estandarizados a USD (precio mediano del proyecto fijo alrededor de $ 250 y un promedio de $ 306). Cada tarea se acompaña de casos estructurados de prueba de entrada-salida y una etiqueta de precio estimada, lo que permite una verificación de corrección automatizada y una valoración de rendimiento monetaria. Este enfoque está inspirado en el reciente punto de referencia de Swe-Lancer de Openai (1.400 tareas reales reales por valor de $ 1M en total). Aún así, nuestro marco simplifica la evaluación utilizando tareas probatibles programáticamente y los valores de los precios predicho, lo que lo hace altamente escalable y repetible. En este punto de referencia, evaluamos cuatro LLM modernos: Claude 3.5 Haiku, GPT-4O-Mini, Qwen 2.5 y Mistral. Reportamos la precisión de cada modelo (tasa de éxito de tareas y tasa de aprobación de casos de prueba) y las “ganancias independientes” totales que logra (suma de los precios de las tareas resueltas). Nuestros resultados muestran que Claude 3.5 Haiku funciona mejor, ganando aproximadamente $ 1.52 millones de dólares, seguido de cerca por GPT-4O-Mini a $ 1.49 millones, luego Qwen 2.5 ($ 1.33M) y Mistral ($ 0.70M). Analizamos la distribución de errores por tarea y observamos que los modelos más fuertes resuelven la mayoría de las tareas y rara vez fallan completamente en cualquier proyecto. Discutimos las implicaciones de estos resultados para la viabilidad de la IA como desarrollador independiente, las ventajas y limitaciones de nuestro enfoque de referencia automatizado y la brecha entre el rendimiento en las tareas estructuradas versus la verdadera complejidad de los trabajos independientes del mundo real.
Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original