Resumen: Los agentes del modelo de lenguaje grande (LLM) tienen un buen desempeño en tareas de horizonte corto y medio, pero a menudo fracasan en tareas de horizonte largo que requieren secuencias de acción extendidas e interdependientes. A pesar del rápido progreso en los sistemas agentes, estas fallas a largo plazo siguen estando mal caracterizadas, lo que dificulta el diagnóstico basado en principios y la comparación entre dominios. Para abordar esta brecha, presentamos HORIZON, un punto de referencia de diagnóstico inicial entre dominios para construir sistemáticamente tareas y analizar comportamientos de falla a largo plazo en agentes basados en LLM. Utilizando HORIZON, evaluamos agentes de última generación (SOTA) de múltiples familias de modelos (variantes GPT-5 y modelos Claude), recopilando más de 3100 trayectorias en cuatro dominios agentes representativos para estudiar patrones de degradación dependientes del horizonte. Además, proponemos un proceso de LLM como juez basado en trayectorias para la atribución de fallas escalable y reproducible, y lo validamos con anotaciones humanas en trayectorias, logrando un fuerte acuerdo (entre anotadores kappa=0,61; juez humano kappa=0,84). Nuestros hallazgos ofrecen un paso metodológico inicial hacia un análisis sistemático entre dominios de las fallas de los agentes a largo plazo y ofrecen una guía práctica para construir agentes a largo plazo más confiables. Estrenamos la web de nuestro proyecto en href{esta URL https}{HORIZON Leaderboard} y agradecemos las contribuciones de la comunidad.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
