Ultrahorizon: Capacidades de agentes de evaluación comparativa en escenarios de Horizon Ultra Long

Resumen: Los agentes autónomos han logrado recientemente un progreso notable en diversos dominios, sin embargo, la mayoría de las evaluaciones se centran en tareas de horizonte cortos y totalmente observables. Por el contrario, muchas tareas críticas del mundo real, como el desarrollo de software a gran escala, la inversión comercial y el descubrimiento científico, se desarrollan en escenarios de oraciones largas y parcialmente observables donde el éxito depende de un razonamiento sostenido, la planificación, la gestión de la memoria y el uso de herramientas. Los puntos de referencia existentes rara vez capturan estos desafíos de horizonte largo, dejando una brecha en la evaluación sistemática. Para cerrar esta brecha, presentamos textbf {Ultrahorizon} un nuevo punto de referencia que mide las capacidades fundamentales esenciales para desafíos complejos del mundo real. Utilizamos la exploración como una tarea unificadora en tres entornos distintos para validar estas competencias básicas. Los agentes están diseñados en tareas de descubrimiento de horizonte largo donde deben descubrir iterativamente reglas ocultas a través de razonamiento sostenido, planificación, gestión de memoria y herramientas e interacción con entornos. Bajo la configuración de escala más pesada, las trayectorias promedio textbf {200k+} tokens y textbf {400+} llamadas de herramientas, mientras que en las configuraciones estándar todavía exceden textbf {35K} tokens e involucran más que textbf {60} llamadas de herramienta en promedio. Nuestros extensos experimentos revelan que los agentes de LLM tienen un rendimiento inferior constantemente en estos entornos, mientras que los participantes humanos logran puntajes más altos, lo que subraya una brecha persistente en las habilidades de horarios de los agentes. También observamos que la escala simple falla en nuestra tarea. Para ilustrar mejor el fracaso de los agentes, realizamos un análisis en profundidad de las trayectorias recolectadas. Identificamos ocho tipos de errores y los atribuimos a dos causas principales: bloqueo en contexto y brechas de capacidad fundamental funcional. href {esta URL HTTPS} {Nuestro código estará disponible aquí.}

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La última amenaza del surgimiento de la fabricación china

Arquitecturas de memoria continua para agentes LLM de largo horizonte

Dentro del imperio de Openai: una conversación con Karen Hao

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido