FutureX: un punto de referencia en vivo avanzado para agentes de LLM en predicción futura

Resumen: La predicción futura es una tarea compleja para los agentes de LLM, que requiere un alto nivel de pensamiento analítico, recopilación de información, comprensión contextual y toma de decisiones bajo incertidumbre. Los agentes no solo deben recopilar e interpretar grandes cantidades de información dinámica, sino también integrar diversas fuentes de datos, pesar las incertidumbres y adaptar las predicciones basadas en las tendencias emergentes, al igual que los expertos humanos en campos como la política, la economía y las finanzas. A pesar de su importancia, no existe un punto de referencia a gran escala para evaluar a los agentes en la predicción futura, en gran parte debido a los desafíos en el manejo de actualizaciones en tiempo real y recuperar respuestas oportunas y precisas. Para abordar esto, presentamos $ textbf {FutureX} $, un punto de referencia de evaluación dinámica y en vivo diseñado específicamente para agentes de LLM que realizan tareas de predicción futuras. FutureX es el punto de referencia en vivo más grande y diverso para la predicción futura, que apoya las actualizaciones diarias en tiempo real y elimina la contaminación de datos a través de una tubería automatizada para la recopilación de preguntas y la recopilación de respuestas. Evaluamos 25 modelos LLM/agente, incluidos aquellos con razonamiento, capacidades de búsqueda e integración de herramientas externas como el agente de investigación profunda de código abierto y los modelos de investigación profunda de código cerrado. Esta evaluación integral evalúa el razonamiento adaptativo y el rendimiento de los agentes en entornos dinámicos. Además, proporcionamos análisis en profundidad de los modos de falla de los agentes y las dificultades de rendimiento en tareas orientadas al futuro, incluida la vulnerabilidad a las páginas web falsas y la validez temporal. Nuestro objetivo es establecer un estándar de evaluación dinámico y libre de contaminación que impulse el desarrollo de agentes de LLM capaces de desempeñarse a nivel de analistas humanos profesionales en razonamiento complejo y pensamiento predictivo.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Esquina de rompecabezas

Linux Foundation y ATIS socio para avanzar en el desarrollo e integración de código abierto, Open Ran Technologies

La confianza como recompensa: transformar los LLM en modelos de recompensa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido