En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->FutureX: un punto de referencia en vivo avanzado para agentes de LLM en predicción futura

FutureX: un punto de referencia en vivo avanzado para agentes de LLM en predicción futura

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La predicción futura es una tarea compleja para los agentes de LLM, que requiere un alto nivel de pensamiento analítico, recopilación de información, comprensión contextual y toma de decisiones bajo incertidumbre. Los agentes no solo deben recopilar e interpretar grandes cantidades de información dinámica, sino también integrar diversas fuentes de datos, pesar las incertidumbres y adaptar las predicciones basadas en las tendencias emergentes, al igual que los expertos humanos en campos como la política, la economía y las finanzas. A pesar de su importancia, no existe un punto de referencia a gran escala para evaluar a los agentes en la predicción futura, en gran parte debido a los desafíos en el manejo de actualizaciones en tiempo real y recuperar respuestas oportunas y precisas. Para abordar esto, presentamos $ textbf {FutureX} $, un punto de referencia de evaluación dinámica y en vivo diseñado específicamente para agentes de LLM que realizan tareas de predicción futuras. FutureX es el punto de referencia en vivo más grande y diverso para la predicción futura, que apoya las actualizaciones diarias en tiempo real y elimina la contaminación de datos a través de una tubería automatizada para la recopilación de preguntas y la recopilación de respuestas. Evaluamos 25 modelos LLM/agente, incluidos aquellos con razonamiento, capacidades de búsqueda e integración de herramientas externas como el agente de investigación profunda de código abierto y los modelos de investigación profunda de código cerrado. Esta evaluación integral evalúa el razonamiento adaptativo y el rendimiento de los agentes en entornos dinámicos. Además, proporcionamos análisis en profundidad de los modos de falla de los agentes y las dificultades de rendimiento en tareas orientadas al futuro, incluida la vulnerabilidad a las páginas web falsas y la validez temporal. Nuestro objetivo es establecer un estándar de evaluación dinámico y libre de contaminación que impulse el desarrollo de agentes de LLM capaces de desempeñarse a nivel de analistas humanos profesionales en razonamiento complejo y pensamiento predictivo.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web