TemporalBench: un punto de referencia para evaluar agentes basados en LLM en tareas de series temporales contextuales y basadas en eventos

Resumen: No está claro si un desempeño sólido en el pronóstico refleja una comprensión temporal genuina o la capacidad de razonar en condiciones contextuales e impulsadas por eventos. Presentamos TemporalBench, un punto de referencia multidominio diseñado para evaluar el comportamiento de razonamiento temporal en entornos informativos cada vez más ricos. TemporalBench adopta una taxonomía de tareas de cuatro niveles que examina la interpretación de la estructura histórica, el pronóstico libre de contexto, el razonamiento temporal contextual y la predicción condicionada por eventos en cuatro dominios del mundo real: comercio minorista, atención médica, energía y sistemas físicos. Al controlar el acceso a objetivos futuros e información contextual, el punto de referencia permite un análisis de diagnóstico sobre si los modelos pueden interpretar correctamente los patrones temporales, alinearlos con el contexto externo y adaptar las predicciones cuando las condiciones cambian. Amplios experimentos de referencia muestran que una fuerte precisión de los pronósticos numéricos no se traduce de manera confiable en un razonamiento temporal contextual o consciente de eventos sólido; en cambio, los marcos de agentes existentes exhiben fortalezas fragmentadas y modos de falla sistemáticos que permanecen en gran medida ocultos bajo puntos de referencia basados únicamente en pronósticos. El conjunto de datos TemporalBench está disponible públicamente en esta URL https, y además proporcionamos una tabla de clasificación pública en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LF Networking anuncia ISSEDUM Release 1.0, que ofrece una plataforma central para aplicaciones de redes con IA

IA agente para la suscripción de seguros comerciales con autocrítica adversaria

Hacia el pensamiento conciso y adaptativo en grandes modelos de razonamiento: una encuesta

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido