Resumen: No está claro si un desempeño sólido en el pronóstico refleja una comprensión temporal genuina o la capacidad de razonar en condiciones contextuales e impulsadas por eventos. Presentamos TemporalBench, un punto de referencia multidominio diseñado para evaluar el comportamiento de razonamiento temporal en entornos informativos cada vez más ricos. TemporalBench adopta una taxonomía de tareas de cuatro niveles que examina la interpretación de la estructura histórica, el pronóstico libre de contexto, el razonamiento temporal contextual y la predicción condicionada por eventos en cuatro dominios del mundo real: comercio minorista, atención médica, energía y sistemas físicos. Al controlar el acceso a objetivos futuros e información contextual, el punto de referencia permite un análisis de diagnóstico sobre si los modelos pueden interpretar correctamente los patrones temporales, alinearlos con el contexto externo y adaptar las predicciones cuando las condiciones cambian. Amplios experimentos de referencia muestran que una fuerte precisión de los pronósticos numéricos no se traduce de manera confiable en un razonamiento temporal contextual o consciente de eventos sólido; en cambio, los marcos de agentes existentes exhiben fortalezas fragmentadas y modos de falla sistemáticos que permanecen en gran medida ocultos bajo puntos de referencia basados únicamente en pronósticos. El conjunto de datos TemporalBench está disponible públicamente en esta URL https, y además proporcionamos una tabla de clasificación pública en esta URL https.
Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original
