Resumen: Los puntos de referencia de pronóstico para sistemas de IA de propósito general generalmente heredan las limitaciones del mundo real: los resultados se resuelven lentamente, los eventos de cola son raros y las preguntas contrafactuales son difíciles de calificar. Presentamos ForecastBench-Sim, un punto de referencia de pronóstico mundial simulado basado en los lanzamientos de juegos de Freeciv, un juego de estrategia por turnos inspirado en la serie Civilization. Los pronosticadores reciben un informe mundial fijo (una instantánea estructurada del estado actual del juego) y responden preguntas sobre estados futuros ocultos; Luego, el punto de referencia continúa la simulación y califica los pronósticos. Debido a que el mundo es simulado, la misma configuración puede generar preguntas de pronóstico continuas o binarias en horizontes temporales arbitrarios, mundos de intervención emparejados para preguntas condicionales o causales y ejemplos resueltos de resultados raros o disruptivos. Describimos el proceso de referencia, las familias de preguntas, el protocolo de puntuación y los artefactos de lanzamiento, e informamos partes de validación de evaluaciones de modelos y un piloto humano anónimo. ForecastBench-Sim está destinado a complementar los puntos de referencia de pronóstico del mundo real al proporcionar tareas controladas y de resolución inmediata para estudiar el razonamiento probabilístico en estados mundiales dinámicos.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
