ForecastBench-Sim: un punto de referencia de pronóstico mundial simulado

Resumen: Los puntos de referencia de pronóstico para sistemas de IA de propósito general generalmente heredan las limitaciones del mundo real: los resultados se resuelven lentamente, los eventos de cola son raros y las preguntas contrafactuales son difíciles de calificar. Presentamos ForecastBench-Sim, un punto de referencia de pronóstico mundial simulado basado en los lanzamientos de juegos de Freeciv, un juego de estrategia por turnos inspirado en la serie Civilization. Los pronosticadores reciben un informe mundial fijo (una instantánea estructurada del estado actual del juego) y responden preguntas sobre estados futuros ocultos; Luego, el punto de referencia continúa la simulación y califica los pronósticos. Debido a que el mundo es simulado, la misma configuración puede generar preguntas de pronóstico continuas o binarias en horizontes temporales arbitrarios, mundos de intervención emparejados para preguntas condicionales o causales y ejemplos resueltos de resultados raros o disruptivos. Describimos el proceso de referencia, las familias de preguntas, el protocolo de puntuación y los artefactos de lanzamiento, e informamos partes de validación de evaluaciones de modelos y un piloto humano anónimo. ForecastBench-Sim está destinado a complementar los puntos de referencia de pronóstico del mundo real al proporcionar tareas controladas y de resolución inmediata para estudiar el razonamiento probabilístico en estados mundiales dinámicos.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cultivación de inteligencia multimodal: razonamiento interpretativo y enfoques de trapo de agente para el diagnóstico dermatológico

Prasad Kothari: redes de transfusión de sangre a base de blockchain

IA gemela digital: oportunidades y desafíos desde grandes modelos lingüísticos hasta modelos mundiales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido