Resumen: Investigamos la capacidad de los modelos de idiomas grandes (LLM) para el razonamiento imaginativo: la construcción proactiva, las pruebas y la revisión de hipótesis en entornos de la presunción de información. Los puntos de referencia existentes, a menudo estáticos o centrados en la deducción social, no pueden capturar la naturaleza dinámica y exploratoria de este proceso de razonamiento. Para abordar esta brecha, presentamos un marco de investigación integral basado en el clásico juego de “sopa de tortugas”, integrando un punto de referencia, un agente y un protocolo de evaluación. Presentamos Turtlesup-Bench, el primer punto de referencia interactivo a gran escala, bilingüe e interactivo para el razonamiento imaginativo, que comprende 800 rompecabezas de sopa de tortugas adjudicados tanto en Internet como de los autores expertos. También proponemos Mosaic-Agent, un agente novedoso diseñado para evaluar el rendimiento de LLMS en este entorno. Para evaluar la calidad del razonamiento, desarrollamos un protocolo multidimensional que mide la consistencia lógica, la finalización de los detalles y la alineación de conclusión. Los experimentos con LLM principales revelan límites de capacidad claros, patrones de falla comunes y una brecha de rendimiento significativa en comparación con los humanos. Nuestro trabajo ofrece nuevas ideas sobre el razonamiento imaginativo de LLMS y establece una base para futuras investigaciones sobre el comportamiento de los agentes exploratorios.
Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original