¿Qué preguntar a continuación? Probar el razonamiento imaginativo de los LLM con rompecabezas de tortuga

Resumen: Investigamos la capacidad de los modelos de idiomas grandes (LLM) para el razonamiento imaginativo: la construcción proactiva, las pruebas y la revisión de hipótesis en entornos de la presunción de información. Los puntos de referencia existentes, a menudo estáticos o centrados en la deducción social, no pueden capturar la naturaleza dinámica y exploratoria de este proceso de razonamiento. Para abordar esta brecha, presentamos un marco de investigación integral basado en el clásico juego de “sopa de tortugas”, integrando un punto de referencia, un agente y un protocolo de evaluación. Presentamos Turtlesup-Bench, el primer punto de referencia interactivo a gran escala, bilingüe e interactivo para el razonamiento imaginativo, que comprende 800 rompecabezas de sopa de tortugas adjudicados tanto en Internet como de los autores expertos. También proponemos Mosaic-Agent, un agente novedoso diseñado para evaluar el rendimiento de LLMS en este entorno. Para evaluar la calidad del razonamiento, desarrollamos un protocolo multidimensional que mide la consistencia lógica, la finalización de los detalles y la alineación de conclusión. Los experimentos con LLM principales revelan límites de capacidad claros, patrones de falla comunes y una brecha de rendimiento significativa en comparación con los humanos. Nuestro trabajo ofrece nuevas ideas sobre el razonamiento imaginativo de LLMS y establece una base para futuras investigaciones sobre el comportamiento de los agentes exploratorios.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Simulando múltiples perspectivas humanas en sistemas socioecológicos utilizando modelos de idiomas grandes

Mapeo de radio ciego mediante inferencia de trayectoria bayesiana espacialmente regularizada

Planificación de medicación personalizada mediante modelado de dominio directo y heurística generada por LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido