En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Qué preguntar a continuación? Probar el razonamiento imaginativo de los LLM con rompecabezas de tortuga

¿Qué preguntar a continuación? Probar el razonamiento imaginativo de los LLM con rompecabezas de tortuga

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Investigamos la capacidad de los modelos de idiomas grandes (LLM) para el razonamiento imaginativo: la construcción proactiva, las pruebas y la revisión de hipótesis en entornos de la presunción de información. Los puntos de referencia existentes, a menudo estáticos o centrados en la deducción social, no pueden capturar la naturaleza dinámica y exploratoria de este proceso de razonamiento. Para abordar esta brecha, presentamos un marco de investigación integral basado en el clásico juego de “sopa de tortugas”, integrando un punto de referencia, un agente y un protocolo de evaluación. Presentamos Turtlesup-Bench, el primer punto de referencia interactivo a gran escala, bilingüe e interactivo para el razonamiento imaginativo, que comprende 800 rompecabezas de sopa de tortugas adjudicados tanto en Internet como de los autores expertos. También proponemos Mosaic-Agent, un agente novedoso diseñado para evaluar el rendimiento de LLMS en este entorno. Para evaluar la calidad del razonamiento, desarrollamos un protocolo multidimensional que mide la consistencia lógica, la finalización de los detalles y la alineación de conclusión. Los experimentos con LLM principales revelan límites de capacidad claros, patrones de falla comunes y una brecha de rendimiento significativa en comparación con los humanos. Nuestro trabajo ofrece nuevas ideas sobre el razonamiento imaginativo de LLMS y establece una base para futuras investigaciones sobre el comportamiento de los agentes exploratorios.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web