En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->PuzzlePlex: Evaluación comparativa de modelos básicos sobre razonamiento y planificación con rompecabezas

PuzzlePlex: Evaluación comparativa de modelos básicos sobre razonamiento y planificación con rompecabezas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Este trabajo investiga las capacidades de razonamiento y planificación de los modelos básicos y su escalabilidad en entornos complejos y dinámicos. Presentamos PuzzlePlex, un punto de referencia diseñado para evaluar estas capacidades a través de un conjunto diverso de acertijos. PuzzlePlex consta de 15 tipos de rompecabezas, incluidos juegos deterministas y estocásticos de diferente dificultad, así como escenarios para un jugador y dos jugadores. El marco PuzzlePlex proporciona un entorno integral para cada juego y admite la extensibilidad para generar instancias más desafiantes a medida que evolucionan los modelos básicos. Además, implementamos estrategias de juego personalizadas para comparar. Sobre la base de este punto de referencia, desarrollamos métricas detalladas para medir el rendimiento y realizar un análisis en profundidad de los modelos básicos de frontera en dos entornos: basado en instrucciones y basado en código. Además, investigamos sistemáticamente sus límites de escala. Nuestros hallazgos muestran que los modelos de razonamiento superan a otros en entornos basados ​​en instrucciones, mientras que la ejecución basada en código presenta mayores desafíos pero ofrece una alternativa escalable y eficiente. PuzzlePlex permite una evaluación específica y orienta mejoras futuras en el razonamiento, la planificación y la generalización de los modelos básicos.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web