 Resumen:Este trabajo investiga las capacidades de razonamiento y planificación de los modelos básicos y su escalabilidad en entornos complejos y dinámicos. Presentamos PuzzlePlex, un punto de referencia diseñado para evaluar estas capacidades a través de un conjunto diverso de acertijos. PuzzlePlex consta de 15 tipos de rompecabezas, incluidos juegos deterministas y estocásticos de diferente dificultad, así como escenarios para un jugador y dos jugadores. El marco PuzzlePlex proporciona un entorno integral para cada juego y admite la extensibilidad para generar instancias más desafiantes a medida que evolucionan los modelos básicos. Además, implementamos estrategias de juego personalizadas para comparar. Sobre la base de este punto de referencia, desarrollamos métricas detalladas para medir el rendimiento y realizar un análisis en profundidad de los modelos básicos de frontera en dos entornos: basado en instrucciones y basado en código. Además, investigamos sistemáticamente sus límites de escala. Nuestros hallazgos muestran que los modelos de razonamiento superan a otros en entornos basados en instrucciones, mientras que la ejecución basada en código presenta mayores desafíos pero ofrece una alternativa escalable y eficiente. PuzzlePlex permite una evaluación específica y orienta mejoras futuras en el razonamiento, la planificación y la generalización de los modelos básicos.
Resumen:Este trabajo investiga las capacidades de razonamiento y planificación de los modelos básicos y su escalabilidad en entornos complejos y dinámicos. Presentamos PuzzlePlex, un punto de referencia diseñado para evaluar estas capacidades a través de un conjunto diverso de acertijos. PuzzlePlex consta de 15 tipos de rompecabezas, incluidos juegos deterministas y estocásticos de diferente dificultad, así como escenarios para un jugador y dos jugadores. El marco PuzzlePlex proporciona un entorno integral para cada juego y admite la extensibilidad para generar instancias más desafiantes a medida que evolucionan los modelos básicos. Además, implementamos estrategias de juego personalizadas para comparar. Sobre la base de este punto de referencia, desarrollamos métricas detalladas para medir el rendimiento y realizar un análisis en profundidad de los modelos básicos de frontera en dos entornos: basado en instrucciones y basado en código. Además, investigamos sistemáticamente sus límites de escala. Nuestros hallazgos muestran que los modelos de razonamiento superan a otros en entornos basados en instrucciones, mientras que la ejecución basada en código presenta mayores desafíos pero ofrece una alternativa escalable y eficiente. PuzzlePlex permite una evaluación específica y orienta mejoras futuras en el razonamiento, la planificación y la generalización de los modelos básicos.
Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							