PuzzlePlex: Evaluación comparativa de modelos básicos sobre razonamiento y planificación con rompecabezas

Resumen:Este trabajo investiga las capacidades de razonamiento y planificación de los modelos básicos y su escalabilidad en entornos complejos y dinámicos. Presentamos PuzzlePlex, un punto de referencia diseñado para evaluar estas capacidades a través de un conjunto diverso de acertijos. PuzzlePlex consta de 15 tipos de rompecabezas, incluidos juegos deterministas y estocásticos de diferente dificultad, así como escenarios para un jugador y dos jugadores. El marco PuzzlePlex proporciona un entorno integral para cada juego y admite la extensibilidad para generar instancias más desafiantes a medida que evolucionan los modelos básicos. Además, implementamos estrategias de juego personalizadas para comparar. Sobre la base de este punto de referencia, desarrollamos métricas detalladas para medir el rendimiento y realizar un análisis en profundidad de los modelos básicos de frontera en dos entornos: basado en instrucciones y basado en código. Además, investigamos sistemáticamente sus límites de escala. Nuestros hallazgos muestran que los modelos de razonamiento superan a otros en entornos basados en instrucciones, mientras que la ejecución basada en código presenta mayores desafíos pero ofrece una alternativa escalable y eficiente. PuzzlePlex permite una evaluación específica y orienta mejoras futuras en el razonamiento, la planificación y la generalización de los modelos básicos.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Encuesta: Aceptación social de IA, Internet de las cosas y soluciones en la nube

SAJA: Un marco de ataque conjunto de acción estatal sobre el aprendizaje por refuerzo profundo de múltiples agentes

SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido