CHBIGH: un punto de referencia de jerarquía cognitiva para evaluar la capacidad de razonamiento estratégico de LLMS

Resumen: La capacidad de juego de juego sirve como un indicador para evaluar la capacidad de razonamiento estratégico de los modelos de idiomas grandes (LLM). Mientras que la mayoría de los estudios existentes se basan en métricas de rendimiento de servicios públicos, que no son lo suficientemente robustos debido a las variaciones en el comportamiento del oponente y la estructura del juego. Para abordar esta limitación, proponemos textBF {Benchmark de jerarquía cognitiva (Chbench)}, un nuevo marco de evaluación inspirado en los modelos de jerarquía cognitiva de la economía del comportamiento. Presumimos que los agentes han limitado la racionalidad: diferentes agentes se comportan a diferentes profundidades/niveles de razonamiento. Evaluamos el razonamiento estratégico de las LLM a través de un marco sistemático trifásico, utilizando datos de comportamiento de seis LLM de última generación en quince juegos de forma normal cuidadosamente seleccionados. Los experimentos muestran que los LLM exhiben niveles de razonamiento estratégico consistentes en diversos oponentes, lo que confirma la capacidad de robustez y generalización del marco. También analizamos los efectos de dos mecanismos clave (mecanismo de chat y mecanismo de memoria) en el rendimiento del razonamiento estratégico. Los resultados indican que el mecanismo de chat degrada significativamente el razonamiento estratégico, mientras que el mecanismo de memoria lo mejora. Estas ideas posicionan a Chbench como una herramienta prometedora para evaluar las capacidades de LLM, con un potencial significativo para futuras investigaciones y aplicaciones prácticas.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Algoritmos en línea con orientación poco confiable

Resultado del taller: Sesión de garaje del Proyecto Kenner en la conferencia TH/NGS

Investigación tabular profunda a través de una ejecución continua basada en la experiencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido