En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CHBIGH: un punto de referencia de jerarquía cognitiva para evaluar la capacidad de razonamiento estratégico de LLMS

CHBIGH: un punto de referencia de jerarquía cognitiva para evaluar la capacidad de razonamiento estratégico de LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La capacidad de juego de juego sirve como un indicador para evaluar la capacidad de razonamiento estratégico de los modelos de idiomas grandes (LLM). Mientras que la mayoría de los estudios existentes se basan en métricas de rendimiento de servicios públicos, que no son lo suficientemente robustos debido a las variaciones en el comportamiento del oponente y la estructura del juego. Para abordar esta limitación, proponemos textBF {Benchmark de jerarquía cognitiva (Chbench)}, un nuevo marco de evaluación inspirado en los modelos de jerarquía cognitiva de la economía del comportamiento. Presumimos que los agentes han limitado la racionalidad: diferentes agentes se comportan a diferentes profundidades/niveles de razonamiento. Evaluamos el razonamiento estratégico de las LLM a través de un marco sistemático trifásico, utilizando datos de comportamiento de seis LLM de última generación en quince juegos de forma normal cuidadosamente seleccionados. Los experimentos muestran que los LLM exhiben niveles de razonamiento estratégico consistentes en diversos oponentes, lo que confirma la capacidad de robustez y generalización del marco. También analizamos los efectos de dos mecanismos clave (mecanismo de chat y mecanismo de memoria) en el rendimiento del razonamiento estratégico. Los resultados indican que el mecanismo de chat degrada significativamente el razonamiento estratégico, mientras que el mecanismo de memoria lo mejora. Estas ideas posicionan a Chbench como una herramienta prometedora para evaluar las capacidades de LLM, con un potencial significativo para futuras investigaciones y aplicaciones prácticas.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web