En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Inmind: Evaluación de LLM para capturar y aplicar estilos de razonamiento humano individual

Inmind: Evaluación de LLM para capturar y aplicar estilos de razonamiento humano individual

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los LLM han mostrado un fuerte rendimiento en las tareas de razonamiento centradas en el ser humano. Si bien las evaluaciones previas han explorado si los LLM pueden inferir intenciones o detectar el engaño, a menudo pasan por alto los estilos de razonamiento individualizados que influyen en cómo las personas interpretan y actúan en contextos sociales. Los juegos de deducción social (SDG) proporcionan un taller natural para evaluar estilos de razonamiento individualizados, donde los diferentes jugadores pueden adoptar estrategias de razonamiento diversas pero contextualmente válidas en condiciones idénticas. Para abordar esto, introducimos en la mente, un marco de evaluación cognitivamente fundamentado diseñado para evaluar si LLM puede capturar y aplicar estilos de razonamiento personalizados en los ODS. InMind mejora los datos de juego estructurados con trazas de estrategia de nivel redondo y reflexiones posteriores al juego, recopiladas en modos de observadores y participantes. Admite cuatro tareas motivadas cognitivamente que evalúan conjuntamente tanto la alineación estática como la adaptación dinámica. Como estudio de caso, aplicamos a la mente al juego Avalon, evaluando 11 LLM de última generación. LLMS de uso general, incluso GPT-4O confía con frecuencia en señales léxicas, luchando por anclar reflexiones en el juego temporal o adaptarse a las estrategias en evolución. Por el contrario, las LLM mejoradas para el razonamiento como Deepseek-R1 exhiben signos tempranos de razonamiento sensible al estilo. Estos hallazgos revelan limitaciones clave en la capacidad de los LLM actuales para el razonamiento individualizado y adaptativo y la posición en la mente como un paso hacia la interacción humana-AI alineada cognitivamente.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web