Inmind: Evaluación de LLM para capturar y aplicar estilos de razonamiento humano individual

Resumen: Los LLM han mostrado un fuerte rendimiento en las tareas de razonamiento centradas en el ser humano. Si bien las evaluaciones previas han explorado si los LLM pueden inferir intenciones o detectar el engaño, a menudo pasan por alto los estilos de razonamiento individualizados que influyen en cómo las personas interpretan y actúan en contextos sociales. Los juegos de deducción social (SDG) proporcionan un taller natural para evaluar estilos de razonamiento individualizados, donde los diferentes jugadores pueden adoptar estrategias de razonamiento diversas pero contextualmente válidas en condiciones idénticas. Para abordar esto, introducimos en la mente, un marco de evaluación cognitivamente fundamentado diseñado para evaluar si LLM puede capturar y aplicar estilos de razonamiento personalizados en los ODS. InMind mejora los datos de juego estructurados con trazas de estrategia de nivel redondo y reflexiones posteriores al juego, recopiladas en modos de observadores y participantes. Admite cuatro tareas motivadas cognitivamente que evalúan conjuntamente tanto la alineación estática como la adaptación dinámica. Como estudio de caso, aplicamos a la mente al juego Avalon, evaluando 11 LLM de última generación. LLMS de uso general, incluso GPT-4O confía con frecuencia en señales léxicas, luchando por anclar reflexiones en el juego temporal o adaptarse a las estrategias en evolución. Por el contrario, las LLM mejoradas para el razonamiento como Deepseek-R1 exhiben signos tempranos de razonamiento sensible al estilo. Estos hallazgos revelan limitaciones clave en la capacidad de los LLM actuales para el razonamiento individualizado y adaptativo y la posición en la mente como un paso hacia la interacción humana-AI alineada cognitivamente.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El diálogo como descubrimiento: navegar la intención humana a través de una investigación basada en principios

TS-Agent: un agente de razonamiento de series temporales con recopilación iterativa de conocimientos estadísticos

RADAR: Vías mecanicistas para detectar la contaminación de datos en la evaluación de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido