Resumen: Simular el razonamiento humano en tareas abiertas ha sido una aspiración de larga data en la IA y la ciencia cognitiva. Si bien los grandes modelos lingüísticos ahora se aproximan a las respuestas humanas a escala, siguen sintonizados con el consenso a nivel de población, borrando a menudo la individualidad de los estilos de razonamiento y las trayectorias de creencias. Para avanzar en la visión de un razonamiento más parecido al humano en las máquinas, presentamos HugAgent (Human-Grounded Agent Benchmark), un punto de referencia para la adaptación del razonamiento promedio a individual. La tarea consiste en predecir cómo una persona específica razonaría y actualizaría sus creencias en escenarios novedosos, dada la evidencia parcial de sus puntos de vista pasados. HugAgent adopta un diseño de doble vía: una vía sintética para pruebas de estrés sistemáticas y a escala, y una vía humana para datos de razonamiento “en voz alta” ecológicamente válidos. Este diseño permite una evaluación escalable y reproducible de la fidelidad intraagente: si los modelos pueden capturar no sólo lo que la gente cree, sino también cómo evoluciona su razonamiento. Los experimentos con LLM de última generación revelan brechas de adaptación persistentes, posicionando a HugAgent como el primer punto de referencia extensible para alinear el razonamiento automático con la individualidad del pensamiento humano. Nuestro punto de referencia y nuestro chatbot son de código abierto como HugAgent (esta URL https) y TraceYourThinking (esta URL https).
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
