HugAgent: Evaluación de LLM en la simulación del razonamiento individual similar al humano en tareas abiertas

Resumen: Simular el razonamiento humano en tareas abiertas ha sido una aspiración de larga data en la IA y la ciencia cognitiva. Si bien los grandes modelos lingüísticos ahora se aproximan a las respuestas humanas a escala, siguen sintonizados con el consenso a nivel de población, borrando a menudo la individualidad de los estilos de razonamiento y las trayectorias de creencias. Para avanzar en la visión de un razonamiento más parecido al humano en las máquinas, presentamos HugAgent (Human-Grounded Agent Benchmark), un punto de referencia para la adaptación del razonamiento promedio a individual. La tarea consiste en predecir cómo una persona específica razonaría y actualizaría sus creencias en escenarios novedosos, dada la evidencia parcial de sus puntos de vista pasados. HugAgent adopta un diseño de doble vía: una vía sintética para pruebas de estrés sistemáticas y a escala, y una vía humana para datos de razonamiento “en voz alta” ecológicamente válidos. Este diseño permite una evaluación escalable y reproducible de la fidelidad intraagente: si los modelos pueden capturar no sólo lo que la gente cree, sino también cómo evoluciona su razonamiento. Los experimentos con LLM de última generación revelan brechas de adaptación persistentes, posicionando a HugAgent como el primer punto de referencia extensible para alinear el razonamiento automático con la individualidad del pensamiento humano. Nuestro punto de referencia y nuestro chatbot son de código abierto como HugAgent (esta URL https) y TraceYourThinking (esta URL https).

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La Fundación Linux anuncia un cronograma para Open Source Summit Europe 2024

Jigsaw-Puzzles: desde ver hasta la comprensión hasta el razonamiento en los modelos en idioma de la visión

El auge de la IA tiene un problema con el cobre. ¿Son los microbios la solución?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido