En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->HugAgent: Evaluación de LLM en la simulación del razonamiento individual similar al humano en tareas abiertas

HugAgent: Evaluación de LLM en la simulación del razonamiento individual similar al humano en tareas abiertas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Simular el razonamiento humano en tareas abiertas ha sido una aspiración de larga data en la IA y la ciencia cognitiva. Si bien los grandes modelos lingüísticos ahora se aproximan a las respuestas humanas a escala, siguen sintonizados con el consenso a nivel de población, borrando a menudo la individualidad de los estilos de razonamiento y las trayectorias de creencias. Para avanzar en la visión de un razonamiento más parecido al humano en las máquinas, presentamos HugAgent (Human-Grounded Agent Benchmark), un punto de referencia para la adaptación del razonamiento promedio a individual. La tarea consiste en predecir cómo una persona específica razonaría y actualizaría sus creencias en escenarios novedosos, dada la evidencia parcial de sus puntos de vista pasados. HugAgent adopta un diseño de doble vía: una vía sintética para pruebas de estrés sistemáticas y a escala, y una vía humana para datos de razonamiento “en voz alta” ecológicamente válidos. Este diseño permite una evaluación escalable y reproducible de la fidelidad intraagente: si los modelos pueden capturar no sólo lo que la gente cree, sino también cómo evoluciona su razonamiento. Los experimentos con LLM de última generación revelan brechas de adaptación persistentes, posicionando a HugAgent como el primer punto de referencia extensible para alinear el razonamiento automático con la individualidad del pensamiento humano. Nuestro punto de referencia y nuestro chatbot son de código abierto como HugAgent (esta URL https) y TraceYourThinking (esta URL https).

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web