En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MirrorBench: un marco extensible para evaluar la semejanza humana de los agentes proxy de usuario

MirrorBench: un marco extensible para evaluar la semejanza humana de los agentes proxy de usuario

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más como simuladores humanos, tanto para evaluar sistemas conversacionales como para generar datos de ajuste. Sin embargo, las ingenuas indicaciones de “actuar como usuario” a menudo producen declaraciones detalladas y poco realistas, lo que subraya la necesidad de una evaluación basada en principios de los llamados agentes proxy de usuario. Presentamos MIRRORBENCH, un marco de referencia extensible y reproducible que evalúa los servidores proxy de los usuarios únicamente en función de su capacidad para producir expresiones de usuario similares a las humanas en diversas tareas conversacionales, explícitamente desacopladas del éxito de las tareas posteriores. MIRRORBENCH presenta un motor de ejecución modular con interfaces escritas, registros basados ​​en metadatos, soporte multibackend, almacenamiento en caché y observabilidad sólida. El sistema admite servidores proxy de usuario, conjuntos de datos, tareas y métricas conectables, lo que permite a los investigadores evaluar simuladores arbitrarios bajo un arnés uniforme y consciente de las variaciones. Incluimos tres métricas de diversidad léxica (MATTR, YULE’S K y HD-D) y tres métricas basadas en jueces de LLM (GTEval, indistinguibilidad por pares y rúbrica y razón). A través de cuatro conjuntos de datos abiertos, MIRRORBENCH arroja resultados que tienen en cuenta las variaciones y revela brechas sistemáticas entre los representantes de los usuarios y los usuarios humanos reales. El marco es de código abierto e incluye una interfaz de línea de comandos sencilla para ejecutar experimentos, gestionar configuraciones y almacenamiento en caché, y generar informes. Se puede acceder al marco en esta URL https.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web