MirrorBench: un marco extensible para evaluar la semejanza humana de los agentes proxy de usuario

Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más como simuladores humanos, tanto para evaluar sistemas conversacionales como para generar datos de ajuste. Sin embargo, las ingenuas indicaciones de “actuar como usuario” a menudo producen declaraciones detalladas y poco realistas, lo que subraya la necesidad de una evaluación basada en principios de los llamados agentes proxy de usuario. Presentamos MIRRORBENCH, un marco de referencia extensible y reproducible que evalúa los servidores proxy de los usuarios únicamente en función de su capacidad para producir expresiones de usuario similares a las humanas en diversas tareas conversacionales, explícitamente desacopladas del éxito de las tareas posteriores. MIRRORBENCH presenta un motor de ejecución modular con interfaces escritas, registros basados en metadatos, soporte multibackend, almacenamiento en caché y observabilidad sólida. El sistema admite servidores proxy de usuario, conjuntos de datos, tareas y métricas conectables, lo que permite a los investigadores evaluar simuladores arbitrarios bajo un arnés uniforme y consciente de las variaciones. Incluimos tres métricas de diversidad léxica (MATTR, YULE’S K y HD-D) y tres métricas basadas en jueces de LLM (GTEval, indistinguibilidad por pares y rúbrica y razón). A través de cuatro conjuntos de datos abiertos, MIRRORBENCH arroja resultados que tienen en cuenta las variaciones y revela brechas sistemáticas entre los representantes de los usuarios y los usuarios humanos reales. El marco es de código abierto e incluye una interfaz de línea de comandos sencilla para ejecutar experimentos, gestionar configuraciones y almacenamiento en caché, y generar informes. Se puede acceder al marco en esta URL https.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Avance de la ciencia cognitiva con LLM

RVLLM: verificación de tiempo de ejecución LLM con conocimiento del dominio

Inteligencia como optimización de Pareto dominante en la trayectoria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido