Resumen: A medida que la evaluación de PNL pasa de puntos de referencia estáticos a configuraciones interactivas de múltiples turnos, los simuladores basados en LLM se han vuelto ampliamente utilizados como representantes de los usuarios, cumpliendo dos funciones: generar turnos de usuarios y proporcionar señales de evaluación. Sin embargo, con frecuencia se supone que estas simulaciones son fieles a comportamientos humanos reales, a menudo sin una verificación rigurosa. Formalizamos la brecha de Sim2Real en la simulación de usuarios y presentamos el primer estudio que ejecuta el protocolo $tau$-bench completo con humanos reales (451 participantes, 165 tareas), comparando 31 simuladores LLM en familias patentadas, de código abierto y especializadas utilizando el User-Sim Index (USI), una métrica que presentamos para cuantificar qué tan bien los simuladores LLM se parecen a los comportamientos interactivos y la retroalimentación del usuario real. Desde el punto de vista del comportamiento, los simuladores de LLM son excesivamente cooperativos, estilísticamente uniformes y carecen de frustración o ambigüedad realista, lo que crea un “modo fácil” que infla las tasas de éxito de los agentes por encima de la línea de base humana. En las evaluaciones, los humanos reales brindan juicios matizados en ocho dimensiones de calidad, mientras que los usuarios simulados producen comentarios uniformemente más positivos; Las recompensas basadas en reglas no logran capturar señales de retroalimentación ricas generadas por usuarios humanos. En general, una mayor capacidad del modelo general no necesariamente produce una simulación de usuario más fiel. Estos hallazgos resaltan la importancia de la validación humana cuando se utilizan simuladores de usuarios basados en LLM en el ciclo de desarrollo del agente y motivan modelos mejorados para la simulación de usuarios.
Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original
