Resumen: Las simulaciones de usuarios existentes, donde los modelos generan respuestas similares a las de los usuarios en el diálogo, a menudo carecen de verificación de que se proporcionen suficientes personajes de usuario, lo que cuestiona la validez de las simulaciones. Para abordar esta preocupación central, este trabajo explora la tarea de identificar personas relevantes pero desconocidas del objetivo de la simulación para un contexto de simulación determinado. Presentamos PICQ, un novedoso conjunto de datos de preguntas de elección conscientes del contexto, anotadas con personas desconocidas (por ejemplo, “¿El usuario es sensible al precio?”) que pueden influir en las elecciones del usuario, y proponemos un esquema de evaluación multifacético que evalúa la fidelidad, la influencia y la inaccesibilidad. Nuestro punto de referencia de los principales LLM revela un complejo dilema “Fidelidad vs. Perspicacia” regido por la escala del modelo: mientras que la influencia generalmente aumenta con el tamaño del modelo, la fidelidad a los patrones humanos sigue una curva en forma de U invertida. Rastreamos este fenómeno hasta las diferencias cognitivas, particularmente la tendencia humana a la “economía cognitiva”. Nuestro trabajo proporciona el primer punto de referencia integral para esta tarea crucial, ofreciendo una nueva lente para comprender los modelos cognitivos divergentes de los humanos y los LLM avanzados.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
