Resumen: Los jueces agentes basados en LLM son un enfoque emergente para evaluar la IA conversacional, sin embargo, persiste una incertidumbre fundamental: ¿podemos confiar en sus evaluaciones y, de ser así, cuántas se necesitan? A través de 960 sesiones con dos pares de modelos en 15 tareas, mostramos que los jueces agentes basados en personas producen evaluaciones indistinguibles de los evaluadores humanos en una validación al estilo de Turing. Luego identificamos una disociación puntuación-cobertura: las puntuaciones de calidad mejoran logarítmicamente con el tamaño del panel, mientras que los descubrimientos de temas únicos siguen una ley de potencia sublineal; ambos exhiben rendimientos decrecientes, pero las puntuaciones se saturan aproximadamente dos veces más rápido que los descubrimientos. Nuestra hipótesis es que esto refleja una distribución de ley de potencia del espacio de búsqueda: los problemas críticos son descubiertos primero por paneles pequeños, mientras que los casos de esquina requieren paneles progresivamente más grandes, de forma análoga a las curvas de acumulación de especies en ecología. El mecanismo se remonta a la diversidad del conjunto: el condicionamiento de la personalidad de los Cinco Grandes hace que los agentes investiguen diferentes dimensiones de calidad, con jueces expertos actuando como sondas adversarias que empujan el descubrimiento hacia la cola de la distribución de hallazgos. Una ablación controlada confirma que se requiere un condicionamiento estructurado de la persona, no una simple indicación, para producir estas propiedades de escala.
Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original
