Puntuaciones logarítmicas, descubrimientos de la ley de potencias: desvinculación de la medición de la cobertura en la evaluación basada en agentes

Resumen: Los jueces agentes basados en LLM son un enfoque emergente para evaluar la IA conversacional, sin embargo, persiste una incertidumbre fundamental: ¿podemos confiar en sus evaluaciones y, de ser así, cuántas se necesitan? A través de 960 sesiones con dos pares de modelos en 15 tareas, mostramos que los jueces agentes basados en personas producen evaluaciones indistinguibles de los evaluadores humanos en una validación al estilo de Turing. Luego identificamos una disociación puntuación-cobertura: las puntuaciones de calidad mejoran logarítmicamente con el tamaño del panel, mientras que los descubrimientos de temas únicos siguen una ley de potencia sublineal; ambos exhiben rendimientos decrecientes, pero las puntuaciones se saturan aproximadamente dos veces más rápido que los descubrimientos. Nuestra hipótesis es que esto refleja una distribución de ley de potencia del espacio de búsqueda: los problemas críticos son descubiertos primero por paneles pequeños, mientras que los casos de esquina requieren paneles progresivamente más grandes, de forma análoga a las curvas de acumulación de especies en ecología. El mecanismo se remonta a la diversidad del conjunto: el condicionamiento de la personalidad de los Cinco Grandes hace que los agentes investiguen diferentes dimensiones de calidad, con jueces expertos actuando como sondas adversarias que empujan el descubrimiento hacia la cola de la distribución de hallazgos. Una ablación controlada confirma que se requiere un condicionamiento estructurado de la persona, no una simple indicación, para producir estas propiedades de escala.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sesión informativa: Liberar el crecimiento global con el nuevo Programa de Expansión Empresarial Global del EIC

Libro electrónico exclusivo: ¿Estamos listos para entregar las llaves a los agentes de IA?

Aprendizaje de refuerzo múltiple basado en Genai para la inteligencia del agente distribuido: una perspectiva de agente generativo de RL

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido