Resumen:La evaluación comparativa ha servido durante mucho tiempo como una práctica fundamental en el aprendizaje automático y, cada vez más, en los sistemas modernos de inteligencia artificial, como los grandes modelos de lenguaje, donde las tareas, métricas y tablas de clasificación compartidas ofrecen una base común para medir el progreso y comparar enfoques. Sin embargo, a medida que los sistemas de IA se implementan en entornos más variados y trascendentales, resulta cada vez más valioso complementar estas prácticas establecidas con una conceptualización más holística de lo que debería representar la evaluación. Es de destacar que reconocer los contextos sociotécnicos en los que operan estos sistemas brinda la oportunidad de tener una visión más profunda de cómo múltiples partes interesadas y sus prioridades únicas podrían informar lo que consideramos un comportamiento modelo significativo o deseable. Este artículo presenta un marco teórico que reconceptualiza el benchmarking como una red adaptable de múltiples capas que vincula métricas de evaluación, componentes del modelo y grupos de partes interesadas a través de interacciones ponderadas. Utilizando utilidades derivadas conjuntas y una regla de actualización humana en el circuito, formalizamos cómo las compensaciones humanas pueden integrarse en la estructura de los puntos de referencia y cómo los puntos de referencia pueden evolucionar dinámicamente mientras se preserva la estabilidad y la interpretabilidad. La formulación resultante generaliza las tablas de clasificación clásicas como un caso especial y proporciona una base para construir protocolos de evaluación que sean más conscientes del contexto, lo que da como resultado nuevas herramientas sólidas para analizar las propiedades estructurales de los puntos de referencia, lo que abre un camino hacia una evaluación más responsable y alineada con los seres humanos.
Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original
