Resumen: En los exámenes humanos de alto riesgo (por ejemplo, SAT, GRE), se dedica un esfuerzo sustancial a garantizar la equidad y la credibilidad; ¿Por qué conformarse con menos en la evaluación de la IA, especialmente teniendo en cuenta su profundo impacto social? Este documento de posición sostiene que el actual enfoque de laissez-faire es insostenible. Sostenemos que un avance verdadero y sostenible de la IA exige un cambio de paradigma: un marco de evaluación comparativa unificado, vivo y con control de calidad, sólido por construcción, no por mera cortesía y buena voluntad. Con este fin, analizamos las fallas sistémicas que socavan la evaluación de la IA actual, destilamos los requisitos esenciales para una nueva generación de evaluaciones e introducimos PeerBench, un plan de evaluación supervisado y gobernado por la comunidad que encarna este paradigma a través de ejecución sellada, almacenamiento de elementos con renovación continua y transparencia retrasada. Nuestro objetivo es allanar el camino para evaluaciones que puedan restaurar la integridad y ofrecer medidas genuinamente confiables del progreso de la IA.
Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original