La evaluación comparativa no funciona: no permita que la IA sea su propia juez

Resumen: En los exámenes humanos de alto riesgo (por ejemplo, SAT, GRE), se dedica un esfuerzo sustancial a garantizar la equidad y la credibilidad; ¿Por qué conformarse con menos en la evaluación de la IA, especialmente teniendo en cuenta su profundo impacto social? Este documento de posición sostiene que el actual enfoque de laissez-faire es insostenible. Sostenemos que un avance verdadero y sostenible de la IA exige un cambio de paradigma: un marco de evaluación comparativa unificado, vivo y con control de calidad, sólido por construcción, no por mera cortesía y buena voluntad. Con este fin, analizamos las fallas sistémicas que socavan la evaluación de la IA actual, destilamos los requisitos esenciales para una nueva generación de evaluaciones e introducimos PeerBench, un plan de evaluación supervisado y gobernado por la comunidad que encarna este paradigma a través de ejecución sellada, almacenamiento de elementos con renovación continua y transparencia retrasada. Nuestro objetivo es allanar el camino para evaluaciones que puedan restaurar la integridad y ofrecer medidas genuinamente confiables del progreso de la IA.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Boletín n.º 3 del Instituto de Seguridad de IoT

Cómo la IA puede ayudar a que las ciudades funcionen mejor para los residentes

Ataques de inyección de distractores en grandes modelos de razonamiento: caracterización y defensa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido