En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->La evaluación comparativa no funciona: no permita que la IA sea su propia juez

La evaluación comparativa no funciona: no permita que la IA sea su propia juez

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: En los exámenes humanos de alto riesgo (por ejemplo, SAT, GRE), se dedica un esfuerzo sustancial a garantizar la equidad y la credibilidad; ¿Por qué conformarse con menos en la evaluación de la IA, especialmente teniendo en cuenta su profundo impacto social? Este documento de posición sostiene que el actual enfoque de laissez-faire es insostenible. Sostenemos que un avance verdadero y sostenible de la IA exige un cambio de paradigma: un marco de evaluación comparativa unificado, vivo y con control de calidad, sólido por construcción, no por mera cortesía y buena voluntad. Con este fin, analizamos las fallas sistémicas que socavan la evaluación de la IA actual, destilamos los requisitos esenciales para una nueva generación de evaluaciones e introducimos PeerBench, un plan de evaluación supervisado y gobernado por la comunidad que encarna este paradigma a través de ejecución sellada, almacenamiento de elementos con renovación continua y transparencia retrasada. Nuestro objetivo es allanar el camino para evaluaciones que puedan restaurar la integridad y ofrecer medidas genuinamente confiables del progreso de la IA.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web