En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Posición: La ciencia de la evaluación de la IA requiere datos de referencia a nivel de elemento

Posición: La ciencia de la evaluación de la IA requiere datos de referencia a nivel de elemento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las evaluaciones de IA se han convertido en la evidencia principal para implementar sistemas generativos de IA en dominios de alto riesgo. Sin embargo, los paradigmas de evaluación actuales a menudo presentan fallas de validez sistémica. Estos problemas, que van desde elecciones de diseño injustificadas hasta métricas desalineadas, siguen siendo intratables sin un marco de principios para recopilar evidencia de validez y realizar análisis de diagnóstico granulares. En este documento de posición, sostenemos que los datos comparativos de IA a nivel de ítem son esenciales para establecer una ciencia rigurosa de evaluación de la IA. El análisis a nivel de elemento permite diagnósticos detallados y validación de puntos de referencia basados ​​en principios. Fundamentamos esta posición analizando los fallos de validez actuales y revisando los paradigmas de evaluación en la informática y la psicometría. A través de análisis ilustrativos de las propiedades de los elementos y las construcciones latentes, demostramos los conocimientos únicos que ofrecen los datos a nivel de elementos. Para catalizar la adopción en toda la comunidad, presentamos OpenEval, un repositorio cada vez mayor de datos de referencia a nivel de elemento diseñado para respaldar la evaluación de IA centrada en la evidencia.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web