Posición: La ciencia de la evaluación de la IA requiere datos de referencia a nivel de elemento

Resumen: Las evaluaciones de IA se han convertido en la evidencia principal para implementar sistemas generativos de IA en dominios de alto riesgo. Sin embargo, los paradigmas de evaluación actuales a menudo presentan fallas de validez sistémica. Estos problemas, que van desde elecciones de diseño injustificadas hasta métricas desalineadas, siguen siendo intratables sin un marco de principios para recopilar evidencia de validez y realizar análisis de diagnóstico granulares. En este documento de posición, sostenemos que los datos comparativos de IA a nivel de ítem son esenciales para establecer una ciencia rigurosa de evaluación de la IA. El análisis a nivel de elemento permite diagnósticos detallados y validación de puntos de referencia basados en principios. Fundamentamos esta posición analizando los fallos de validez actuales y revisando los paradigmas de evaluación en la informática y la psicometría. A través de análisis ilustrativos de las propiedades de los elementos y las construcciones latentes, demostramos los conocimientos únicos que ofrecen los datos a nivel de elementos. Para catalizar la adopción en toda la comunidad, presentamos OpenEval, un repositorio cada vez mayor de datos de referencia a nivel de elemento diseñado para respaldar la evaluación de IA centrada en la evidencia.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprenda a optimizar para la planificación automática del tratamiento de protones PBS para cánceres de H&N

Capacitar agentes de LLM para empoderar a los humanos

Primero pregunte, luego responda: un diseño marco para el diálogo de IA basado en preguntas complementarias con modelos de idiomas grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido