Resumen: En el campo de inteligencia artificial (IA) en rápida evolución, los puntos de referencia tradicionales pueden quedarse cortos al intentar capturar las capacidades matizadas de los modelos de IA. Nos centramos en el caso del modelado mundial físico y proponemos un enfoque novedoso para aumentar los puntos de referencia existentes con criterios de evaluación derivados de humanos, con el objetivo de mejorar la interpretabilidad y la aplicabilidad de los comportamientos del modelo. Con una base de nuestro estudio en la prueba de percepción y los puntos de referencia de OpenEQA, realizamos entrevistas en profundidad y encuestas a gran escala para identificar habilidades cognitivas clave, como priorización, memorización, discernimiento y contextualización, que son críticos tanto para la IA como para la razonamiento humano. Nuestros hallazgos revelan que los participantes perciben que la IA carece de habilidades interpretativas y empáticas aún tiene altas expectativas para el rendimiento de la IA. Al integrar las ideas de nuestros hallazgos en el diseño de referencia, ofrecemos un marco para desarrollar más medios alineados por humanos para definir y medir el progreso. Este trabajo subraya la importancia de la evaluación centrada en el usuario en el desarrollo de la IA, proporcionando pautas procesables para investigadores y profesionales que tienen como objetivo alinear las capacidades de IA con los procesos cognitivos humanos. Nuestro enfoque mejora las prácticas de evaluación comparativa y prepara el escenario para futuros avances en la evaluación del modelo de IA.
Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original