Un enfoque para las evaluaciones del modelo de IA a base en criterios derivados de humanos

Resumen: En el campo de inteligencia artificial (IA) en rápida evolución, los puntos de referencia tradicionales pueden quedarse cortos al intentar capturar las capacidades matizadas de los modelos de IA. Nos centramos en el caso del modelado mundial físico y proponemos un enfoque novedoso para aumentar los puntos de referencia existentes con criterios de evaluación derivados de humanos, con el objetivo de mejorar la interpretabilidad y la aplicabilidad de los comportamientos del modelo. Con una base de nuestro estudio en la prueba de percepción y los puntos de referencia de OpenEQA, realizamos entrevistas en profundidad y encuestas a gran escala para identificar habilidades cognitivas clave, como priorización, memorización, discernimiento y contextualización, que son críticos tanto para la IA como para la razonamiento humano. Nuestros hallazgos revelan que los participantes perciben que la IA carece de habilidades interpretativas y empáticas aún tiene altas expectativas para el rendimiento de la IA. Al integrar las ideas de nuestros hallazgos en el diseño de referencia, ofrecemos un marco para desarrollar más medios alineados por humanos para definir y medir el progreso. Este trabajo subraya la importancia de la evaluación centrada en el usuario en el desarrollo de la IA, proporcionando pautas procesables para investigadores y profesionales que tienen como objetivo alinear las capacidades de IA con los procesos cognitivos humanos. Nuestro enfoque mejora las prácticas de evaluación comparativa y prepara el escenario para futuros avances en la evaluación del modelo de IA.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Detección multimodal de reseñas falsas utilizando BERT y ResNet-50

CGBench: Modelo de lenguaje de evaluación comparativa del razonamiento científico para la investigación en genética clínica

Cuando la ayuda del desarrollador se convierte en deuda de seguridad: un análisis sistemático de comportamientos inseguros en los agentes de codificación de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido