Medir lo que importa: validez de constructo en puntos de referencia de modelos de lenguaje grandes

Resumen: La evaluación de modelos de lenguajes grandes (LLM) es crucial tanto para evaluar sus capacidades como para identificar problemas de seguridad o solidez antes de su implementación. Medir de manera confiable fenómenos abstractos y complejos como la “seguridad” y la “robustez” requiere una fuerte validez de constructo, es decir, contar con medidas que representen lo que importa al fenómeno. Con un equipo de 29 revisores expertos, llevamos a cabo una revisión sistemática de 445 puntos de referencia de LLM de conferencias líderes en procesamiento del lenguaje natural y aprendizaje automático. A lo largo de los artículos revisados, encontramos patrones relacionados con los fenómenos medidos, las tareas y las métricas de puntuación que socavan la validez de las afirmaciones resultantes. Para abordar estas deficiencias, brindamos ocho recomendaciones clave y orientación práctica detallada a investigadores y profesionales en el desarrollo de puntos de referencia de LLM.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Enumerate-conyectura-Propenso: Resolver formalmente problemas de construcción de respuestas en concursos de matemáticas

Nuevos mecanismos en distribución flexible para el hallazgo de ruta subóptima múltiple de agente limitado

Desde el lenguaje hasta la lógica: un marco de bi-nivel para el razonamiento estructurado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido