Resumen:Tanto los científicos sociales como los informáticos proponen modelos formales (modelos de factores latentes y leyes de escala) para identificar las capacidades subyacentes a las puntuaciones de referencia. Sin embargo, ninguna de las técnicas es satisfactoria para la validez de constructo. Los modelos de factores latentes ignoran las leyes de escala y, como resultado, las capacidades que extraen a menudo representan el tamaño del modelo. Las leyes de escala ignoran el error de medición y, como resultado, las capacidades que extraen no son interpretables y se ajustan demasiado a los puntos de referencia observados.
Esta tesis presenta el modelo de capacidades estructuradas, el primer modelo que extrae capacidades interpretables y generalizables de una gran colección de resultados comparativos de LLM. Encajo este modelo y sus dos alternativas en una gran muestra de resultados de OpenLLM Leaderboard. Las capacidades estructuradas superan a los modelos de factores latentes en índices de ajuste parsimoniosos y exhiben una mejor predicción de referencia fuera de la distribución que las leyes de escala. Estas mejoras son posibles porque ninguno de los enfoques existentes separa la escala del modelo de las capacidades de manera adecuada. La escala del modelo debe informar las capacidades, como en las leyes de escala, y estas capacidades deben informar los resultados observados hasta el error de medición, como en los modelos de factores latentes. Al combinar estos dos conocimientos, las capacidades estructuradas demuestran un mejor poder explicativo y predictivo para cuantificar la validez de constructo en las evaluaciones de LLM.
Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original
