Resumen: Los modelos de lenguaje grande (LLM) a menudo generan fundamentos del lenguaje natural: explicaciones de forma libre que ayudan a mejorar el rendimiento en tareas de razonamiento complejas y mejoran la interpretabilidad de los usuarios humanos. Sin embargo, evaluar estos fundamentos sigue siendo desafiante. Si bien el trabajo reciente se ha basado en juicios de preferencias binarias de humanos o jueces LLM, tales evaluaciones a menudo son opacas y de grano grueso, ofreciendo una visión limitada de lo que hace que una justificación sea mejor que otra. En este trabajo, repletamos la evaluación de preferencias para los fundamentos generados por LLM preguntando: (1) ¿Qué atributos definen buenos fundamentos? (2) ¿Se pueden explicar las preferencias humanas por estos atributos? (3) ¿Puede la evaluación basada en atributos superar las limitaciones de las comparaciones binarias? Identificamos un conjunto de atributos de lógica clave de la literatura previa y los evaluamos utilizando métricas automáticas, juicios LLM y anotaciones humanas. Luego analizamos dos conjuntos de datos de preferencia humana estándar MT Bench y Chatbot Arena utilizando SHAP para identificar qué atributos explican mejor los resultados de preferencias humanas. Finalmente, reevaluamos los fundamentos generados por el modelo utilizando puntajes ELO específicos de atributos, revelando más comparaciones y ideas de modelos matizadas. Nuestros hallazgos sugieren que las evaluaciones de atributos de grano fino pueden caracterizar mejor la calidad de la justificación y guiar la investigación futura hacia prácticas de evaluación más interpretables y confiables.
Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original