Resumen: Los modelos de lenguaje grande (LLM) a menudo generan fundamentos del lenguaje natural: explicaciones de forma libre que ayudan a mejorar el rendimiento en tareas de razonamiento complejas y mejoran la interpretabilidad de los usuarios humanos. Sin embargo, evaluar estos fundamentos sigue siendo desafiante. Si bien el trabajo reciente se ha basado en juicios de preferencias binarias de humanos o jueces LLM, tales evaluaciones a menudo son opacas y de grano grueso, ofreciendo una visión limitada de lo que hace que una justificación sea mejor que otra. En este trabajo, repletamos la evaluación de preferencias para los fundamentos generados por LLM preguntando: (1) ¿Qué atributos definen buenos fundamentos? (2) ¿Se pueden explicar las preferencias humanas por estos atributos? (3) ¿Puede la evaluación basada en atributos superar las limitaciones de las comparaciones binarias? Identificamos un conjunto de atributos de lógica clave de la literatura previa y los evaluamos utilizando métricas automáticas, juicios LLM y anotaciones humanas. Luego analizamos dos conjuntos de datos de preferencia humana estándar MT Bench y Chatbot Arena utilizando SHAP para identificar qué atributos explican mejor los resultados de preferencias humanas. Finalmente, reevaluamos los fundamentos generados por el modelo utilizando puntajes ELO específicos de atributos, revelando más comparaciones y ideas de modelos matizadas. Nuestros hallazgos sugieren que las evaluaciones de atributos de grano fino pueden caracterizar mejor la calidad de la justificación y guiar la investigación futura hacia prácticas de evaluación más interpretables y confiables.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

Repensar la evaluación de preferencias humanas de los racionales de LLM

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un algoritmo heurístico basado en la búsqueda del haz y la búsqueda local iterada del problema de enrutamiento de inventario marítimo

Aaltra: Transformando la gestión de activos a través de IoT.

FST.ai 2.0: Un ecosistema de IA explicable para una toma de decisiones justa, rápida e inclusiva en el taekwondo olímpico y paralímpico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido