Más allá de las preferencias ordinales: por qué la alineación necesita retroalimentación humana cardinal

Resumen: Las técnicas de alineación para LLM se basan en optimizar los objetivos basados en preferencias, donde estas preferencias generalmente se obtienen como opciones ordinales, binarias entre respuestas. El trabajo reciente se ha centrado en mejorar la calidad de las etiquetas o mitigar los sesgos particulares, pero identificamos una limitación más fundamental: estos métodos recopilan el tipo de datos incorrecto. Probamos un resultado de imposibilidad: ningún algoritmo que se basa únicamente en las comparaciones ordinales puede recuperar sistemáticamente el modelo más preferido. Intuitivamente, los datos ordinales carecen de la información necesaria para resolver las compensaciones, por ejemplo, arreglar un error de hecho en un indicador en versus mejorar el estilo en otro. Mostramos que seleccionar el modelo óptimo requiere preferencias de recuperación a través de enft {modelos} (en lugar de solo respuestas), que solo se pueden identificar dados la retroalimentación cardinal sobre la calidad de la respuesta. Para abordar esto, recopilamos y lanzamos públicamente un conjunto de datos de 25,000 juicios cardinales que utilizan las obtenimientos de disposición a pagar, una herramienta bien establecida de la economía experimental. Empíricamente, encontramos que incorporar la retroalimentación cardinal en el ajuste fino de la preferencia permite a los modelos priorizar las mejoras de alto impacto y superar los métodos solo ordinales en los puntos de referencia posteriores, como Arena-Hard.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los costos ocultos de la IA: una revisión de la energía, los desechos electrónicos y la desigualdad en el desarrollo del modelo

Optagent: optimización de la reescritura de consultas para el comercio electrónico a través de la simulación de múltiples agentes

The Download: Future Grids y Bad Boy Bots

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido