En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de las preferencias ordinales: por qué la alineación necesita retroalimentación humana cardinal

Más allá de las preferencias ordinales: por qué la alineación necesita retroalimentación humana cardinal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las técnicas de alineación para LLM se basan en optimizar los objetivos basados en preferencias, donde estas preferencias generalmente se obtienen como opciones ordinales, binarias entre respuestas. El trabajo reciente se ha centrado en mejorar la calidad de las etiquetas o mitigar los sesgos particulares, pero identificamos una limitación más fundamental: estos métodos recopilan el tipo de datos incorrecto. Probamos un resultado de imposibilidad: ningún algoritmo que se basa únicamente en las comparaciones ordinales puede recuperar sistemáticamente el modelo más preferido. Intuitivamente, los datos ordinales carecen de la información necesaria para resolver las compensaciones, por ejemplo, arreglar un error de hecho en un indicador en versus mejorar el estilo en otro. Mostramos que seleccionar el modelo óptimo requiere preferencias de recuperación a través de enft {modelos} (en lugar de solo respuestas), que solo se pueden identificar dados la retroalimentación cardinal sobre la calidad de la respuesta. Para abordar esto, recopilamos y lanzamos públicamente un conjunto de datos de 25,000 juicios cardinales que utilizan las obtenimientos de disposición a pagar, una herramienta bien establecida de la economía experimental. Empíricamente, encontramos que incorporar la retroalimentación cardinal en el ajuste fino de la preferencia permite a los modelos priorizar las mejoras de alto impacto y superar los métodos solo ordinales en los puntos de referencia posteriores, como Arena-Hard.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web