En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aproximación de las preferencias humanas mediante un sistema aprendido de jueces múltiples

Aproximación de las preferencias humanas mediante un sistema aprendido de jueces múltiples

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Alinear a los jueces de LLM con las preferencias humanas es un desafío importante, ya que son difíciles de calibrar y a menudo sufren de sensibilidad, sesgo e inestabilidad de las rúbricas. Superar este desafío promueve aplicaciones clave, como la creación de modelos de recompensa confiables para el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y la creación de sistemas de enrutamiento efectivos que seleccionan el modelo más adecuado para una consulta de usuario determinada. En este trabajo, proponemos un marco para modelar preferencias diversas basadas en personas aprendiendo a agregar resultados de múltiples jueces condicionados por rúbricas. Investigamos el desempeño de este enfoque frente a líneas de base ingenuas y evaluamos su solidez a través de estudios de casos sobre sesgos tanto humanos como de jueces de LLM. Nuestras principales contribuciones incluyen un método basado en personas para sintetizar etiquetas de preferencias a escala y dos implementaciones distintas de nuestro agregador: modelo aditivo generalizado (GAM) y un perceptrón multicapa (MLP).

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web