Resumen:Alinear a los jueces de LLM con las preferencias humanas es un desafío importante, ya que son difíciles de calibrar y a menudo sufren de sensibilidad, sesgo e inestabilidad de las rúbricas. Superar este desafío promueve aplicaciones clave, como la creación de modelos de recompensa confiables para el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y la creación de sistemas de enrutamiento efectivos que seleccionan el modelo más adecuado para una consulta de usuario determinada. En este trabajo, proponemos un marco para modelar preferencias diversas basadas en personas aprendiendo a agregar resultados de múltiples jueces condicionados por rúbricas. Investigamos el desempeño de este enfoque frente a líneas de base ingenuas y evaluamos su solidez a través de estudios de casos sobre sesgos tanto humanos como de jueces de LLM. Nuestras principales contribuciones incluyen un método basado en personas para sintetizar etiquetas de preferencias a escala y dos implementaciones distintas de nuestro agregador: modelo aditivo generalizado (GAM) y un perceptrón multicapa (MLP).

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

Aproximación de las preferencias humanas mediante un sistema aprendido de jueces múltiples

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Focalad: Planificación local de la movimiento para la conducción autónoma de extremo a extremo

Construcción de soluciones comunitarias y de aire limpio

Fabricación inteligente Kuala Lumpur 2025 comienza la próxima semana

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido