Resumen: Los métodos de aprendizaje de preferencia convencional a menudo priorizan las opiniones mantenidas más ampliamente al agregar preferencias de múltiples evaluadores. Esto puede dar lugar a políticas sesgadas a favor de algunos tipos de opiniones o grupos. El objetivo de este documento es desarrollar un nuevo marco de aprendizaje de preferencias capaz de alinear las opiniones y políticas agregadas proporcionalmente con la verdadera distribución de la población de las preferencias del evaluador. Nuestro enfoque infiere el conjunto factible de distribuciones de población de evaluadores directamente a partir de datos de comparación por pares. Utilizando estas estimaciones, el algoritmo construye una política que satisface los axiomas fundamentales de la teoría de la elección social, a saber, la monotonicidad y la eficiencia de Pareto, así como nuestros axiomas recientemente introducidos de la representación de la población y la robustez limitada por la población. Proponemos un método de relajación de Max Soft Max que intercambia suavemente la representación proporcional de la población con la selección del ganador del Condorcet (que supera todas las demás opciones en comparaciones por pares). Finalmente, validamos la efectividad y escalabilidad de nuestro enfoque a través de experimentos tanto en tareas de recomendación tabular como en la alineación del modelo de lenguaje a gran escala.
Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original