Resumen: La calidad de los conjuntos de datos juega un papel importante en la alineación del modelo de lenguaje grande (LLM). Sin embargo, al recopilar comentarios humanos, el cambio de preferencias es omnipresente y provoca corrupción en la anotación de datos; El problema requiere algoritmos de alineación con mayor robustez frente a posibles pares invertidos. Con este fin, este artículo presenta un algoritmo de optimización directa de preferencias con reconocimiento de inversión (FA-DPO) diseñado para cambiar preferencias desde una perspectiva de aprendizaje por refuerzo con retroalimentación humana (RLHF). Analizamos el modelo de intención humana inherente y el mecanismo de cambio de preferencias introducido por factores externos como dos etapas distintas; en este último, introducimos una probabilidad de inversión dependiente de la instancia sobre la base del modelo Bradley-Terry (BT). Además, al aprovechar las características relevantes para la anotación de preferencias, capturamos la incertidumbre en los juicios y modelamos los patrones de cambio de preferencias. En la práctica, diseñamos un algoritmo de optimización iterativo simple pero eficiente compatible con los algoritmos RLHF y DPO originales. En nuestros experimentos, investigamos el modelo de cambio de preferencias dependiente de la instancia en múltiples circunstancias para evaluar nuestro método propuesto, así como otros métodos de referencia.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
