Cuando las preferencias humanas cambian: una pérdida sólida dependiente de la instancia para RLHF

Resumen: La calidad de los conjuntos de datos juega un papel importante en la alineación del modelo de lenguaje grande (LLM). Sin embargo, al recopilar comentarios humanos, el cambio de preferencias es omnipresente y provoca corrupción en la anotación de datos; El problema requiere algoritmos de alineación con mayor robustez frente a posibles pares invertidos. Con este fin, este artículo presenta un algoritmo de optimización directa de preferencias con reconocimiento de inversión (FA-DPO) diseñado para cambiar preferencias desde una perspectiva de aprendizaje por refuerzo con retroalimentación humana (RLHF). Analizamos el modelo de intención humana inherente y el mecanismo de cambio de preferencias introducido por factores externos como dos etapas distintas; en este último, introducimos una probabilidad de inversión dependiente de la instancia sobre la base del modelo Bradley-Terry (BT). Además, al aprovechar las características relevantes para la anotación de preferencias, capturamos la incertidumbre en los juicios y modelamos los patrones de cambio de preferencias. En la práctica, diseñamos un algoritmo de optimización iterativo simple pero eficiente compatible con los algoritmos RLHF y DPO originales. En nuestros experimentos, investigamos el modelo de cambio de preferencias dependiente de la instancia en múltiples circunstancias para evaluar nuestro método propuesto, así como otros métodos de referencia.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Predicción eficiente de Aircraft en tiempo real ETA a través del transformador de tokenización de características

Warex: Evaluación de confiabilidad del agente web en puntos de referencia existentes

Ideación progresiva utilizando un marco de IA agente para la cocreación entre humanos y IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido