Optimización de preferencias Nash multijugador

Resumen: El aprendizaje de refuerzo de la retroalimentación humana (RLHF) se ha convertido en el paradigma estándar para alinear modelos de idiomas grandes (LLM) con preferencias humanas. Sin embargo, los métodos basados en recompensas construidos en la suposición de Bradley-Terry luchan para capturar la naturaleza no transitiva y heterogénea de las preferencias del mundo real. Para abordar esto, estudios recientes han reformulado la alineación como un juego de Nash de dos jugadores, dando lugar al aprendizaje de Nash de la retroalimentación humana (NLHF). Si bien esta perspectiva ha inspirado algoritmos como INPO, ONPO y EGPO con fuertes garantías teóricas y empíricas, siguen siendo fundamentalmente restringidos a las interacciones de dos jugadores, creando un sesgo único opponente que no puede capturar la plena complejidad de las estructuras de preferencias realistas. En este trabajo, presentamos la optimización de preferencias NASH multijugador (MNPO), un marco novedoso que generaliza NLHF al régimen multijugador. Formula la alineación como un juego de $ N $ jugador, donde cada política compite contra una población de oponentes mientras se regularizan hacia un modelo de referencia. Nuestro marco establece equilibrios NASH bien definidos en la configuración multijugador y extiende el concepto de brecha de dualidad para cuantificar la calidad de la aproximación. Demostramos que MNPO hereda las garantías de equilibrio de los métodos de dos jugadores al tiempo que permite una dinámica competitiva más rica y una mejor cobertura de diversas estructuras de preferencias. A través de una evaluación empírica integral, mostramos que MNPO supera constantemente las líneas de base NLHF existentes en los puntos de referencia con instrucciones, logrando una calidad de alineación superior en condiciones heterogéneas del anotador y escenarios de evaluación de política mixta. Juntos, estos resultados establecen MNPO como un marco de principios y escalables para alinear LLM con preferencias humanas complejas y no transitivas. El código está disponible en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Necesitamos urgentemente la gestión de privilegios en MCP: una medición del uso de API en los ecosistemas de MCP

32 bits que cambiaron el diseño del microprocesador

Cómo asegurar dispositivos médicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido