Murphys Leyes de alineación de AI: por qué la brecha siempre gana

Resumen: Los modelos de lenguaje grande están cada vez más alineados con las preferencias humanas a través del aprendizaje de refuerzo de la retroalimentación humana (RLHF) y los métodos relacionados como la optimización de preferencia directa (DPO), la IA constitucional y el RLAIF. Si bien son efectivos, estos métodos exhiben patrones de falla recurrentes, es decir, piratería de recompensas, sycofancia, deriva del anotador y misgeneralización. Presentamos el concepto de la brecha de alineación, una lente unificadora para comprender las fallas recurrentes en la alineación basada en la retroalimentación. Utilizando un formalismo de inclinación de KL, ilustramos por qué la presión de optimización tiende a amplificar la divergencia entre las recompensas proxy y la verdadera intención humana. Organizamos estas fallas en un catálogo de leyes de alineación de AI de Murphys, y proponemos el trilema de alineación como una forma de enmarcar las compensaciones entre la fuerza de la optimización, la captura de valor y la generalización. Los estudios empíricos a pequeña escala sirven como apoyo ilustrativo. Finalmente, proponemos el marco MAPS (especificación errónea, anotación, presión, cambio) como palancas de diseño prácticas. Nuestra contribución no es un teorema de imposibilidad definitivo, sino una perspectiva que replantea los debates de alineación en torno a los límites estructurales y las compensaciones, ofreciendo una orientación más clara para el diseño futuro.

Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La Fundación Linux anuncia que el registro está abierto para Open Source Summit North America y más eventos de 2024

Hacia una mayor autonomía en los agentes de descubrimiento de materiales: planificación unificadora, física y científicos

Cómo Millie Dresselhaus lo pagó

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido