Resumen: Los modelos de lenguaje grande están cada vez más alineados con las preferencias humanas a través del aprendizaje de refuerzo de la retroalimentación humana (RLHF) y los métodos relacionados como la optimización de preferencia directa (DPO), la IA constitucional y el RLAIF. Si bien son efectivos, estos métodos exhiben patrones de falla recurrentes, es decir, piratería de recompensas, sycofancia, deriva del anotador y misgeneralización. Presentamos el concepto de la brecha de alineación, una lente unificadora para comprender las fallas recurrentes en la alineación basada en la retroalimentación. Utilizando un formalismo de inclinación de KL, ilustramos por qué la presión de optimización tiende a amplificar la divergencia entre las recompensas proxy y la verdadera intención humana. Organizamos estas fallas en un catálogo de leyes de alineación de AI de Murphys, y proponemos el trilema de alineación como una forma de enmarcar las compensaciones entre la fuerza de la optimización, la captura de valor y la generalización. Los estudios empíricos a pequeña escala sirven como apoyo ilustrativo. Finalmente, proponemos el marco MAPS (especificación errónea, anotación, presión, cambio) como palancas de diseño prácticas. Nuestra contribución no es un teorema de imposibilidad definitivo, sino una perspectiva que replantea los debates de alineación en torno a los límites estructurales y las compensaciones, ofreciendo una orientación más clara para el diseño futuro.
Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original