Resumen: Una suposición común pero raramente examinada en el aprendizaje automático es que la capacitación produce modelos que realmente satisfacen su función objetivo especificada. Llamamos a esto la suposición de satisfacción objetiva (OSA). Aunque se reconocen las desviaciones de OSA, se pasan por alto sus implicaciones. Argumentamos, en un marco agnóstico de paradigma de aprendizaje, que la AOS falla en condiciones realistas: aproximación, estimación y errores de optimización garantizan desviaciones sistemáticas del objetivo previsto, independientemente de la calidad de su especificación. Más allá de estas limitaciones técnicas, capturar y traducir perfectamente la intención del desarrollador, como la alineación con las preferencias humanas, en un objetivo formal es prácticamente imposible, lo que hace inevitable. Sobre la base de resultados matemáticos recientes, en ausencia de una caracterización matemática de estas brechas, son indistinguibles de aquellos que colapsan en los modos de falla de la ley de Goodhart a una fuerte presión de optimización. Debido a que el punto de ruptura de Goodhart no se puede ubicar ex ante, es necesario un límite de principios en la optimización de los sistemas de IA de uso general. En ausencia de tal límite, la optimización continua puede impulsar los sistemas a una pérdida de control predecible e irreversible.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original