Tomar Goodhart en serio: Límite de principios en la optimización de IA de uso general

Resumen: Una suposición común pero raramente examinada en el aprendizaje automático es que la capacitación produce modelos que realmente satisfacen su función objetivo especificada. Llamamos a esto la suposición de satisfacción objetiva (OSA). Aunque se reconocen las desviaciones de OSA, se pasan por alto sus implicaciones. Argumentamos, en un marco agnóstico de paradigma de aprendizaje, que la AOS falla en condiciones realistas: aproximación, estimación y errores de optimización garantizan desviaciones sistemáticas del objetivo previsto, independientemente de la calidad de su especificación. Más allá de estas limitaciones técnicas, capturar y traducir perfectamente la intención del desarrollador, como la alineación con las preferencias humanas, en un objetivo formal es prácticamente imposible, lo que hace inevitable. Sobre la base de resultados matemáticos recientes, en ausencia de una caracterización matemática de estas brechas, son indistinguibles de aquellos que colapsan en los modos de falla de la ley de Goodhart a una fuerte presión de optimización. Debido a que el punto de ruptura de Goodhart no se puede ubicar ex ante, es necesario un límite de principios en la optimización de los sistemas de IA de uso general. En ausencia de tal límite, la optimización continua puede impulsar los sistemas a una pérdida de control predecible e irreversible.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DRF: marco de filtrado de reputación dinámica de agente LLM

Historias de éxito: la tecnología se ajusta automáticamente a los síntomas

Sopa de rana: agentes de Frogger de bajo contenido de shot, en contexto y de muestra

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido