Resumen:¿Cuándo deberíamos delegar decisiones a los sistemas de IA? Si bien la literatura sobre alineación de valores ha desarrollado técnicas para dar forma a los valores de la IA, se ha prestado menos atención a cómo determinar, en condiciones de incertidumbre, cuándo una alineación imperfecta es lo suficientemente buena como para justificar la delegación. Sostenemos que la delegación racional requiere equilibrar el (des)alineamiento de valores de un agente con su precisión epistémica y su alcance (los actos que tiene disponibles). Este artículo presenta un marco teórico formal de decisión para analizar esta compensación que tiene en cuenta precisamente la incertidumbre del director sobre estos factores. Nuestro análisis revela una clara distinción entre dos escenarios de delegación. En primer lugar, la delegación universal (confiar cualquier problema a un agente) exige una alineación de valores casi perfecta y una confianza epistémica total, condiciones que rara vez se cumplen en la práctica. En segundo lugar, mostramos que la delegación específica del contexto puede ser óptima incluso con una desalineación significativa. La precisión superior o el alcance ampliado de un agente pueden otorgar acceso a mejores problemas de decisión generales, lo que hace que la delegación sea racional en términos de expectativas. Desarrollamos un marco de puntuación novedoso para cuantificar esta decisión ex ante. En última instancia, nuestro trabajo proporciona un método basado en principios para determinar cuándo una IA está lo suficientemente alineada para un contexto determinado, cambiando el enfoque de lograr una alineación perfecta a gestionar los riesgos y recompensas de la delegación en condiciones de incertidumbre.
Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original
