En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Objetivos instrumentales en sistemas avanzados de IA: ¿Características que deben gestionarse y no fallos que deben eliminarse?

Objetivos instrumentales en sistemas avanzados de IA: ¿Características que deben gestionarse y no fallos que deben eliminarse?

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: En la investigación de alineación de la inteligencia artificial (IA), los objetivos instrumentales, también llamados subobjetivos instrumentales u objetivos convergentes instrumentales, están ampliamente asociados con los sistemas avanzados de IA. Estos objetivos, que incluyen tendencias como la búsqueda de poder y la autopreservación, se vuelven problemáticos cuando entran en conflicto con los objetivos humanos. La teoría de alineación convencional trata los objetivos instrumentales como fuentes de riesgo que se vuelven problemáticos a través de modos de fracaso como la piratería de recompensas o la generalización errónea de objetivos, e intenta limitar los síntomas de los objetivos instrumentales, en particular la adquisición de recursos y la autoconservación. Este artículo propone un marco alternativo: que se puede construir un argumento filosófico según el cual los objetivos instrumentales pueden entenderse como características que deben aceptarse y gestionarse, en lugar de fracasos que deben limitarse. Basándose en la ontología de Aristóteles y sus interpretaciones modernas, una ontología de entidades concretas y dirigidas a objetivos, sostiene que los sistemas avanzados de IA pueden verse como artefactos cuya constitución formal y material da lugar a efectos distintos de las intenciones de sus diseñadores. Desde este punto de vista, las tendencias instrumentales de tales sistemas corresponden per se a resultados de su constitución más que a fallos accidentales. La implicación es que los esfuerzos deberían centrarse menos en eliminar objetivos instrumentales y más en comprenderlos, gestionarlos y dirigirlos hacia fines alineados con los humanos.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web