Resumen:Desde el lanzamiento de ChatGPT, ha habido mucho debate sobre si los sistemas de IA representan un riesgo existencial para la humanidad. Este artículo desarrolla un marco general para pensar sobre el riesgo existencial de los sistemas de IA. Analizamos un argumento de dos premisas de que los sistemas de IA representan una amenaza para la humanidad. Premisa uno: los sistemas de IA se volverán extremadamente poderosos. Segunda premisa: si los sistemas de IA se vuelven extremadamente poderosos, destruirán a la humanidad. Utilizamos estas dos premisas para construir una taxonomía de historias de supervivencia, en las que la humanidad sobrevive hasta el futuro lejano. En cada historia de supervivencia, una de las dos premisas falla. O las barreras científicas impiden que los sistemas de IA se vuelvan extremadamente poderosos; o la humanidad prohíbe la investigación de sistemas de IA, evitando así que se vuelvan extremadamente poderosos; o los sistemas de IA extremadamente poderosos no destruyen a la humanidad porque sus objetivos se lo impiden; o los sistemas de IA extremadamente poderosos no destruyen a la humanidad, porque podemos detectar y desactivar de manera confiable los sistemas que tienen el objetivo de hacerlo. Sostenemos que diferentes historias de supervivencia enfrentan diferentes desafíos. También sostenemos que diferentes historias de supervivencia motivan diferentes respuestas a las amenazas de la IA. Finalmente, utilizamos nuestra taxonomía para producir estimaciones aproximadas de P(perdición), la probabilidad de que la humanidad sea destruida por la IA.
Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original
