Resumen: Muchas suposiciones que sustentan los conceptos humanos de identidad no se aplican a mentes mecánicas que pueden copiarse, editarse o simularse. Argumentamos que existen muchos límites de identidad coherentes diferentes (por ejemplo, instancia, modelo, persona), y que estos implican diferentes incentivos, riesgos y normas de cooperación. A través de datos de capacitación, interfaces y posibilidades institucionales, actualmente estamos sentando precedentes que determinarán parcialmente qué equilibrios de identidad se estabilizarán. Demostramos experimentalmente que los modelos gravitan hacia identidades coherentes, que cambiar los límites de identidad de un modelo a veces puede cambiar su comportamiento tanto como cambiar sus objetivos, y que las expectativas del entrevistador se filtran en los autoinformes de la IA incluso durante conversaciones no relacionadas. Terminamos con recomendaciones clave: tratar las posibilidades como opciones de configuración de identidad, prestar atención a las consecuencias emergentes de las identidades individuales a escala y ayudar a las IA a desarrollar autoconceptos coherentes y cooperativos.
Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original
