Resumen: Los modelos de lenguajes grandes (LLM) siguen siendo ampliamente abiertos y altamente orientables: imitan a escala, aceptan indicaciones arbitrarias del sistema y adoptan fácilmente múltiples personajes. Por analogía con el desarrollo humano, planteamos la hipótesis de que el progreso hacia la inteligencia artificial general (AGI) implica una fase de bloqueo: una transición de la imitación abierta a la consolidación de la identidad, en la que las estructuras de objetivos, los rechazos, las preferencias y las representaciones internas se vuelven comparativamente estables y resistentes a la dirección externa. Formalizamos esta fase, la vinculamos con fenómenos conocidos en la dinámica del aprendizaje y proponemos métricas operativas para la detección del inicio. Experimentalmente, demostramos que si bien la consolidación del comportamiento es rápida y no lineal, sus efectos secundarios sobre las capacidades generales no son monolíticos. Nuestros resultados revelan un espectro de resultados, desde compensaciones de rendimiento en modelos pequeños, pasando por una adopción en gran medida gratuita en modelos de mediana escala, hasta inestabilidades transitorias en modelos grandes y cuantificados. Sostenemos que dicha consolidación es un requisito previo para la confiabilidad a nivel de AGI y también un punto de control crítico para la seguridad: las identidades pueden diseñarse deliberadamente para brindar confiabilidad, pero también pueden surgir espontáneamente durante el escalamiento, lo que potencialmente endurece objetivos y comportamientos impredecibles.
Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original
