Resumen: La proliferación de arquitecturas de modelos de lenguaje grande (LLM) presenta un desafío fundamental: comportamientos valiosos y específicos de tareas aprendidos a través de métodos de ajuste como la adaptación de bajo rango (LoRA) quedan efectivamente atrapados dentro de la arquitectura de su modelo fuente, en lo que aquí nos referimos como bloqueo arquitectónico. Los métodos de transferencia existentes intentan cerrar esta brecha alineando los espacios de peso estáticos de los modelos, un enfoque frágil e indirecto que se basa en correlaciones tenues entre las geometrías de los parámetros. Este artículo presenta un paradigma fundamentalmente diferente y más directo: la transferencia espacial de activación de cartuchos (CAST), un marco novedoso que libera comportamientos codificados por LoRA al aprender un mapeo directo y no lineal entre los múltiples de activación, las estructuras geométricas formadas por las activaciones neuronales internas del modelo, de dos arquitecturas LLM distintas. CAST trata un LoRA previamente entrenado como un “núcleo de comportamiento” congelado. Aprende un conjunto de cabezales de proyección bidireccionales livianos que traducen el flujo de activación del modelo de destino al espacio latente del modelo de origen, aplican el núcleo congelado y proyectan el resultado. Este proceso, entrenado en un corpus de texto general sin datos específicos de la tarea, desacopla efectivamente la habilidad aprendida de la arquitectura fuente. Demostramos que CAST permite una verdadera traducción “cero disparo” de cualquier adaptador LoRA estándar. Nuestros experimentos, que incluyen transferencias entre familias de modelos heterogéneos como Llama-2 y Mistral, muestran que los adaptadores traducidos a CAST alcanzan entre el 85% y el 95% del rendimiento de un LoRA completamente reentrenado en el modelo objetivo, superando cuantitativamente las técnicas actuales de transferencia de espacio-peso y estableciendo un nuevo estado del arte en interoperabilidad de modelos.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

Proyección del colector de activación: liberación de comportamientos específicos de tareas de las arquitecturas LLM

admin

HealthTech, Mexico Tech Week 2025

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Construcción de taxonomía de ocupación basada en datos: un enfoque de etapas múltiples ascendentes a través de agrupación semántica y colaboración de múltiples agentes

Protección de la columna vertebral de Internet

La influencia de la sofisticación agente inspirada en el ser humano en razonadores estratégicos impulsados ​​por LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

La influencia de la sofisticación agente inspirada en el ser humano en razonadores estratégicos impulsados por LLM