PIXEL: Dirección adaptativa mediante inyección según la posición con niveles estimados exactos bajo calibración subespacial

Resumen: El control confiable del comportamiento es fundamental para implementar grandes modelos de lenguaje (LLM) en la web. La dirección de activación ofrece una ruta sin ajustes para alinear atributos (por ejemplo, veracidad) que garanticen una generación confiable. Los enfoques predominantes se basan en heurísticas toscas y carecen de una explicación de principios sobre hacia dónde dirigirse y con qué fuerza intervenir. Con este fin, proponemos la inyección posicional con niveles estimados eXact (PIXEL), un marco de dirección de activación posicional que, a diferencia del trabajo anterior, aprende un subespacio alineado con propiedades a partir de vistas duales (promediado de cola y token final) y selecciona la fuerza de la intervención a través de un objetivo geométrico restringido con una solución de forma cerrada, adaptándose así a la sensibilidad a nivel de token sin ajuste de hiperparámetro global. PIXEL realiza además una calibración residual ortogonal a nivel de muestra para refinar la dirección del atributo global y emplea una rutina liviana de escaneo de posición para identificar sitios de inyección receptivos. Además, brindamos garantías a nivel de representación para la regla de intervención mínima, respaldando una alineación confiable. A través de diversos modelos y paradigmas de evaluación, PIXEL mejora constantemente la alineación de atributos al tiempo que preserva las capacidades generales del modelo, ofreciendo un método práctico y basado en principios para la generación controlable de LLM. Nuestro código está disponible en esta URL https

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

PRIMAVERA: Personalización continua de LLM mediante adaptación paramétrica selectiva y generación interpolada de recuperación

Búsqueda de conocimiento inversa sobre razonamiento verificable: síntesis de una enciclopedia científica a partir de una base de conocimientos de largas cadenas de pensamiento

Hacia la evaluación y selección automática de modelos de desidentificación de PHI mediante la colaboración de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido