Resumen: El control confiable del comportamiento es fundamental para implementar grandes modelos de lenguaje (LLM) en la web. La dirección de activación ofrece una ruta sin ajustes para alinear atributos (por ejemplo, veracidad) que garanticen una generación confiable. Los enfoques predominantes se basan en heurísticas toscas y carecen de una explicación de principios sobre hacia dónde dirigirse y con qué fuerza intervenir. Con este fin, proponemos la inyección posicional con niveles estimados eXact (PIXEL), un marco de dirección de activación posicional que, a diferencia del trabajo anterior, aprende un subespacio alineado con propiedades a partir de vistas duales (promediado de cola y token final) y selecciona la fuerza de la intervención a través de un objetivo geométrico restringido con una solución de forma cerrada, adaptándose así a la sensibilidad a nivel de token sin ajuste de hiperparámetro global. PIXEL realiza además una calibración residual ortogonal a nivel de muestra para refinar la dirección del atributo global y emplea una rutina liviana de escaneo de posición para identificar sitios de inyección receptivos. Además, brindamos garantías a nivel de representación para la regla de intervención mínima, respaldando una alineación confiable. A través de diversos modelos y paradigmas de evaluación, PIXEL mejora constantemente la alineación de atributos al tiempo que preserva las capacidades generales del modelo, ofreciendo un método práctico y basado en principios para la generación controlable de LLM. Nuestro código está disponible en esta URL https
Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original