Control preciso de la intensidad de los atributos en modelos de lenguaje grandes mediante edición de representaciones dirigida

Resumen: El control preciso de la intensidad de los atributos (generar resultados del modelo de lenguaje grande (LLM) con intensidades de atributos específicas definidas por el usuario) es crucial para que los sistemas de IA se adapten a las diversas expectativas de los usuarios. Sin embargo, los métodos de alineación LLM actuales generalmente solo brindan orientación direccional o abierta, y no logran lograr de manera confiable intensidades de atributos exactas. Abordamos esta limitación con tres diseños clave: (1) reformular el control preciso de la intensidad de los atributos como un problema de alcance de objetivos, en lugar de una simple maximización; (2) entrenar una función de valor ligera mediante el aprendizaje de diferencias temporales para predecir puntuaciones de intensidad de atributos finales de generaciones parciales, dirigiendo así los resultados del LLM; y (3) emplear intervenciones basadas en gradientes en representaciones ocultas para navegar el modelo con precisión hacia objetivos de intensidad de atributos específicos. Nuestro método permite un control continuo y detallado sobre las intensidades de los atributos, yendo más allá de la simple alineación direccional. Los experimentos en LLaMA-3.2-3b y Phi-4-mini confirman la capacidad de nuestro método para dirigir la generación de texto a intensidades de atributos especificadas por el usuario con alta precisión. Finalmente, demostramos mejoras en la eficiencia en tres tareas posteriores: síntesis de datos de preferencias, aproximación y optimización de la frontera de Pareto y destilación de comportamientos alineados para una inferencia sin intervención. Nuestro código está disponible en esta URL https

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Esta startup quiere limpiar la industria del cobre

Cómo las teorías de la conspiración se infiltraron en el consultorio del médico

OIPC: Optimización de las preferencias relativas del grupo impulsada por la confianza intrínseca para un aprendizaje por refuerzo eficiente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido