En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Control preciso de la intensidad de los atributos en modelos de lenguaje grandes mediante edición de representaciones dirigida

Control preciso de la intensidad de los atributos en modelos de lenguaje grandes mediante edición de representaciones dirigida

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El control preciso de la intensidad de los atributos (generar resultados del modelo de lenguaje grande (LLM) con intensidades de atributos específicas definidas por el usuario) es crucial para que los sistemas de IA se adapten a las diversas expectativas de los usuarios. Sin embargo, los métodos de alineación LLM actuales generalmente solo brindan orientación direccional o abierta, y no logran lograr de manera confiable intensidades de atributos exactas. Abordamos esta limitación con tres diseños clave: (1) reformular el control preciso de la intensidad de los atributos como un problema de alcance de objetivos, en lugar de una simple maximización; (2) entrenar una función de valor ligera mediante el aprendizaje de diferencias temporales para predecir puntuaciones de intensidad de atributos finales de generaciones parciales, dirigiendo así los resultados del LLM; y (3) emplear intervenciones basadas en gradientes en representaciones ocultas para navegar el modelo con precisión hacia objetivos de intensidad de atributos específicos. Nuestro método permite un control continuo y detallado sobre las intensidades de los atributos, yendo más allá de la simple alineación direccional. Los experimentos en LLaMA-3.2-3b y Phi-4-mini confirman la capacidad de nuestro método para dirigir la generación de texto a intensidades de atributos especificadas por el usuario con alta precisión. Finalmente, demostramos mejoras en la eficiencia en tres tareas posteriores: síntesis de datos de preferencias, aproximación y optimización de la frontera de Pareto y destilación de comportamientos alineados para una inferencia sin intervención. Nuestro código está disponible en esta URL https

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web