En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SparseRM: un modelado de preferencias ligero con Sparse Autoencoder

SparseRM: un modelado de preferencias ligero con Sparse Autoencoder

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de recompensa (RM) son un componente central en el entrenamiento posterior de modelos de lenguaje grande (LLM), y sirven como sustitutos para la evaluación de las preferencias humanas y guían la alineación del modelo. Sin embargo, formar RM confiables con recursos limitados sigue siendo un desafío debido a la dependencia de anotaciones de preferencias a gran escala y el alto costo de ajustar los LLM. Para abordar esto, proponemos SparseRM, que aprovecha Sparse Autoencoder (SAE) para extraer información relevante para las preferencias codificada en representaciones de modelos, lo que permite la construcción de un modelo de recompensa ligero e interpretable. SparseRM primero emplea SAE para descomponer las representaciones LLM en direcciones interpretables que capturan características relevantes para las preferencias. Luego, las representaciones se proyectan en estas direcciones para calcular puntuaciones de alineación, que cuantifican la fuerza de cada característica de preferencia en las representaciones. Un simple cabezal de recompensa agrega estos puntajes para predecir puntajes de preferencia. Los experimentos en tres tareas de modelado de preferencias muestran que SparseRM logra un rendimiento superior sobre la mayoría de los RM convencionales mientras utiliza menos del 1% de los parámetros entrenables. Además, se integra perfectamente en las tuberías de alineación posteriores, lo que destaca su potencial para una alineación eficiente.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web