Resumen: Los modelos de recompensa (RM) son un componente central en el entrenamiento posterior de modelos de lenguaje grande (LLM), y sirven como sustitutos para la evaluación de las preferencias humanas y guían la alineación del modelo. Sin embargo, formar RM confiables con recursos limitados sigue siendo un desafío debido a la dependencia de anotaciones de preferencias a gran escala y el alto costo de ajustar los LLM. Para abordar esto, proponemos SparseRM, que aprovecha Sparse Autoencoder (SAE) para extraer información relevante para las preferencias codificada en representaciones de modelos, lo que permite la construcción de un modelo de recompensa ligero e interpretable. SparseRM primero emplea SAE para descomponer las representaciones LLM en direcciones interpretables que capturan características relevantes para las preferencias. Luego, las representaciones se proyectan en estas direcciones para calcular puntuaciones de alineación, que cuantifican la fuerza de cada característica de preferencia en las representaciones. Un simple cabezal de recompensa agrega estos puntajes para predecir puntajes de preferencia. Los experimentos en tres tareas de modelado de preferencias muestran que SparseRM logra un rendimiento superior sobre la mayoría de los RM convencionales mientras utiliza menos del 1% de los parámetros entrenables. Además, se integra perfectamente en las tuberías de alineación posteriores, lo que destaca su potencial para una alineación eficiente.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

SparseRM: un modelado de preferencias ligero con Sparse Autoencoder

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AIXIV: un ecosistema de acceso abierto de próxima generación para el descubrimiento científico generado por los científicos de IA

Descubrimiento causal descentralizado mediante cálculo de judo

La descarga: aumentar la memoria de la IA y los vecinos descontentos de los centros de datos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido