Resumen: El modelado de recompensas de los datos de preferencia es un paso crucial para alinear los modelos de idiomas grandes (LLM) con valores humanos, lo que requiere una generalización robusta a nuevos pares de respuesta rápida. En este trabajo, proponemos enmarcar este problema en un paradigma causal, proporcionando la rica caja de herramientas de causalidad para identificar los desafíos persistentes, como la identificación errónea causal, la heterogeneidad de preferencias y la confusión debido a factores específicos del usuario. Heredando de la literatura de inferencia causal, identificamos los supuestos clave necesarios para la generalización confiable y los contrastamos con las prácticas comunes de recopilación de datos. Ilustramos los modos de falla de modelos de recompensa ingenuos y demostramos cómo los enfoques inspirados pueden mejorar la robustez del modelo. Finalmente, describimos a Desiderata para futuras investigaciones y prácticas, abogando por intervenciones específicas para abordar las limitaciones inherentes de los datos de observación.
Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original