Resumen: El modelado de recompensas de los datos de preferencia es un paso crucial para alinear los modelos de idiomas grandes (LLM) con valores humanos, lo que requiere una generalización robusta a nuevos pares de respuesta rápida. En este trabajo, proponemos enmarcar este problema en un paradigma causal, proporcionando la rica caja de herramientas de causalidad para identificar los desafíos persistentes, como la identificación errónea causal, la heterogeneidad de preferencias y la confusión debido a factores específicos del usuario. Heredando de la literatura de inferencia causal, identificamos los supuestos clave necesarios para la generalización confiable y los contrastamos con las prácticas comunes de recopilación de datos. Ilustramos los modos de falla de modelos de recompensa ingenuos y demostramos cómo los enfoques inspirados pueden mejorar la robustez del modelo. Finalmente, describimos a Desiderata para futuras investigaciones y prácticas, abogando por intervenciones específicas para abordar las limitaciones inherentes de los datos de observación.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

Aprendizaje de preferencia para la alineación de la IA: una perspectiva causal

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LLM de múltiples agentes como defensores de la ética en sistemas basados en IA

Sysformer: salvaguardar modelos de lenguaje grande congelado con indicaciones del sistema adaptativo

Ontologías en movimiento: un enfoque basado en BFO para la construcción de gráficos de conocimiento para datos de investigación de rendimiento motor en ciencias del deporte

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido