Resumen:A medida que los sistemas de IA se implementan en entornos cada vez más diversos y de alto riesgo, la alineación del modelo debe generalizarse más allá de las tareas y dominios observados durante el entrenamiento. Esto es especialmente importante para el aprendizaje por refuerzo (RL), que puede introducir una desalineación inesperada mediante la piratería de recompensas, el engaño u otras estrategias no deseadas. Estudiamos si la RL sobre comportamientos beneficiosos, instanciada en dominios realistas, puede producir una generalización de alineación amplia y persistente más allá de la distribución del entrenamiento. Construimos un conjunto de datos de situaciones realistas diseñadas para medir y entrenar rasgos beneficiosos, como veracidad, equidad, conciencia de riesgos y corregibilidad, que abarcan diversos dominios, incluidos la salud, la ciencia y la educación. Luego entrenamos modelos con RL en este conjunto de datos y los evaluamos en más de 50 puntos de referencia independientes de alineación y comportamiento beneficioso. En comparación con una línea de base comparada por computación, el rasgo beneficioso RL mejora el rendimiento en más del 80 % de estos puntos de referencia fuera de distribución. Observamos una transferencia sustancial de alineación fuera de la distribución: una intervención de RL de comportamiento beneficioso completamente limitada a un dominio, la salud, produce amplias mejoras en las evaluaciones de alineación no relacionadas con la salud, incluida la reducción de la piratería de recompensas, el engaño y la desalineación general. Finalmente, estudiamos la persistencia de la alineación: si el comportamiento permanece sólidamente alineado ante los intentos de orientar los modelos hacia la desalineación. Los modelos entrenados con el rasgo beneficioso RL muestran una persistencia mejorada, incluida una mayor resistencia a las indicaciones adversas y al ajuste dañino; Se requiere más trabajo para aislar las fuentes de estos efectos. Estos resultados sugieren que la RL para reforzar el comportamiento beneficioso en dominios realistas puede producir modelos que estén más alineados con el florecimiento humano.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
