Resumen: Los modelos de lenguaje grande (LLM) han demostrado un progreso notable en la instrucción siguiente y razonamiento de propósito general. Sin embargo, lograr la alineación de alta calidad con las normas de intención humana y de seguridad sin anotaciones humanas sigue siendo un desafío fundamental. En este trabajo, proponemos un marco de autoalineación adaptativa (UDASA) basado en la incertidumbre (UDASA) diseñado para mejorar la alineación de LLM de manera totalmente automatizada. UDASA primero genera múltiples respuestas para cada entrada y cuantifica la incertidumbre de salida en tres dimensiones: semántica, hecho y alineación de valor. Según estos puntajes de incertidumbre, el marco construye pares de preferencias y clasifica las muestras de entrenamiento en tres etapas, conservadoras, moderadas y exploratorias, de acuerdo con su diferencia de incertidumbre. El modelo se optimiza progresivamente en estas etapas. Además, realizamos una serie de estudios preliminares para validar los supuestos de diseño central y proporcionar una fuerte motivación empírica para el marco propuesto. Los resultados experimentales muestran que UDASA supera a los métodos de alineación existentes en múltiples tareas, incluida la inofensiva, la ayuda, la veracidad y la generación de sentimientos controlados, mejorando significativamente el rendimiento del modelo.
Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original