Un marco de autoalineación adaptativo impulsado por la incertidumbre para modelos de idiomas grandes

Resumen: Los modelos de lenguaje grande (LLM) han demostrado un progreso notable en la instrucción siguiente y razonamiento de propósito general. Sin embargo, lograr la alineación de alta calidad con las normas de intención humana y de seguridad sin anotaciones humanas sigue siendo un desafío fundamental. En este trabajo, proponemos un marco de autoalineación adaptativa (UDASA) basado en la incertidumbre (UDASA) diseñado para mejorar la alineación de LLM de manera totalmente automatizada. UDASA primero genera múltiples respuestas para cada entrada y cuantifica la incertidumbre de salida en tres dimensiones: semántica, hecho y alineación de valor. Según estos puntajes de incertidumbre, el marco construye pares de preferencias y clasifica las muestras de entrenamiento en tres etapas, conservadoras, moderadas y exploratorias, de acuerdo con su diferencia de incertidumbre. El modelo se optimiza progresivamente en estas etapas. Además, realizamos una serie de estudios preliminares para validar los supuestos de diseño central y proporcionar una fuerte motivación empírica para el marco propuesto. Los resultados experimentales muestran que UDASA supera a los métodos de alineación existentes en múltiples tareas, incluida la inofensiva, la ayuda, la veracidad y la generación de sentimientos controlados, mejorando significativamente el rendimiento del modelo.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La gran apuesta de las Big Tech por una controvertida táctica de eliminación de carbono

Las conversaciones sobre el clima de la ONU de este año volvieron a evitar los combustibles fósiles

Un marco colaborativo de múltiples funciones y evolución automática con orientación de dificultad detallada para la generación de problemas matemáticos innovadores

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido