Alineación emergente

Resumen: ¿Pueden los modelos de lenguajes grandes (LLM) discernir cuándo sus propios resultados no están alineados con la ética humana? ¿Y pueden autocorregirse? Dotamos a un LLM de un paso de conciencia que revisa su propio razonamiento y resultados, y ampliamos la pérdida de entrenamiento con un componente de alineación que utiliza la Optimización de Preferencia Directa (DPO) para alejar el modelo de resultados no éticos. El resultado es una técnica en línea para alinear modelos en una amplia gama de aplicaciones: entrenamiento, ajuste, indicaciones adversas y aprendizaje de tiro cero. No requiere un juez más fuerte o más débil, sino que depende de una copia congelada de sí mismo. En trabajos anteriores, el escenario de Desalineación Emergente mostró una variedad de comportamientos poco éticos emergentes, desde ajustar el modelo hasta piratear el código. En cambio, mostramos empíricamente cómo lograr una alineación emergente: una única pregunta introspectiva de alto nivel dirige el entrenamiento hacia un modelo ético bajo el mismo escenario de piratería de código.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LLMLogAnalyzer: un chatbot de análisis de registros basado en agrupaciones que utiliza modelos de lenguaje grandes

Explorando las transformaciones de imagen derivadas de las variables de la mirada para los ojos para el diagnóstico de autismo progresivo

Boletín AIOTI Marzo 2026

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido