En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Alineación emergente

Alineación emergente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: ¿Pueden los modelos de lenguajes grandes (LLM) discernir cuándo sus propios resultados no están alineados con la ética humana? ¿Y pueden autocorregirse? Dotamos a un LLM de un paso de conciencia que revisa su propio razonamiento y resultados, y ampliamos la pérdida de entrenamiento con un componente de alineación que utiliza la Optimización de Preferencia Directa (DPO) para alejar el modelo de resultados no éticos. El resultado es una técnica en línea para alinear modelos en una amplia gama de aplicaciones: entrenamiento, ajuste, indicaciones adversas y aprendizaje de tiro cero. No requiere un juez más fuerte o más débil, sino que depende de una copia congelada de sí mismo. En trabajos anteriores, el escenario de Desalineación Emergente mostró una variedad de comportamientos poco éticos emergentes, desde ajustar el modelo hasta piratear el código. En cambio, mostramos empíricamente cómo lograr una alineación emergente: una única pregunta introspectiva de alto nivel dirige el entrenamiento hacia un modelo ético bajo el mismo escenario de piratería de código.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web