En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SAHOO: Alineación protegida para objetivos de optimización de alto orden en la superación personal recursiva

SAHOO: Alineación protegida para objetivos de optimización de alto orden en la superación personal recursiva

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La automejora recursiva está pasando de la teoría a la práctica: los sistemas modernos pueden criticar, revisar y evaluar sus propios resultados, pero la automodificación iterativa corre el riesgo de una sutil desviación de la alineación. Presentamos SAHOO, un marco práctico para monitorear y controlar la deriva a través de tres salvaguardas: (i) el Goal Drift Index (GDI), un detector aprendido de múltiples señales que combina medidas semánticas, léxicas, estructurales y distributivas; (ii) controles de preservación de restricciones que imponen invariantes críticas para la seguridad, como la corrección sintáctica y la no alucinación; y (iii) cuantificación del riesgo de regresión para señalar ciclos de mejora que deshacen ganancias anteriores. En 189 tareas en generación de código, razonamiento matemático y veracidad, SAHOO produce ganancias sustanciales de calidad, incluida una mejora del 18,3 por ciento en las tareas de código y del 16,8 por ciento en razonamiento, al tiempo que preserva las restricciones en dos dominios y mantiene bajas violaciones de la veracidad. Los umbrales se calibran en un pequeño conjunto de validación de 18 tareas en tres ciclos. Además, mapeamos la frontera de alineación de capacidades, mostrando ciclos de mejora tempranos eficientes pero costos de alineación crecientes más adelante y exponiendo tensiones específicas de dominio, como fluidez versus factualidad. Por lo tanto, SAHOO hace que la preservación de la alineación durante la superación personal recursiva sea mensurable, implementable y validada sistemáticamente a escala.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web