SAHOO: Alineación protegida para objetivos de optimización de alto orden en la superación personal recursiva

Resumen: La automejora recursiva está pasando de la teoría a la práctica: los sistemas modernos pueden criticar, revisar y evaluar sus propios resultados, pero la automodificación iterativa corre el riesgo de una sutil desviación de la alineación. Presentamos SAHOO, un marco práctico para monitorear y controlar la deriva a través de tres salvaguardas: (i) el Goal Drift Index (GDI), un detector aprendido de múltiples señales que combina medidas semánticas, léxicas, estructurales y distributivas; (ii) controles de preservación de restricciones que imponen invariantes críticas para la seguridad, como la corrección sintáctica y la no alucinación; y (iii) cuantificación del riesgo de regresión para señalar ciclos de mejora que deshacen ganancias anteriores. En 189 tareas en generación de código, razonamiento matemático y veracidad, SAHOO produce ganancias sustanciales de calidad, incluida una mejora del 18,3 por ciento en las tareas de código y del 16,8 por ciento en razonamiento, al tiempo que preserva las restricciones en dos dominios y mantiene bajas violaciones de la veracidad. Los umbrales se calibran en un pequeño conjunto de validación de 18 tareas en tres ciclos. Además, mapeamos la frontera de alineación de capacidades, mostrando ciclos de mejora tempranos eficientes pero costos de alineación crecientes más adelante y exponiendo tensiones específicas de dominio, como fluidez versus factualidad. Por lo tanto, SAHOO hace que la preservación de la alineación durante la superación personal recursiva sea mensurable, implementable y validada sistemáticamente a escala.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cuanto más difícil, mejor: impulsar el razonamiento matemático mediante GRPO consciente de la dificultad y la reformulación de preguntas de múltiples aspectos

AInstein: Evaluación de la viabilidad de enfoques generados por IA para problemas de investigación

Dentro del experimento de alto riesgo de Amsterdam para crear un bienestar justo ai

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido