Razonamiento hacia arriba en la escala de instrucción para modelos de lenguaje controlables

Resumen: A medida que los sistemas basados en modelos de lenguaje grande (LLM) asumen roles de alto riesgo en la toma de decisiones del mundo real, deben conciliar instrucciones en competencia de múltiples fuentes (por ejemplo, desarrolladores de modelos, usuarios y herramientas) dentro de un contexto único. Por lo tanto, hacer cumplir una jerarquía de instrucciones (IH) en los LLM, donde las directivas de nivel superior anulan las solicitudes de menor prioridad, es fundamental para la confiabilidad y controlabilidad de los LLM. En este trabajo, replanteamos la resolución de la jerarquía de instrucciones como una tarea de razonamiento. Específicamente, el modelo primero debe “pensar” en la relación entre un mensaje de usuario determinado y las instrucciones (del sistema) de mayor prioridad antes de generar una respuesta. Para habilitar esta capacidad a través del entrenamiento, construimos VerIH, un conjunto de datos de jerarquía de instrucciones de tareas que siguen restricciones con respuestas verificables. Este conjunto de datos comprende instrucciones de usuario del sistema tanto alineadas como contradictorias. Mostramos que el aprendizaje por refuerzo ligero con VerIH transfiere efectivamente las capacidades de razonamiento general de los modelos a la priorización de la instrucción. Nuestros modelos optimizados logran mejoras consistentes en el seguimiento de instrucciones y en los puntos de referencia de jerarquía de instrucciones. Esta capacidad de razonamiento también se generaliza a entornos críticos para la seguridad más allá de la distribución de la capacitación. Al tratar los problemas de seguridad como la resolución de conflictos entre las entradas de los usuarios adversarios y las políticas predefinidas de mayor prioridad, nuestro modelo entrenado mejora la solidez contra los ataques de jailbreak y de inyección rápida. Estos resultados demuestran que el razonamiento sobre jerarquías de instrucciones proporciona un camino práctico hacia LLM confiables, donde las actualizaciones de las indicaciones del sistema producen cambios controlables y sólidos en el comportamiento del modelo.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Progrese en su carrera gestionando hacia arriba

Operacionalización de la cognición extendida: métricas formales para el conocimiento corporativo y la responsabilidad legal

Efectos de la estructura en el razonamiento en el autodescubierto de nivel de caso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido