En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento hacia arriba en la escala de instrucción para modelos de lenguaje controlables

Razonamiento hacia arriba en la escala de instrucción para modelos de lenguaje controlables

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los sistemas basados ​​en modelos de lenguaje grande (LLM) asumen roles de alto riesgo en la toma de decisiones del mundo real, deben conciliar instrucciones en competencia de múltiples fuentes (por ejemplo, desarrolladores de modelos, usuarios y herramientas) dentro de un contexto único. Por lo tanto, hacer cumplir una jerarquía de instrucciones (IH) en los LLM, donde las directivas de nivel superior anulan las solicitudes de menor prioridad, es fundamental para la confiabilidad y controlabilidad de los LLM. En este trabajo, replanteamos la resolución de la jerarquía de instrucciones como una tarea de razonamiento. Específicamente, el modelo primero debe “pensar” en la relación entre un mensaje de usuario determinado y las instrucciones (del sistema) de mayor prioridad antes de generar una respuesta. Para habilitar esta capacidad a través del entrenamiento, construimos VerIH, un conjunto de datos de jerarquía de instrucciones de tareas que siguen restricciones con respuestas verificables. Este conjunto de datos comprende instrucciones de usuario del sistema tanto alineadas como contradictorias. Mostramos que el aprendizaje por refuerzo ligero con VerIH transfiere efectivamente las capacidades de razonamiento general de los modelos a la priorización de la instrucción. Nuestros modelos optimizados logran mejoras consistentes en el seguimiento de instrucciones y en los puntos de referencia de jerarquía de instrucciones. Esta capacidad de razonamiento también se generaliza a entornos críticos para la seguridad más allá de la distribución de la capacitación. Al tratar los problemas de seguridad como la resolución de conflictos entre las entradas de los usuarios adversarios y las políticas predefinidas de mayor prioridad, nuestro modelo entrenado mejora la solidez contra los ataques de jailbreak y de inyección rápida. Estos resultados demuestran que el razonamiento sobre jerarquías de instrucciones proporciona un camino práctico hacia LLM confiables, donde las actualizaciones de las indicaciones del sistema producen cambios controlables y sólidos en el comportamiento del modelo.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web