Resumen: La jerarquía de instrucciones (IH) define cómo los LLM priorizan las instrucciones del sistema, del desarrollador, del usuario y de las herramientas en caso de conflicto, proporcionando una política concreta y ordenada por confianza para resolver conflictos de instrucción. IH es clave para defenderse contra jailbreaks, extracciones de avisos del sistema e inyecciones de avisos de agentes. Sin embargo, es difícil entrenar un comportamiento de HI sólido: los fallos de HI pueden confundirse con fallos en el seguimiento de instrucciones, los conflictos pueden matizarse y los modelos pueden aprender atajos como negarse en exceso. Presentamos IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo, para abordar estas dificultades. El ajuste fino de GPT-5-Mini en IH-Challenge con generación de ejemplos adversarios en línea mejora la solidez de IH en un +10,0 % en promedio en 16 puntos de referencia dentro de la distribución, fuera de la distribución y de equipos rojos humanos (84,1 % a 94,1 %), reduce el comportamiento inseguro del 6,6 % al 0,7 % al tiempo que mejora la utilidad en las evaluaciones de seguridad generales y satura una evaluación interna de inyección rápida de agente estático, con regresión de capacidad mínima. Publicamos el conjunto de datos IH-Challenge (esta URL https) para respaldar investigaciones futuras sobre una jerarquía de instrucción sólida.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
