IH-Challenge: un conjunto de datos de capacitación para mejorar la jerarquía de instrucción en los LLM de Frontier

Resumen: La jerarquía de instrucciones (IH) define cómo los LLM priorizan las instrucciones del sistema, del desarrollador, del usuario y de las herramientas en caso de conflicto, proporcionando una política concreta y ordenada por confianza para resolver conflictos de instrucción. IH es clave para defenderse contra jailbreaks, extracciones de avisos del sistema e inyecciones de avisos de agentes. Sin embargo, es difícil entrenar un comportamiento de HI sólido: los fallos de HI pueden confundirse con fallos en el seguimiento de instrucciones, los conflictos pueden matizarse y los modelos pueden aprender atajos como negarse en exceso. Presentamos IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo, para abordar estas dificultades. El ajuste fino de GPT-5-Mini en IH-Challenge con generación de ejemplos adversarios en línea mejora la solidez de IH en un +10,0 % en promedio en 16 puntos de referencia dentro de la distribución, fuera de la distribución y de equipos rojos humanos (84,1 % a 94,1 %), reduce el comportamiento inseguro del 6,6 % al 0,7 % al tiempo que mejora la utilidad en las evaluaciones de seguridad generales y satura una evaluación interna de inyección rápida de agente estático, con regresión de capacidad mínima. Publicamos el conjunto de datos IH-Challenge (esta URL https) para respaldar investigaciones futuras sobre una jerarquía de instrucción sólida.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Medir y mitigar el sesgo de identidad en el debate entre múltiples agentes mediante la anonimización

3 pasos para construir una estrategia de defensa de información errónea para su negocio

Comida: un punto de referencia para el aprendizaje continuo de refuerzo de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido