En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->IH-Challenge: un conjunto de datos de capacitación para mejorar la jerarquía de instrucción en los LLM de Frontier

IH-Challenge: un conjunto de datos de capacitación para mejorar la jerarquía de instrucción en los LLM de Frontier

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La jerarquía de instrucciones (IH) define cómo los LLM priorizan las instrucciones del sistema, del desarrollador, del usuario y de las herramientas en caso de conflicto, proporcionando una política concreta y ordenada por confianza para resolver conflictos de instrucción. IH es clave para defenderse contra jailbreaks, extracciones de avisos del sistema e inyecciones de avisos de agentes. Sin embargo, es difícil entrenar un comportamiento de HI sólido: los fallos de HI pueden confundirse con fallos en el seguimiento de instrucciones, los conflictos pueden matizarse y los modelos pueden aprender atajos como negarse en exceso. Presentamos IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo, para abordar estas dificultades. El ajuste fino de GPT-5-Mini en IH-Challenge con generación de ejemplos adversarios en línea mejora la solidez de IH en un +10,0 % en promedio en 16 puntos de referencia dentro de la distribución, fuera de la distribución y de equipos rojos humanos (84,1 % a 94,1 %), reduce el comportamiento inseguro del 6,6 % al 0,7 % al tiempo que mejora la utilidad en las evaluaciones de seguridad generales y satura una evaluación interna de inyección rápida de agente estático, con regresión de capacidad mínima. Publicamos el conjunto de datos IH-Challenge (esta URL https) para respaldar investigaciones futuras sobre una jerarquía de instrucción sólida.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web