En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento sobre precedentes junto con estatutos: alineación deliberativa aumentada por casos para la seguridad del LLM

Razonamiento sobre precedentes junto con estatutos: alineación deliberativa aumentada por casos para la seguridad del LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Garantizar que los modelos de lenguajes grandes (LLM) cumplan con los principios de seguridad sin rechazar solicitudes benignas sigue siendo un desafío importante. Si bien OpenAI introduce la alineación deliberativa (DA) para mejorar la seguridad de sus modelos de la serie O mediante el razonamiento sobre reglas de seguridad detalladas “similares a códigos”, la efectividad de este enfoque en los LLM de código abierto, que generalmente carecen de capacidades de razonamiento avanzadas, no se ha estudiado lo suficiente. En este trabajo, evaluamos sistemáticamente el impacto de especificar explícitamente códigos de seguridad extensos versus demostrarlos a través de casos ilustrativos. Descubrimos que hacer referencia a códigos explícitos de manera inconsistente mejora la inofensividad y degrada sistemáticamente la utilidad, mientras que el entrenamiento en códigos simples aumentados por casos produce comportamientos de seguridad más sólidos y generalizados. Al guiar a los LLM con un razonamiento ampliado por casos en lugar de reglas de seguridad extensas similares a códigos, evitamos el cumplimiento rígido de reglas estrictamente enumeradas y permitimos una adaptabilidad más amplia. Sobre la base de estos conocimientos, proponemos CADA, un método de alineación deliberativa aumentada por casos para LLM que utiliza el aprendizaje por refuerzo en cadenas de razonamiento de seguridad autogeneradas. CADA mejora eficazmente la inofensividad, mejora la solidez contra los ataques y reduce el rechazo excesivo al tiempo que preserva la utilidad en diversos puntos de referencia, ofreciendo una alternativa práctica al DA de solo reglas para mejorar la seguridad y al mismo tiempo mantener la utilidad.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web