Razonamiento sobre precedentes junto con estatutos: alineación deliberativa aumentada por casos para la seguridad del LLM

Resumen: Garantizar que los modelos de lenguajes grandes (LLM) cumplan con los principios de seguridad sin rechazar solicitudes benignas sigue siendo un desafío importante. Si bien OpenAI introduce la alineación deliberativa (DA) para mejorar la seguridad de sus modelos de la serie O mediante el razonamiento sobre reglas de seguridad detalladas “similares a códigos”, la efectividad de este enfoque en los LLM de código abierto, que generalmente carecen de capacidades de razonamiento avanzadas, no se ha estudiado lo suficiente. En este trabajo, evaluamos sistemáticamente el impacto de especificar explícitamente códigos de seguridad extensos versus demostrarlos a través de casos ilustrativos. Descubrimos que hacer referencia a códigos explícitos de manera inconsistente mejora la inofensividad y degrada sistemáticamente la utilidad, mientras que el entrenamiento en códigos simples aumentados por casos produce comportamientos de seguridad más sólidos y generalizados. Al guiar a los LLM con un razonamiento ampliado por casos en lugar de reglas de seguridad extensas similares a códigos, evitamos el cumplimiento rígido de reglas estrictamente enumeradas y permitimos una adaptabilidad más amplia. Sobre la base de estos conocimientos, proponemos CADA, un método de alineación deliberativa aumentada por casos para LLM que utiliza el aprendizaje por refuerzo en cadenas de razonamiento de seguridad autogeneradas. CADA mejora eficazmente la inofensividad, mejora la solidez contra los ataques y reduce el rechazo excesivo al tiempo que preserva la utilidad en diversos puntos de referencia, ofreciendo una alternativa práctica al DA de solo reglas para mejorar la seguridad y al mismo tiempo mantener la utilidad.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes con sede en LLM para el mapeo de paisajes competitivos en la diligencia debida del activo de drogas

CompassLLM: un enfoque de múltiples agentes hacia el razonamiento geoespacial para consultas de rutas populares

ssToken: selección de tokens automodulada y con reconocimiento semántico para el ajuste fino de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido