Resumen: Los modelos de idiomas grandes (LLM) han demostrado capacidades notables en una amplia gama de tareas, sin embargo, a menudo se niegan a responder consultas legítimas: un fenómeno conocido como sobrerefusia. El sobrerefusal generalmente proviene de la alineación de seguridad demasiado conservadora, lo que hace que los modelos traten muchas indicaciones razonables como potencialmente riesgosas. Para comprender sistemáticamente este problema, sondeamos y aprovechamos los límites de decisión de seguridad de los modelos para analizar y mitigar el sobrerefusal. Nuestros hallazgos revelan que la sobrerefusia está estrechamente ligada a la desalineación en estas regiones límite, donde los modelos luchan por distinguir diferencias sutiles entre el contenido benigno y dañino. Sobre la base de estas ideas, presentamos Rass, un marco automatizado para la generación y selección de pedido que se dirige estratégicamente a las indicaciones sobre reafusales cerca del límite de seguridad. Al aprovechar los vectores de dirección en el espacio de representación, Rass identifica y cura las indicaciones alineadas con límites, lo que permite una mitigación más efectiva y dirigida de la sobrerefusia. Este enfoque no solo proporciona una visión más precisa e interpretable de las decisiones de seguridad del modelo, sino que también se extiende perfectamente a la multilingüe esta url http han explorado los límites de decisión de seguridad de varios LLM y construyen el conjunto de evaluación de Morbench para facilitar la evaluación sólida de la seguridad del modelo y la ayuda en los idiomas múltiples. El código y los conjuntos de datos se publicarán en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

Comprender y mitigar el sobrerefusal en LLMS desde una perspectiva de inauguración del límite de decisión de seguridad

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los chatbots son sorprendentemente eficaces para desacreditar teorías de conspiración

La búsqueda para descubrir cómo reacciona nuestro cuerpo a las temperaturas extremas

Smellnet: un conjunto de datos a gran escala para el reconocimiento del olor al mundo real

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido