En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Comprender y mitigar el sobrerefusal en LLMS desde una perspectiva de inauguración del límite de decisión de seguridad

Comprender y mitigar el sobrerefusal en LLMS desde una perspectiva de inauguración del límite de decisión de seguridad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de idiomas grandes (LLM) han demostrado capacidades notables en una amplia gama de tareas, sin embargo, a menudo se niegan a responder consultas legítimas: un fenómeno conocido como sobrerefusia. El sobrerefusal generalmente proviene de la alineación de seguridad demasiado conservadora, lo que hace que los modelos traten muchas indicaciones razonables como potencialmente riesgosas. Para comprender sistemáticamente este problema, sondeamos y aprovechamos los límites de decisión de seguridad de los modelos para analizar y mitigar el sobrerefusal. Nuestros hallazgos revelan que la sobrerefusia está estrechamente ligada a la desalineación en estas regiones límite, donde los modelos luchan por distinguir diferencias sutiles entre el contenido benigno y dañino. Sobre la base de estas ideas, presentamos Rass, un marco automatizado para la generación y selección de pedido que se dirige estratégicamente a las indicaciones sobre reafusales cerca del límite de seguridad. Al aprovechar los vectores de dirección en el espacio de representación, Rass identifica y cura las indicaciones alineadas con límites, lo que permite una mitigación más efectiva y dirigida de la sobrerefusia. Este enfoque no solo proporciona una visión más precisa e interpretable de las decisiones de seguridad del modelo, sino que también se extiende perfectamente a la multilingüe esta url http han explorado los límites de decisión de seguridad de varios LLM y construyen el conjunto de evaluación de Morbench para facilitar la evaluación sólida de la seguridad del modelo y la ayuda en los idiomas múltiples. El código y los conjuntos de datos se publicarán en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web