En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Eficiencia versus alineación: investigación de riesgos de seguridad y equidad en el ajuste eficiente de parámetros de los LLM

Eficiencia versus alineación: investigación de riesgos de seguridad y equidad en el ajuste eficiente de parámetros de los LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las organizaciones adoptan y adaptan cada vez más modelos de lenguajes grandes (LLM) alojados en repositorios públicos como HuggingFace. Aunque estas adaptaciones a menudo mejoran el rendimiento en tareas posteriores especializadas, la evidencia reciente indica que también pueden degradar la seguridad o la equidad de un modelo. Dado que diferentes técnicas de ajuste pueden ejercer distintos efectos sobre estas dimensiones críticas, este estudio emprende una evaluación sistemática de sus compensaciones. Se aplican cuatro métodos de ajuste fino con eficiencia de parámetros ampliamente utilizados, LoRA, IA3, Prompt-Tuning y P-Tuning, a cuatro familias de modelos ajustados por instrucciones (Meta-Llama-3-8B, Qwen2.5-7B, Mistral-7B y Gemma-7B). En total, se evalúan 235 variantes afinadas en once categorías de peligros para la seguridad y nueve dimensiones de equidad demográfica. Los resultados muestran que los enfoques basados ​​en adaptadores (LoRA, IA3) tienden a mejorar las puntuaciones de seguridad y son los menos perjudiciales para la equidad, manteniendo una mayor precisión y puntuaciones de sesgo más bajas. Por el contrario, los métodos basados ​​en indicaciones (Prompt-Tuning y P-Tuning) generalmente reducen la seguridad y provocan regresiones de equidad más grandes, con menor precisión y mayor sesgo. Los cambios de alineación están fuertemente moderados por el tipo de modelo base: LLaMA permanece estable, Qwen registra ganancias modestas, Gemma experimenta la caída de seguridad más pronunciada y Mistral, que se lanza sin una capa de moderación interna, muestra la mayor variación. Las mejoras en la seguridad no se traducen necesariamente en mejoras en la equidad, y ninguna configuración optimiza todas las métricas de equidad simultáneamente, lo que indica una compensación inherente entre estos objetivos. Estos hallazgos sugieren una guía práctica para implementaciones críticas para la seguridad: comenzar con un modelo base bien alineado, favorecer PEFT basado en adaptadores y realizar auditorías de seguridad y equidad específicas de cada categoría.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web