Eficiencia versus alineación: investigación de riesgos de seguridad y equidad en el ajuste eficiente de parámetros de los LLM

Resumen: Las organizaciones adoptan y adaptan cada vez más modelos de lenguajes grandes (LLM) alojados en repositorios públicos como HuggingFace. Aunque estas adaptaciones a menudo mejoran el rendimiento en tareas posteriores especializadas, la evidencia reciente indica que también pueden degradar la seguridad o la equidad de un modelo. Dado que diferentes técnicas de ajuste pueden ejercer distintos efectos sobre estas dimensiones críticas, este estudio emprende una evaluación sistemática de sus compensaciones. Se aplican cuatro métodos de ajuste fino con eficiencia de parámetros ampliamente utilizados, LoRA, IA3, Prompt-Tuning y P-Tuning, a cuatro familias de modelos ajustados por instrucciones (Meta-Llama-3-8B, Qwen2.5-7B, Mistral-7B y Gemma-7B). En total, se evalúan 235 variantes afinadas en once categorías de peligros para la seguridad y nueve dimensiones de equidad demográfica. Los resultados muestran que los enfoques basados en adaptadores (LoRA, IA3) tienden a mejorar las puntuaciones de seguridad y son los menos perjudiciales para la equidad, manteniendo una mayor precisión y puntuaciones de sesgo más bajas. Por el contrario, los métodos basados en indicaciones (Prompt-Tuning y P-Tuning) generalmente reducen la seguridad y provocan regresiones de equidad más grandes, con menor precisión y mayor sesgo. Los cambios de alineación están fuertemente moderados por el tipo de modelo base: LLaMA permanece estable, Qwen registra ganancias modestas, Gemma experimenta la caída de seguridad más pronunciada y Mistral, que se lanza sin una capa de moderación interna, muestra la mayor variación. Las mejoras en la seguridad no se traducen necesariamente en mejoras en la equidad, y ninguna configuración optimiza todas las métricas de equidad simultáneamente, lo que indica una compensación inherente entre estos objetivos. Estos hallazgos sugieren una guía práctica para implementaciones críticas para la seguridad: comenzar con un modelo base bien alineado, favorecer PEFT basado en adaptadores y realizar auditorías de seguridad y equidad específicas de cada categoría.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Modelos neurosimbólicos híbridos para IA ética en dominios sensibles al riesgo

Mind the Cotte: habilitando el diálogo de cotización en LLM a través de módulos plug-and-play

¿Los modelos de lenguaje grandes muestran sesgos en el aprendizaje causal? Perspectivas del juicio de contingencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido