El espejismo del desaprendizaje: un marco dinámico para evaluar el desaprendizaje de LLM

Resumen:El desaprendizaje en modelos lingüísticos grandes (LLM) tiene como objetivo mejorar la seguridad, mitigar los sesgos y cumplir con los mandatos legales, como el derecho al olvido. Sin embargo, los métodos de desaprendizaje existentes son frágiles: modificaciones menores de consultas, como el razonamiento de múltiples saltos y el alias de entidades, pueden recuperar información supuestamente olvidada. Como resultado, las métricas de evaluación actuales a menudo crean una ilusión de efectividad, al no detectar estas vulnerabilidades debido a la dependencia de puntos de referencia estáticos y no estructurados. Proponemos un marco dinámico que prueba la solidez del desaprendizaje mediante consultas estructuradas complejas. Nuestro enfoque primero obtiene conocimiento del modelo objetivo (pre-desaprendizaje) y construye sondas específicas, que van desde consultas simples hasta cadenas de múltiples saltos, lo que permite un control preciso sobre la dificultad de la consulta. Nuestros experimentos muestran que el marco (1) muestra una cobertura comparable a los puntos de referencia existentes al generar automáticamente preguntas y respuestas semánticamente equivalentes, (2) se alinea con evaluaciones anteriores y (3) descubre nuevas fallas de desaprendizaje que otros puntos de referencia no detectaron, particularmente en entornos de múltiples saltos. Además, los análisis de activación muestran que las consultas de un solo salto suelen seguir rutas de cálculo dominantes, que es más probable que se vean interrumpidas por métodos de desaprendizaje. Por el contrario, las consultas de múltiples saltos tienden a utilizar vías alternativas que a menudo permanecen intactas, lo que explica la fragilidad de las técnicas de desaprendizaje en entornos de múltiples saltos. Nuestro marco permite una evaluación práctica y escalable de métodos de desaprendizaje sin la necesidad de construir manualmente conjuntos de pruebas olvidadas, lo que permite una adopción más sencilla para aplicaciones del mundo real. Liberamos el paquete pip y el código en esta URL https.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Conectar gráfico de esquema en QA de múltiples tablas: un marco guiado por humanos para reducir la confianza de LLM

DHS utiliza Google y Adobe AI para hacer videos

Poema: La atracción de las moras

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido