En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El espejismo del desaprendizaje: un marco dinámico para evaluar el desaprendizaje de LLM

El espejismo del desaprendizaje: un marco dinámico para evaluar el desaprendizaje de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:El desaprendizaje en modelos lingüísticos grandes (LLM) tiene como objetivo mejorar la seguridad, mitigar los sesgos y cumplir con los mandatos legales, como el derecho al olvido. Sin embargo, los métodos de desaprendizaje existentes son frágiles: modificaciones menores de consultas, como el razonamiento de múltiples saltos y el alias de entidades, pueden recuperar información supuestamente olvidada. Como resultado, las métricas de evaluación actuales a menudo crean una ilusión de efectividad, al no detectar estas vulnerabilidades debido a la dependencia de puntos de referencia estáticos y no estructurados. Proponemos un marco dinámico que prueba la solidez del desaprendizaje mediante consultas estructuradas complejas. Nuestro enfoque primero obtiene conocimiento del modelo objetivo (pre-desaprendizaje) y construye sondas específicas, que van desde consultas simples hasta cadenas de múltiples saltos, lo que permite un control preciso sobre la dificultad de la consulta. Nuestros experimentos muestran que el marco (1) muestra una cobertura comparable a los puntos de referencia existentes al generar automáticamente preguntas y respuestas semánticamente equivalentes, (2) se alinea con evaluaciones anteriores y (3) descubre nuevas fallas de desaprendizaje que otros puntos de referencia no detectaron, particularmente en entornos de múltiples saltos. Además, los análisis de activación muestran que las consultas de un solo salto suelen seguir rutas de cálculo dominantes, que es más probable que se vean interrumpidas por métodos de desaprendizaje. Por el contrario, las consultas de múltiples saltos tienden a utilizar vías alternativas que a menudo permanecen intactas, lo que explica la fragilidad de las técnicas de desaprendizaje en entornos de múltiples saltos. Nuestro marco permite una evaluación práctica y escalable de métodos de desaprendizaje sin la necesidad de construir manualmente conjuntos de pruebas olvidadas, lo que permite una adopción más sencilla para aplicaciones del mundo real. Liberamos el paquete pip y el código en esta URL https.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web