Resumen: El desaprendizaje de LLM es esencial para mitigar los problemas de seguridad, derechos de autor y privacidad en modelos de lenguaje grande (LLM) previamente entrenados. En comparación con la alineación de preferencias, ofrece una forma más explícita de eliminar conocimientos no deseados caracterizados por conjuntos de datos específicos de desaprendizaje. En trabajos anteriores, el ascenso de gradiente (GA) y sus variantes se han mostrado prometedores para implementar el desaprendizaje, pero su naturaleza no dirigida da como resultado una degradación involuntaria de capacidades generales, una eliminación incompleta de conocimientos y la generación de respuestas incoherentes, entre muchas otras. Sostenemos que estos problemas surgen de la ausencia de una guía explícita sobre qué y cómo los modelos deberían desaprender. Para llenar este vacío, introducimos un nuevo objetivo de desaprendizaje, el objetivo de desaprendizaje basado en el razonamiento, que satisface tanto el alcance de desaprendizaje especificado como la respuesta posterior al desaprendizaje especificada. Sobre la base de esto, proponemos el desaprendizaje del razonamiento dirigido (TRU), que aprovecha el objetivo de desaprendizaje basado en el razonamiento como guía. Empleamos el objetivo utilizando una pérdida supervisada de entropía cruzada combinada con una pérdida basada en GA, lo que permite que el modelo aprenda la capacidad de razonamiento para eliminar conocimientos con precisión y al mismo tiempo preservar habilidades no relacionadas. Evaluamos TRU frente a líneas de base sólidas en múltiples puntos de referencia y pilares de LLM, y descubrimos que logra un desaprendizaje más confiable al tiempo que preserva las capacidades generales. Además, TRU exhibe una solidez superior en diversos escenarios de ataque, debido a la capacidad de razonamiento aprendida a través de objetivos basados en el razonamiento. En general, nuestro estudio establece el desaprendizaje mediante razonamiento aumentado como un paradigma práctico para el desaprendizaje de LLM confiable y explicable.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
